Sei sulla pagina 1di 344

Espacios de Probabilidad

Elementos de Analisis Combinatorio


(Borradores, Curso 23)
Sebastian Grynberg
11-13 de marzo 2013

Andrei Nikolaevich Kolmogorov (1903-1987)


Estableci
o los fundamentos de la Teora de Probabilidad en 1933
se aprende a pensar abstractamente
mediante el pensamiento abstracto.
(G.W.F. Hegel)

Indice
1. Teora general
1.1. Los axiomas de Kolmogorov . . . . . .
1.2. Relaci
on con los datos experimentales
1.3. Corolarios inmediatos de los axiomas .
1.4. Sobre el axioma de continuidad . . . .
1.5. -
algebras y teorema de extensi
on . .

.
.
.
.
.

3
3
5
7
7
10

.
.
.
.
.

2. Simulaci
on de experimentos aleatorios
2.1. N
umeros aleatorios. . . . . . . . . . .
2.2. Simulacion de experimentos aleatorios
2.3. Estimaci
on de probabilidades . . . . .

con espacio muestral


. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .

finito
. . . . . . . .
. . . . . . . .
. . . . . . . .

11
11
12
13

.
.
.
.
.
.
.

.
.
.
.
.
.
.

17
17
18
21
23
24
25
27

4. Mec
anica Estadstica
4.1. Algunas distribuciones relacionadas con la estadstica de Maxwell-Boltzmann
4.1.1. Cantidad de partculas por celda: la distribucion binomial . . . . . . .
4.1.2. Forma lmite: la distribucion de Poisson . . . . . . . . . . . . . . . . .
4.2. Algunas distribuciones relacionadas con la estadstica de Bose-Einstein . . . .
4.2.1. Cantidad de partculas por celda . . . . . . . . . . . . . . . . . . . . .
4.2.2. Forma lmite: la distribucion de Geometrica . . . . . . . . . . . . . . .
4.3. Tiempos de espera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

29
31
31
32
33
33
34
35

5. Bibliografa consultada

36

.
.
.
.
.

.
.
.
.
.

3. Elementos de An
alisis Combinatorio
3.1. Regla del Producto . . . . . . . . . . . . . .
3.2. Muestras ordenadas . . . . . . . . . . . . .
3.3. Subpoblaciones . . . . . . . . . . . . . . . .
3.4. Particiones . . . . . . . . . . . . . . . . . .
3.5. Distribucion Hipergeometrica . . . . . . . .
3.5.1. Control de calidad. . . . . . . . . . .
3.5.2. Estimaci
on por captura y recaptura.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.

1.

Teora general

1.1.

Los axiomas de Kolmogorov

Sean un conjunto no vaco cuyos elementos seran llamados eventos elementales y A


una familia de subconjuntos de que seran llamados eventos.
Definici
on 1.1. A es un a
lgebra de eventos si contiene a y es cerrada por complementos
y uniones finitas1
(i) A,
(ii) A A implica Ac A,
(iii) A, B A implica A B A.
Definici
on 1.2. Una medida de probabilidad P sobre (, A) es una funcion P : A R que
satisface los axiomas siguientes:
I. Para cada A A, P(A) 0,
II. P() = 1.
III. Aditividad. Si los eventos A y B no tienen elementos en com
un, entonces
P(A B) = P(A) + P(B).
IV. Axioma de continuidad. Para cada sucesion decreciente de eventos
A1 A2 An ,
tal que

n=1

vale que

(1)

An =

lm P(An ) = 0.

Definici
on 1.3. Un espacio de probabilidad es una terna (, A, P) formada por un conjunto
no vaco , llamado el espacio muestral ; un algebra A de subconjuntos de ; llamados los
eventos aleatorios; y una medida de probabilidad P definida sobre los eventos aleatorios.
1

Nomenclatura y definiciones previas. Sean A y B eventos.

1. Escribiremos Ac := { :
/ A} para designar al evento que no ocurre A. El evento Ac se llama el
complemento de A.
2. Escribiremos A B := { : A o B} para designar al evento que ocurre al menos uno de
los eventos A o B. El evento A B se llama la uni
on de A y B.
3. Escribiremos A B := { : A y B} para designar al evento ocurren ambos A y B. El
evento A B se llama la intersecci
on de A y B.
A veces escribiremos A \ B en lugar de A B c , esto es, el evento que A ocurre, pero B no lo hace. Cuando
dos eventos A y B no tienen elementos en com
un, esto es A B = , diremos que A y B son disjuntos. Una
colecci
on de eventos A1 , A2 , . . . se dice disjunta dos a dos, si Ai Aj = para todo i 6= j.

Nota Bene (Consistencia). El sistema de axiomas I-IV es consistente. Esto se prueba


mediante un ejemplo. Sea un conjunto que consiste de un solo elemento y sea A = {, }
la familia de todos los subconjuntos de . A es un algebra y la funcion P : A R definida
por P() := 1 y P() := 0 es una medida de probabilidad.
Construcci
on de espacios de probabilidad finitos. Los espacios de probabilidad m
as
simples se construyen de la siguiente manera. Se considera un conjunto finito y una funcion
p : [0, 1] tal que
X
p() = 1.

La funcion p se llama funci


on de probabilidad y los n
umeros p(), , se llaman las
probabilidades de los eventos elementales o simplemente las probabilidades elementales.
El algebra de eventos, A, se toma como el conjunto de todos los subconjuntos de y para
cada A A se define
X
P(A) :=
p(),
A

donde la suma vaca se define como 0.


Todos los espacios de probabilidad finitos en los que A es la familia de todos los subconjuntos de se construyen de esta manera.

Ejemplo 1.4 (Lanzar una moneda equilibrada). Se lanza una moneda. Los resultados posibles
son cara o ceca y pueden representarse mediante las letras H (head ) y T (tail ). Adoptando
esa representaci
on el espacio muestral correspondiente es
= {H, T }.
Decir que una moneda es equilibrada significa que la funcion de probabilidad asigna igual
probabilidad a los dos resultados posibles:
p(H) = p(T ) = 1/2.

Equiprobabilidad: f
ormula de Laplace. Sea un espacio muestral finito. Cuando todos
los eventos elementales tienen la misma probabilidad, esto es, cuando para todo vale
que p() = ||1 , se dice que el espacio es equiprobable. En ese caso las probabilidades de los
eventos A se calculan usando la f
ormula de Laplace:
P(A) =

|A|
.
||

En este contexto el problema principal del calculo de probabilidades consiste determinar la


cantidad de eventos elementales favorables a cada evento posible (sin tener que enumerarlo).
En otras palabras, la teora de probabilidades se reduce al an
alisis combinatorio, una importante (y a veces muy dficil) rama de la matem
atica dedicada a lo que podra llamarse contar
sin contar. En la Secci
on 3 se desarrollan sus elementos b
asicos.

1.2.

Relaci
on con los datos experimentales

En el mundo real de los experimentos la teora de probabilidad se aplica de la siguiente


manera:
(1) Consideramos un sistema de condiciones, S, que se pueden repetir cualquier cantidad
de veces.
(2) Estudiamos una familia determinada de eventos que pueden ocurrir como resultado
de realizar las condiciones S. En los casos individuales donde se realizan las condiciones S,
los eventos ocurren, generalmente, de distintas maneras. En el conjunto incluimos, a priori,
todos los resultados que podran obtenerse al realizar las condiciones S.
(3) Si al realizar las condiciones S el resultado pertenece al conjunto A (definido de alguna
manera), diremos que ocurre el evento A.
Ejemplo 1.5 (Dos monedas). Las condiciones S consisten en lanzar una moneda dos veces.
El conjunto de los eventos mencionados en (2) resultan del hecho de que en cada lanzamiento
puede obtenerse una cara (H) o una ceca (T ). Hay cuatro resultados posibles (los eventos
elementales), a saber: HH, HT , T H, T T . Si el evento A se define por la ocurrencia de una
repeticion, entonces A consistira en que suceda el primero o el cuarto de los cuatro eventos
elementales. Esto es, A = {HH, T T }. De la misma manera todo evento puede considerarse
como un conjunto de eventos elementales.
(4) Bajo ciertas condiciones se puede suponer que, dado el sistema de condiciones S, un
evento A que a veces ocurre y a veces no, tiene asignado un n
umero real P(A) que tiene las
siguientes caractersticas:
(a) Se puede estar practicamente seguro de que si el sistema de condiciones S se repite
una gran cantidad de veces, n, entonces si n(A) es la cantidad de veces que ocurre el evento
A, la proporci
on n(A)/n diferir
a muy poco de P(A).
(b) Si P(A) es muy peque
na, se puede estar practicamente seguro de que cuando se realicen
las condiciones S solo una vez, el evento A no ocurrira.
Deducci
on emprica de los axiomas I, II, III. En general, se puede suponer que la familia A de los eventos observados A, B, C, . . . que tienen probabilidades asignadas, constituye
un algebra de eventos. Esta claro que 0 n(A)/n 1 de modo que el axioma I es bastante
natural. Para el evento , n() siempre es igual a n de modo que es natural definir P() = 1
(Axioma II). Si finalmente, A y B son incompatibles (i.e., no tienen elementos en com
un),
entonces n(A B) = n(A) + n(B) y de aqu resulta que
n(A) n(B)
n(A B)
=
+
.
n
n
n
Por lo tanto, es apropiado postular que P(A B) = P(A) + P(B) (Axioma III).
Nota Bene 1. La afirmacion de que un evento A ocurre en las condiciones S con una
determinada probabilidad P(A) equivale a decir que en una serie suficientemente larga de
experimentos (es decir, de realizaciones del sistema de condiciones S), las frecuencias relativas
pk (A) :=

nk (A)
nk

de ocurrencia del evento A (donde nk es la cantidad de experimentos realizados en la k-esima


serie y nk (A) la cantidad de ellos en los que ocurre A) son aproximadamente identicas unas
a otras y estan proximas a P(A).
Ejemplo 1.6. Las condiciones S consisten en lanzar una moneda (posiblemente cargada).
Podemos poner = {H, T } y A = {, {H}, {T }, }, y las posibles medidas de probabilidad
P : A [0, 1] estan dadas por
P() = 0,

P(T ) = 1 p,

P(H) = p,

P() = 1,

donde p es un n
umero real fijo perteneciente al intervalo [0, 1].
Si en 10 series, de 1000 lanzamientos cada una, se obtienen las siguientes frecuencias
relativas de ocurrencia del evento A = {H}
0.753; 0.757; 0.756; 0.750; 0.746; 0.758; 0.751; 0.748; 0.749; 0.746,
parece razonable asignarle a p el valor 0.75.
Nota Bene 2. Si cada una de dos afirmaciones diferentes es practicamente segura, entonces
podemos decir que simult
aneamente son ambas seguras, aunque el grado de seguridad haya
disminuido un poco. Si, en cambio, el n
umero de tales afirmaciones es muy grande, de la
seguridad practica de cada una, no podemos deducir nada sobre la validez simult
anea de
todos ellas. En consecuencia, del principio enunciado en (a) no se deduce que en una cantidad
muy grande de series de n experimentos cada una, en cada uno de ellos la proporci
on n(A)/n
diferir
a s
olo un poco de P(A).
En los casos m
as tpicos de la teora de probabilidades, la situacion es tal que en una larga
serie de pruebas es posible obtener uno de los dos valores extremos para la frecuencia
n
n(A)
= =1
n
n

n(A)
0
= = 0.
n
n

As, cualquiera sea el n


umero de ensayos n, es imposible asegurar con absoluta certeza que
tendremos, por ejemplo, la desigualdad



n(A)
1


n P(A) < 10 .

Por ejemplo, si el evento A es sacar un seis tirando un dado equilibrado, entonces en n tiradas
del dado la probabilidad de obtener un seis en todas ellas es (1/6)n > 0; en otras palabras,
con probabilidad (1/6)n tendremos una frecuencia relativa igual a uno de sacar un seis en
todas las tiradas ; y con probabilidad (5/6)n no saldra ning
un seis, es decir, la frecuencia
relativa de sacar seis sera igual a cero.

Nota Bene 3. De acuerdo con nuestros axiomas a un evento imposible (un conjunto vaco)
le corresponde la probabilidad P() = 0, pero la recproca no es cierta: P(A) = 0 no implica la
imposibilidad de A. Cuando P(A) = 0, del principio (b) todo lo que podemos asegurar es que
cuando se realicen las condiciones S una sola vez, el evento A sera practicamente imposible.
Sin embargo, esto no asegura de ning
un modo que en una sucesion suficientemente grande de
experimentos el evento A no ocurrira. Por otra parte, del principio (a) solamente se puede
deducir que cuando P(A) = 0 y n es muy grande, la proporci
on n(A)/n debe ser muy peque
na
(por ejemplo, 1/n).
6

1.3.

Corolarios inmediatos de los axiomas

De A Ac = y los axiomas II y III se deduce que


P(Ac ) = 1 P(A).

En particular, debido a que c = , tenemos que P() = 0.


Teorema de aditividad. Si los eventos A1 , A2 , . . . , An son disjuntos dos a dos, entonces
del axioma III se deduce la formula
!
n
n
X
[
P
P(Ai ).
Ai =
i=1

i=1

Ejercicios adicionales
1. Sean A y B dos eventos. Mostrar que
(a) Si A B, entonces P(A) P(B). M
as precisamente: P(B) = P(A) + P(B \ A).
Sugerencia. Expresar el evento B como la uni
on disjunta de los eventos A y B \ A y usar
el axioma III.
(b) La probabilidad de que ocurra al menos uno de los eventos A o B es
P(A B) = P(A) + P(B) P(A B).
Sugerencia. La uni
on A B de dos eventos puede expresarse como la uni
on de dos eventos
disjuntos: A (B \ (A B)).
2. Mostrar que para eventos A, B y C vale que
P(A B C) = P(A) + P(B) + P(C) P(A B) P(A C) P(B C)
+P(A B C).

3. Mostrar que para eventos A1 , A2 , . . . , An vale que


!
n
X
X
X
[
P(Ai Aj Aj )
P
=
P(Ai )
P(Ai Aj ) +
Ai
i=1

i<j

i<j<k

+(1)n P(A1 A2 An ).

1.4.

Sobre el axioma de continuidad

Nota Bene 1. Si la familia de eventos A es finita el axioma de continuidad IV se deduce


de los axiomas I-III. En tal caso, en la sucesion (1) solo hay una cantidad finita de eventos
diferentes. Si Ak es el menor de ellos, entonces todos los conjuntos Ak+m , m 1 coinciden

T
An = y lm P(An ) = P() = 0. Por lo tanto, todos
con Ak . Tenemos que Ak = Ak+m =
n

n=1

los ejemplos de espacios de probabilidad finitos satisfacen los axiomas I-IV.


7

Nota Bene 2. Se puede probar que para espacios muestrales infinitos, el axioma de continuidad IV es independiente de los axiomas I-III. Este axioma es esencial solamente para
espacios de probabilidad infinitos y es casi imposible elucidar su significado emprico en la
forma en que lo hicimos con los axiomas I-III.
Ejemplo 1.7. Sean = Q [0, 1] = {r1 , r2 , r3 , . . . } y A0 la familia de los subconjuntos de
de la forma [a, b], [a, b), (a, b] o (a, b). La familia, A de todas las uniones finitas de conjuntos
disjuntos de A0 es un
algebra de eventos. La medida de probabilidad definida por
P(A) := b a,
P(A) :=

si A A0 ,

Pk

i=1 P(Ai )

si A =

k
[

i=1

Ai , para Ai A0 y Ai Aj = ,

satisface los axiomas I-III pero no satisface el axioma de continuidad.


En efecto, para cada r , {r} A y P({r}) = 0. Los eventos An := \ {r1 , . . . , rn },

T
An = , sin embargo lm P(An ) = 1, debido a que P(An ) = 1
n N, son decrecientes y

para todo n 1.

n=1

Teorema 1.8.
(a) Si A1 A2 y A =
(b) Si A1 A2 y A =

An , entonces P(A) = lm P(An ).


n

n=1

An , entonces P(A) = lm P(An ).


n

n=1

Demostraci
on.

T
(a) Considerar la sucesion Bn = An \ A. Observar que B1 B2 y
Bn = . Por
n=1

el axioma de continuidad se obtiene lm P(Bn ) = 0. Como P(Bn ) = P(An ) P(A) se deduce


n
que
lm P(An ) = P(A).
n

(b) Considerar la sucesion Bn = Acn . Observar que B1 B2 y

Bn = Ac . Por el

n=1

inciso (a) se obtiene lm P(Bn ) = P(Ac ) = 1 P(A). Como P(Bn ) = 1 P(An ) se deduce
n
que
lm P(An ) = P(A).
n

Ejemplo 1.9 (N
umeros aleatorios). Teoricamente, los n
umeros aleatorios son realizaciones
independientes del experimento conceptual que consiste en elegir al azar un n
umero U
del intervalo (0, 1]. Aqu la expresi
on elegir al azar significa que el n
umero U tiene la
distribucion uniforme sobre el intervalo (0, 1], i.e., la probabilidad del evento U (a, b] es
igual a b a, para cualquier pareja de n
umeros reales a y b tales que 0 < a < b 1.

Ejemplo 1.10 (Ternario de Cantor). Se elije al azar un n


umero U del intervalo (0, 1], cu
al
es la probabilidad de que el 1 no aparezca en el desarrollo en base 3 de U ?
Consideramos la representaci
on en base 3 del n
umero U :
X ak (U )
U=
,
3k
k1

donde ak (U ) {0, 1, 2}, k 1.


Lo que queremos calcular es la probabilidad del evento A = {ak (U ) 6= 1, k 1}. Primero
observamos que

\
A=
An ,
n=1

donde An = {ak (U ) 6= 1, 1 k n} y notamos que A1 A2 . Usando el inciso (a) del


Teorema 1.8 tenemos que P(A) = lm P(An ). El problema se reduce a calcular la sucesion
n

de probabilidades P(An ) y su lmite.


Geometricamente el evento A1 se obtiene eliminando el segmento (1/3, 2/3) del intervalo
(0, 1]:
A1 = (0, 1/3] [2/3, 1].
Para obtener A2 eliminamos los tercios centrales de los dos intervalos que componen A1 :
A2 = (0, 1/9] [2/9, 3/9] [6/9, 7/9] [8/9, 1].
Continuando de este modo obtenemos una caracterizaci
on geometrica de los eventos An : An
n
es la uni
on disjunta de 2 intervalos, cada uno de longitud 3n . En consecuencia,
 n
2
n 1
P(An ) = 2 n =
3
3
Por lo tanto, P(A) = lm (2/3)n = 0.
n

Teorema 1.11 (-aditividad). Si A1 , A2 , . . . , es una sucesion de eventos disjuntos dos a dos

S
An A, entonces
(i.e., Ai Aj = para todos los pares i, j tales que i 6= j) y
n=1

An

n=1

P(An )

Demostraci
on. La sucesion de eventos Rn :=

m>n

n=1

Rn = . Por el axioma IV tenemos que

Am , n 1, es decreciente y tal que

lm P(Rn ) = 0

y por el teorema de aditividad tenemos que


!
n

X
[
P(Ak ) + P(Rn ).
An =
P
n=1

(2)

n=1

k=1

De (4) y (3) se obtiene (2).


9

(3)

(4)

Corolario 1.12 (Teorema de cubrimiento). Si B, A1 , A2 , . . . es una sucesion de eventos tal

S
An A y B A, entonces
que A =
n=1

P(B)

P(An ).

n=1

Demostraci
on. Una cuenta. Descomponemos B en una uni
on disjunta de eventos
!!
!
n1

[
[
[
(An Ak )
B An \
An =
B=B
n=1

n=1

k=1

y aplicamos el teorema de -aditividad


P(B) =

n=1

P B

An \

n1
[
k=1

!!

(An Ak )

P(An ).

n=1

Ejercicios adicionales
4. Sean un conjunto no vaco y A un algebra de eventos. Sea P : A R una funcion tal
que
I. Para cada A A, P(A) 0,
II. P() = 1.
III. Si los eventos A y B no tienen elementos en com
un, entonces P(A B) = P(A) + P(B).

S
An A, entonces
IV. Si (An )n1 es una sucesion de eventos disjuntos dos a dos y
n=1

An

n=1

P(An ).

n=1

Mostrar que bajo esas condiciones la funcion P satisface el axioma de continuidad.

1.5.

-
algebras y teorema de extensi
on

El algebra A se llama una -


algebra, si toda uni
on numerable
A, disjuntos dos a dos, tambien pertenece a A.
De la identidad

n=1

An =

n=1

An \

n1
[
k=1

10

(An Ak )

n=1

An de conjuntos A1 , A2 ,

se deduce que la -
algebra tambien contiene todas las uniones numerables de conjuntos
A1 , A2 , A. De la identidad

n=1

An = \

Acn

n=1

lo mismo puede decirse de las intersecciones.


Nota Bene. Solamente cuando disponemos de una medida de probabilidad, P, definida
sobre una -
algebra, A, obtenemos libertad de accion total, sin peligro de que ocurran eventos
que no tienen probabilidad.
Lema 1.13 (-
algebra generada). Dada un algebra A existe la menor -
algebra, (A), que
la contiene, llamada la -
algebra generada por A.
Teorema 1.14 (Extensi
on). Dada una funcion de conjuntos, P, no negativa y -aditiva
definida sobre un
algebra A se la puede extender a todos los conjuntos de la -
algebra generada
por A, (A), sin perder ninguna de sus propiedades (no negatividad y -aditividad) y esta
extensi
on puede hacerse de una sola manera.
Esbozo de la demostraci
on.

Para cada A definimos


X
P (A) := nf
P(An ),
An An

donde el nfimo se toma respecto a todos los cubrimientos del conjunto A por colecciones
finitas o numerables de conjuntos An pertenecientes a A. De acuerdo con el Teorema de
cubrimiento P (A) coincide con P(A) para todo conjunto A A.
La funcion P es no negativa y -aditiva sobre (A). La unicidad de la extensi
on se deduce
de la propiedad minimal de (A).

2.
2.1.

Simulaci
on de experimentos aleatorios con espacio muestral
finito
N
umeros aleatorios.

Toda computadora tiene instalado un algoritmo para simular n


umeros aleatorios que se
pueden obtener mediante una instruccion del tipo random. En el software Octave, por
ejemplo, la sentencia rand simula un n
umero aleatorio y rand (1, n) simula un vector de
n n
umeros aleatorios. En algunas calculadoras (llamadas cientficas) la instruccion Ran#
permite simular n
umeros aleatorios de tres dgitos. En algunos libros de texto se pueden
encontrar tablas de n
umeros aleatorios (p. ej., Meyer, P. L.: Introductory Probability and
Statistical Applications. Addison-Wesley, Massachusetts. (1972))
C
omo usar los n
umeros aleatorios. La idea principal se puede presentar mediante un
ejemplo muy simple. Queremos construir un mecanismo aleatorio para simular el lanzamiento
de una moneda cargada con probabilidad p de obtener de obtener cara. Llamemos X al
resultado del lanzamiento: X {0, 1} con la convencion de que cara= 1 y ceca= 0.
11

Para construir X usamos un n


umero aleatorio U , uniformemente distribuido sobre el
intervalo [0, 1] y definimos
X := 1{1 p < U 1}.

(5)

Es facil ver X satisface las condiciones requeridas. En efecto,


P(X = 1) = P(1 p < U 1) = 1 (1 p) = p.
La ventaja de la construcci
on es que se puede implementar casi inmediatamente en una
computadora. Por ejemplo, si p = 1/2, una rutina en Octave para simular X es la siguiente
Rutina para simular el lanzamiento de una moneda equilibrada
U = rand;
if U>1/2
X=1;
else
X=0;
end
X

Nota Bene. El ejemplo anterior es el prototipo para construir y simular experimentos


aleatorios. Con la misma idea podemos construir experimentos aleatorios tan complejos como
queramos.

2.2.

Simulaci
on de experimentos aleatorios

Supongamos que = {1 , 2 , . . . , m } representa el espacio muestral correspondiente a


un experimento aleatorio y que cada evento elemental k tiene asignada la probabilidad
p(k ) = pk . Usando un n
umero aleatorio, U , uniformemente distribuido sobre el intervalo
(0, 1], podemos construir un mecanismo aleatorio, X, para simular los resultados del experimento aleatorio considerado. Definimos
X=

m
X
k=1

k1 {Lk1 < U Lk } ,

donde
L0 := 0 y Lk :=

k
X

pi ,

i=1

(1 k m)

e identificamos cada evento elemental k con su correspondiente subndice k.


En efecto, de la definicion (6) se deduce que para cada k = 1, . . . , m vale que
P(X = k) = P(Lk1 < U Lk ) = Lk Lk1 = pk .

12

(6)

Nota Bene. El mecanismo aleatorio definido en (6) se puede construir gr


aficamente de
la siguiente manera:
1. Partir el intervalo (0, 1] en m subintervalos sucesivos I1 , . . . , Im de longitudes p1 , . . . , pm ,
respectivamente.
2. Sortear un n
umero aleatorio, U , y observar en que intervalo de la particion cae.
3. Si U cae en el intervalo Ik , producir el resultado k .
Ejemplo 2.1 (Lanzar un dado equilibrado). Se quiere simular el lanzamiento de un dado
equilibrado. El espacio muestral es = {1, 2, 3, 4, 5, 6} y la funcion de probabilidades es
p(k) = 1/6, k = 1, . . . , 6. El mecanismo aleatorio X = X(U ), definido en (6), se construye de
la siguiente manera:
1. Partir el intervalo (0, 1] en 6 intervalos sucesivos de longitud 1/6: I1 = (0, 1/6], I2 =
(1/6, 2/6], I3 = (2/6, 3/6], I4 = (3/6, 4/6], I5 = (4/6, 5/6] e I6 = (5/6, 6/6].
2. Sortear un n
umero aleatorio U .
3. Si U Ik , X = k.
En pocas palabras,
X=

6
X
k=1

k1

k1
k
<U
6
6

(7)

Por ejemplo, si sorteamos un n


umero aleatorio, U y se obtiene que U = 0.62346, entonces el
valor simulado del dado es X = 4. Una rutina en Octave para simular X es la siguiente
Rutina para simular el lanzamiento de un dado
U=rand;
k=0;
do
k++;
until((k-1)/6<U & U<=k/6)
X=k

2.3.

Estimaci
on de probabilidades

Formalmente, un experimento aleatorio se describe mediante un espacio de probabilidad


(, A, P). Todas las preguntas asociadas con el experimento pueden reformularse en terminos
de este espacio. En la practica, decir que un evento A ocurre con una determinada probabilidad P(A) = p equivale a decir que en una serie suficientemente grande de experimentos las
frecuencias relativas de ocurrencia del evento A
pk (A) =

13

nk (A)
nk

(donde nk es la cantidad de ensayos realizados en la k-esima serie y nk (A) es la cantidad en


los que ocurre A) son aproximadamente identicas unas a otras y estan proximas a p. Las series
de experimentos se pueden simular en una computadora utilizando un generador de n
umeros
aleatorios.
Ejemplo 2.2. El experimento consiste en lanzar 5 monedas equilibradas y registrar la cantidad N de caras observadas. El conjunto de todos los resultados posibles es = {0, 1, 2, 3, 4, 5}.
El problema consiste en asignarle probabilidades a los eventos elementales.
La solucion experimental del problema se obtiene realizando una serie suficientemente
grande de experimentos y asignando a cada evento elemental su frecuencia relativa.
Sobre la base de una rutina similar a la que presentamos en la secci
on 2.1 para simular el resultado del lanzamiento de una moneda equilibrada se pueden simular n = 10000
realizaciones del experimento que consiste en lanzar 5 monedas equilibradas. Veamos como hacerlo. Usamos la construcci
on (5) para simular el lanzamiento de 5 monedas equilibradas X1 , X2 , X3 , X4 , X5 . La cantidad de caras observadas es la suma de las Xi : N =
X1 + X2 + X3 + X4 + X5 .
Repitiendo la simulacion 10000 veces (o genericamente n veces), obtenemos una tabla que
contiene la cantidad de veces que fue simulado cada valor de la variable N . Supongamos que
obtuvimos la siguiente tabla:
valor simulado
0
1
2
3
4
5
cantidad de veces 308 1581 3121 3120 1564 306

(8)

En tal caso diremos que se obtuvieron las siguientes estimaciones


P(N = 0) 0.0308,

P(N = 3) 0.3120,

P(N = 1) 0.1581,

P(N = 4) 0.1564,

P(N = 2) 0.3121,

P(N = 5) 0.0306.

Para finalizar este ejemplo, presentamos un programa en Octave que simula diez mil veces
el lanzamiento de cinco monedas equilibradas, contando en cada una la cantidad de caras
observadas y que al final provee una tabla como la representada en (8)
n = 10000;
N = zeros(1,n);
for i=1:n
U=rand(1,5);
X=[U<=(1/2)];
N(i)=sum(X);
end
for j=1:6
T(j)=sum([N==j-1]);
end
T

14

Nota Bene. Usando las herramientas que proporciona el an


alisis combinatorio (ver secci
on
3) se puede demostrar que para cada k {0, 1, 2, 3, 4, 5} vale que
 
5 1
P(N = k) =
.
k 32
En otros terminos,
P(N = 0) = 0.03125,

P(N = 1) = 0.15625,

P(N = 2) = 0.31250,

P(N = 3) = 0.31250,

P(N = 4) = 0.15625,

P(N = 5) = 0.03125.

Ejemplo 2.3 (Paradoja de De Mere). Cual de las siguientes apuestas es m


as conveniente?
Obtener al menos un as en 4 tiros de un dado.
Obtener al menos un doble as en 24 tiros de dos dados.
1. La construcci
on (7) permite simular 4 tiros de un dado usando 4 n
umeros aleatorios
independientes U1 , U2 , U3 , U4 .
4
P
1{0 < Ui 1/6}. El evento
La cantidad de ases obtenidos en los 4 tiros es la suma S =
i=1

A1 = obtener al menos un as en 4 tiros de un dado equivale al evento S 1.


Si repetimos la simulacion 10000 veces podemos obtener una estimacion (puntual) de la
probabilidad del evento A1 calculando su frecuencia relativa.
La siguiente rutina (en Octave) provee una estimacion de la probabilidad del evento A1
basada en la repeticion de 10000 simulaciones del experimento que consiste en tirar 4 veces
un dado.
Rutina 1
n=10000;
A1=zeros(1,n);
for i=1:n
U=rand(1,4);
S=sum(U<=1/6);
if S>=1
A1(i)=1;
else
A1(i)=0;
end
end
hpA1=sum(A1)/n
Ejecutando 10 veces la Rutina 1 se obtuvieron los siguientes resultados para la frecuencia
relativa del evento A1
0.5179 0.5292 0.5227 0.5168 0.5204 0.5072 0.5141 0.5177 0.5127 0.5244
Notar que los resultados obtenidos se parecen entre s e indican que la probabilidad de obtener
al menos un as en 4 tiros de un dado es mayor que 0.5.
15

2. La construcci
on (7) permite simular 24 tiros de dos dados usando 48 n
umeros aleatorios
independientes U1 , U2 , . . . , U47 , U48 .
La cantidad de veces que se obtiene un doble as en los 24 tiros de dos dados es la suma
24
P
1{0 < U2i1 1/6, 0 < U2i 1/6}. El evento A2 = obtener al menos un doble as
S =
i=1

en 24 tiros de dos dados equivale al evento S 1.


Si repetimos la simulacion 10000 veces podemos obtener una estimacion (puntual) de la
probabilidad del evento A2 calculando su frecuencia relativa.
La siguiente rutina (en Octave) provee una estimacion de la probabilidad del evento A2
basada en la repeticion de 10000 simulaciones del experimento que consiste en tirar 24 veces
dos dados.
Rutina 2
n=10000;
A2=zeros(1,n);
for i=1:n
U=rand(2,24);
V=(U<=1/6);
S=sum(V(1,:).*V(2,:));
if S>=1
A2(i)=1;
else
A2(i)=0;
end
end
hpA2=sum(A2)/n
Ejecutando 10 veces la Rutina 2 se obtuvieron los siguientes resultados para la frecuencia
relativa del evento A2
0.4829 0.4938 0.4874 0.4949 0.4939 0.4873 0.4882 0.4909 0.4926 0.4880
Notar que los resultados obtenidos se parecen entre s e indican que la probabilidad de
obtener al menos un doble as en 24 tiros de dos dados es menor que 0.5.
Conclusi
on. Los resultados experimentales obtenidos indican que es mejor apostar a que
se obtiene al menos un as en 4 tiros de un dado que apostar a que se obtiene al menos un
doble as en 24 tiros de un dado.

16

3.

Elementos de An
alisis Combinatorio

Cuando se estudian juegos de azar, procedimientos muestrales, problemas de orden y


ocupacion, se trata por lo general con espacios muestrales finitos en los que a todos los
eventos elementales se les atribuye igual probabilidad. Para calcular la probabilidad de un
evento A tenemos que dividir la cantidad de eventos elementales contenidos en A (llamados
casos favorables) entre la cantidad de total de eventos elementales contenidos en ( llamados
casos posibles). Estos calculos se facilitan por el uso sistematico de unas pocas reglas.

3.1.

Regla del Producto

Sean A y B dos conjuntos cualesquiera. El producto cartesiano de A y B se define por


A B = {(a, b) : a A y b B}. Si A y B son finitos, entonces |A B| = |A| |B|.
Demostraci
on. Supongamos que A = {a1 , a2 , . . . , am } y B = {b1 , b2 , . . . , bn }. Basta observar el cuadro siguiente

a1
a2
..
.

b1
(a1 , b1 )
(a2 , b1 )
..
.

b2
(a1 , b2 )
(a2 , b2 )
..
.

...
...
...

bn
(a1 , bn )
(a2 , bn )
..
.

am

(am , b1 )

(am , b2 )

...

(am , bn )

Cuadro 1: Esquema rectangular del tipo tabla de multiplicar con m filas y n columnas: en la
interseccion de fila i y la columna j se encuentra el par (ai , bj ). Cada par aparece una y s
olo
una vez.
En palabras, con m elementos a1 , . . . , am y n elementos b1 , . . . , bn es posible formar m n
pares (ai , bj ) que contienen un elemento de cada grupo.
Teorema 3.1 (Regla del producto). Sean A1 , A2 , . . . , An , n conjuntos cualesquiera. El producto cartesiano de los n conjuntos A1 , A2 , . . . , An se define por
A1 A2 An = {(x1 , x2 , . . . , xn ) : xi Ai , 1 i n}.
Si los conjuntos A1 , A2 , . . . , An son finitos, entonces
|A1 A2 An | =

n
Y
i=1

|Ai |.

Demostraci
on. Si n = 2 ya lo demostramos. Si n = 3, tomamos los pares (x1 , x2 ) como
elementos de un nuevo tipo. Hay |A1 | |A2 | elementos de ese tipo y |A3 | elementos x3 . Cada
terna (x1 , x2 , x3 ) es un par formado por un elemento (x1 , x2 ) y un elemento x3 ; por lo tanto,
la cantidad de ternas es |A1 | |A2 | |A3 |. Etcetera.
Nota Bene. Muchas aplicaciones se basan en la siguiente reformulacion de la regla del
producto: r decisiones sucesivas con exactamente nk elecciones posibles en el k-esimo paso
pueden producir un total de n1 n2 nr resultados diferentes.
17

Ejemplo 3.2 (Ubicar r bolas en n urnas). Los resultados posibles del experimento se pueden
representar mediante el conjunto
= {1, 2, . . . , n}r = {(x1 , x2 , . . . , xr ) : xi {1, 2, . . . , n}, 1 i r},
donde xi = j representa el resultado la bola i se ubic
o en la urna j. Cada bola puede
ubicarse en una de las n urnas posibles. Con r bolas tenemos r elecciones sucesivas con
exactamente n elecciones posibles en cada paso. En consecuencia, r bolas pueden ubicarse en
n urnas de nr formas distintas.
Usamos el lenguaje figurado de bolas y urnas, pero el mismo espacio muestral admite
muchas interpretaciones distintas. Para ilustrar el asunto listaremos una cantidad de situaciones en las cuales aunque el contenido intuitivo vara son todas abstractamente equivalentes
al esquema de ubicar r bolas en n urnas, en el sentido de que los resultados difieren solamente
en su descripci
on verbal.
1. Nacimientos. Las configuraciones posibles de los nacimientos de r personas corresponde
a los diferentes arreglos de r bolas en n = 365 urnas (suponiendo que el a
no tiene 365
das).
2. Accidentes. Clasificar r accidentes de acuerdo con el da de la semana en que ocurrieron
es equivalente a poner r bolas en n = 7 urnas.
3. Muestreo. Un grupo de personas se clasifica de acuerdo con, digamos, edad o profesi
on.
Las clases juegan el rol de las urnas y las personas el de las bolas.
4. Dados. Los posibles resultados de una tirada de r dados corresponde a poner r bolas en
n = 6 urnas. Si en lugar de dados se lanzan monedas tenemos solamente n = 2 urnas.
5. Dgitos aleatorios. Los posibles ordenamientos de una sucesion de r dgitos corresponden
a las distribuciones de r bolas (= lugares) en diez urnas llamadas 0, 1, . . . , 9.
6. Coleccionando figuritas. Los diferentes tipos de figuritas representan las urnas, las figuritas coleccionadas representan las bolas.

3.2.

Muestras ordenadas

Se considera una poblacion de n elementos a1 , a2 , . . . , an . Cualquier secuencia ordenada aj1 , aj2 , . . . , ajk de k smbolos se llama una muestra ordenada de tama
no k tomada de la
poblacion. (Intuitivamente los elementos se pueden elegir uno por uno). Hay dos procedimientos posibles.
(a) Muestreo con reposici
on. Cada elecci
on se hace entre toda la poblacion, por lo que
cada elemento se puede elegir m
as de una vez. Cada uno de los k elementos se puede elegir
en n formas: la cantidad de muestras posibles es, por lo tanto, nk , lo que resulta de la regla
del producto con n1 = n2 = = nk = n.

18

(b) Muestreo sin reposici


on. Una vez elegido, el elemento se quita de la poblacion, de
modo que las muestras son arreglos sin repeticiones. El volumen de la muestra k no puede
exceder el tama
no de la poblacion total n.
Tenemos n elecciones posibles para el primer elemento, pero s
olo n 1 para el segundo,
n 2 para el tercero, etcetera. Usando la regla del producto se obtiene un total de
(n)k := n(n 1)(n 2) (n k + 1)

(9)

elecciones posibles.
Teorema 3.3. Para una poblaci
on de n elementos y un tama
no de muestra prefijado k,
k
existen n diferentes muestras con reposici
on y (n)k muestras sin reposici
on.
Ejemplo 3.4. Consideramos una urna con 8 bolas numeradas 1, 2, . . . , 8
(a) Extracci
on con reposici
on. Extraemos 3 bolas con reposici
on: despues de extraer
una bola, anotamos su n
umero y la ponemos de nuevo en la urna. El espacio muestral
1 correspondiente a este experimento consiste de todas las secuencias de longitud 3
que pueden formarse con los smbolos 1, 2, . . . 8. De acuerdo con el Teorema 3.3, 1
tiene 83 = 512 elementos. Bajo la hip
otesis de que todos los elementos tienen la misma
probabilidad, la probabilidad de observar la secuencia (3, 7, 1) es 1/512.
(b) Extracci
on de una colecci
on ordenada sin reposici
on. Extraemos 3 bolas sin
reposici
on: cada bola elegida no se vuelve a poner en la urna. Anotamos los n
umeros
de las bolas en el orden en que fueron extradas de la urna. El espacio muestral 2
correspondiente a este experimento es el conjunto de todas las secuencias de longitud
3 que pueden formarse con los smbolos 1, 2 . . . , 8 donde cada smbolo puede aparecer
a los sumo una vez. De acuerdo con el Teorema 3.3, 2 tiene (8)3 = 8 7 6 = 336
elementos. Bajo la hip
otesis que todos los elementos tienen la misma probabilidad, la
probabilidad de observar la secuencia (3, 7, 1) (en ese orden) es 1/336.

Ejemplo 3.5. Una urna contiene 6 bolas rojas y 4 bolas negras. Se extraen 2 bolas con
reposicion. Para fijar ideas supongamos que las bolas estan numeradas de la siguiente manera:
las primeras 6 son las rojas y las u
ltimas 4 son las negras. El espacio muestral asociado es
= {1, . . . , 10}2 y su cantidad de elementos || = 102 .
(a) Cu
al es la probabilidad de que las dos sean rojas? Sea R el evento las dos son rojas,
R = {1, . . . , 6}2 y |R| = 62 . Por lo tanto, P(R) = 62 /102 = 0.36.
(b) Cu
al es la probabilidad de que las dos sean del mismo color? Sea N el evento las dos
son negras, N = {7, . . . , 10}2 y |N | = 42 , entonces P(N ) = 42 /102 = 0.16. Por lo tanto,
P(R N ) = P(R) + P(N ) = 0.52.
(c) Cu
al es la probabilidad de que al menos una de las dos sea roja? El evento al menos
una de las dos es roja es el complemento de las dos son negras. Por lo tanto, P(N c ) =
1 P(N ) = 0.84.
Si se consideran extracciones sin reposicion, deben reemplazarse las cantidades (10)2 , 62 y 42
por las correspondientes (10)2 , (6)2 y (4)2 .
19

Caso especial k = n. En muestreo sin reposicion una muestra de tama


no n incluye a toda
la poblacion y representa una permutaci
on de sus elementos. En consecuencia, n elementos
a1 , a2 , . . . , an se pueden ordenar de (n)n = n (n 1) 2 1 formas distintas. Usualmente el
n
umero (n)n se denota n! y se llama el factorial de n.
Corolario 3.6. La cantidad de formas distintas en que se pueden ordenar n elementos es
n! = 1 2 n.

(10)

Observaci
on 3.7. Las muestras ordenadas de tama
no k, sin reposicion, de una poblacion de
n elementos, se llaman variaciones de n elementos tomados de a k. Su n
umero total (n)k se
puede calcular del siguiente modo
(n)k =

n!
(n k)!

(11)

Nota Bene sobre muestreo aleatorio. Cuando hablemos de muestras aleatorias de


tama
no k, el adjetivo aleatorio indica que todas las muestras posibles tienen la misma probabilidad, a saber: 1/nk en muestreo con reposicion y 1/(n)k en muestreo sin reposicion. En
ambos casos, n es el tama
no de la poblacion de la que se extraen las muestras.
Si n es grande y k es relativamente peque
no, el cociente (n)k /nk esta cerca de la unidad. En
otras palabras, para grandes poblaciones y muestras relativamente peque
nas, las dos formas
de muestrear son practicamente equivalentes.

Ejemplos
Consideramos muestras aleatorias de volumen k (con reposici
on) tomadas de una poblacion
de n elementos a1 , . . . , an . Nos interesa el evento que en una muestra no se repita ning
un elk
emento. En total existen n muestras diferentes, de las cuales (n)k satisfacen la condici
on
estipulada. Por lo tanto, la probabilidad de ninguna repetici
on en nuestra muestra es
p=

(n)k
n(n 1) (n k + 1)
=
nk
nk

(12)

Las interpretaciones concretas de la formula (12) revelan aspectos sorprendentes.


Muestras aleatorias de n
umeros. La poblacion consiste de los diez dgitos 0, 1, . . . , 9.
Toda sucesion de cinco dgitos representa una muestra de tama
no k = 5, y supondremos que
cada uno de esos arreglos tiene probabilidad 105 . La probabilidad de que 5 dgitos aleatorios
sean todos distintos es p = (10)5 105 = 0.3024.
Bolas y urnas. Si n bolas se ubican aleatoriamente en n urnas, la probabilidad de que cada
urna este ocupada es
n!
p = n.
n
Interpretaciones:

20

(a) Para n = 7, p = 0.00612.... Esto significa que si en una ciudad ocurren 7 accidentes por
semana, entonces (suponiendo que todas las ubicaciones posibles son igualmente probables) pr
acticamente todas las semanas contienen das con dos o m
as accidentes, y en
promedio solo una semana de 164 mostrar
a una distribuci
on uniforme de un accidente
por da.
(b) Para n = 6 la probabilidad p es igual a 0.01543... Esto muestra lo extremadamente
improbable que en seis tiradas de un dado perfecto aparezcan todas las caras.
Cumplea
nos. Los cumplea
nos de k personas constituyen una muestra de tama
no k de la
poblacion formada por todos los das del a
no.
De acuerdo con la ecuaci
on (12) la probabilidad, pk , de que todos los k cumplea
nos sean
diferentes es





(365)k
2
k1
1
pk =
1
1
.
= 1
365k
365
365
365
Una formula aparentemente abominable. Si k = 23 tenemos pk < 1/2. En palabras, para 23
personas la probabilidad que al menos dos personas tengan un cumplea
nos com
un excede 1/2.
Aproximaciones numericas de pk . Si k es chico, tomando logaritmos y usando que para x
peque
no y positivo log(1 x) x, se obtiene
log pk

k(k 1)
1 + 2 + + (k 1)
=
.
365
730

Ejercicios adicionales
5. Hallar la probabilidad pk de que en una muestra de k dgitos aleatorios no haya dos iguales.
1
Estimar el valor numerico de p10 usando la f
ormula de Stirling (1730): n! en nn+ 2 2.
6. Considerar los primeros 10000 decimales del n
umero . Hay 2000 grupos de cinco dgitos.
Contar la cantidad de grupos en los que los 5 dgitos son diferentes e indicar la frecuencia
relativa del evento considerado. Comparar el resultado obtenido con la probabilidad de que
en una muestra de 5 dgitos aleatorios no haya dos iguales.

3.3.

Subpoblaciones

En lo que sigue, utilizaremos el termino poblaci


on de tama
no n para designar una colecci
on
de n elementos sin considerar su orden. Dos poblaciones se consideran diferentes si una de
ellas contiene alg
un elemento que no esta contenido en la otra.
Uno de los problemas m
as importantes del calculo combinatorio es determinar la cantidad Cn, k de subpoblaciones distintas de tama
no k que tiene una poblaci
on de tama
no n.
Cuando n y k son peque
nos, el problema se puede resolver por enumeraci
on directa. Por
ejemplo, hay seis formas distintas elegir dos letras entre cuatro letras A, B, C, D, a saber:
AB, AC, AD, BC, BD, CD. As, C4, 2 = 6. Cuando la cantidad de elementos de la colecci
on
es grande la enumeraci
on directa es impracticable. El problema general se resuelve razonando
21

de la siguiente manera: consideramos una subpoblacion de tama


no k de una poblacion de n
elementos. Cada numeraci
on arbitraria de los elementos de la subpoblacion la convierte en
una muestra ordenada de tama
no k. Todas las muestras ordenadas de tama
no k se pueden
obtener de esta forma. Debido a que k elementos se pueden ordenar de k! formas diferentes,
resulta que k! veces la cantidad de subpoblaciones de tama
no k coincide con la cantidad de
muestras ordenadas de dicho tama
no. En otros terminos, Cn, k k! = (n)k . Por lo tanto,
Cn, k =

(n)k
n!
=
.
k!
k!(n k)!

(13)

Los n
umeros definidos en (13) se llaman
coeficientes binomiales o n
umeros combinatorios y

la notaci
on cl
asica para ellos es nk .
Teorema 3.8. Una poblaci
on de n elementos tiene
 
n!
n
=
k
k!(n k)!

(14)

diferentes subpoblaciones de tama


no k n.
Ejemplo 3.9. Consideramos una urna con 8 bolas numeradas 1, 2, . . . , 8. Extraemos 3 bolas
simult
aneamente, de modo que el orden es irrelevante. El espacio muestral 3 correspondiente
a este experimento consiste de todos los subconjuntos de tama
no 3 del conjunto {1, 2, . . . , 8}.
Por el Teorema 3.8 3 tiene 83 = 56 elementos. Bajo la hip
otesis de que todos los elementos
tienen la misma probabilidad, la probabilidad de seleccionar {3, 7, 1} es 1/56.

Dada una poblacion de tama
no n podemos elegir una subpoblacion de tama
no k de nk
maneras distintas. Ahora bien, elegir los k elementos que vamos a quitar de una poblacion es
lo mismo que elegir los n k elementos que vamos a dejar dentro. Por lo tanto, es claro que
para cada k n debe valer
  

n
n
=
.
(15)
k
nk
La ecuaci
on (15) se deduce inmediatamente de la identidad (14). El lado izquierdo de la
ecuaci
on (15) no esta definido para k = 0, pero el lado derecho si lo esta. Para que la ecuaci
on
(15) sea valida para todo entero k tal que 0 k n, se definen
 
n
:= 1,
0! := 1,
y
(n)0 := 1.
0
Tri
angulo de Pascal. Las ecuaciones en diferencias
  
 

n
n1
n1
=
+
,
k
k
k1
junto con el conocimiento de los datos de borde
   
n
n
=
= 1,
0
n
22

(16)

(17)


determinan completamente los n
umeros combinatorios nk , 0 k n, n = 0, 1, . . . . Usando
dichas relaciones se construye el famoso tri
angulo de Pascal, que muestra todos los n
umeros
combinatorios en la forma de un tri
angulo
1
1
1
1
1
1
1
...

3
4

1
2

1
3

6
10

1
4

10

1
5

6
15
20
15
6
...
...
...
...

1
...

 

La n-esima fila de este tri
angulo contiene los coeficientes n0 , n1 , . . . , nn . Las condiciones de
borde (17) indican que el primero y el u
ltimo de esos n
umeros son 1. Los n
umeros restantes
se determinan por la ecuaci
on en diferencias (16). Vale decir, para cada 0 < k < n, el k-esimo
coeficiente de la n-esima fila del triangulo de Pascal se obtiene sumando
los dos coeficientes

5
inmediatamente superiores a izquierda y derecha. Por ejemplo, 2 = 4 + 6 = 10.

Control de calidad. Una planta de ensamblaje recibe una partida de 50 piezas de precisi
on
que incluye 4 defectuosas. La divisi
on de control de calidad elige 10 piezas al azar para
controlarlas y rechaza la partida si encuentra 1 o m
as defectuosas. Cual es la probabilidad
formas
de elegir la muestra para controlar y
de que la partida pase la inspecci
on? Hay 50
10

46
10 de elegir todas las piezas sin defectos. Por lo tanto, la probabilidad es
  1
46 50
46! 10!40!
40 39 38 37
=
=
= 0, 3968....
10 10
10!36! 50!
50 49 48 47

Usando calculos casi identicos una compa


na puede decidir sobre que cantidad de piezas
defectuosas admite en una partida y dise
nar un programa de control con una probabilidad
dada de exito.
Ejercicios adicionales
7. Considerar el siguiente juego: el jugador I tira 4 veces una moneda honesta y el jugador
II lo hace 3 veces. Calcular la la probabilidad de que el jugador I obtenga m
as caras que el
jugador II.

3.4.

Particiones

Teorema 3.10. Sean r1 , . . . , rk enteros tales que


r1 + r2 + + rk = n, ri 0.

(18)

El n
umero de formas en que una poblaci
on de n elementos se puede dividir en k partes
ordenadas (particionarse en k subpoblaciones) tales que la primera contenga r1 elementos, la
23

segunda r2 , etc, es
n!
.
r1 !r2 ! rk !

(19)

Los n
umeros (19) se llaman coeficientes multinomiales.
Demostraci
on. Un uso repetido de (14) muestra que el n
umero (19) se puede reescribir en
la forma
 


 
n
n r1
n r1 r2
n r1 rk2
(20)

r1
r2
r3
rk1
Por otro lado, para efectuar la particion deseada, tenemos primero que seleccionar r1 elementos
de los n; de los restantes n r1 elementos seleccionamos un segundo grupo de tama
no r2 ,
etc. Despues de formar el grupo (k 1) quedan n r1 r2 rk1 = rk elementos, y
esos forman el u
ltimo grupo. Concluimos que (20) representa el n
umero de formas en que se
puede realizar la particion.
Ejemplo 3.11 (Accidentes). En una semana ocurrieron 7 accidentes. Cual es la probabilidad
de que en dos das de esa semana hayan ocurrido dos accidentes cada da y de que en otros
tres das hayan ocurrido un accidente cada da?
Primero particionamos los 7 das en 3 subpoblaciones: dos das con dos accidentes en cada
uno, tres das con un accidente en cada uno y dos das sin accidentes.. Esa particion en tres
grupos de tama
nos 2, 3, 2 se puede hacer de 7!/(2!3!2!) formas distintas y por cada una de
ellas hay 7!/(2!2!1!1!1!0!0!) = 7!/(2!2!) formas diferentes de ubicar los 7 accidentes en los 7
das. Por lo tanto, el valor de la probabilidad requerido es igual a
7!
7! 1

= 0.3212...
2!3!2! 2!2! 77

Ejercicios adicionales
8. Cuantas palabras distintas pueden formarse permutando las letras de la palabra manzana y cu
antas permutando las letras de la palabra aiaiiaiiiaiiii?
9. Se ubicar
an 6 bolas distinguibles en 8 urnas numeradas 1, 2, . . . , 8. Suponiendo que todas
las configuraciones distintas son equiprobables calcular la probabilidad de que resulten tres
urnas ocupadas con una bola cada una y que otra urna contenga las tres bolas restantes.

3.5.

Distribuci
on Hipergeom
etrica

Muchos problemas combinatorios se pueden reducir a la siguiente forma. En una urna


hay n1 bolas rojas y n2 bolas negras. Se elige al azar un grupo de r bolas. Se quiere calcular
la probabilidad pk de que en el grupo elegido, haya exactamente k bolas rojas, 0 k
mn(n1 , r).
24

Para calcular pk , observamosque el grupo elegido debe contener k bolas rojas y rk negras.
n2
Las rojas pueden elegirse de nk1 formas distintas y la negras de rk
formas distintas. Como
cada elecci
on de las k bolas rojas debe combinarse con cada elecci
on de las r k negras, se
obtiene
 


n1
n2
n1 + n2 1
pk =
(21)
k
rk
r
El sistema de probabilidades obtenido se llama la distribuci
on hipergeometrica.
3.5.1.

Control de calidad.

En control de calidad industrial, se someten a inspecci


on lotes de n unidades. Las unidades
defectuosas juegan el rol de las bolas rojas y su cantidad n1 es desconocida. Se toma una
muestra de tama
no r y se determina la cantidad k de unidades defectuosas. La formula (21)
permite hacer inferencias sobre la cantidad desconocida n1 ; se trata de problema tpico de
estimacion estadstica que sera analizado m
as adelante.
Ejemplo 3.12. Una planta de ensamblaje recibe una partida de 100 piezas de precisi
on que
incluye exactamente 8 defectuosas. La divisi
on control de calidad elige 10 piezas al azar para
controlarlas y rechaza la partida si encuentra al menos 2 defectuosas. Cual es la probabilidad
de que la partida pase la inspecci
on?
El criterio de decisi
on adoptado indica que la partida pasa la inspecci
on si (y s
olo si)
en la muestra no se encuentran
piezas defectuosas o si se encuentra exactamente
una pieza

 
92 8
defectuosa. Hay 100
formas
de
elegir
la
muestra
para
controlar,
formas
de elegir
10
10 0
 
92 8
muestras sin piezas defectuosas y 9 1 formas de elegir muestras con exactamente una
pieza defectuosa. En consecuencia la probabilidad de que la partida pase la inspecci
on es
   1    1
92 8 100
92 8 100
+
0.818.
10 0
10
9
1
10
Ejemplo 3.13. Una planta de ensamblaje recibe una partida de 100 piezas de precisi
on que
incluye exactamente k defectuosas. La divisi
on control de calidad elige 10 piezas al azar para
controlarlas y rechaza la partida si encuentra al menos 2 defectuosas. Con ese criterio de
decisi
on, como se comporta la probabilidad p(k) de que la partida pase la inspecci
on?.
Una partida pasara la inspecci
on si (y s
olo si) al extraer
una muestra de control la cantidad

de piezas defectuosas encontradas es 0 o 1. Hay 100
formas
de elegir la muestra para con10
 
100k k
trolar. Para cada k = 1, . . . , 90 hay 10k 0 formas de elegir muestras sin piezas defectos y
 
100k k
9
1 formas de elegir muestras con exactamente una pieza defectuosa. En consecuencia
la probabilidad p(k) de que la partida pase la inspecci
on es
p(k) =

100 k
10

  1 
 

k
100
100 k
k
100 1
+
.
0
10
9
1
10

p(k)
es menor que 1.
Una cuenta sencilla muestra que para todo k = 1, . . . , 90 el cociente p(k1)
Esto significa que a medida que aumenta la cantidad de piezas defectuosas en la partida, la
probabilidad de aceptarla disminuye.

25

1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0

10

20

30

40

50

60

Figura 1: Gr
afico de funcion p(k).
Cual es la m
axima probabilidad de aceptar una partida de 100 que contenga m
as de
20 piezas defectuosas? Debido a que la funcion p(k) es decreciente, dicha probabilidad es
p(20) 0.3630.
Ejemplo 3.14. Una planta de ensamblaje recibe un lote de n = 100 piezas de precisi
on, de
las cuales una cantidad desconocida n1 son defectuosas. Para controlar el lote se elige una
muestra (sin reposicion) de r = 10 piezas. Examinadas estas, resultan k = 2 defectuosas.
Que se puede decir sobre la cantidad de piezas defectuosas en el lote?
Sabemos que de 10 piezas examinadas 2 son defectuosas y 8 no lo son. Por lo tanto,
2 n1 92. Esto es todo lo que podemos decir con absoluta certeza. Podra suponerse que
el lote contiene 92 piezas defectuosas. Partiendo de esa hip
otesis, llegamos a la conclusi
on de
que ha ocurrido un evento de probabilidad
  

8 92 100 1
= O(1010 ).
8
2
10
En el otro extremo, podra suponerse que el lote contiene exactamente 2 piezas defectuosas,
en ese caso llegamos a la conclusi
on de que ha ocurrido un evento de probabilidad

  
1
98 2 100 1
.
=
110
10
2
8
Las consideraciones anteriores conducen a buscar el valor de n1 que maximice la probabilidad

  1
100 n1
n1
100
p(n1 ) :=
,
8
2
10
26

puesto que para ese valor de n1 nuestra observaci


on tendra la mayor probabilidad de ocurp(n1 )
rir. Para encontrar ese valor consideramos el cociente p(n
. Simplificando los factoriales,
1 1)
obtenemos
p(n1 )
p(n1 1)

n1 (93 n1 )
>1
(n1 2)(101 n1 )
n1 (93 n1 ) > (n1 2)(101 n1 )

n1 < 20.2 n1 20.

Esto significa que cuando n1 crece la sucesion p(n1 ) primero crece y despues decrece; alcanza
su m
aximo cuando n1 = 20. Suponiendo que n1 = 20, la probabilidad de que en una muestra
de 10 piezas extradas de un lote de 100 se observen 2 defectuosas es:
   1
80 20 100
0.318.
p(20) =
10
2
8
Aunque el verdadero valor de n1 puede ser mayor o menor que 20, si se supone que n1 = 20 se
obtiene un resultado consistente con el sentido com
un que indicara que los eventos observables
deben tener alta probabilidad.
0.35

0.3

0.25

0.2

0.15

0.1

0.05

20

40

60

80

100

Figura 2: Gr
afico de funcion p(n1 ). Observar que arg m
ax{p(n1 ) : 2 n1 92} = 20.
3.5.2.

Estimaci
on por captura y recaptura.

Para estimar la cantidad n de peces en un lago se puede realizar el siguiente procedimiento.


En el primer paso se capturan n1 peces, que luego de marcarlos se los deja en libertad. En el
segundo paso se capturan r peces y se determina la cantidad k de peces marcados. La formula
(21) permite hacer inferencias sobre la cantidad desconocida n.
27

Ejemplo 3.15 (Experimentos de captura y recaptura). Se capturan 1000 peces en un lago,


se marcan con manchas rojas y se los deja en libertad. Despues de un tiempo se hace una
nueva captura de 1000 peces, y se encuentra que 100 tienen manchas rojas. Que conclusiones
pueden hacerse sobre la cantidad de peces en el lago?
Suponemos que las dos capturas pueden considerarse como muestras aleatorias de la
poblacion total de peces en el lago. Tambien vamos a suponer que la cantidad de peces
en el lago no cambi
o entre las dos capturas.
Generalizamos el problema admitiendo tama
nos muestrales arbitrarios. Sean
n = el n
umero (desconocido) de peces en el lago.
n1 = el n
umero de peces en la primera captura. Estos peces juegan el rol de las bolas
rojas.
r = el n
umero de peces en la segunda captura.
k = el n
umero de peces rojos en la segunda captura.
pk (n) = la probabilidad de que la segunda captura contenga exactamente k peces rojos.
Con este planteo la probabilidad pk (n) se obtiene poniendo n2 = n n1 en la formula (21):
pk (n) =

 1
 
n
n n1
n1
.
r
rk
k

(22)

En la practica n1 , r, y k pueden observarse, pero n es desconocido.


Notar que n es un n
umero fijo que no depende del azar. Resultara insensato preguntar
por la probabilidad que n sea mayor que, digamos, 6000.
Sabemos que fueron capturados n1 + r k peces diferentes, y por lo tanto n n1 + r k.
Esto es todo lo que podemos decir con absoluta certeza. En nuestro ejemplo tenemos n1 =
r = 1000 y k = 100, y podra suponerse que el lago contiene solamente 1900 peces. Sin
embargo, partiendo de esa hip
otesis, llegamos a la conclusi
on de que ha ocurrido un evento
de probabilidad fantasticamente peque
na. En efecto, si se supone que hay un total de 1900
peces, la formula (22) muestra que la probabilidad de que las dos muestras de tama
no 1000
agoten toda la poblacion es ,

 

1000 900 1900 1
(1000!)2
=
100
900 1000
100!1900!
La formula de Stirling muestra que esta probabilidad es del orden de magnitud de 10430 , y en
esta situacion el sentido com
un indica rechazar la hip
otesis como irrazonable. Un razonamiento
similar nos induce a rechazar la hip
otesis de que n es muy grande, digamos, un millon.
Las consideraciones anteriores nos conducen a buscar el valor de n que maximice la probabilidad pk (n), puesto que para ese n nuestra observaci
on tendra la mayor probabilidad de
ocurrir. Para cualquier conjunto de observaciones n1 , r, k, el valor de n que maximiza la probabilidad pk (n) se denota por n
mv y se llama el estimador de m
axima verosimilitud de n. Para

28

encontrar n
mv consideramos la proporci
on
pk (n)
pk (n 1)

(n n1 )(n r)
>1
(n n1 r + k)n
(n n1 )(n r) > (n n1 r + k)n

n2 nn1 nr + n1 r > n2 nn1 nr + nk


n1 r
n<
.
k

Esto significa que cuando n crece la sucesion pk (n) primero crece y despues decrece; alcanza
mv es aproximadamente
su m
aximo cuando n es el mayor entero menor que nk1 r , as que n
n1 r
igual a k . En nuestro ejemplo particular el estimador de m
axima verosimilitud del n
umero
de peces en el lago es n
mv = 10000.
El verdadero valor de n puede ser mayor o menor, y podemos preguntar por los lmites
entre los que resulta razonable esperar que se encuentre n. Para esto testeamos la hip
otesis
que n sea menos que 8500. Sustituimos en (22) n = 8500, n1 = r = 1000, y calculamos la
probabilidad que la segunda muestra contenga 100 o menos peces rojos. Esta probabilidad es
p = p0 + p1 + + p100 . Usando una computadora encontramos que p 0.04. Similarmente,
si n = 12.000, la probabilidad que la segunda muestra contenga 100 o m
as peces rojos esta
cerca de 0.03. Esos resultados justificaran la apuesta de que el verdadero n
umero n de peces
se encuentra en alg
un lugar entre 8500 y 12.000.

Ejercicios adicionales
10. Un estudiante de ecologa va a una laguna y captura 60 escarabajos de agua, marca cada
uno con un punto de pintura y los deja en libertad. A los pocos das vuelve y captura otra
muestra de 50, encontrando 12 escarabajos marcados. Cual sera su mejor apuesta sobre el
tama
no de la poblacion de escarabajos de agua en la laguna?

4.

Mec
anica Estadstica

El espacio se divide en una gran cantidad, n, de peque


nas regiones llamadas celdas. Se
considera un sistema mecanico compuesto por r partculas que se distribuyen al azar entre
las n celdas. Cual es la distribucion de las partculas en las celdas? La respuesta depende de
lo que se considere un evento elemental.
1. Estadstica de Maxwell-Boltzmann. Suponemos que todas las partculas son distintas y
que todas las ubicaciones de las partculas son igualmente posibles. Un evento elemental
esta determinado por la r-upla (x1 , x2 , . . . , xr ), donde xi es el n
umero de la celda en la
que cayo la partcula i. Puesto que cada xi puede tomar n valores distintos, el n
umero
de tales r-uplas es nr . La probabilidad de un evento elemental es 1/nr .
2. Estadstica de Bose-Einstein. Las partculas son indistinguibles. De nuevo, todas las
ubicaciones son igualmente posibles. Un evento elemental esta determinado por la n-upla
29

(r1 , . . . , rn ), donde r1 + + rn = r y ri es la cantidad de partculas en la i-esima celda,


1 i n. La cantidad de tales n-uplas se puede calcular del siguiente modo: a cada
n- upla (r1 , r2 , . . . , rn ) la identificamos con una sucesion de unos y ceros s1 , . . . , sr+n1
con unos en las posiciones numeradas r1 + 1, r1 + r2 + 2, . . . , r1 + r2 + + rn1 + n 1
(hay n 1 de ellas) y ceros en las restantes posiciones. La cantidad de tales sucesiones
es igual al n
umero de combinaciones de r + n 1cosas tomadas de a n 1 por vez. La
probabilidad de un evento elemental es 1/ r+n1
n1 .

3. Estadstica de Fermi-Dirac. En este caso r < n y cada


 celda contiene a lo sumo una
n
partcula. La cantidad
de eventos elementales es r . La probabilidad de un evento

elemental es 1/ nr .

Ejemplo 4.1. Se distribuyen 5 partculas en 10 celdas numeradas 1, 2, . . . , 10. Calcular, para


cada una de las tres estadsticas, la probabilidad de que las celdas 8, 9 y 10 no tengan partculas
y que la celdas 6 y 7 tengan exactamente una partcula cada una.
1. Maxwell-Boltzmann. Las bolas son distinguibles y todas las configuraciones diferentes
son equiprobables. La probabilidad de cada configuraci
on (x1 , . . . , x5 ) {1, . . . , 10}5 ,
donde xi indica la celda en que se encuentra la partcula i, es 1/105 .
De que forma podemos obtener las configuraciones deseadas? Primero elegimos (en
orden) las 2 bolas que van a ocupar la celdas 6 y 7 (hay 5 4 formas diferentes de
hacerlo) y luego elegimos entre las celdas 1, 2, 3, 4, 5 las ubicaciones de las 3 bolas
restantes (hay 53 formas diferentes de hacerlo). Por lo tanto, su cantidad es 5 4 53
y la probabilidad de observarlas es
p=

5 4 53
1
1
=
=
= 0.025.
105
5 23
40

2. Bose-Einstein. Las partculas son indistinguibles y todas las configuraciones distintas


son equiprobables. La probabilidad de cada configuraci
on (r1 , . . . , r10), donde r1 + +
r10 = 5 y ri es la cantidad de partculas en la i-esima celda, es 1/ 14
9 .

Las configuraciones deseadas son de la forma (r1 , . . . , r5 , 1, 1, 0, 0, 0), donde r1 + +r5 =


3, su cantidad es igual a la cantidad de configuraciones
 distintas que pueden formarse
7
usando 3 ceros y 4 unos. Por lo tanto, su cantidad es 3 y la probabilidad de observarlas
es
  1
7 14
35
p=
=
0.0174....
3
9
2002

3. Fermi-Dirac. Las partculas son indistinguibles, ninguna celda puede contener m


as de
una partcula y todas las configuraciones
distintas son equiprobables. La probabilidad

de cada configuraci
on es 1/ 10
.
5
Las configuraciones deseadas se obtienen eligiendo tres de las las cinco celdas 1, 2, 3,
4, 5 para ubicar
 las tres partculas que no estan en las celdas 6 y 7. Por lo tanto, su
cantidad es 53 y la probabilidad de observarlas es
  1
10
5 10
=
0.0396....
5
3
252
30

Ejemplo 4.2. Calcular para cada una de las tres estadsticas mencionadas, la probabilidad
de que una celda determinada (p.ej., la n
umero 1) no contenga partcula.
En cada uno de los tres casos la cantidad de eventos elementales favorables es igual a
la cantidad de ubicaciones de las partculas en n 1 celdas. Por lo tanto, designando por
pM B , pBE , pF D las probabilidades del evento especificado para cada una de las estadsticas
(siguiendo el orden de exposicion), tenemos que


(n 1)r
1 r
pM B =
= 1
,
nr
n



r + n 2 r + n 1 1
n1
,
pBE =
=
N +n1
n2
n1

 
n 1 n 1
r
pF D =
=1 .
r
r
n
Si r/n = y n , entonces
pM B = e ,

pBE =

1
,
1+

pF D = 1 .

Si es peque
no, esas probabilidades coinciden hasta O(2 ). El n
umero caracteriza la densidad promedio de las partculas.

Ejercicios adicionales
11. Utilizando la estadstica de Maxwell-Boltzmann construir un mecanismo aleatorio para
estimar el n
umero e.

4.1.

Algunas distribuciones relacionadas con la estadstica de MaxwellBoltzmann

Se distribuyen r partculas en n celdas y cada una de las nr configuraciones tiene probabilidad nr .


4.1.1.

Cantidad de partculas por celda: la distribuci


on binomial

Cantidad de partculas en una celda especfica. Para calcular la probabilidad, pM B (k),


de que una celda especfica contengaexactamente k partculas (k = 0, 1, . . . , r) notamos que
las k partculas pueden elegirse de kr formas, y las restantes r k partculas pueden ubicarse
en las restantes n 1 celdas de (n 1)rk formas. Resulta que
 
1
r
(n 1)rk r
pM B (k) =
n
k

31

Dicho en palabras, en la estadstica de Maxwell-Boltzmann la probabilidad de que una


celda dada contenga exactamente k partculas esta dada por la distribucion Binomial (r, n1 )
definida por

   k 
1 rk
1
r
1
,
0 k r.
(23)
p(k) :=
n
n
k

Cantidad de partculas m
as probable en una celda especfica. La cantidad m
as
probable de partculas en una celda especfica es el entero tal que
(r + 1)
(r n + 1)
<
.
n
n

(24)

Para ser m
as precisos:
pM B (0) < pM B (1) < < pM B ( 1) pM B () > pM B ( + 1) > > pM B (r).
Demostraci
on. (Ejercicio.)
4.1.2.

Forma lmite: la distribuci


on de Poisson

Forma lmite. Si n y r de modo que la cantidad promedio = r/n de partculas


por celda se mantiene constante, entonces
k
.
k!
Dicho en palabras, la forma lmite de la estadstica de Maxwell-Boltzmann es la distribuci
on
de Poisson de media definida por
pM B (k) e

p(k) := e

k
,
k!

k = 0, 1, 2, . . .

Demostraci
on. Primero observamos que:
   k 

 k 

1
r
1 rk
1 rk
1
r!
1
1
=
k
n
n
k!(r k)! n
n
 k 
k


1 1
n1
r!
1 r
=
1
k! n
n
(r k)!
n

r
1
1
1
r!
1
=
.
k! (n 1)k (r k)!
n

(25)

(26)

Reemplazando en (26) r = n obtenemos:


   k 

n
1
1 nk
1
=
k
n
n



1
(n)!
1 n
1
1
k! (n 1)k (n k)!
n
n 

1
(n)!
1
1
=
1
n
k! (n 1)k (n k)!


(n)!
1
1
.
e
k! (n 1)k (n k)!
32

(27)

Para estimar el u
ltimo factor del lado derecho de (27) utilizamos la formula de Stirling n!

n+ 21 n
e :
2 n

1
1
(n)!
2 (n)n+ 2 en
1

(n 1)k (n k)!
(n 1)k 2 (n k)(nk)+ 21 e(nk)
1

(n)n+ 2 ek
1
(n 1)k (n k)(nk)+ 21

 
n+ 1
2
n k k
n
=
ek
n1
n k
"
1 #1

k n+ 2
k k
e
1
n
=

k .

(28)

De (26), (27) y (28) resulta que


   k 

r
1
k
1 rk
e .
1
k
n
n
k!

4.2.

Algunas distribuciones relacionadas con la estadstica de Bose-Einstein

Se distribuyen r partculas indistinguibles en n celdas y cada una de las



raciones tiene probabilidad 1/ r+n1
n1 .
4.2.1.

(29)

r+n1
n1

configu-

Cantidad de partculas por celda

Cantidad de partculas en una celda especfica. Para calcular la probabilidad, pBE (k),
de que una celda especfica contenga exactamente k partculas (k = 0, 1, . . . , r) fijamos k de
los r ceros y 1 de los n 1 unos para representar que hay k partculas en la urna especfica.
La cantidad de configuraciones
distintas que pueden formarse con los restantes r k ceros y

n 2 unos es rk+n2
.
Resulta
que
n2



r k + n 2 r + n 1 1
pBE (k) =
.
n1
n2

(30)

Cantidad de partculas m
as probable en una celda especfica. Cuando n > 2 la
cantidad m
as probable de partculas en una celda especfica es 0 o m
as precisamente pBE (0) >
pBE (1) > .
Demostraci
on. (Ejercicio.)

33

4.2.2.

Forma lmite: la distribuci


on de Geom
etrica

Forma lmite. Si n y r de modo que la cantidad promedio = r/n de partculas


por celda se mantiene constante, entonces
pBE (k)

k
.
(1 + )k+1

Dicho en palabras, la forma lmite de la estadstica de Bose-Einstein es la distribuci


on ge1
ometrica de par
ametro 1+
definida por
k

1
1
,
k = 0, 1, 2, . . .
p(k) := 1
1+
1+
Demostraci
on. Primero observamos que:



r k + n 2 r + n 1 1
=
n1
n2
=

(r k + n 2)! (n 1)!r!
(n 2)!(r k)! (r + n 1)!
(n 1)! r! (r k + n 2)!
.
(n 2)! (r k)! (r + n 1)!

(31)

Reemplazando en el lado derecho de (31) r = n obtenemos:

(n 1)! (n)! (n k + n 2)!


(n 2)! (n k)! (n + n 1)!

(32)

Para estimar los factores que intervienen en (32) utilizamos la formula de Stirling n!

1
2 nn+ 2 en :
"
n1 #1
1
1
(n 1)n1+ 2 en+1
(n 2)e1
1
n2+ 21 n+2
n1
e
(n 2)
n 2 n,
(33)
"
#1

1
n
(n)n+ 2 en
k
1
(n k)k ek
nk+ 21 n+k
n
e
(n k)
nk+n2+ 21

(n k + n 2)

n+n1+ 21

(n + n 1)

en+kn+2

enn+1

(n k)k k nk ,

(34)

(n k + n 2)k1 ek+1

1

k+1
n + n 1

n+n1

(n k + n 2)k1
1
.

(1 + )k+1 nk+1
De (31), (32), (33), (34) y (35) resulta que



r k + n 2 r + n 1 1
k

.
n2
n1
(1 + )k

34

(35)

(36)

Ejercicios adicionales
12. Considerando la estadstica de Maxwell-Boltzmann para la distribucion aleatoria de r
partculas en n celdas demostrar que la cantidad de de partculas m
as probable en una celda
determinada es la parte entera de r+1
.
n
13. Considerando la estadstica de Bose-Einstein para la distribucion aleatoria de r partculas
(indistinguibles) en n > 2 celdas demostrar que la cantidad de de partculas m
as probable en
una celda determinada es 0.

4.3.

Tiempos de espera

Consideramos una vez m


as el experimento conceptual de ubicar aleatoriamente partculas
(distinguibles) en n celdas. Solo que ahora no fijamos la cantidad r de partculas y ubicamos
las partculas una por una hasta que ocurra alguna situaci
on prescrita. Analizaremos dos
situaciones:
(i) Ubicar partculas hasta que alguna se ubique en una celda ocupada previamente.
(ii) Fijada una celda, ubicar partculas hasta que alguna ocupe la celda.
Situaci
on (i). Usamos smbolos de la forma (j1 , j2 , . . . , jr ) para indicar que la primera, la
segunda,... y la r-esima partcula estan ubicadas en las celdas j1 , j2 , . . . , jr y que el proceso
culmina en el paso r. Esto significa que las ji son enteros entre 1 y n; que las j1 , j2 , . . . , jr1
son todas diferentes y que jr es igual a una de ellas. Toda configuracion de ese tipo representa
un punto muestral. Los posibles valores de r son 2, 3, . . . , n + 1.
Para un r fijo el conjunto de todos los puntos muestrales (j1 , j2 , . . . , jr ) representa el
evento que el proceso termina en el r-esimo paso. Los n
umeros j1 , j2 , . . . , jr1 pueden elegirse
de (n)r1 formas diferentes; jr podemos elegir uno de los r 1 n
umeros j1 , j2 , . . . , jr1 . Por
lo tanto la probabilidad de que el proceso termine en el r-esimo paso es
pr =

(n)r1 (r 1)
.
nr

(37)

Situaci
on (ii). Usamos smbolos de la forma (j1 , j2 , . . . , jr ) para indicar que la primera, la
segunda,... y la r-esima partcula estan ubicadas en las celdas j1 , j2 , . . . , jr y que el proceso
culmina en el paso r. Las r-uplas (j1 , j2 , . . . , jr ) estan sujetas a la condici
on de que los n
umeros
j1 , j2 , . . . , jr1 son diferentes de un n
umero prescrito a n, y jr = a.
Para un r fijo el conjunto de todos los puntos muestrales (j1 , j2 , . . . , jr ) representa el
evento que el proceso termina en el r-esimo paso. Los n
umeros j1 , j2 , . . . , jr1 pueden elegirse
de (n 1)r1 formas diferentes; jr debe ser a. Por lo tanto la probabilidad de que el proceso
termine en el r-esimo paso es
pr =

(n 1)r1
.
nr

35

(38)

5.

Bibliografa consultada
Para redactar estas notas se consultaron los siguientes libros:
1. Bertsekas, D. P., Tsitsiklis, J. N.: Introduction to Probability. M.I.T. Lecture Notes.
(2000)
2. Bremaud, P.: An Introduction to Probabilistic Modeling. Springer, New York. (1997)
3. Durrett, R. Elementary Probability for Applications. Cambridge University Press, New
York. (2009)
4. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. John
Wiley & Sons, New York. (1957)
5. Ferrari, P.: Passeios aleat
orios e redes eletricas. Instituto de Matem
atica Pura e Aplicada. Rio de Janeiro. (1987)
6. Grinstead, C. M. & Snell, J. L. Introduction to Probability. American Mathematical
Society. (1997)
7. Kolmogorov, A. N.: Foundations of the Theory of Probability. Chelsea Publishing Co.,
New York. (1956)
8. Kolmogorov, A. N.: The Theory of Probability. Mathematics. Its Content, Methods,
and Meaning. Vol 2. The M.I.T. Press, Massachusetts. (1963) pp. 229-264.
9. Meester, R.: A Natural Introduction to Probability Theory. Birkhauser, Berlin. (2008)

10. Meyer, P. L.: Introductory Probability and Statistical Applications. Addison-Wesley,


Massachusetts. (1972)
11. Ross, S. M: Introduction to Probability and Statistics foe Engineers and Scientists.
Elsevier Academic Press, San Diego. (2004)
12. Skorokhod, A. V.: Basic Principles and Applications of Probability Theory. SpringerVerlag, Berlin. (2005)
13. Soong, T. T.: Fundamentals of Probability and Statistics for Engineers. John Wiley &
Sons Ltd. (2004)
14. Stoyanov, J.: Counterexamples in Probability. John Wiley & Sons. (1997)

36

Probabilidad Condicional, Independencia Estocastica


Algunos modelos probabilsticos
(Borradores, Curso 23)
Sebastian Grynberg
18-20 de marzo 2013

No importa lo que yo piense.


Es lo que t
u piensas lo que es relevante.
(Dr. House)

Indice
1. Probabilidad Condicional
1.1. Probabilidad Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2. Formula de probabilidad total . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3. Regla de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3
3
4
7

2. Independencia estoc
astica

10

3. Modelos discretos

11

4. Modelos continuos
4.1. Puntos al azar sobre un segmento. La distribucion uniforme
4.2. Geometra y probabilidad . . . . . . . . . . . . . . . . . . .
4.3. Paradoja de Bertrand . . . . . . . . . . . . . . . . . . . . .
4.4. De las masas puntuales a la masa continua . . . . . . . . .
5. Bibliografa consultada

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

14
14
15
17
18
20

1.

Probabilidad Condicional

1.1.

Probabilidad Condicional

Sea (, A, P) un espacio de probabilidad.


Definici
on 1.1 (Probabilidad condicional). Sea A un evento de probabilidad positiva.
Para cada evento B definimos
P(B|A) :=

P(B A)
.
P(A)

(1)

La cantidad definida en (1) se llama la probabilidad condicional de B dado que ocurri


o A.
Nota Bene (La probabilidad condicional induce una medida de probabilidad sobre
los eventos aleatorios). Valen las siguientes propiedades:
1. Para cada B A, P(B|A) 0;
2. P(|A) = 1;
3. Si los eventos B y C no tienen elementos en com
un, entonces
P(B C|A) = P(B|A) + P(C|A).
4. Para cada sucesion decreciente de eventos B1 B2 tal que
lmn P(Bn |A) = 0.

n=1 Bn

= vale que

Comparando las propiedades 1-4 con los axiomas I-IV, se concluye que la funcion P(|A) :
A R es una medida de probabilidad sobre los eventos aleatorios. Por lo tanto, todos los
resultados generales referidos a la propiedades de P() tambien valen para la probabilidad
condicional P(|A).
Ejemplo 1.2. Se lanza un dado equilibrado. Sabiendo que el resultado del dado no supero al
4, cu
al es la probabilidad condicional de haber obtenido un 3? Denotando mediante A al
evento el resultado no supera al 4 y mediante B el evento el resultado es 3. Tenemos que
P(A) = 4/6, P(B) = 1/6 y P(A B) = P(A) = 1/6. As
P(B|A) =

P(B A)
1/6
1
=
= ,
P(A)
4/6
4

lo que intuitivamente tiene sentido (por que?).


Probabilidad compuesta. De la definicion de la probabilidad condicional del evento B
dado que ocurrio el evento A resulta inmediatamente la siguiente formula
P(A B) = P(B|A)P(A).
denominada regla del producto.
El siguiente Teorema generaliza la regla del producto (2) y se obtiene por induccion.

(2)

ni=1 Ai

A1 A2 A3
P(A1 )
A1

P(A2 |A1 )
A2

P(A3 |A2 A1 )
A3

An1

n1
Ai )
P(An | i=1

An

nica
Figura 1: Ilustraci
on de la regla del producto. El evento ni=1 Ai tiene asociada una u
trayectoria sobre un
arbol que describe la historia de un experimento aleatorio realizado por
etapas sucesivas. Las aristas de esta trayectoria corresponden a la ocurrencia sucesiva de los
eventos A1 , A2 , . . . , An y sobre ellas registramos la correspondiente probabilidad condicional.
El nodo final de la trayectoria corresponde al evento ni=1 Ai y su probabilidad se obtiene multiplicando las probabilidades condicionales registradas a lo largo de las aristas de la trayectoria:
n1
Ai ). Notar que cada nodo intermedio
P(ni=1 Ai ) = P(A1 )P(A2 |A1 )P(A3 |A2 A1 ) P(An |i=1
a lo largo de la trayectoria tambien corresponde a un evento interseccion y su probabilidad se
obtiene multiplicando las probabilidades condicionales registradas desde el inicio de la trayectoria hasta llegar al nodo. Por ejemplo, el evento A1 A2 A3 corresponde al nodo indicado
en la figura y su probabilidad es P(A1 A2 A3 ) = P(A1 )P(A2 |A1 )P(A3 |A1 A2 ).
Teorema 1.3 (Regla del producto). Suponiendo que todos los eventos condicionantes tienen
probabilidad positiva, tenemos que
n1 
(3)
P (ni=1 Ai ) = P An i=1
Ai P (A3 |A1 A2 ) P(A2 |A1 )P(A1 ).
Ejemplo 1.4. Una urna contiene 5 bolas rojas y 10 bolas negras. Se extraen dos bolas al
azar sin reposicion. Cual es la probabilidad que ambas bolas sean negras?
Sean N1 y N2 los eventos definidos por la primer bola extrada es negra y la segunda
bola extrada es negra, respectivamente. Claramente P(N1 ) = 10/15. Para calcular P(N2 |N1 )
observamos que si ocurrio N1 , entonces solo 9 de las 14 bolas restantes en la urna son negras.
As P(N2 |N1 ) = 9/14 y
P(N2 N1 ) = P(N2 |N1 )P(N1 ) =

1.2.

10 9
3

= .
15 14
7

F
ormula de probabilidad total

Teorema 1.5 (F
ormula de
S probabilidad total). Sea A1 , A2 , . . . una sucesion de eventos disAn = . Para cada B A vale la siguiente formula
juntos dos a dos tal que
n1

P(B) =

P(B|An )P(An ),

(4)

n1

denominada f
ormula de probabilidad total 1 .
1
Rigurosamente, P(B|An ) est
a definida cuando P(An ) > 0, por lo cual en la f
ormula (4) interpretaremos
que P(B|An )P(An ) = 0 cuando P(An ) = 0.

P(B|A)

P(B c |A)

Bc

AB

P(A)
A Bc

P(B|Ac )

P(B c |Ac )

Bc

Ac B

P(A )

Ac
Ac B c

Figura 2: Ilustraci
on de la f
ormula de probabilidad total. Un experimento de dos
etapas binarias y su correspondiente diagrama de a
rbol. La primera ramificacion (de izquierda
a derecha) se basa en el resultado de la primer etapa del experimento (A o Ac ) y la segunda
en su resultado final (B o B c ). Multiplicando las probabilidades registradas a lo largo de
cada trayectoria se obtiene la probabilidad del evento interseccion representado por el nodo
final. Sumando las probabilidades de las trayectorias que corresponden al evento B se obtiene:
P(B) = P(A B) + P(Ac B) = P(B|A)P(A) + P(B|Ac )P(Ac ).
Demostraci
on de la f
ormula de probabilidad total. De la identidad de conjuntos

[
[
B =B=B
An =
(B An )
n1

n1

y la -aditividad de la medida de probabilidad P se deduce que


P(B) =

n=1

P(B An ).

Si P(An ) = 0, P(B An ) = 0 porque B An An . Si P(An ) > 0, entonces P(B An ) =


P(B|An )P(An ).
Nota Bene: C
alculo mediante condicionales. Si se dispone de una colecci
on de eventos
A1 , A2 , . . . de los cuales uno y solamente uno debe ocurrir, la formula de probabilidad total
(4) permite calcular la probabilidad de cualquier evento B condicionando a saber cu
al de los
eventos Ai ocurrio. M
as precisamente, la formula (4) establece que la probabilidad P(B) es
igual al promedio ponderado de las probabilidades condicionales P(B|Ai ) donde cada termino
5

se pondera por la probabilidad del evento sobre el que se condicion


o. Esta formula es u
til
debido a que a veces es m
as facil evaluar las probabilidades condicionales P(B|Ai ) que calcular
directamente la probabilidad P(B).
Ejemplo 1.6 (Experimentos de dos etapas). La primera etapa del experimento produce
una particion A1 , A2 , . . . del espacio muestral . La segunda etapa produce el evento B. La
formula (4) se utiliza para calcular la probabilidad de B.
Ejemplo 1.7. Una urna contiene 5 bolas rojas y 10 bolas negras. Se extraen dos bolas sin
reposicion. Cual es la probabilidad de que la segunda bola sea negra?
El espacio muestral de este experimento aleatorio se puede representar como las trayectorias a lo largo de un
arbol como se muestra en la Figura 3.
P()

1/3

4/14

1 , 4/42

10/14

2 , 10/42

5/14

2/3

3 , 10/42

9/14

4 , 18/42

Figura 3: Observando el
arbol se deduce que la probabilidad de que la segunda bola sea negra
2
9
2
1 10
es: 3 14 + 3 14 = 3 .
Formalmente, el problema se resuelve mediante la formula de probabilidad total. Sean Ni
y Ri los eventos definidos por la i-esima bola extrada es negra y la i-esima bola extrada
es roja, respectivamente (i = 1, 2). Vale que
P(N1 ) =

10
,
15

P(R1 ) =

5
,
15

P(N2 |R1 ) =

10
,
14

P(N2 |N1 ) =

Usando la formula de probabilidad total obtenemos


P(N2 ) = P(N2 R1 ) + P(N2 N1 )

= P(N2 |R1 )P(R1 ) + P(N2 |N1 )P(N1 )


9 2
28
2
10 1
+
=
= .
=
14 3 14 3
42
3

9
.
14

1.3.

Regla de Bayes

Primera versi
on de la regla de Bayes. Sean A y B dos eventos de probabilidad positiva.
De la regla del producto (2) y su an
aloga P(A B) = P(A|B)P(B) se obtiene la siguiente
formula importante
P(A|B) =

P(B|A)P(A)
,
P(B)

(5)

que contiene lo esencial del Teorema de Bayes.


Ejemplo 1.8. Un test de sangre es 95 % efectivo para detectar una enfermedad cuando una
persona realmente la padece. Sin embargo, el test tambien produce un falso positivo en el
1 % de las personas saludables testeadas. Si el 0, 5 % de la poblacion padece la enfermedad,
cu
al es la probabilidad de que una persona tenga la enfermedad si su test resulto positivo?
Sea A el evento definido por la persona testeada tiene la enfermedad y sea B el evento
definido por el resultado de su test es positivo. La probabilidad que nos interesa es P(A|B)
y se puede calcular de la siguiente manera. Sabemos que
P(A) = 0.005,

P(Ac ) = 0.995,

P(B|A) = 0.95,

P(B|Ac ) = 0.01,

y usando esa informaci


on queremos calcular
P (A|B) =

P(A B)
.
P(B)

El numerador, P(A B), se puede calcular mediante la regla del producto


P(A B) = P(B|A)P(A) = (0.95)(0.005)
y el denominador, P(B), se puede calcular usando la formula de probabilidad total
P(B) = P(B|A)P(A) + P(B|Ac )P(Ac ) = (0.95)(0.005) + (0.01)(0.995).
Por lo tanto,
P(A|B) =

P(A B)
P(B|A)P(A)
95
=
=
0.323.
c
c
P(B)
P(B|A)P(A) + P(B|A )P(A )
294

En otras palabras, s
olo el 32 % de aquellas personas cuyo test resulto positivo realmente tienen
la enfermedad.
S
An = .
Teorema 1.9 (Bayes). Sean A1 , A2 , . . . , eventos disjuntos dos a dos y tales que
n1

Sea B un evento de probabilidad positiva. Entonces,

P(B|An )P(An )
,
k1 P(B|Ak )P(Ak )

P(An |B) = P

n 1.

(6)

Si los eventos A1 , A2 , . . . se llaman hipotesis, la formula (6) se considera como la probabilidad de ocurrencia de la hip
otesis An sabiendo que ocurrio el evento B. En tal caso, P(An )
es la probabilidad a priori de la hip
otesis An y la formula (6) para P(An |B) se llama la regla
de Bayes para la probabilidad a posteriori de la hip
otesis An .
7

Nota Bene. Advertimos al lector que no trate de memorizar la formula (6). Matem
aticamente, solo se trata de una forma especial de escribir la formula (5) y de nada m
as.
Ejemplo 1.10 (Canal de comunicaci
on binario). Un canal de comunicaci
on binario simple
transporta mensajes usando solo dos se
nales: 0 y 1. Supongamos que en un canal de comunicaci
on binario dado el 40 % de las veces se transmite un 1; que si se transmiti
o un 0 la
probabilidad de recibirlo correctamente es 0.90; y que si se transmiti
o un 1 la probabilidad
de recibirlo correctamente es 0.95. Queremos determinar
(a) la probabilidad de recibir un 1;
(b) dado que se recibi
o un 1, la probabilidad de que haya sido transmitido un 1;
Soluci
on. Consideramos los eventos A=se transmiti
o un 1 y B=se recibi
o un 1. La
informaci
on dada en el enunciado del problema significa que P(A) = 0.4, P(Ac ) = 0.6,
P(B|A) = 0.95, P(B|Ac ) = 0.1, P(B c |A) = 0.05, P (B c |Ac ) = 0.90 y se puede representar
en la forma de un diagrama de
arbol tal como se indic
o en la secci
on 1.2.
0.95

0.05

Bc

P(A B) = (0.4)(0.95)

0.4
P(A B c ) = (0.4)(0.05)

0.1

0.9

Bc

P(Ac B) = (0.6)(0.1)

0.6

Ac
P(Ac B c ) = (0.6)(0.9)

Figura 4: Observando el
arbol se deduce que la probabilidad de recibir un 1 es P(B) =
(0.4)(0.95) + (0.6)(0.1) = 0.44. Tambien se deduce que la probabilidad de que haya sido
transmitido un 1 dado que se recibi
o un 1 es P(A|B) = P(B|A)P(A)
= (0.4)(0.95)
= 0.863...
0.44
P(B)

Ejercicios adicionales
1. Los dados de Efron. Se trata de cuatro dados A, B, C, D como los que se muestran en
la Figura 5.
8

3
4

Figura 5: Dados de Efron


Las reglas del juego son las siguientes: juegan dos jugadores, cada jugador elige un dado,
se tiran los dados y gana el que obtiene el n
umero m
as grande.
(a) Calcular las siguientes probabilidades: que A le gane a B; que B le gane a C; que C le
gane a D; que D le gane a A.
(b) Cual es la mejor estrategia para jugar con los dados de Efron?.
(c) Lucas y Monk jugaran con los dados de Efron eligiendo los dados al azar. Calcular las
siguientes probabilidades:
que Lucas pierda la partida si Monk obtiene un 3,
que Lucas gane la partida si le toca el dado A.
(d) Que ocurre con el juego cuando los dados se eligen al azar?
(e) Que ocurre con el juego si a un jugador se le permite elegir un dado y el otro debe elegir
al azar uno entre los restantes tres?
(f) Lucas y Monk jugaron con los dados de Efron, eligiendo los dados al azar. Lucas gan
o,
cu
al es la probabilidad de que le haya tocado el dado C?

2.

Independencia estoc
astica

Definici
on 2.1 (Independencia estocastica). Los eventos A1 , A2 , . . . , An son mutuamente
independientes si satisfacen las siguientes 2n n 1 ecuaciones:
P(Ai1 Ai2 Aim ) = P(Ai1 )P(Ai2 ) P(Aim ),

(7)

donde m = 1, 2, . . . , n, y 1 i1 < i2 < . . . < im n.


Nota Bene 1. Para n = 2 el sistema de ecuaciones (7) se reduce a una condici
on: dos
eventos A1 y A2 son independientes si satisfacen la ecuaci
on
P(A1 A2 ) = P(A1 )P(A2 ).

(8)

Ejemplo 2.2.
(a) Se extrae un naipe al azar de un mazo de naipes de poker. Por razones de simetra
esperamos que los eventos coraz
on y As sean independientes. En todo caso, sus probabilidades son 1/4 y 1/13, respectivamente y la probabilidad de su realizacion simult
anea es
1/52.
(b) Se arrojan dos dados. Los eventos as en el primer dado y par en el segundo son
independientes pues la probabilidad de su realizacion simult
anea, 3/36 = 1/12, es el producto
de sus probabilidades respectivas: 1/6 y 1/2.
(c) En una permutaci
on aleatoria de las cuatro letras a, b, c, d los eventos a precede a b
y c precede a d son independientes. Esto es intuitivamente claro y facil de verificar.
Nota Bene 2. Para n > 2, los eventos A1 , A2 , . . . , An pueden ser independientes de a pares:
P(Ai Aj ) = P(Ai )P(Aj ), 1 i < j n, pero no ser mutuamente independientes.
Ejemplo 2.3. Sea un conjunto formado por cuatro elementos: 1 , 2 , 3 , 4 ; las correspondientes probabilidades elementales son todas iguales a 1/4. Consideramos tres eventos:
A1 = {1 , 2 },

A2 = {1 , 3 },

A3 = {1 , 4 }.

Es facil ver que los eventos A1 , A2 , A3 son independientes de a pares, pero no son mutuamente
independientes:
P(A1 ) = P(A2 ) = P(A3 ) = 1/2,
P(A1 A2 ) = P(A1 A3 ) = P(A2 A3 ) = 1/4 = (1/2)2 ,
P(A1 A2 A3 ) = 1/4 6= (1/2)3 .

Independencia y probabilidades condicionales. Para introducir el concepto de independencia no utilizamos probabilidades condicionales. Sin embargo, sus aplicaciones dependen
generalmente de las propiedades de ciertas probabilidades condicionales.
Para fijar ideas, supongamos que n = 2 y que las probabilidades de los eventos A1 y A2
son positivas. En tal caso, los eventos A1 y A2 son independientes si y solamente si
P(A2 |A1 ) = P(A2 )

P(A1 |A2 ) = P(A1 ).

El siguiente Teorema expresa la relaci


on general entre el concepto de independencia y las
probabilidades condicionales.
10

Teorema 2.4. Sean A1 , A2 , . . . An eventos tales que todas las probabilidades P(Ai ) son
positivas. Una condici
on necesaria y suficiente para la mutua independencia de los eventos
A1 , A2 , . . . , An es la satisfacci
on de las ecuaciones
P(Ai |Ai1 Ai2 Aik ) = P(Ai )

(9)

cualesquiera sean i1 , i2 , . . . , ik , i distintos dos a dos.

Ejercicios adicionales
2. Se tira una moneda honesta n veces. Sea A el evento que se obtenga al menos una cara y sea
B el evento que se obtengan al menos una cara y al menos una ceca. Analizar la independencia
de los eventos A y B.
3. Andres, Francisco, Jemina e Ignacio fueron amigos en la escuela primaria. Se reencontraron en el curso 23 (PyE 61.09) de la FIUBA y se reunieron de a parejas a charlar. Como
resultado de esas charlas, cada pareja renovo su amistad con probabilidad 1/2 y no lo hizo
con probabilidad 1/2, independientemente de las demas. Posteriormente, Andres recibio un
rumor y lo transmiti
o a todas sus amistades. Suponiendo que cada uno de los que reciba
un rumor lo transmitir
a a todas sus amistades, cu
al es la probabilidad de que Ignacio haya
recibido el rumor transmitido por Andres?.

3.

Modelos discretos

Los espacios muestrales m


as simples son aquellos que contienen un n
umero finito, n,
de puntos. Si n es peque
no (como en el caso de tirar algunas monedas), es facil visualizar
el espacio. El espacio de distribuciones de cartas de poker es m
as complicado. Sin embargo,
podemos imaginar cada punto muestral como una ficha y considerar la colecci
on de esas fichas
como representantes del espacio muestral. Un evento A se representa por un determinado
conjunto de fichas, su complemento Ac por las restantes. De aqu falta s
olo un paso para
imaginar una bol con infinitas fichas o un espacio muestral con una sucesion infinita de
puntos = {1 , 2 , 3 , . . . }.
Definici
on 3.1. Un espacio muestral se llama discreto si contiene finitos o infinitos puntos
que pueden ordenarse en una sucesi
on 1 , 2 , . . . .

Sean un conjunto infinito numerable y A la -


algebra de todos los subconjuntos contenidos en . Todos los espacios de probabilidad que se pueden construir sobre (, A) se
obtienen de la siguiente manera:
1. Tomamos una sucesion de n
umeros no negativos {p() : } tal que
X
p() = 1.

2. Para cada evento A A definimos P(A) como la suma de las probabilidades de los
eventos elementales contenidos en A:
X
P(A) :=
p().
(10)
A

11

Nombres. La funcion p : [0, 1] que asigna probabilidades a los eventos elementales


se llama funci
on de probabilidad. La funcion P : A [0, 1] definida en (10) se llama la
medida de probabilidad inducida por p.
Nota Bene 1.

De la definicion (10) resultan inmediatamente las siguientes propiedades

(i) Para cada A A vale que P(A) 0


(ii) P() = 1.
(iii) -aditividad. Si A1 , A2 , . . . es una sucesion de eventos disjuntos dos a dos, entonces
!

X
[
P(An ).
An =
P
n=1

n=1

Nota Bene 2. No se excluye la posibilidad de que un punto tenga probabilidad cero. Esta
convencion parece artificial pero es necesaria para evitar complicaciones. En espacios discretos
probabilidad cero se interpreta como imposibilidad y cualquier punto muestral del que se sabe
que tiene probabilidad cero puede suprimirse impunemente del espacio muestral. Sin embargo,
frecuentemente los valores numericos de las probabilidades no se conocen de antemano, y se
requieren complicadas consideraciones para decidir si un determinado punto muestral tiene o
no probabilidad positiva.

Distribuci
on geom
etrica
Ejemplo 3.2 (Probabilidad geometrica). Sea p un n
umero real tal que 0 < p < 1. Observando
que

X
1
(1 p)n1 = ,
p
n=1

se deduce que la funcion p : N R definida por

p(n) := (1 p)n1 p,

n = 1, 2, . . .

define una funcion de probabilidad en = N = {1, 2, 3, . . . } que se conoce por el nombre de


distribuci
on geometrica de par
ametro p. Esta funcion de probabilidades esta ntimamente relacionada con la cantidad de veces que debe repetirse un experimento aleatorio para que ocurra
un evento A (prefijado de antemano) cuya probabilidad de ocurrencia en cada experimento
individual es p.
Ejemplo 3.3. El experimento consiste en lanzar una moneda tantas veces como sea necesario
hasta que salga cara. El resultado del experimento sera la cantidad de lanzamientos necesarios
hasta que se obtenga cara. Los resultados posibles son
= {1, 2, 3, . . . } {}.
El smbolo esta puesto para representar la posibilidad de que todas las veces que se lanza
la moneda el resultado obtenido es ceca. El primer problema que debemos resolver es asignar
probabilidades a los puntos muestrales. Una forma de resolverlo es la siguiente. Cada vez que se
arroja una moneda los resultados posibles son cara (H) o ceca (T ). Sean p y q la probabilidad
12

de observar cara y ceca, respectivamente, en cada uno de los lanzamientos. Claramente, p y


q deben ser no negativos y
p + q = 1.
Suponiendo que cada lanzamiento es independiente de los demas, las probabilidades se multiplican. En otras palabras, la probabilidad de cada secuencia determinada es el producto
obtenido de reemplazar las letras H y T por p y q, respectivamente. As,
P(H) = p;

P(T H) = qp;

P(T T H) = qqp;

P(T T T H) = qqqp.

Puede verse que para cada n N la secuencia formada por n 1 letras T seguida de la letra
H debe tener probabilidad q n1 p = (1 p)n1 p.
El argumento anterior sugiere la siguiente asignaci
on de probabilidades sobre : para cada
n N, p(n), la probabilidad de que la primera vez que se obtiene cara ocurra en el n-esimo
lanzamiento de la moneda esta dada por
p(n) = (1 p)n1 p.
Como las probabilidades geometricas suman 1 (ver el ejemplo 3.2) al resultado ceca en todos
los tiros se le debe asignar probabilidad p() = 0. Como el espacio muestral es discreto no
hay problema en suprimir el punto .
Consideremos el evento A = se necesitan una cantidad par de tiros para obtener la primer
cara. Entonces,
A = {2, 4, 6, 8, . . . },
y
P(A) =

p() =

X
k=1

p(2k) =

2k1

p = pq

k=1

q
1p
pq
=
=
.
(1 q)(1 + q)
1+q
2p

2k

= pq

k=0

1
1 q2

Ejemplo 3.4. Lucas y Monk juegan a la moneda. Lanzan una moneda equilibrada al aire,
si sale cara, Lucas le gana un peso a Monk; si sale ceca, Monk le gana un peso a Lucas. El
juego termina cuando alguno gana dos veces seguidas.
El espacio muestral asociado a este experimento aleatorio es
= {HH, T T, HT T, T HH, HT HH, T HT T, . . . }.
Como podemos tener secuencias de cualquier longitud de caras y cecas alternadas, el espacio
muestral es necesariamente infinito.
El evento A1 =la moneda fue lanzada como m
aximo tres veces esta dado por todos los
elementos de que tienen longitud menor o igual que tres:
A1 = {HH, T T, HT T, T HH}
y su probabilidad es
P(A1 ) = P(HH) + P(T T ) + P(HT T ) + P(T HH) =
13

1 1 1 1
3
+ + + = .
4 4 8 8
4

El evento A2 =ceca en el primer lanzamiento esta dado por todos los elementos de que
comienzan con T :
A2 = {T T, T HH, T HT T, T HT HH, . . . },
y su probabilidad es
P(A2 ) = P(T T ) + P(T HH) + P(T HT T ) + P(T HT HH) +
1
1
1
1
1
=
+ 3 + 4 + 5 + = .
2
2
2
2
2
2
Cual es la probabilidad de que el juego termine alguna vez? Si definimos los eventos An :=el
juego termina en la n-esima jugada, n 2, tendremos que el evento el juego termina alguna
vez es la uni
on disjunta de los eventos A1 , A2 , . . . , y por lo tanto su probabilidad es la suma
de las probabilidades de los eventos An . Para cada n 2 la probabilidad de An es
P(An ) =

2
1
= n1
n
2
2

En consecuencia la probabilidad de que el juego termine alguna vez es


X

n2

1
2n1

X 1
= 1.
2n

n1

Distribuci
on de Poisson
Ejemplo 3.5 (Probabilidad de Poisson). Sea un n
umero real positivo. Observando que

e =

X
n

n=0

n!

se deduce que la funcion p : N0 R definida por


p(n) := e

n
,
n!

n = 0, 1, 2, . . .

define una funcion de probabilidad en = N0 = {0, 1, 2, . . . }, conocida como la distribuci


on
de Poisson de intensidad .

4.
4.1.

Modelos continuos
Puntos al azar sobre un segmento. La distribuci
on uniforme

Elegir un punto al azar dentro de un segmento de recta de longitud finita es un experimento conceptual intuitivamente claro. Desde el punto de vista te
orico el experimento debe
describirse mediante un espacio de probabilidad (, A, P).
No se pierde generalidad, si se supone que la longitud del segmento es la unidad y se lo
identifica con el intervalo = [0, 1]. La -
algebra de eventos A y la medida de probabilidad
P : A R se construyen por etapas.
14

1. Definimos A0 como la familia de los intervalos contenidos en de la forma [a, b], [a, b),
(a, b] o (a, b), a b (notar que A0 no es un algebra) y definimos P0 : A0 R de la
siguiente manera:
P0 (A) := longitud(A) = b a, si los extremos del intervalo A son a y b.
2. La familia A1 de todas las uniones finitas de conjuntos disjuntos de A0 es un algebra
de eventos y la funcion P1 : A1 R definida por
P1 (A) :=

k
X

P0 (Ai ), si A =

k
[

Ai ,

i=1

i=1

donde A1 , . . . , Ak A0 y Ai Aj = para toda pareja de ndices i 6= j, es una medida


de probabilidad (pues satisface los axiomas I-IV).
3. El teorema de extensi
on se ocupa del resto: la medida de probabilidad P1 definida sobre
el algebra A1 se extiende unvocamente a una medida de probabilidad P definida sobre
la -
algebra generada por A1 , A := (A1 ).
Nota Bene. Esta definicion de probabilidad que a cada intervalo A [0, 1] le asigna su
respectiva longitud se llama la distribuci
on uniforme sobre el intervalo [0, 1] y constituye una
generalizaci
on de la noci
on de equiprobabilidad sobre la que se basa la definicion de Laplace
de la probabilidad para espacios finitos: casos favorables sobre casos posibles.

4.2.

Geometra y probabilidad

Una construcci
on completamente an
aloga a la de la secci
on anterior permite describir
te
oricamente el experimento conceptual, intuitivamente claro, que consiste en elegir un punto
al azar dentro de una regi
on plana, R2 , de a
rea finita y no nula. Para fijar ideas, se puede
imaginar que la regi
on plana es un blanco sobre el que se arroja un dardo.
Ejemplo 4.1 (Dardos). El juego de dardos consiste en tirar un dardo contra un blanco
circular. Supongamos que disparamos un dardo (que acertamos al blanco) y observamos donde
se clavo. Naturalmente, los resultados posibles de este experimento son todos los puntos del
blanco. No se pierde generalidad si se supone que el centro del blanco es el origen de R2 y
que su radio es 1. En tal caso el espacio muestral de este experimento es
= {(x, y) R2 : x2 + y 2 1}.
Intuitivamente, la probabilidad de acertarle a un punto predeterminado (arbitrario) debera
ser cero. Sin embargo, la probabilidad de que el dardo se clave en cualquier subconjunto
(gordo) A del blanco debera ser proporcional a su area y determinarse por la fraccion del
area del blanco contenida en A. En consecuencia, definimos
P(A) :=

rea de A
a
area de A
=
.
area del blanco

Por ejemplo, si A = {(x, y) : x2 + y 2 r2 } es el evento que el dardo caiga a distancia r < 1


del centro del blanco, entonces
r2
P(A) =
= r2 .

15

Puntos al azar en regiones planas. Si hacemos abstraccion de la forma circular del


blanco y de la sem
antica involucrada en el juego de dardos, obtenemos un modelo probabilstico para el experimento conceptual que consiste en sortear o elegir un punto al azar
en una regi
on plana R2 de
area finita y positiva. El espacio muestral es la regi
on plana,
= , la -
algebra de los eventos, A, es la familia de todos los subconjuntos de a los que
se les puede medir el
area y la probabilidad de cada evento A es la fraccion del area de
contenida en A. Esto es,
P(A) :=

area(A)
.
area()

(11)

Esta forma de asignar probabilidades es la equivalente para el caso continuo de la formula


casos favorables sobre casos posibles utilizada en espacios muestrales finitos para modelar
experimentos aleatorios con resultados equiprobables.
Nota Bene. Si en lugar de elegir un punto al azar dentro del segmento [a, b] elegimos
dos puntos de manera independiente, el experimento tendr
a por resultado un par de n
umeros
reales contenidos en [a, b]. El espacio muestral sera el cuadrado de lado [a, b], = [a, b] [a, b].
En este espacio la asignaci
on de probabilidades definida en (11) resulta consistente con la
noci
on de independencia.
Ejemplo 4.2. Se eligen al azar (y en forma independiente) dos puntos x1 y x2 dentro de un
segmento de longitud L. Hallar la probabilidad de que la longitud del segmento limitado por
los puntos x1 y x2 resulte menor que L/2.

0000000000000000
0000000000000000000000000000000
1111111111111111111111111111111
1111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
000000000000000000000000000000010
L1111111111111111111111111111111
0000000000000000000000000000000
21111111111111111111111111111111
1010
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
1010
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
1010
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
00000000000000000000000000000001010
1111111111111111111111111111111

L
2

Figura 6: La regi
on sombreada corresponde al evento A=la longitud del segmento limitado
por los puntos x1 y x2 resulte menor que L/2.
El espacio muestral de este experimento es un cuadrado de lado L que puede representarse
en la forma = {(x1 , x2 ) : 0 x1 L, 0 x1 L}.
El evento A=la longitud del segmento limitado por los puntos x1 y x2 resulte menor que
L/2 puede ocurrir de dos maneras distintas:
(1) si x1 x2 , se debe cumplir la desigualdad x2 x1 < L/2;
(2) si x2 < x1 , debe cumplirse la desigualdad x1 x2 < L/2.

16

Observando la Figura 6 esta claro que el area del evento A se obtiene restando al area del
cuadrado de lado L el
area del cuadrado de lado L/2:
area de A = L2

L2
3
= L2 .
4
4

Como el area total del espacio muestral es L2 , resulta que P(A) = 3/4.
Ejemplo 4.3 (Las agujas de Buffon). Una aguja de longitud 2l se arroja sobre un plano
dividido por rectas paralelas. La distancia entre rectas es 2a. Suponiendo que l < a, cu
al es
la probabilidad de que la aguja intersecte alguna de las rectas?
Localizamos la aguja mediante la distancia de su centro a la recta m
as cercana y el
angulo agudo entre la recta y la aguja: 0 a y 0 /2. El rectangulo determinado
por esas desigualdades es el espacio muestral . El evento A = la aguja interesecta la recta
ocurre si l sen . La probabilidad de A es el cociente del area de la figura determinada
por las tres desigualdades 0 a, 0 /2 y l sen y el area del rectangulo a/2.
R /2
El area de la figura es 0 l sen()d = l. Por lo tanto, la probabilidad de interseccion es

2l
.
(12)
a
La formula (12) indica un metodo aleatorio para estimar : arrojar la aguja n veces sobre el
plano y contar n(A) la cantidad de veces que la aguja interesect
o alguna recta:
P(A) =

= 2(l/a)(n/n(A)).

4.3.

Paradoja de Bertrand

Se dibuja una cuerda aleatoria CD


sobre el crculo de radio 1. Cual es la probabilidad que
la longitud de la cuerda CD supere 3, la longitud del lado del tri
angulo equilatero inscripto
en dicho crculo?
Este es un ejemplo de un problema planteado de manera incompleta. La pregunta que
debe formularse es la siguiente que significa elegir aleatoriamente? Bertrand propuso tres
respuestas diferentes a esa pregunta. Las diferentes respuestas corresponden en realidad a
diferentes modelos probabilsticos, i.e., diferentes espacios de probabilidad concretos (, A, P).
Primer modelo. Sea 1 la bola de radio 1, 1 = {(x, y) R2 : x2 + y 2 1}, con la
-
algebra A de los subconjuntos cuya area esta definida. Para cada A A,
P1 (A) =

area(A)
area(A)
=
.
area()

C y D se construyen del siguiente modo: usando la ley de distribucion P1 se sortea un


punto sobre la bola de radio 1 y CD es perpendicular al segmento 0 cuyos extremos
son (0, 0) y . La longitud
de CD es una funcion de que llamaremos (). Queremos

calcular P1 (() 3). Notar que

1
() 3 longitud(0) .
2
Por lo tanto,

3
/4
= .
P1 (() 3) =

4
17

Segundo modelo. Sea 2 el crculo de radio 1, 2 = {(x, y) R2 : x2 + y 2 = 1}, con la


-
algebra A de los subconjuntos cuya longitud esta definida. Para cada A A,
P2 (A) =

longitud(A)
longitud(A)
=
.
longitud())
2

C y D se construyen del siguiente modo: Se fija el punto C; con la ley P2 se sortea un


punto sobre el crculo de radio 1 y se pone D = . La longitud
de CD es una una
funcion de que llamaremos (). El conjunto { : ()) 3} es el segmento del
crculo determinado dos vertices del tri
angulo equil
atero inscripto en el crculo, a saber:
los del lado opuesto al vertice C. Por lo tanto,
P2 (()

3) =

2/3
1
= .
2
3

Tercer modelo. Sea 3 el intervalo [0, 1] con la -


algebra A de los subconjuntos cuya
longitud esta definida. Para cada A A,
P3 (A) = longitud(A).
C y D se construyen del siguiente modo: se sortea un punto sobre el intervalo [0, 1]
del eje x y CD es la cuerda perpendicular al eje x que pasa por . Es claro que,

() 3 [1/2, 1].
Por lo tanto, la tercer respuesta es 1/2.
Nota Bene. Obtuvimos 3 respuestas diferentes: 1/4, 1/3 y 1/2. Sin embargo, no hay porque
sorprenderse debido a que los modelos probabilsticos correspondientes a cada respuesta son
diferentes. Cual de los tres es el bueno es otro problema. El modelo correcto depende
del mecanismo usado para dibujar la cuerda al azar. Los tres mecanismos anteriores son
puramente intelectuales, y muy probablemente, no corresponden a ning
un mecanismo fsico.
Para discriminar entre modelos probabilsticos en competencia se debe recurrir al an
alisis
estadstico que esencialmente se basa en dos resultados de la Teora de Probabilidad: la ley
fuerte de los grandes n
umeros y el teorema central del lmite.

4.4.

De las masas puntuales a la masa continua

Para concluir esta secci


on mostraremos un par de metodos para construir medidas de
probabilidad sobre Rn .
Masas puntuales. Tomamos una sucesion de puntos {x1 , x2 , . . . } en Rn y una sucesion de
n
umeros no negativos {p(x1 ), p(x2 ), . . . } tales que

p(xi ) = 1

i=1

y para cada A Rn definimos P(A) como la suma de las masas puntuales, p(xi ), de los
puntos xi contenidos en A:
X
P(A) :=
p(xi ).
xi A

18

Nota Bene.
El metodo de las masas puntuales
puede generalizarse de la siguiente forma:
R
P
la suma xi se reemplaza por la integral dx y las masas puntuales p(xi ) por una funcion
(x) denominada densidad de probabilidades. Esta metodologa es de uso com
un en mecanica:
primero se consideran sistemas con masas puntuales discretas donde cada punto tiene masa
finita y despues se pasa a la noci
on de distribucion de masa continua, donde cada punto tiene
masa cero. En el primer caso, la masa total del sistema se obtiene simplemente sumando
las masas de los puntos individuales; en el segundo caso, las masas se calculan mediante
integracion sobre densidades de masa. Salvo por las herramientas tecnicas requeridas, no hay
diferencias esenciales entre ambos casos.
Definici
on 4.4. Una densidad de probabilidades sobre Rn es una funcion (m
as o menos
razonable) no negativa : Rn R+ tal que
Z
(x) dx = 1.
Rn

Masa continua. Tomamos una densidad de probabilidades : Rn R+ y para cada


subconjunto A Rn (m
as o menos razonable) y definimos P(A) como la integral de la
densidad (x) sobre el conjunto A:
Z
(x)dx
P(A) :=
A

Ejemplo 4.5 (Gaussiana). La funcion : R2 R+ definida por



 2
1
x + y2
(x, y) =
exp
2
2
es una densidad de probabilidades sobre R2 denominada gaussiana bidimensional. En efecto,
 2

ZZ
ZZ
x + y2
exp
2(x, y)dxdy =
dxdy
2
R2
R2
ZZ

exp (x2 + y 2 ) dxdy
= 2
R2

Z 2 Z
2
e d d
= 2
0
0

Z 2 Z
2
e 2 d d
=
0

= 2.

Nota Bene.

Observando con cuidado las identidades (13) se puede ver que


Z

2
ex /2 dx = 2.
R

Por lo tanto, la funcion : R R+ definida por

1
2
(x) = ex /2
2

es una densidad de probabilidades sobre R.


19

(13)

5.

Bibliografa consultada
Para redactar estas notas se consultaron los siguientes libros:
1. Bertsekas, D. P., Tsitsiklis, J. N.: Introduction to Probability. M.I.T. Lecture Notes.
(2000)
2. Bremaud, P.: An Introduction to Probabilistic Modeling. Springer, New York. (1997)
3. Durrett, R. Elementary Probability for Applications. Cambridge University Press, New
York. (2009)
4. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. John
Wiley & Sons, New York. (1957)
5. Grinstead, C. M. & Snell, J. L. Introduction to Probability. American Mathematical
Society. (1997)
6. Meester, R.: A Natural Introduction to Probability Theory. Birkhauser, Berlin. (2008)
7. Meyer, P. L.: Introductory Probability and Statistical Applications. Addison-Wesley,
Massachusetts. (1972)
8. Ross, S. M: Introduction to Probability and Statistics foe Engineers and Scientists.
Elsevier Academic Press, San Diego. (2004)
9. Skorokhod, A. V.: Basic Principles and Applications of Probability Theory. SpringerVerlag, Berlin. (2005)

10. Soong, T. T.: Fundamentals of Probability and Statistics for Engineers. John Wiley &
Sons Ltd. (2004)

20

Variables aleatorias: nociones basicas


(Borradores, Curso 23)
Sebastian Grynberg
20 de marzo 2013

... el u
nico heroe v
alido es el heroe en grupo,
nunca el heroe individual, el heroe solo.
(Hector G. Oesterheld)

Indice
1. Variables aleatorias
1.1. Propiedades de la funcion de distribucion . . .
1.2. Clasificaci
on de variables aleatorias . . . . . . .
1.3. Cuantiles . . . . . . . . . . . . . . . . . . . . .
1.4. Construccion de variables aleatorias . . . . . .
1.5. Funcion de distribucion emprica e histogramas

.
.
.
.
.

3
6
7
11
13
17

2. Variables truncadas
2.1. Perdida de memoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2. Caracterizacion cualitativa de la distribucion exponencial . . . . . . . . . . .
2.3. Dividir y conquistar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

21
22
23
23

3. Bibliografa consultada

24

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

1.

Variables aleatorias

Sea (, A, P) un espacio de probabilidad. Una variable aleatoria sobre es una funcion


X : R tal que para todo x R
{X x} := { : X() x} A,
i.e., para todo x R el evento {X x} tiene asignada probabilidad. La funci
on de distribuci
on FX : R [0, 1] de la variable aleatoria X se define por
FX (x) := P(X x).
C
alculo de probabilidades. La funcion de distribucion resume (y contiene) toda la informacion relevante sobre de la variable aleatoria. Para ser m
as precisos, para cada pareja de
n
umeros reales a < b vale que 1
P(a < X b) = FX (b) FX (a).

(1)

Ejemplos
Ejemplo 1.1 (Dado equilibrado). Sea X el resultado del lanzamiento de un dado equilibrado.
Los posibles valores de X son 1, 2, 3, 4, 5, 6. Para cada k {1, 2, 3, 4, 5, 6} la probabilidad de
que X tome el valor k es 1/6.
Sea x R. Si x < 1 es evidente que P(X x) = 0. Si k x < k + 1 para alg
un
k {1, 2, 3, 4, 5} la probabilidad del evento {X x} es la probabilidad de observar un valor
menor o igual que k y en consecuencia, P(X x) = k/6. Finalmente, si x 6 es evidente
que P(X x) = 1.
1
5/6
4/6
3/6
2/6
1/6

Figura 1: Gr
afico de la funcion de distribucion del resultado de lanzar un dado equilibrado.
Por lo tanto, la funcion de distribucion de X se puede expresar del siguiente modo
FX (x) =

6
X
1
k=1

1{k x}.

1
Basta observar que {X a} {X b} y usar las propiedades de la probabilidad. De la igualdad
{a < X b} = {X b} \ {X a} se deduce que P(a < X b) = P(X b) P(X a) = FX (b) FX (a).

Ejemplo 1.2 (Fiabilidad). Un problema fundamental de la ingeniera es el problema de la


fiabilidad. Informalmente, la fiabilidad de un sistema se define como su capacidad para cumplir
ciertas funciones prefijadas. Esta propiedad se conserva durante un perodo de tiempo hasta
que ocurre una falla que altera la capacidad de trabajo del sistema. Por ejemplo: rupturas y
cortocircuitos; fracturas, deformaciones y atascamientos de piezas mecanicas; el fundido o la
combusti
on de las componentes de un circuito.
Debido a que las fallas pueden ocurrir como hechos casuales, podemos considerar que el
tiempo de funcionamiento, T , hasta la aparici
on de la primer falla es una variable aleatoria
a valores no negativos.
La fiabilidad de un sistema se caracteriza por su funci
on intensidad de fallas (t). Esta
funcion temporal tiene la siguiente propiedad: cuando se la multiplica por dt se obtiene la
probabilidad condicional de que el sistema sufra una falla durante el intervalo de tiempo
(t, t + dt] sabiendo que hasta el momento t funcionaba normalmente. Si se conoce la funcion
(t) se puede hallar la ley de distribucion de probabilidades de T .
Para calcular la funcion de distribucion de T estudiaremos dos eventos: A := {T > t} (el
sistema funciona hasta el momento t) y B := {t < T t + dt} (el sistema sufre una falla en
el intervalo de tiempo (t, t + dt]). Como B A, tenemos que P(B) = P(B A) y de la regla
del producto se deduce que
P(B) = P(B|A)P(A).

(2)

Si la funcion de distribucion de T admite derivada continua, salvo terminos de segundo orden


que se pueden despreciar, la probabilidad del evento B se puede expresar en la forma
P(B) = P (t < T t + dt) = FT (t + dt) FT (t) = FT (t)dt.

(3)

La probabilidad del evento A se puede expresar en la forma


P(A) = P(T > t) = 1 P(T t) = 1 FT (t).

(4)

Finalmente, la probabilidad condicional P(B|A) se expresa mediante la funcion intensidad de


fallas (t):
P(B|A) = (t)dt

(5)

Sustituyendo las expresiones (3)-(5) en la formula (2) obtenemos, despues de dividir ambos
miembros por dt, una ecuaci
on diferencial de primer orden para FT (t)
FT (t) = (t)(1 FT (t)).

(6)

Debido a que la duraci


on del servicio del sistema no puede ser negativa, el evento {T 0} es
imposible. En consecuencia, FT (0) = 0. Integrando la ecuaci
on diferencial (6) con la condici
on
inicial F (0) = 0, obtenemos 2

 Z t
(s)ds .
(7)
FT (t) = 1 exp
0

FT (t) = (t)(1 FT (t))

FT (t)
d
= (t)
log(1 FT (t)) = (t)
1 FT (t)
dt
Z
Z t
log(1 FT (t)) =
(s)ds + C FT (t) = 1 exp
0

Usando que FT (0) = 0 se deduce que C = 0.

t
0

(s)ds + C .

Nota Bene. El desarrollo anterior presupone que la funcion Rintensidad de fallas (t) verifica

las siguientes condiciones: (1) (t) 0 para todo t > 0 y (2) 0 (t)dt = +.

Ejemplo 1.3 (Fiabilidad). Se estipula que la duraci


on de servicio de un sistema autom
atico
debe ser t0 . Si durante ese perodo el sistema falla, se lo repara y se lo utiliza hasta que sirva
el plazo estipulado. Sea S el tiempo de funcionamiento del sistema despues de la primera
reparacion. Queremos hallar la funcion de distribucion de S.
En primer lugar observamos que la relaci
on entre la variable aleatoria S y el instante T
en que ocurre la primera falla del sistema es la siguiente

t0 T si T t0 ,
S = m
ax(t0 T, 0) =
0
si T > t0 .
Sea FS (s) la funcion de distribucion de la variable S. Es claro que para s < 0, FS (s) = 0 y
que para s t0 , FS (s) = 1. Lo que falta hacer es analizar el comportamiento de FS sobre el
intervalo 0 s < t0 . Sea s [0, t0 )
FS (s) = P(S s) = P(m
ax(t0 T, 0) s) = P(t0 T s, 0 s)

 Z t0 s
(t)dt ,
= P(t0 T s) = P(t0 s T ) = exp
0

donde (t) es la funcion intensidad de fallas del sistema.


1

t
exp 0 0 (t)dt

t0

Figura 2: Gr
afico de la funcion de distribucion de la variable aleatoria S.
Por lo tanto,
 Z
FS (s) = exp

t0 s

(t)dt 1{0 s < t0 } + 1{s t0 }.


0

Ejercicios adicionales
1. Sea X una variable aleatoria con funcion de distribucion FX (x). Mostrar que para cada
pareja de n
umeros reales a < b vale que:
P(a X b) = FX (b) FX (a) + P(X = a)

(8)

P(a X < b) = FX (b) P(X = b) FX (a) + P(X = a)

(9)

P(a < X < b) = FX (b) P(X = b) FX (a)


5

(10)

Notar que las formulas (8)-(10), junto con (1), muestran como calcular la probabilidad de
que la variable aleatoria X tome valores en un intervalo de extremos a y b y contienen una
advertencia sobre la acumulacion de masa positiva en alguno de los dos extremos.

1.1.

Propiedades de la funci
on de distribuci
on

Lema 1.4. Sea X : R una variable aleatoria. La funcion de distribucion de X, FX (x) =


P(X x), tiene las siguientes propiedades:
(F1) es no decreciente: si x1 x2 , entonces FX (x1 ) FX (x2 );
(F2) es continua a derecha: para todo x0 R vale que lm FX (x) = FX (x0 );
xx0

(F3)

lm FX (x) = 0 y lm FX (x) = 1.
x

Demostraci
on.
La propiedad (F1) se deduce de la formula (1).
La propiedad (F2) es consecuencia del axioma de continuidad de la medida de probabilidad
P. Se considera una sucesion decreciente de n
umeros positivos que converge a 0, 1 > 2 >
. . . > 0, arbitraria,Tpero fija y se definen eventos An = {x0 < X x0 + n }. Se observa que
An = :
A1 A2 y
nN

0 =

lm P(An ) = lm P(x0 < X x0 + n ) = lm F (x0 + n ) F (x0 ).

Por lo tanto,
F (x0 ) = lm F (x0 + n ).
n

Las propiedades (F3) se demuestran de manera similar.


Observaci
on 1.5. Si se define
FX (x
m FX (x),
0 ) := l
xx0

entonces FX (x
0 ) = P(X < x0 ). Por lo tanto, P(X = x0 ) = FX (x0 ) FX (x0 ). En particular,
si FX (x) es continua en x0 , entonces P(X = x0 ) = 0. Si P(X = x0 ) > 0, entonces FX (x) es
discontinua en x0 y su discontinuidad es un salto de altura P(X = x0 ) > 0.

Ejercicios adicionales
2. Sea (, A, P) un espacio de probabilidad y X : R una variable aleatoria con funcion
de distribucion FX (x).
(a) Mostrar que
lm FX (x) = 0

lm FX (x) = 1.

(Sugerencia. Considerar sucesiones de eventos Bn = {X n} y Cn = {X n}, n N, y


utilizar el axioma de continuidad de la medida de probabilidad P.)
(b) Mostrar que
lm FX (x) = P(X < x0 ).

xx0

(Sugerencia. Observar que si x x0 , entonces {X x} {X < x0 } y utilizar el axioma de


continuidad de la medida de probabilidad P.)

1.2.

Clasificaci
on de variables aleatorias

En todo lo que sigue, X designa una variable aleatoria definida sobre un espacio de
probabilidad (, A, P) y FX (x) := P(X x) su funcion de distribucion.
Nota Bene. Al observar el gr
afico de una funcion de distribucion lo primero que llama la
atencion son sus saltos y sus escalones.

Atomos.
Diremos que a R es un a
tomo de FX (x) si su peso es positivo: P(X = a) =
FX (a) FX (a) > 0.
El conjunto de todos los
atomos de FX (x): A = {a R : FX (a) FX (a) > 0}, coincide
con el conjunto de todos los puntos de discontinuidad de FX (x). El peso de cada atomo
coincide con la longitud del salto dado por la funcion de distribucion en dicho atomo. En
consecuencia, existen a lo sumo un atomo de probabilidad > 12 , a lo sumo dos atomos de
probabilidad > 31 , etcetera. Por lo tanto, es posible reordenar los atomos en una sucesion
a1 , a2 , . . . tal que P(X = a1 ) P(X = a2 ) . En otras palabras, existen a lo sumo
numerables a
tomos.
La propiedad de -aditividad de la medida
P de probabilidad P implica que el peso total
del conjunto A no puede exceder la unidad: aA P(X = a) 1.

Definici
on 1.6 (Variables discretas). Diremos que X es una variable aleatoria discreta si
X
P(X = a) = 1.
aA

En tal caso, la funcion pX : A R definida por pX (x) = P(X = x) se denomina la funci


on
de probabilidad de X.
Escalones. Sea X una variable aleatoria discreta. Si a1 < a2 son dos atomos consecutivos,
entonces FX (x) = FX (a1 ) para todo x (a1 , a2 ). En otras palabras, la funci
on de distribuci
on
de una variable aleatoria discreta debe ser constante entre saltos consecutivos.
Si no lo fuera, deberan existir dos n
umeros x1 < x2 contenidos en el intervalo (a1 , a2 )
tales que FX (x1 ) < FX (x2 ). En tal caso,
X
P (X A (x1 , x2 ]) = P(X A) + P (x1 < X x2 ) =
P(X = a) + FX (x2 ) FX (x1 )
aA

= 1 + FX (x2 ) FX (x1 ) > 1.

lo que constituye un absurdo.


7

Definici
on 1.7 (Variables continuas). Diremos que X es una variable aleatoria continua si
su funcion de distribucion es continua.
Definici
on 1.8 (Variables mixtas). Diremos que X es una variable aleatoria mixta si no es
continua ni discreta.
Definici
on 1.9 (Variables absolutamente continuas). Diremos que X es absolutamente continua si existe una funcion (medible) fX : R R+ , llamada densidad de X, tal que cualesquiera sean a < b < vale que
Z b
fX (x) dx.
(11)
P(a < X b) =
a

En particular, para cada x R, vale que


FX (x) = P(X x) =
Nota Bene.

fX (t) dt.

(12)

Notar que de (12) se deduce que


Z
fX (x)dx = 1.

Aplicando en (12) el teorema Fundamental del Calculo Integral, se obtiene que si X es absolutamente continua, FX (x) es una funcion continua para todo x, y su derivada es fX (x) en
todos los x donde fX es continua.
Como la expresi
on absolutamente continua es demasiado larga, se suele hablar simplemente de distribuciones continuas. Sin embargo, hay que tener en cuenta que el hecho de
que FX sea una funci
on continua, no implica que la distribucion de X sea absolutamente continua: hay funciones monotonas y continuas, que sin embargo no son la primitiva de ninguna
funcion. (Para m
as detalles consultar el ejemplo sobre distribuciones tipo Cantor que esta en
Feller Vol II, p.35-36).
Interpretaci
on intuitiva de la densidad de probabilidad. Sea X una variable aleatoria
absolutamente continua con funcion densidad fX (x) continua. Para cada > 0 peque
no y
para x R vale que
Z x+/2
fX (t) dt fX (x).
P (x /2 < X x + /2) =
x/2

Dicho en palabras, la probabilidad de que el valor de X se encuentre en un intervalo de


longitud centrado en x es aproximadamente fX (x).

Ejemplos
Ejemplo 1.10. El resultado, X, del lanzamiento de un dado equilibrado (ver Ejemplo 1.1) es
una variable aleatoria discreta. Esto resulta evidente de observar que el gr
afico de la funcion
de distribucion de X (ver Figura 1) que tiene la forma de una escalera con saltos de altura
1/6 en los puntos 1, 2, 3, 4, 5, 6. Dicho en otras palabras, toda la masa de la variable aleatoria
X esta concentrada en el conjunto de los atomos de FX , A = {1, 2, 3, 4, 5, 6}.
8

Ejemplo 1.11 (N
umeros al azar). El resultado de sortear un n
umero al azar sobre el
intervalo (0, 1) es una variable aleatoria absolutamente continua. La probabilidad del evento
U u es igual a la longitud del intervalo (, u] (0, 1).
Notar que cuando u 0 el intervalo (, u] (0, 1) se reduce al conjunto vaco que por
definicion tiene longitud 0. Por otra parte, para cualquier u (0, 1) se tiene que (, u]
(0, 1) = (0, u) y en consecuencia P(U u) = u; mientras que si u 1, (, u] (0, 1) = (0, 1)
de donde sigue que P(U u) = 1. Por lo tanto, la funcion de distribucion de U es
FU (u) = u1{0 u < 1} + 1{u 1}.

1
0
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1

11
00

Figura 3: Gr
afico de la funcion de distribucion del resultado de sortear un n
umero al azar.
Derivando, respecto de u, la funcion de distribucion FU (u) se obtiene una funcion densidad
para U :
fU (u) = 1{0 < u < 1}.

Nota Bene. Sortear un n


umero al azar sobre el intervalo (0, 1) es un caso particular de
una familia de variables aleatorias denominadas uniformes. Una variable aleatoria X, definida
sobre un espacio de probabilidad (, A, P), se denomina uniformemente distribuida sobre el
intervalo (a, b), donde a < b, si X es absolutamente continua y admite una funcion densidad
de la forma
fX (x) =

1
1{x (a, b)}.
ba

En tal caso escribiremos X U(a, b).


Comentario. En la Secci
on 1.4 mostraremos que todas las variables aleatorias se pueden
construir utilizando variables aleatorias uniformemente distribuidas sobre el intervalo (0, 1).
Ejemplo 1.12. El tiempo, T , de funcionamiento hasta la aparicion de la primera falla para
un sistema con funcion intensidad de fallas continua (t) (ver Ejemplo 1.2) es una variable
aleatoria absolutamente continua que admite una densidad de la forma

 Z t
(s)ds 1{t > 0}.
(13)
fT (t) = (t) exp
0

Nota Bene: algunos casos particulares del Ejemplo 1.12. El comportamiento de la


densidad (13) depende de la forma particular de la funcion intensidad de fallas (t). En lo
que sigue mostraremos algunos casos particulares.
Exponencial de intensidad . Se obtiene poniendo (t) = 1{t 0}, donde es una
constante positiva, arbitraria pero fija.
fT (t) = exp (t) 1{t > 0}.

(14)

.
Weibull de par
ametros c y . Se obtiene poniendo (t) = c
c > 0 y > 0. En este caso, la densidad (13) adopta la forma
c
fT (t) =


t c1
1{t

 c1
  c 
t
t
.
exp

0}, donde

(15)

1.6
1.4
1.2
1
0.8
0.6
0.4
0.2
0

0.5

1.5

2.5

3.5

Figura 4: Gr
aficos de las densidades Weibull de par
ametro de escala = 1 y par
ametro de
forma: c = 1, 2, 4: en lnea s
olida c = 1; en lnea quebrada c = 2 y en lnea punteada c = 4.
Notar que la exponencial de intensidad es un caso especial de la Weibull puesto que (14) se
obtiene de (15) poniendo c = 1 y = 1 .
Ejemplo 1.13. La variable aleatoria, S, considerada en el Ejemplo 1.3 es una variable aleatoria mixta (ver 
Figura 2) porque
nico atomo en s = 0 y
 no es discreta ni continua. Tiene un u
R t0
su peso es exp 0 (x)dx .
10

1.3.

Cuantiles

Definici
on 1.14. Sea (0, 1). Un cuantil- de X es cualquier n
umero x R tal que
P(X < x )

P(X x ).

(16)

Observaci
on 1.15. Notar que las desigualdades que caracterizan a los cuantiles- se pueden
reescribir de la siguiente manera
FX (x ) P(X = x )

FX (x ).

(17)

Por lo tanto, si FX (x) es continua, x es un cuantil si y s


olo si
FX (x ) = .

(18)

Interpretaci
on geom
etrica del cuantil-. Si X es una variable aleatoria absolutamente continua con funcion de densidad fX (x) el cuantil- de X es la u
nica solucion de la
ecuaci
on
Z x
fX (x)dx = .

Esto significa que el cuantil- de X es el u


nico punto sobre el eje de las abscisas a cuya
izquierda el
area bajo la funcion de densidad fX (x) es igual a .
Nota Bene. Sea x R. Las desigualdades (17) significan que x es un cuantil- si y s
olo si
[F (x) P(X = x), F (x)]
Nota Bene. El cuantil- siempre existe. Sea (0, 1), la existencia del cuantil se deduce
= {x R : F (x)}.
analizando el conjunto RX
X
es no vac
1. RX
o porque lm FX (x) = 1.
x

es acotado inferiormente porque l


2. RX
m FX (x) = 0.
x

, entonces [x , +) R porque F (x) es no decreciente.


3. Si x0 RX
0
X
X
R porque existe una sucesi
tal que x
4. nf RX
on {xn : n N} RX
nf RX y
n
X
FX (x) es una funcion continua a derecha:



).
lm FX (xn ) = FX lm xn = FX (nf RX
n

De las propiedades anteriores se deduce que

RX
= [nf RX
, +) = [mn RX
, +) .
) = o (b) F (m
) > .
Hay dos casos posibles: (a) FX (mn RX
n RX
X
) = , entonces P(X < m
) = P(X = m
) .
(a) Si FX (mn RX
n RX
n RX

11

) > , entonces
(b) Si FX (mn RX

x < mn RX

P(X < x) <

(19)

porque sino existe un x < mn Rx tal que P(X < x) FX (x) y por lo tanto,
lo que constituye un absurdo.
x RX
)=
De (19) se deduce que P(X < mn RX

lm

xmn RX

FX (x) .

En cualquiera de los dos casos


x = mn {x R : FX (x) }

(20)

es un cuantil-.
Nota Bene. Si FX es discontinua, (18) no tiene siempre solucion; y por eso es mejor tomar
(16) como definicion. Si FX es estrictamente creciente, los cuantiles son u
nicos. Pero si no,
los valores que satisfacen (18) forman un intervalo.
Cuartiles y mediana. Los cuantiles correspondientes a = 0.25, 0.50 y 0.75 son respectivamente el primer, el segundo y tercer cuartil. El segundo cuartil es la mediana.

Ejemplos
Ejemplo 1.16. En el Ejemplo 1.1 hemos visto que la funcion de distribucion del resultado
del lanzamiento de un dado equilibrado es una escalera con saltos de altura 1/6 en los puntos
1, 2, 3, 4, 5, 6:
5
X
i
1 {i x < i + 1} + 1{6 x}.
FX (x) =
6
i=1

Como la imagen de FX es el conjunto {0, 1/6, 2/6, 3/6, 4/6, 5/6, 1} la ecuaci
on (18) solo tiene
solucion para {1/6, 2/6, 3/6, 4/6, 5/6}. M
as a
un, para cada i = 1, . . . , 5

i
x [i, i + 1).
6
En otras palabras, para cada i = 1, . . . , 5 los cuantiles-i/6 de X son el intervalo [i, i + 1). En
particular, la mediana de
 X es cualquier punto del intervalo [3, 4).
i
,
Para cada i1
6
6 , i = 1, . . . , 6, el cuantil de X es x = i.
FX (x) =

Ejemplo 1.17. Sea T el tiempo de funcionamiento hasta la aparicion de la primera falla para
un sistema con funcion intensidad de fallas (t) = 2t1{t 0} (ver Ejemplo 1.2). La funcion
de distribucion de T es


 Z t

2sds
1{t > 0} = 1 exp t2 1{t > 0}.
(21)
FT (t) = 1 exp
0

Como FT (t) es continua los cuantiles-, (0, 1), se obtienen resolviendo la ecuaci
on (18):
p

FT (t) = 1 exp t2 = t = log(1 ).
Por lo tanto, para cada (0, 1) el cuantil- de T es
p
t = log(1 ).
p
En particular, la mediana de T es t0.5 = log(1 0.5) 0.8325.
12

(22)

Ejemplo 1.18. Se considera un sistema con funcion intensidad de fallas (t) = 2t1{t 0}.
El sistema debe prestar servicios durante 1 hora. Si durante ese perodo el sistema falla, se lo
repara y se lo vuelve a utiliza hasta que cumpla con el el plazo estipulado. Sea S el tiempo
de funcionamiento (medido en horas) del sistema despues de la primera reparacion.
En el Ejemplo 1.3 vimos que la funcion de distribucion de S es

 Z 1s
2tdt 1{0 s < 1} + 1{s 1}
FS (s) = exp
0

= exp (1 s)2 1{0 s < 1} + 1{s 1},

y que S es una variable aleatoria mixta (ver Figura 2) con un u


nico atomo en
 s = 0 cuyo
peso es e1 . En consecuencia, s = 0 es un cuantil- de S para todo 0, e1 . Restringida
al intervalo (0, 1) la funcion FS (s) es continua y su imagen es el intervalo (e1 , 1). Por ende,
para cada (e1 , 1) el cuantil- de S se obtiene resolviendo la ecuaci
on FS (s) = :

FS (s) = exp (1 s)2 = (1 s)2 = log()
p
(1 s)2 = log() |1 s| = log()
p
p
1 s = log() 1 log() = s.
Por lo tanto, para cada (e1 , 1) el cuantil- de S es
p
s = 1 log().
p
En particular, la mediana de S es s0.5 = 1 log(0.5) 0.1674.

1.4.

Construcci
on de variables aleatorias

Teorema 1.19 (Simulacion). Sea F : R [0, 1] una funcion con las siguientes propiedades
(F1) es no decreciente: si x1 x2 , entonces F (x1 ) F (x2 );
(F2) es continua a derecha: para todo x0 R vale que lm F (x) = F (x0 );
xx0

(F3)

lm F (x) = 0 y lm F (x) = 1.
x

Existe una variable aleatoria X tal que F (x) = P(X x).


Esquema de la demostraci
on.
1o ) Definir la inversa generalizada de F mediante
F 1 (u) := mn{x R : u F (x)},

u (0, 1).

2o ) Definir X mediante
X := F 1 (U ),

donde U U(0, 1).

3o ) Observar que vale la equivalencia (inmediata) F 1 (u) x u F (x) y deducir que


P(X x) = P(F 1 (U ) x) = P(U F (x)) = F (x).
Observaci
on 1.20. Si la funcion F del enunciado del Teorema 1.19 es continua, la inversa
generalizada es simplemente la inversa.
13

Nota Bene. El esquema de la demostraci


on del Teorema 1.19 muestra c
omo se construye
una variable aleatoria X con funci
on de distribuci
on FX (x). La construcci
on es clave para simular variables aleatorias en una computadora: algoritmos estandar generan variables aleatorias
U con distribucion uniforme sobre el intervalo (0, 1), aplicando la inversa generalizada de la
funcion de distribucion se obtiene la variable aleatoria FX1 (U ) cuya funcion de distribucion
es FX (x).
M
etodo gr
afico para calcular inversas generalizadas. Sea u (0, 1), por definicion,
1
F (u) := mn{x R : u F (x)}, 0 < u < 1. Gr
aficamente esto significa que para calcular
F 1 (u) hay que determinar el conjunto de todos los puntos del gr
afico de F (x) que estan
sobre o por encima de la recta horizontal de altura u y proyectarlo sobre el eje de las abscisas.
El resultado de la proyecci
on es una semi-recta sobre el eje de las abscisas y el valor de la
abscisa que la cierra por izquierda es el valor de F 1 (u).
Ejemplo 1.21 (Moneda cargada). Se quiere simular el lanzamiento de una moneda cargada
con probabilidad p (0, 1) de salir cara. El problema se resuelve construyendo una variable
aleatoria X a valores {0, 1} tal que P(X = 1) = p y P(X = 0) = 1 p, (X = 1 representa el
evento la moneda sale cara y X = 0 la moneda sale ceca). La funcion de distribucion de
X debe ser F (x) = (1 p)1{0 x < 1} + 1{x 1} y su gr
afico se muestra en la Figura 5.
u
1

1p

Figura 5: Gr
afico de la funcion F (x) = (1 p)1{0 x < 1} + 1{x 1}.
La demostraci
on del Teorema 1.19 indica que para construir la variable aleatoria X lo
primero que hay que hacer es determinar la expresi
on de la inversa generalizada de F (x).
Para ello usaremos el metodo gr
afico.
En la Figura 5 se puede ver que para cada 0 < u 1 p el conjunto {x R : u F (x)}
es la semi-recta [0, ) y el punto que la cierra por izquierda es x = 0. En consecuencia
F 1 (u) = 0 para todo 0 < u 1 p. Del mismo modo se puede ver que F 1 (u) = 1 para
todo 1 p < u < 1. Por lo tanto, F 1 (u) = 1{1 p < u < 1}.
Definiendo X := 1{1 p < U < 1}, donde U U(0, 1) se obtiene la variable aleatoria
deseada.
Ejemplo 1.22 (Moneda cargada). Simular diez lanzamientos de una moneda cargada con
probabilidad 0.6 de salir cara en cada lanzamiento.
De acuerdo con el resultado obtenido en el Ejemplo 1.21, para simular el lanzamiento
de una moneda cargada con probabilidad 0.6 de salir cara se construye la variable aleatoria
X := 1{0.4 < U < 1}, donde U U(0, 1).
14

Para simular 10 valores de X se simulan 10 valores de U . Si en 10 simulaciones de U


se obtuviesen los valores 0.578, 0.295, 0.885, 0.726, 0.548, 0.048, 0.474, 0.722, 0.786, 0.598,
los valores de la variable X seran 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, respectivamente, y en tal caso, los
resultados de los 10 lanzamientos de la moneda seran H, T, H, H, H, T, H, H, H, H.
Ejemplo 1.23 (Fiabilidad). Se considera un sistema electr
onico con funci
on intensidad de
fallas de la forma (t) = 2t1{t > 0}. Se quiere estimar la funci
on de probabilidad de la
cantidad de fallas ocurridas durante la primer unidad de tiempo de funcionamiento.
Para simplificar el problema vamos a suponer que cada vez que se produce una falla, el
sistema se repara instantaneamente renovandose sus condiciones iniciales de funcionamiento. Seg
un el Ejemplo 1.2, la funcion de distribucion del tiempo de funcionamiento hasta la
aparicion de la primer falla es

F (t) = 1 exp t2 1{t > 0}.
(23)
Debido a que la funcion de distribucion F (t) es continua, su inversa generalizada es simplemente su inversa y se obtiene despejando t de la ecuaci
on 1 exp t2 = u. En consecuencia,
p
F 1 (u) = log(1 u), u (0, 1). Para construir la variable T usamos un n
umero aleatorio
U , uniformemente distribuido sobre el intervalo (0, 1) y definimos
p
(24)
T := F 1 (U ) = log(1 U ).

La ventaja de la construcci
on es que puede implementarse casi de inmediato en una computadora. Por ejemplo, una rutina en Octave para simular T es la siguiente
U=rand;
T=sqrt(-log(1-rand))
Sobre la base de esa rutina podemos simular valores de T . Por ejemplo, en diez simulaciones
de T obtuvimos los valores siguientes: 0.3577, 1.7233, 1.1623, 0.3988, 1.4417, 0.3052, 1.1532,
0.3875, 0.8493, 0.9888.
t
0

Figura 6: Simulacion de los tiempos de ocurrencia de las fallas de un sistema electronico con
funcion intensidad de fallas de la forma (t) = 2t1{t 0}. Las fallas ocurren los instantes
0.3577, 2.0811, 3.2434, 3.6422, 5.0839, 5.3892, 6.5423, 6.9298, 7.7791, 8.7679.
La rutina puede utilizarse para simular cien mil realizaciones del experimento que consiste
en observar la cantidad de fallas durante la primer unidad de tiempo
de funcionamiento
P
del sistema electr
onico bajo consideraci
on: N [0, 1] := mn {n 1 : ni=1 Ti > 1} 1, donde
T1 , T2 , . . . son realizaciones independientes de los tiempos de funcionamiento del sistema hasta
la ocurrencia de una falla.
Por ejemplo, repitiendo la simulacion 100000 veces obtuvimos la siguiente tabla que contiene la cantidad de veces que fue simulado cada valor de la variable N [0, 1]:
valor simulado
0
1
2
3
4
frecuencia
36995 51792 10438 743 32
15

(25)

obteniendose las siguientes estimaciones


P(N [0, 1] = 0) 0.36995, P(N [0, 1] = 1) 0.51792, P(N [0, 1] = 2) 0.10438,
P(N [0, 1] = 3) 0.00743, P(N [0, 1] = 4) 0.00032.
Para finalizar este ejemplo, presentamos una rutina en Octave que simula cien mil veces
la cantidad de fallas en la primer unidad de tiempo y que al final produce los resultados para
construir una tabla similar a la tabla (25).
for i=1:100000
n=-1;
S=0;
while S<=1;
T=sqrt(-log(1-rand));
S=S+T;
n=n+1;
end
f(i)=n;
end
M=max(f);
for i=1:M+1;
N(i)=length(find(f==i-1));
end
N
Ejemplo 1.24 (Saltando, saltando, sa, sa, sa, saltando,...

). La funcion

X
1
F (x) =
1{x rn },
2n

(26)

n=1

donde r1 , r2 , . . . es un reordenamiento de los n


umeros racionales del intervalo (0, 1) con denom1 1 2 1 3 1 2 3 4
inadores crecientes: 2 , 3 , 3 , 4 , 4 , 5 , 5 , 5 , 5 , . . . , tiene las siguientes propiedades es creciente,
continua a derecha, lm F (x) = 0 y lm F (x) = 1; tiene saltos en todos los n
umeros
x

racionales del (0, 1) y es continua en los irracionales del (0, 1).


Pero no! Mejor no hablar de ciertas cosas ...
Ejercicios adicionales
3. Sea X una variable aleatoria con funcion de distribucion FX (x). Mostrar que para cada
(0, 1) vale que
sup{x R : FX (x) < } = mn{x R : FX (x) }.

16

1.5.

Funci
on de distribuci
on emprica e histogramas

Distribuci
on emprica
La funci
on de distribuci
on emprica Fn (x) de n puntos sobre la recta x1 , . . . , xn es la
funcion escalera con saltos de altura 1/n en los puntos x1 , . . . , xn . En otras palabras, nFn (x)
es igual a la cantidad de puntos xk en (, x] y Fn (x) es una funcion de distribucion:
n

1
1X
Fn (x) = |{i = 1, . . . , n : xi x}| =
1{xi x}.
n
n

(27)

i=1

Nota Bene. En la practica, disponemos de conjuntos de observaciones (muestras) correspondientes a un experimento considerado aleatorio y queremos extraer de ellas conclusiones
sobre los modelos que podran cumplir. Dada una muestra x1 , . . . , xn , la funcion de distribuci
on emprica Fn (x) coincide con la funcion de distribucion de una variable aleatoria discreta
que concentra toda la masa en los valores x1 , . . . , xn , dando a cada uno probabilidad 1/n.
Observaci
on 1.25. Sea Fn (x) la funcion de distribucion emprica correspondiente a una
muestra de n valores x1 , . . . , xn . Sean a y b dos n
umeros reales tales que a < b. Notar que
n

Fn (b) Fn (a) =

1X
1
1{xi (a, b]} = |{i = 1, . . . , n : xi (a, b]}|.
n
n
i=1

En consecuencia, el cociente incremental de Fn (x) sobre el intervalo [a, b] es la frecuencia


relativa de los valores de la muestra x1 , . . . , xn contenidos en el intervalo (a, b] normalizada
por la longitud de dicho intervalo:
!


n
1X
1
Fn (b) Fn (a)
=
1{xi (a, b]} .
(28)
ba
ba
n
i=1

Notar que si los n valores, x1 , . . . , xn , corresponden a n observaciones independientes de


los valores de una variable aleatoria X, la interpretacion intuitiva de la probabilidad indica
que el cociente incremental (28) debera estar proximo del cociente incremental de la funcion
de distribucion, FX (x), de la variable aleatoria X sobre el intervalo [a, b]:
Fn (b) Fn (a)
P(a < X b)
FX (b) FX (a)

=
.
ba
ba
ba

(29)

Cuando X es una variable aleatoria absolutamente continua con funcion densidad continua
fX (x) la aproximacion (28) adopta la forma
1
Fn (b) Fn (a)

ba
ba

fX (x)dx = fX (x),
a

donde x es alg
un punto perteneciente al intervalo (a, b).

17

(30)

Histogramas
Un histograma de una muestra x1 , . . . , xn se obtiene eligiendo una particion en m intervalos
de extremos a0 < < am , con longitudes Lj = aj aj1 ; calculando las frecuencias relativas
n

pj =

1X
1{aj1 < xi < aj }
n
i=1

y graficando la funcion igual a pj /Lj en el intervalo (aj1 , aj ] y a 0 fuera de los intervalos:


fx1 ,...,xn ; a0 ,...,am (x) :=

m
X
pj
1{x (aj1 , aj ]}.
Lj

(31)

j=1

O sea, un conjunto de rectangulos con area pj .


Cuando la muestra x1 , . . . , xn corresponde a n observaciones independientes de una variable aleatoria X absolutamente continua la funcion definida en (31) es una versi
on discreta
de la densidad de X en la que las
areas miden frecuencias relativas.

Ejercicios adicionales
4. Lucas filma vdeos de tama
nos aleatorios. En una muestra aleatoria de 5 vdeos filmados
por Lucas se obtuvieron los siguiente tama
nos (en MB):
17, 21.3, 18.7, 21, 18.7
Hallar y graficar la funcion de distribucion emprica asociada a esta muestra. Estimar, usando
la funcion de distribucion emprica asociada a esta muestra, la probabilidad de que un vdeo
ocupe menos de 19.5 MB.
5. Los siguientes datos corresponden a los tiempos de funcionamiento (en a
nos) hasta que
ocurre la primer falla de una muestra de 12 m
aquinas industriales:
2.0087, 1.9067, 2.0195, 1.9242, 1.8885, 1.8098,
1.9611, 2.0404, 2.1133, 2.0844, 2.1695, 1.9695.
Usando los intervalos con extremos 1.7, 1.9, 2.1, 2.3, hallar la funcion histograma basada en
la muestra observada e integrarla para estimar la probabilidad de que una m
aquina industrial
del mismo tipo funcione sin fallas durante menos de dos a
nos.

Ejemplo 1.26. Sea T una variable aleatoria con distribucion exponencial de intensidad 1
(ver (14)). Esto es, T es una variable aleatoria absolutamente continua con funcion densidad
de probabilidad
fT (t) = et 1{t > 0}
y funcion de distribucion

FT (t) = 1 et 1{t 0}.
18

De acuerdo con el esquema de la demostraci


on del Teorema 1.19 podemos simular muestras de
T utilizando un generador de n
umeros aleatorios uniformemente distribuidos sobre el intervalo
(0, 1). Concretamente, si U U(0, 1), entonces
T = log(1 U )
es una variable con distribucion exponencial de intensidad 1.
Para obtener una muestra de 10 valores t1 , . . . , t10 de una variable con distribucion exponencial de intensidad 1 generamos 10 n
umeros aleatorios u1 , . . . , u10 y los transformamos
poniendo ti = log(1 ui ). Por ejemplo, si los valores u1 , . . . , u10 son, respectivamente,
0.1406, 0.3159, 0.8613, 0.4334, 0.0595, 0.8859, 0.2560, 0.2876, 0.2239, 0.5912,
los valores de la muestra obtenida, t1 , . . . , t10 , son, respectivamente,
0.1515, 0.3797, 1.9753, 0.5682, 0.0613, 2.1703, 0.2957, 0.3390, 0.2535, 0.8946.

(32)

La funcion de distribucion emprica de la muestra observada, F10 (t), es una funcion escalera
con saltos de altura 1/10 en los siguientes puntos del eje t:
0.0613, 0.1515, 0.2535, 0.2957, 0.3390, 0.3797, 0.5682, 0.8946, 1.9753, 2.1703.
Para construir un histograma usaremos la particion que se obtiene dividiendo en dos
intervalos de igual longitud el intervalo comprendido entre los valores mnimos y m
aximos
observados: 0.0613, 1.1158, 2.1703. La longitud L de cada intervalo es 1.0545. La frecuencia
relativa de la muestra sobre el primer intervalo es p1 = 8/10 y sobre el segundo p2 = 2/10 y
la correspondiente altura de cada rectangulo es p1 /L = 0.75865 y p2 /L = 0.18966.
1

1
Emprica
Terica

0.9
0.8

0.8

0.7

0.7

0.6

0.6

0.5

0.5

0.4

0.4

0.3

0.3

0.2

0.2

0.1

0.1

Hitograma
Densidad

0.9

(a)

(b)

Figura 7: (a) Gr
aficos de la funcion de distribucion emprica F10 (t) correspondiente a la
muestra dada en (32) y de la funcion de distribucion de T . (b) Histograma correspondiente a
la misma muestra y gr
afico de la densidad de T .

19

Para producir los gr


aficos de la Figura 7 usamos las siguientes rutinas en Octave.
Rutina para simular 10 valores de una exponencial de intensidad 1
U=rand(1,10);
T=-log(1-U);
Rutina para graficar la funci
on de distribuci
on emprica de la muestra T
t=sort(T);
s=empirical_cdf(t,t);
stairs([t(1),t],[0 s])
Rutina para graficar un histograma de la muestra T
[f,c]=hist(T,2);
p=f/10;
L=c(2)-c(1);
bar(c,p/L,1,w)
Usando rutinas similares para muestras de tama
no 100 se obtienen los siguientes gr
aficos.

0.9

0.9

0.8

0.8

0.7

0.7

0.6

0.6

0.5

0.5

0.4

0.4

0.3

0.3

0.2

0.2

0.1
0

0.1

Emprica
Terica
0

Hitograma
Densidad

(a)

(b)

Figura 8: (a) Gr
aficos de la funcion de distribucion emprica F100 (t) correspondiente a una
muestra de tama
no 100 de una variable T con distribucion exponencial de intensidad 1 y de
la funcion de distribucion de T . (b) Histograma correspondiente a la misma muestra y gr
afico
de la densidad de T .

20

2.

Variables truncadas

Sea X una variable aleatoria definida sobre un espacio de probabilidad (, A, P). Sea
B R un conjunto tal que X 1 (B) = { : X() B} A y tal que P(X B) > 0.
Truncar la variable aleatoria X al conjunto B significa condicionarla a tomar valores en
el conjunto B.
Mediante X|X B designaremos la variable aleatoria obtenida por truncar X al conjunto
B. Por definicion, la funcion de distribucion de X|X B es
FX|XB (x) = P(X x| X B) =

P(X x, X B)
.
P(X B)

(33)

Caso absolutamente continuo. Si la variable aleatoria X es absolutamente continua con


densidad de probabilidades fX (x), la funcion de distribucion de X|X B adopta la forma
R
Rx
fX (x)1{x B}dx
{Xx}{XB} fX (x)dx
FX|XB (x) =
=
.
(34)
P(X B)
P(X B)
Por lo tanto, X|X B es una variable aleatoria absolutamente continua con densidad de
probabilidades
fX|XB (x) =

fX (x)
1{x B}.
P(X B)

(35)

Nota Bene. La densidad condicional fX|XB (x) es cero fuera del conjunto condicionante
B. Dentro del conjunto condicionante la densidad condicional tiene exactamente la misma
forma que la densidad incondicional, salvo que esta escalada por el factor de normalizacion
1/P(X B) que asegura que fX|B (x) integra 1.
Ejemplo 2.1 (Exponencial truncada a la derecha). Sea T una variable aleatoria con distribuci
on exponencial de intensidad > 0 y sea t0 > 0. Seg
un la formula (35) la variable aleatoria
T truncada a la semi-recta (t, +), T | T > t0 , tiene la siguiente densidad de probabilidades
fT | T >t0 (t) =

et
1{t > t0 } = e(tt0 ) 1{t t0 > 0} = fT (t t0 ).
et0

En otros terminos, si T Exp(), entonces T | T > t0 t0 +Exp().


Caso discreto. El caso discreto se trata en forma an
aloga a la anterior. La funcion de
probabilidad de X|X B adopta la forma
pX|XB (x) =

P(X = x)
1{x B}.
P(X B)

(36)

Ejemplo 2.2 (Dado equilibrado). Sea X el resultado del tiro de un dado equilibrado y sea
B = {2, 4, 6}. El evento el resultado del tiro es un n
umero par es X B. Aplicando la
formula anterior obtenemos
pX|XB (x) =

1/6
1
1{x {2, 4, 6}} = 1{x {2, 4, 6}}.
1/2
3

21

(37)

2.1.

Perdida de memoria

Ejemplo 2.3. Lucas camina hacia la parada del colectivo. El tiempo, T , entre llegadas
de colectivos tiene distribucion exponencial de intensidad . Supongamos que Lucas llega t
minutos despues de la llegada de un colectivo. Sea X el tiempo que Lucas tendr
a que esperar
hasta que llegue el proximo colectivo. Cual es la distribucion del tiempo de espera X?
Designamos mediante A = {T > t} el evento Lucas lleg
o t minutos despues de la llegada
de un colectivo. Tenemos que
P(X > x|A) = P(T > t + x|T > t) =
=

P(T > t + x, T > t)


P(T > t)

P(T > t + x)
e(t+x)
=
= ex .
P(T > t)
et

Definici
on 2.4. Se dice que una variable aleatoria T no tiene memoria, o pierde memoria, si
P(T > s + t|T > t) = P(T > s)

para todo

s, t 0.

(38)

La condici
on de perdida de memoria es equivalente a la siguiente
P(T > s + t) = P(T > s)P(T > t).

(39)

En efecto, basta observar que P(T > s + t, T > t) = P(T > s + t) y usar la definicion de
probabilidad condicional.
Nota Bene. Si se piensa que T es el tiempo para completar cierta operacion, la ecuaci
on
(38) establece que si a tiempo t la operacion no ha sido completada, la probabilidad de que
la operacion no se complete a tiempo s + t es la misma que la probabilidad inicial de que la
operacion no haya sido completada a tiempo s.
Lema 2.5. La variable exponencial no tiene memoria.
Demostraci
on Si T Exp(), entonces
P(T > t) = et

para todo t 0.

(40)

Usando (40) se prueba inmediatamente que la ecuaci


on (39) se satisface cuando T tiene
distribucion exponencial (pues e(s+t) = es et ).
Nota Bene. Si modelamos el tiempo para completar cierta operacion por una variable
aleatoria T con distribucion exponencial, la propiedad de perdida de memoria implica que
mientras la operacion no haya sido completada, el tiempo restante para completarla tiene la
misma funcion de distribucion, no importa cuando haya empezado la operacion.
Ejemplo 2.6. Supongamos que el tiempo de espera para recibir un mensaje tenga distribuci
on exponencial de intensidad 1/10 minutos. Cual es la probabilidad de que tengamos que
esperar m
as de 15 minutos para recibirlo? Cual es la probabilidad de que tengamos que esperar m
as de 15 minutos para recibir el mensaje dado que hace m
as de 10 minutos que lo
estamos esperando?
22

Si T representa el tiempo de espera, T Exp(1/10). La primer probabilidad es


1

P(T > 15) = e 10 15 = e 2 0.220


La segunda pregunta interroga por la probabilidad de que habiendo esperado 10 minutos
tengamos que esperar al menos 5 minutos m
as. Usando la propiedad de falta de memoria de
la exponencial, dicha probabilidad es
1

P(T > 5) = e 10 5 = e 2 0.604.

2.2.

Caracterizaci
on cualitativa de la distribuci
on exponencial

La propiedad de perdida de memoria caracteriza a la distribucion exponencial.


Teorema 2.7. Sea T una variable aleatoria continua a valores en R+ . Si T pierde memoria,
entonces T Exp(), donde = log P(T > 1).
Demostraci
on (a la Cauchy).

Sea G(t) := P(T > t). De la ecuaci


on (39) se deduce que
G(s + t) = G(s)G(t).

(41)

La u
nica funcion continua a derecha que satisface la ecuaci
on funcional (41) es
G(t) = G(1)t .
m


m

Para ello basta ver que G n = G(1) n . Si vale (41), entonces G




2
G n1 G n1 = G n1 y repitiendo el argumento se puede ver que
 m
m
1
=G
.
G
n
n
n
En particular, si m = n se obtiene G (1) = G n1 . Equivalentemente,
 
1
1
G
= G(1) n
n
De las identidades (43) y (44) se deduce que
m
m
= G(1) n .
G
n


2

= G

1
n

(42)

+ n1 =
(43)

(44)

(45)

Ahora bien, debido a que G(1) = P(T > 1) (0, 1), existe > 0 tal que G(1) = e
t
( = log G(1)). Reemplazando en (42) se obtiene G(t) = e = et .

2.3.

Dividir y conquistar

Teorema 2.8. Sea X una variable aleatoria absolutamente continua con densidad de probabilidades fX (x). Sea (Bi )i1 una familia de subconjuntos disjuntos dos a dos de la recta real
tales que {X Bi } A y P(X Bi ) > 0 para todo i 1. Si = i1 {X Bi }, entonces
X
(46)
fX (x) =
fX|XBi (x)P(X Bi ).
i1

23

Demostraci
on. Inmediata de la formula (35) y de observar que

i1 1{X

Bi } = 1.

Ejemplo 2.9 (Dividir y conquistar). Todas las ma


nanas Lucas llega a la estacion del subte
entre las 7:10 y las 7:30 (con distribucion uniforme en el intervalo). El subte llega a la estacion
cada quince minutos comenzando a las 6:00. Cual es la densidad de probabilidades del tiempo
que tiene que esperar Lucas hasta subirse al subte?
Sea X el tiempo de llegada de Lucas a la estacion del subte, X U[7:10, 7:30]. Sea Y
el tiempo de espera. Consideramos los eventos A = {7:10 X 7:15} = Lucas sube en el
subte de las 7:15; B = {7:15 < X 7:30} = Lucas sube en el subte de las 7:30.
Condicionado al evento A, el tiempo de llegada de Lucas a la estacion del subte es uniforme
entre las 7:10 y las 7:15. En en ese caso, el tiempo de espera Y es uniforme entre 0 y 5 minutos.
An
alogamente, condicionado al evento B, Y es uniforme entre 0 y 15 minutos. La densidad
de probabilidades de Y se obtiene dividiendo y conquistando
 
 
5 1
15 1
fY (y) =
1{0 y 5} +
1{0 y 15}
20 5
20 15
1
1
1{0 y 5} + 1{5 y 15}.
=
10
20

3.

Bibliografa consultada
Para redactar estas notas se consultaron los siguientes libros:
1. Bertsekas, D. P., Tsitsiklis, J. N.: Introduction to Probability. M.I.T. Lecture Notes.
(2000)
2. Chung, K. L.: A Course in Probability Theory. Academic Press, San Diego. (2001)
3. Durrett R.:Probability.Theory and Examples. Duxbury Press, Belmont. (1996)
4. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. John
Wiley & Sons, New York. (1968)
5. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 2. John
Wiley & Sons, New York. (1971)
6. Grimmett, G. R., Stirzaker, D. R.: Probability and Random Processes. Oxford University Press, New York. (2001)
7. Johnson, N. L., Kotz, S., Balakrishnan, N.: Continuous Univariate Distributions. Vol.
1. John Wiley & Sons, New York. (1995)
8. Kolmogorov, A. N.: Foundations of the Theory of Probability. Chelsea Publishing Co.,
New York. (1956)
9. Maronna R.: Probabilidad y Estadstica Elementales para Estudiantes de Ciencias. Editorial Exacta, La Plata. (1995).

10. Pugachev, V. S.: Introducci


on a la Teora de las Probabilidades. Mir, Mosc
u. (1973)
11. Ross, S.: Introduction to Probability Models. Academic Press, San Diego. (2007)

24

Vectores aleatorios: marginales e independencia


(Borradores, Curso 23)
Sebastian Grynberg
25 de marzo 2013

Um coup de des jamais nabolira le hasard


(Stephane Mallarme)

Indice
1. Vectores aleatorios
1.1. Distribucion conjunta . . . . . . . .
1.2. Distribuciones marginales . . . . . .
1.2.1. Marginales discretas . . . . .
1.2.2. Marginales continuas . . . . .
1.3. Independencia . . . . . . . . . . . . .
1.3.1. Caso bidimensional discreto .
1.3.2. Caso bidimensional continuo

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

2. Bibliografa consultada

1.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

2
2
5
5
6
8
9
11
12

Vectores aleatorios

Notaci
on. Para simplificar la escritura usaremos las siguientes notaciones. Los puntos del
espacio n-dimensional Rn , n 2, se denotan en negrita, x = (x1 , . . . , xn ). La desigualdad
y x significa que yi xi para todo i = 1, . . . , n y se puede interpretar diciendo que y
esta al sudoeste de x. El conjunto de todos los puntos al sudoeste de x sera denotado
mediante Sx := {y Rn : y x}. Finalmente, cualquiera sea el subconjunto de ndices
J = {i1 , . . . , im } {1, . . . , n} denotaremos mediante xJ Rm al punto m-dimensional que
se obtiene de x quitandole todas las coordenadas que tengan ndices fuera de J. Por ejemplo,
si J = {1, 2}, entonces xJ = (x1 , x2 ).
Definici
on 1.1. Un vector aleatorio sobre un espacio de probabilidad (, A, P) es una funcion
X = (X1 , . . . , Xn ) : Rn tal que para todo x Rn
{X Sx } = { : X() x} A.

1.1.
por

Distribuci
on conjunta

La funcion de distribucion (conjunta) FX : Rn [0, 1] del vector aleatorio X se define


FX (x) := P(X Sx )

(1)

C
alculo de probabilidades. La funcion de distribucion conjunta resume toda la informacion relevante sobre el comportamiento de las variables aleatorias X1 , . . . , Xn . Para fijar
ideas, consideremos el caso m
as simple: n = 2. Si a1 < b1 y a2 < b2 vale que1
P(a1 < X1 b1 , a2 < X2 b2 ) = F (b1 , b2 ) F (a1 , b2 ) F (b1 , a2 ) + F (a1 , a2 ).

(2)

La identidad (2) permite calcular la probabilidad de observar al vector (X1 , X2 ) en el


rectangulo (a1 , b1 ] (a2 , b2 ].
La formula n-dimensional an
aloga de (2) es complicada y no es relevante para el desarrollo
posterior. (Se obtiene aplicando la formula de inclusion-exclusi
on para calcular la probabilidad
de la uni
on de eventos.)
1

Ver la Figura 1.

111111111111111111111111
000000000000000000000000
+
000000000000000000000000
111111111111111111111111
000000000000000000000000
111111111111111111111111
000000000000000000000000
111111111111111111111111
000000000000000000000000
111111111111111111111111
000000000000000000000000
111111111111111111111111
000000000000000000000000
111111111111111111111111
000000000000000000000000
111111111111111111111111
000000000000000000000000
111111111111111111111111
000000000000000000000000
111111111111111111111111
000000000000000000000000
111111111111111111111111
000000000000000000000000
111111111111111111111111
000000000000000000000000 +
111111111111111111111111

000000000000000000000000
111111111111111111111111
a 1111111111111111111111111111111111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
0000000000000
1111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000
1111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000
1111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000
1111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000
1111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000
1111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000
1111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000
1111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000
1111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000
1111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000
1111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000
1111111111111
000000000000000000000000a
111111111111111111111111
b
b2

Figura 1: Esquema de la demostraci


on de la identidad (2).
 El rectangulo (a1 , b1 ] (a2 , b2 ] se
puede representar en la forma S(b1 ,b2 ) \ S(a1 ,b2 ) S(b1 ,a2 ) .
Clasificaci
on
1. Vectores aleatorios discretos. El vector aleatorio X se dice discreto cuando existe un
conjunto numerable A Rn tal que P(X A) = 1. En tal caso, las variables aleatorias
X1 , . . . , Xn son discretas y la funcion pX : Rn [0, 1] definida por
pX (x) := P(X = x)

(3)

se llama la funci
on de probabilidad conjunta de X. Su relaci
on con la funcion de distribuci
on conjunta es la siguiente
X
FX (x) =
pX (y).
ySx

2. Vectores aleatorios continuos. El vector aleatorio X = (X1 , . . . , Xn ) se dice continuo


cuando existe una funcion fX : Rn R+ , llamada densidad de probabilidades conjunta
de X1 , . . . , Xn tal que
Z
FX (x) =
fX (y)dy.
Sx

(Para evitar dificultades relacionadas con el concepto de integracion supondremos que


las densidades son seccionalmente continuas.)
3. Vectores aleatorios mixtos. El vector aleatorio X se dice mixto si no es continuo ni
discreto.

C
alculo de probabilidades Dependiendo del caso, la funcion de probabilidad conjunta
pX (x), o la densidad conjunta fX (x), resume toda la informaci
on relevante sobre el comportamiento del vector aleatorio X. M
as precisamente, para todo conjunto A Rn suficientemente regular, vale que
P
en el caso discreto,

xA pX (x)
P(X A) =
R
en el caso continuo.
A fX (x)dx

Ejemplo 1.2. Sea (X, Y ) un vector aleatorio continuo con densidad conjunta fX,Y (x, y). Si
a < b y c < d, entonces
Z bZ d
P(a < X b, c < Y d) =
fX,Y (x, y)dxdy.
(4)
a

Ejemplo 1.3 (Distribucion uniforme). Sea R2 una regi


on acotada de area ||. Si la
densidad conjunta de un vector aleatorio continuo (X, Y ) es de la forma
fX,Y (x, y) =

1
1{(x, y) },
||

(5)

diremos que (X, Y ) esta uniformemente distribuido sobre y escribiremos (X, Y ) U().
Sea B una sub-regi
on de de area |B|. La probabilidad de que (X, Y ) B se calcula
del siguiente modo
P((X, Y ) B) =

fX,Y (x, y)dxdy =

x 1
|B|
dxdy =
.
||
||

(6)

En otras palabras, la probabilidad de que (X, Y ) B es la proporci


on del area de la regi
on
contenida en la sub-regi
on B.
Ejemplo 1.4. Sea (X, Y ) un vector aleatorio uniformemente distribuido sobre el cuadrado
[0, 1] [0, 1]. Cuanto vale P(XY > 1/2)?
Debido a que el cuadrado [0, 1] [0, 1] tiene area 1 la probabilidad requerida es el area de
la regi
on B = {(x, y) [0, 1] [0, 1] : xy > 1/2}. Ahora bien,
(x, y) B y > 1/2x

(7)

y como y 1, la desigualdad del lado derecho de (7) s


olo es posible si 1/2 x. Vale decir,
B = {(x, y) : 1/2 x 1, 1/2x < y 1}.
En consecuencia,
P (XY > 1/2) = |B| =
=

1 dxdy =

1 1
+ log
2 2

1
1
2

1
1
2x

1 dy dx =

 
1
1
= (1 log 2) 01534....
2
2

1
2

1

1
1
2x

dx

1.2.

Distribuciones marginales

Sea X = (X1 , . . . , Xn ) un vector aleatorio n-dimensional y sea FX (x) su funcion de distribuci


on conjunta. La coordenadas de X son variables aleatorias. Cada variable individual
Xi tiene su correspondiente funcion de distribucion
FXi (xi ) = P(Xi xi ).

(8)

Para enfatizar la relaci


on entre Xi y el vector X = (X1 , . . . , Xn ) se dice que FXi (xi ) es la
funci
on de distribuci
on marginal de Xi o la i-esima marginal de X.
Nota Bene. Observar que, para cada i = 1, . . . , n, la funcion de distribucion marginal de
Xi , FXi (xi ), se obtiene de la funcion de distribucion conjunta FX (x1 , . . . , xn ) fijando el valor
de xi y haciendo xj para toda j 6= i.
1.2.1.

Marginales discretas

Caso bidimensional. Sea (X, Y ) un vector aleatorio discreto definido sobre un espacio
de probabilidad (, A, P) con funcion de probabilidad conjunta pX,Y (x, y). Los n
umeros
pX,Y (x, y), (x, y) X() Y () = {(X(), Y ()) : }, se pueden representar en
la forma de una matriz con las siguientes propiedades
X X
pX,Y (x, y) 0,
y
pX,Y (x, y) = 1.
(9)
xX() yY ()

Fijando x X() y sumando las probabilidades que aparecen en la fila x de la matriz


pX,Y (x, y) se obtiene
X
X
pX,Y (x, y) =
P(X = x, Y = y) = P(X = x) = pX (x).
(10)
yY ()

yY ()

Fijando y Y () y sumando las probabilidades que aparecen en la columna y de la matriz


pX,Y (x, y) se obtiene
X
X
P(X = x, Y = y) = P(Y = y) = pY (y).
(11)
pX,Y (x, y) =
xX()

xX()

En otras palabras, sumando las probabilidades por filas obtenemos la funcion de probabilidad
marginal de la variable aleatoria X y sumando las probabilidades por columnas obtenemos
la funcion de probabilidad marginal de la variable aleatoria Y . El adjetivo marginal que
reciben las funciones de probabilidad pX (x) y pY (y) refiere a la apariencia externa que adoptan
(10) y (11) en una tabla de doble entrada.
Ejemplo 1.5. En una urna hay 6 bolas rojas, 5 azules y 4 verdes. Se extraen dos. Sean X la
cantidad de bolas
 rojas extradas e Y la cantidad de azules.
Existen 15
2 = 105 resultados posibles. La cantidad de resultados con x rojas, y azules y
2 (x + y) verdes es
  

6
5
4
x y
2 (x + y)

Usando esa formula y poniendo q = 1/105 obtenemos


5

x\y 0
1
2
pX
0
6q 20q 10q 36q
1
24q 30q 0 54q
15q 0
0 15q
2
pY
45q 50q 10q
Figura 2: Distribucion conjunta de (X, Y ). En el margen derecho de la tabla se encuentra la
distribucion marginal de X y en el margen inferior, la marginal de Y .
Caso general. Para cada i = 1, . . . , n, la funcion de probabilidad marginal de Xi , pXi (xi ),
se puede obtener fijando la variable xi y sumando la funcion de probabilidad conjunta pX (x)
respecto de las demas variables
X
pX (x).
pXi (xi ) =
x{i}c

1.2.2.

Marginales continuas

Sea (X, Y ) un vector aleatorio continuo con funcion densidad conjunta fX,Y (x, y).
Las funciones de distribucion marginales de las variables individuales X e Y se obtienen
de la distribucion conjunta haciendo lo siguiente

FX (x) = P(X x) = lm FX,Y (x, y) =


y

FY (y) = P(Y y) = lm FX,Y (x, y) =


x

Z

Z y Z

fX,Y (s, y) dy ds,



fX,Y (x, t) dx dt.

(12)
(13)

Aplicando en (12) y en (13) el Teorema Fundamental del Calculo Integral se obtiene que
las funciones de distribucion marginales FX (x) y FY (y) son derivables (salvo quizas en un
conjunto despreciable de puntos) y vale que

fX (x) =
fY (y) =

Z
d
f (x, y) dy,
FX (x) =
dx
Z

d
f (x, y) dx.
FY (y) =
dy

(14)
(15)

En consecuencia, las variables aleatorias X e Y son individualmente (absolutamente) continuas


con densidades marginales fX (x) y fY (y), respectivamente.
Ejemplo 1.6 (Distribucion uniforme). Sea R2 una regi
on del plano acotada, que para
simplificar supondremos convexa, y sea (X, Y ) un vector aleatorio uniformemente distribuido
sobre . La densidad marginal de X en la abscisa x es igual al cociente entre el ancho de
en x y el area de .
Ejemplo 1.7 (Dardos). Consideramos un juego de dardos de blanco circular de radio
1 centrado en el origen del plano: = {(x, y) R2 : x2 + y 2 1}. Un tirador lanza
6

un dardo al azar sobre y se clava en un punto de coordenadas (X, Y ). El punto (X, Y )


esta uniformemente distribuido sobre . Debido a que el area de es igual a , la densidad
conjunta de X e Y es
1
fX,Y (x, y) = 1{x2 + y 2 1}.

1 x2

x
1

2 1 x2

1 x2

Figura 3: Para cada x [1, 1] se observa que el ancho del crculo en x es 2 1 x2 .


Si se observa la Figura 3 es claro que la densidad marginal de X es

2 1 x2
fX (x) =
1{x [1, 1]},

y por razones de simetra la densidad marginal de Y debe ser


p
2 1 y2
1{y [1, 1]}.
fY (y) =

Caso general. Para cada i = 1, . . . , n, la densidad marginal de Xi , fXi (xi ), se puede obtener
fijando la variable xi e integrando la densidad conjunta fX (x) respecto de las demas variables
Z
fX (x)dx{i}c .
fXi (xi ) =
Rn1

Nota Bene: Conjuntas y marginales. A veces, es necesario conocer la distribucion


de una sub-coleccion de variables aleatorias. En el caso bidimensional este problema no se
manifiesta porque se reduce al calculo de las marginales. Para cada subconjunto de ndices
{1, 2, . . . , n} la funcion de distribucion conjunta de las variables Xi : i , F (x ), se
obtiene fijando los valores de las coordenadas xi : i y haciendo xj para toda j
/ .
En el caso discreto, la funcion de probabilidad conjunta de las variables Xi : i , p (x ),
se obtiene fijando la variables xi : i y sumando la funcion de probabilidad conjunta p(x)
respecto de las demas variables
X
pX (x).
p (x ) =
x c

En el caso continuo, la densidad conjunta de las variables X , f (x ), se obtiene fijando


los valores de las variables xi : i e integrando la densidad conjunta f (x) respecto de las
demas variables
Z
fX (x)dxc .
f (x ) =
Rnm

donde m es la cantidad de ndices contenidos en el conjunto .

1.3.

Independencia

Las variables X1 , . . . , Xn son independientes si para cualquier colecci


on de conjuntos (medibles) A1 , . . . , An R, los eventos {X1 A1 }, . . . , {Xn An } son independientes.
Tomando conjuntos de la forma Ai = (, xi ] se deduce que la independencia de X1 , . . . , Xn
implica
!
n
n
n
Y
Y
\
FX (x) = P
FXi (xi ).
(16)
P(Xi xi ) =
{Xi xi } =
i=1

i=1

i=1

Dicho en palabras, la independencia de las variables implica que su funci


on de distribuci
on
conjunta se factoriza como el producto de todas las marginales.
Recprocamente, se puede demostrar que si para cada x = (x1 , . . . , xn ) Rn se verifica
la ecuaci
on (16), las variables aleatorias X1 , . . . , Xn son independientes. (La demostraci
on es
tecnica y no viene al caso). Esta equivalencia reduce al mnimo las condiciones que permiten
caracterizar la independencia de variables aleatorias y motivan la siguiente definicion m
as
simple.
Definici
on 1.8 (Independencia de una cantidad finita de variables aleatorias). Diremos que
las variables aleatorias X1 , . . . , Xn son independientes si la ecuaci
on (16) se verifica en todo
x = (x1 , . . . , xn ) Rn .
Definici
on 1.9 (Independencia). Dada una familia de variables aleatorias (Xi : i I)
definidas sobre un mismo espacio de probabilidad (, A, P), diremos que sus variables son
(conjuntamente) independientes si para cualquier subconjunto finito de ndices J I las
variables Xi , i J son independientes.
Nota Bene. La independencia de las variables aleatorias X1 , . . . , Xn es equivalente a la
factorizaci
on de la distribucion conjunta como producto de sus distribuciones marginales.
M
as a
un, esta propiedad se manifiesta a nivel de la funcion de probabilidad, pX (x) o de la
densidad conjunta, fX (x), del vector aleatorio X = (X1 , . . . , Xn ), seg
un sea el caso. Para ser
m
as precisos, X1 , . . . , Xn son independientes si y solo si
pX (x) =
fX (x) =

n
Y

i=1
n
Y

pXi (xi )

en el caso discreto,

fXi (xi )

en el caso continuo.

i=1

Ejemplo 1.10 (N
umeros al azar). Se elige al azar un n
umero U del intervalo [0, 1). Sea U =
0.X1 X2 X3 el desarrollo decimal de U . Mostraremos que los dgitos de U son independientes
entre s y que cada uno de ellos se distribuye uniformemente sobre el conjunto {0, 1, . . . , 9}.
El problema se reduce a mostrar que para cada n 2 las variables aleatorias X1 , X2 , . . . , Xn
son independientes entre s y que para cada k 1 y todo xk {0, 1, . . . , 9}, P(Xk = xk ) =
1/10.
Primero observamos que para cada n 1 y para todo (x1 , . . . , xn ) {0, 1, . . . , 9}n vale
que
" n
!
n
n
\
X xi X
xi
1
{Xi = xi } U
,
+
.
10i
10i 10n
i=1

i=1

i=1

En consecuencia,
P

n
\

i=1

{Xi = xi }

1
.
10n

(17)

Para calcular las marginales de los dgitos observamos que para cada xk {0, 1, . . . , 9} vale
que
" k1
!
#
\
[
{Xi = xi } {Xk = xk } .
{Xk = xk } =
i=1

(x1 ,...,xk1 ){0,1,...,9}k1

De acuerdo con (17) cada uno de los 10k1 eventos que aparecen en la uni
on del lado derecho
k
de la igualdad tiene probabilidad 1/10 y como son disjuntos dos a dos obtenemos que
P(Xk = xk ) = 10k1

1
1
= .
k
10
10

(18)

De (17) y (18) se deduce que para todo (x1 , . . . , xn ) {0, 1, . . . , 9}n vale que
!
n
n
Y
\
P
P(Xi = xi ).
{Xi = xi } =
i=1

i=1

Por lo tanto, las variables aleatorias X1 , X2 , . . . , Xn son independientes entre s y cada una
de ellas se distribuye uniformemente sobre el conjunto {0, 1, . . . , 9} .
1.3.1.

Caso bidimensional discreto

Sea (X, Y ) un vector aleatorio discreto con funcion de probabilidad conjunta pX,Y (x, y)
y marginales pX (x) y pY (y). Las variables X, Y son independientes si para cada pareja de
valores x X(), y Y () vale que
pX,Y (x, y) = pX (x) pY (y)

(19)

En otras palabras, la matriz pX,Y (x, y) es la tabla de multiplicar de las marginales pX (x) y
pY (y).

Ejemplo 1.11. Se arrojan dos dados equilibrados y se observan las variables aleatorias X e
Y definidas por X =el resultado del primer dado e Y =el mayor de los dos resultados.
El espacio de muestral asociado al experimento se puede representar en la forma =
{1, 2, . . . , 6}2 , cada punto (i, j) indica que el resultado del primer dado es i y el resultado
del segundo es j. Para reflejar que arrojamos dos dados equilibrados, todos los puntos de
seran equiprobables, i.e., para cada (i, j) se tiene P(i, j) = 1/36. Formalmente las
variables aleatorias X e Y estan definidas por
X(i, j) := i,

Y (i, j) := m
ax{i, j}.

(20)

Distribuci
on conjunta y distribuciones marginales de X e Y . En primer lugar vamos
a representar el espacio muestral en la forma de una matriz para poder observar m
as
claramente los resultados posibles

(1, 1)
(2, 1)
(3, 1)
(4, 1)
(5, 1)
(6, 1)

(1, 2)
(2, 2)
(3, 2)
(4, 2)
(5, 2)
(6, 2)

(1, 3)
(2, 3)
(3, 3)
(4, 3)
(5, 3)
(6, 3)

(1, 4)
(2, 4)
(3, 4)
(4, 4)
(5, 4)
(6, 4)

(1, 5)
(2, 5)
(3, 5)
(4, 5)
(5, 5)
(6, 5)

(1, 6)
(2, 6)
(3, 6)
(4, 6)
(5, 6)
(6, 6)

Figura 4: Resultados posibles del experimento aleatorio que consiste en arrojar dos dados.
Debido a que Y X, tenemos que pX,Y (x, y) = 0 para todo 1 y < x 6. En los otros
casos, i.e., 1 x y 6, para calcular el valor de pX,Y (x, y) hay que contar la cantidad
de elementos de la fila x, de la matriz representada en la Figura 4, que contengan alguna
1
coordenada igual a y. Multiplicando por q = 36
la cantidad encontrada se obtiene pX,Y (x, y).
En la figura 5 representamos la distribucion conjunta pX,Y (x, y) y las distribuciones marginales
pX y pY .
x\y
1
2
3
4
5
6
pY

1 2 3 4 5
6 pX
q q q q q
q
6q
0 2q q q q
q
6q
0 0 3q q q
q
6q
0 0 0 4q q
q
6q
0 0 0 0 5q q
6q
0 0 0 0 0 6q 6q
q 3q 5q 7q 9q 11q

Figura 5: Distribucion conjunta de (X, Y ). En el margen derecho se encuentra la distribucion


1
.
marginal de X y en el margen inferior, la marginal de Y . Para abreviar hemos puesto q = 36
De acuerdo con los resultados expuestos en la tabla que aparece en la Figura 5, las distribuciones marginales son
1
2y 1
pX (x) = ,
pY (y) =
.
6
36
10

Debido a que no se trata de una tabla de multiplicar las variables X e Y no son independientes.
Lo que, por otra parte, constituye una obviedad.
Criterio para detectar dependencia. Cuando en la tabla de la distribucion conjunta
de dos variables hay un 0 ubicado en la interseccion de una fila y una columna de sumas
positivas, las variables no pueden ser independientes. (Las variables del Ejemplo 1.5 no son
independientes.)
1.3.2.

Caso bidimensional continuo

Sean X e Y variables aleatorias con densidad conjunta fX,Y (x, y) y marginales fX (x) y
fY (y). Las variables aleatorias X e Y son independientes si y solo si
fX,Y (x, y) = fX (x)fY (y).

(21)

En otras palabras, X e Y son independientes si y solo si su densidad conjunta se factoriza


como el producto de las marginales.
Criterios para detectar (in)dependencia.
1. La independencia de X e Y equivale a la existencia de dos funciones f1 (x) y f2 (y) tales
que fX,Y (x, y) = f1 (x)f2 (y). Por lo tanto, para verificar independencia basta comprobar que
la densidad conjunta se puede factorizar como alguna funcion de x por alguna funcion de y,
siendo innecesario verificar que se trata de las densidades marginales. (Ejercicio)
2. La factorizaci
on (21) implica que, si X e Y son independientes, el recinto del plano
Sop (fX,Y ) := {(x, y) R2 : fX,Y (x, y) > 0}, llamado el soporte de la densidad conjunta
fX,Y , debe coincidir con el producto cartesiano de los soportes de sus densidades marginales:
Sop(fX ) Sop(fY ) = {x R : fX (x) > 0} {y R : fY (y) > 0}. Por ejemplo, si el soporte
de la densidad conjunta es conexo y no es un rectangulo las variables X e Y no pueden ser
independientes. (Ver el Ejemplo 1.7.)
Ejemplo 1.12. Sean X e Y variables aleatorias independientes con distribucion uniforme
sobre el intervalo (0, L). Una vara de longitud L metros se quiebra en dos puntos cuyas
distancias a una de sus puntas son X e Y metros. Calcular la probabilidad de que las tres
piezas se puedan usar para construir un tri
angulo.
Primero designamos mediante L1 , L2 y L3 a las longitudes de las tres piezas. Las tres piezas
se pueden usar para construir un tri
angulo si y solamente si se satisfacen las desigualdades
triangulares
L1 + L2 > L3 , L1 + L3 > L2 y L2 + L3 > L1 .

(22)

Vamos a distinguir dos casos: el caso en que X Y y el caso en que Y < X. En el primer
caso, X Y , tenemos que L1 = X, L2 = Y X y L3 = LY y las desigualdades triangulares
(22) son equivalentes a las siguientes
Y > L/2, X + L/2 > Y

y L/2 > X.

(23)

En el segundo caso, Y < X, tenemos que L1 = Y , L2 = X Y y L3 = L X y las


desigualdades triangulares (22) son equivalentes a las siguientes
X > L/2, Y > X L/2 y L/2 > Y.
11

(24)

Por lo tanto, las tres piezas se pueden usar para construir un tri
angulo si y solamente si
(X, Y ) B, donde
B = {(x, y) (0, L) (0, L) : 0 < x < L/2, L/2 < y < x + L/2}

{(x, y) (0, L) (0, L) : L/2 < x < L, x L/2 < y < L/2}.

(25)

L/2

L/2

Figura 6: La regi
on sombreada representa al conjunto B que es la uni
on de dos tri
angulos
2
disjuntos cada uno de
area L /8.
La hip
otesis de que X e Y son independientes con distribucion uniforme sobre el intervalo
(0, L) significa que (X, Y ) U(), donde es el cuadrado de lado (0, L)



1
1
1
1{0 < x < L}
1{0 < y < L} = 2 1{(x, y) }.
fX,Y (x, y) = fX (x)fY (y) =
L
L
L
De (6) se deduce que
P((X, Y ) B) =

2.

|B|
(2/8)L2
1
=
= .
2
||
L
4

(26)

Bibliografa consultada
Para redactar estas notas se consultaron los siguientes libros:
1. Bertsekas, D. P., Tsitsiklis, J. N.: Introduction to Probability. M.I.T. Lecture Notes.
(2000)
2. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. John
Wiley & Sons, New York. (1968)
3. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 2. John
Wiley & Sons, New York. (1971)
4. Ross, S.: Introduction to Probability Models. Academic Press, San Diego. (2007)

12

Variables aleatorias: momentos


(Borradores, Curso 23)
Sebastian Grynberg
27 de marzo 2013

Denme un punto de apoyo y movere el mundo


(Arqumedes de Siracusa)

Indice
1. Esperanza
1.1. Definicion . . . . . .
1.2. C
alculo . . . . . . .
1.3. Propiedades . . . . .
1.4. Dividir y conquistar

.
.
.
.

2
3
8
10
11

2. Varianza
2.1. Definicion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2. C
alculo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

12
12
13
14

3. Covarianza
3.1. Definicion . . . . .
3.2. C
alculo . . . . . .
3.3. Propiedades . . . .
3.4. Varianza de sumas

.
.
.
.

14
14
14
16
16

4. Algunas desigualdades
4.1. Cauchy-Schwartz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2. Chebyshev . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

17
17
18

5. La ley d
ebil de los grandes n
umeros

20

6. Distribuciones particulares

22

7. Bibliografa consultada

28

1.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

Esperanza

La informaci
on relevante sobre el comportamiento de una variable aleatoria esta contenida
en su funcion de distribucion. Sin embargo, en la practica, es u
til disponer de algunos n
umeros
representativos de la variable aleatoria que resuman esa informaci
on.
Motivaci
on Se gira una rueda de la fortuna varias veces. En cada giro se puede obtener
alguno de los siguiente n
umeros x1 , x2 , . . . , xk -que representan la cantidad de dinero que se
obtiene en el giro- con probabilidades p(x1 ), p(x2 ), . . . , p(xk ), respectivamente. Cuanto dinero
se espera obtener como recompensa por cada giro? Los terminos espera y por cada
giro son un tanto ambiguos, pero se pueden interpretar de la siguiente manera.
Si la rueda se gira P
n veces y n(xi ) es la cantidad de veces que se obtieneP
xi , la cantidad total
de dinero recibida es ki=1 n(xi )xi y la cantidad media por giro es = n1 ki=1 n(xi )xi . Interpretando las probabilidades como frecuencias relativas obtenemos que para n suficientemente
grande la cantidad de dinero que se espera recibir por cada giro es
=

i=1

i=1

i=1

X n(xi ) X
1X
xi
xi p(xi ).
xi n(xi ) =

n
n
2

1.1.

Definici
on

Definici
on 1.1 (Esperanza de una variable discreta). Sea X una variable aleatoria discreta.
La esperanza de X, denotada por E[X], es el promedio ponderado
X
E[X] :=
xP(X = x),
(1)
xA

donde A = {x R : F (x) F (x) > 0} es el conjunto de todos los atomos de la funcion


distribucion de X.
Ejemplo 1.2 (Esperanza de la funcion indicadora). Sea (, A, P) un espacio de probabilidad.
Para cualquier evento A A vale que
E[1{ A}] = 0 (1 P(A)) + 1 P(A) = P(A).

(2)

La esperanza como centro de gravedad. La noci


on de esperanza es an
aloga a la nocion
de centro de gravedad para un sistema de partculas discreto.
Se consideran n partculas ubicadas en los puntos x1 , . . . , xP
n cuyos pesos respectivos son
n
p(x1 ), . . . , p(xn ). No se pierde generalidad si se supone que
i=1 p(xi ) = 1. El centro de
gravedad, c, del sistema es el punto respecto de la cual la suma de los momentos causados
por los pesos p(xi ) es nula. Observando que
k
X
i=1

(xi c) p(xi ) = 0 c =

k
X

xi p(xi )

i=1

resulta que el centro de gravedad del sistema coincide con la esperanza de una variable aleatoria X a valores en {x1 , . . . , xn } tal que P(X = xi ) = p(xi ).
c

10

Figura 1: Interpretaci
on de la esperanza como centro de gravedad. Se considera un sistema de cuatro partculas de pesos pi proporcionales a las areas de los crculos de radio
1/3, 2/3, 3/3, 4/3 centrados en los puntos xi = 1, 3, 6, 10, respectivamente. No se pierde generalidad si se supone que el peso total
P del sistema es la unidad. El centro de gravedad del
sistema se encuentra en el punto c = 4i=1 xi pi = 227/30 = 7.56 . . .

La esperanza como promedio. Sea X una variable aleatoria a valores x1 , . . . , xn con


funcion de probabilidades
P(X = x) =

1
1{x {x1 , . . . , xn }}.
n

Conforme a la Definicion 1.1 la esperanza de X es


E[X] =

n
X
i=1

1X
xi P(X = xi ) =
xi .
n

(3)

i=1

Dicho en palabras: la esperanza de una variable aleatoria uniformemente distribuida sobre los
valores x1 , x2 , . . . , xn coincide con el promedio de dichos valores.
Ejemplo 1.3 (Dado equilibrado). Sea X el resultado del lanzamiento de un dado equilibrado.
De acuerdo con (3) la esperanza de X es
6

1X
21
7
E[X] =
x=
= .
6
6
2
x=1

Ejemplo 1.4 (Uniforme sobre el intervalo {1, 2, . . . , n}). La variable aleatoria del Ejemplo
1.3 es un caso particular de una variable aleatoria discreta X uniformemente distribuida sobre
el intervalo de n
umeros enteros {1, 2, . . . , n}. De acuerdo con (3) la esperanza de X es
n

E[X] =

1
1X
x=
n
n
x=1

n(n + 1)
2

1+n
.
2

Ejemplo 1.5 (Moneda equilibrada). Sea N la cantidad de veces que debe lanzarse una moneda equilibrada hasta que salga cara. N es una variable aleatoria discreta a valores 1, 2, . . . tal
que P(N = n) = (1/2)n , n = 1, 2, . . . . De acuerdo con la definicion 1.1, la esperanza de N es
E[N ] =

n=1

 n

X
1
n
nP(N = n) =
.
2
n=1

P
n
Derivando
lados de la igualdad
x)1 , que vale para |x| < 1, se deduce
n=0 x = (1 P
P ambos
n1
2
n
2
que n=0 nx
= (1 x) y de all resulta que
n=1 nx = x(1 x) . Evaluando en
x = 1/2 se obtiene que
 n    2

X
1
1
1
=
= 2.
n
E[N ] =
2
2
2
n=1

La noci
on de esperanza se extiende a variables aleatorias absolutamente continuas cambiando en (1) la suma por la integral y la funcion de probabilidades P (X = x), x A, por la
densidad de probabilidades de la variable X.
4

Definici
on 1.6 (Esperanza de una variable absolutamente continua). Sea X una variable
aleatoria absolutamente continua con densidad de probabilidades fX (x). La esperanza de X,
denotada por E[X], se define por
Z
xfX (x)dx.
(4)
E[X] :=

Ejemplo 1.7 (Fiabilidad). Sea T el tiempo de espera hasta que ocurre la primer falla en un
sistema electr
onico con funcion intensidad de fallas
de la forma (t) = 2t1{t > 0}. La funcion

2
de distribucion de T es FT (t) = 1 exp t
1{t > 0}. En consecuencia, T es una
 variable
aleatoria absolutamente continua con densidad de probabilidad fT (t) = 2t exp t2 1{t > 0}.
De acuerdo con la definicion 1.6, la esperanza de T es

Z
Z
Z

2
2
exp(t )dt =
t2t exp(t )dt =
tfT (t)dt =
E[T ] =
.
2
0
0

La tercera igualdad se deduce de la formula de integraci


aplicada
a u = t y

R on por partes

2
2
v = 2t exp(t ) y la cuarta se deduce de la identidad 0 exp(x /2)dx = 2/2 mediante

el cambio de variables t = x/ 2.
Extendiendo la noci
on a variables mixtas. La noci
on de esperanza para variables
mixtas se obtiene combinando las nociones anteriores.
Definici
on 1.8 (Esperanza de una variable mixta). Sea X una variable aleatoria mixta con
funcion de distribucion FX (x). La esperanza de X, denotada por E[X], se define de la siguiente
manera:
Z
X
xFX (x)dx,
(5)
xP(X = x) +
E[X] :=

xA

donde A = {x R : FX (x) FX (x) > 0} es el conjunto de todos los atomos de FX (x) y


FX (x) es una funcion que coincide con la derivada de FX (x) en todos los puntos donde esa
funcion es derivable y vale 0 en otro lado.
Ejemplo 1.9 (Mixtura).
Sea X una variable aleatoria mixta cuya funcion de distribucion es

2x+5
FX (x) =
1{1 x < 1} + 1{x 1}. De acuerdo con la formula (5), la esperanza de
8
X es
Z 1
Z 1
3 1
2
1

FX (x)dx = + +
E[X] = 1 P(X = 1) + 1 P(X = 1) +
dx = .
8 8
4
1
1 8

Nota Bene. En todas las definiciones anteriores, se presupone que las series y/o integrales
involucradas son absolutamente convergentes.
Ejemplo 1.10 (Distribucion de Cauchy). Sea X una variable aleatoria con distribuci
on de
Cauchy. Esto es, X es absolutamente continua y admite una densidad de probabilidades de
la forma
1
.
f (x) =
(1 + x2 )
5

Debido a que

Z
X no tiene esperanza.

|x|f (x)dx =

|x|
dx = ,
(1 + x2 )

Teorema 1.11. Sea X una variable aleatoria no negativa (i.e., FX (x) = P(X x) = 0 para
todo x < 0). Vale que
Z
[1 FX (x)] dx.
(6)
E[X] =
0

Demostraci
on. El argumento principal esta contenido en la Figura 2. El caso general se
deduce usando tecnicas de paso al lmite.

111111111111111111111111111
000000000000000000000000000
000000000000000000000000000
111111111111111111111111111
p
000000000000000000000000000
111111111111111111111111111
000000000000000000000000000
111111111111111111111111111
000000000000000000000000000
111111111111111111111111111
000000000000000000000000000
111111111111111111111111111
1111111111111111111
0000000000000000000
p
000000000000000000000000000
111111111111111111111111111
111111111111111
000000000000000
000000000000000000000000000
111111111111111111111111111
000000000000000000000000000
111111111111111111111111111
000000000000000000000000000
111111111111111111111111111
p
000000000000000000000000000
111111111111111111111111111
000000000000000000000000000
111111111111111111111111111
000000000000000000000000000
111111111111111111111111111
1111111111
0000000000
000000000000000000000000000
111111111111111111111111111
000000000000000000000000000
111111111111111111111111111
p
000000000000000000000000000
111111111111111111111111111
1111
0000
000000000000000000000000000
111111111111111111111111111
p
000000000000000000000000000
111111111111111111111111111
000000000000000000000000000
111111111111111111111111111
x
x
x
x
x

k1

k1

Figura 2: Argumento geometrico que muestra la validez de la identidad (6) en el caso en que
X es no negativa, discreta y a valores 0 x1 < x2 < < xk . Si pi = P(X = xi ), el area
de la regi
on sombreada es la suma x1 p1 + + xk pk = E[X] de las areas de los rectangulos
horizontales y coincide con la integral de la altura P(X > x).

Corolario 1.12. Sea X una variable aleatoria con funcion de distribucion FX (x). Vale que
E[X] =

[1 FX (x)] dx

Demostraci
on. Ejercicio.

FX (x)dx.

(7)

Nota Bene. Las identidades (6) y (7) son interesantes porque muestran que para calcular
la esperanza de una variable aleatoria basta conocer su funcion de distribucion. De hecho, la
identidad (7) ofrece una definicion alternativa y unificada de la nocion de esperanza.
Ejemplo 1.13. Una m
aquina fue dise
nada para prestar servicios en una instalaci
on productiva. La m
aquina se enciende al iniciar la jornada laboral y se apaga al finalizar la misma. Si
durante ese perodo la m
aquina falla, se la repara y en esa tarea se consume el resto de la
jornada.
Suponiendo que la funcion intensidad de fallas de la m
aquina es una constante > 0 (y
que el tiempo se mide en jornadas laborales), hallar el m
aximo valor de que permita asegurar
con una probabilidad mayor o igual que 2/3 que la m
aquina prestara servicios durante una
jornada laboral completa. Para ese valor de , hallar (y graficar) la funcion de distribucion
del tiempo, T , de funcionamiento de la m
aquina durante una jornada laboral y calcular el
tiempo medio de funcionamiento, E[T ].
Soluci
on. Si T1 es el tiempo que transcurre desde que se enciende la m
aquina hasta que
ocurre la primer falla, el evento la m
aquina funciona durante una jornada laboral completa
se describe mediante {T1 > 1}. Queremos hallar el m
aximo > 0 tal que P(T1 > 1) 2/3.
Debido a que la funcion intensidad de fallas es una constante se tiene que P(T1 > t) = et .
En consecuencia, P(T1 > 1) 2/3 e 2/3 log(2/3). Por lo tanto,
= log(2/3). En tal caso, P(T > 1) = 2/3.
1

1/3

Figura 3: Gr
afico de la funcion de distribucion de T .
El tiempo de funcionamiento de la m
aquina por jornada laboral es T = mn{T1 , 1}. Para
t > 0 vale que
FT (t) = P(T t) = 1 P(T > t) = 1 P(mn{T1 , 1} > t)
= 1 P(T1 > t)1{1 > t} = 1 elog(2/3)t 1{t < 1}


=
1 elog(2/3)t 1{0 t < 1} + 1{t 1}.
7

Como T > 0 y conocemos


as sencillo para calcular la esperanza
R la funcion P(T > t) lo m
es usar la formula E[T ] = 0 P(T > t)dt:
1
Z 1
Z
elog(2/3)t
2/3 1
log(2/3)t
e
dt =
P(T > t)dt =
E[T ] =
=

log(2/3)
log(2/3)
0
0
0

1.2.

1/3
0.822...
log(2/3)

C
alculo

Sea X una variable aleatoria cuya funcion de distribucion conocemos. Queremos calcular
la esperanza de alguna funcion de X, digamos, g(X). Como se puede efectuar ese calculo?
Una manera es la siguiente: (1) Hallamos la funcion de distribucion de la variable aleatoria
Y = g(X) a partir del conocimiento que tenemos sobre la distribuci
on de X:

FY (y) := P(Y y) = P(g(X) y) = P X g 1 (, y] .

(2) Usando la distribucion de Y calculamos la esperanza E[g(X)] = E[Y ] por definicion.

Ejemplo 1.14. Sea X una variable aleatoria discreta tal que P(X = 0) = 0.2, P(X = 1) = 0.5
y P(X = 2) = 0.3. Queremos calcular E[X 2 ]. Poniendo Y = X 2 obtenemos una variable
aleatoria a valores en {02 , 12 , 22 } tal que P(Y = 0) = 0.2 P(Y = 1) = 0.5 y P(Y = 4) = 0.3.
Por definicion, E[X 2 ] = E[Y ] = 0(0.2) + 1(0.5) + 4(0.3) = 1.7.
Ejemplo 1.15. Sea X una variable aleatoria con distribucion uniforme sobre el intervalo
(0, 1). Queremos calcular E[X 3 ]. Ponemos Y = X 3 y calculamos su funcion de distribucion:
para cada 0 < y < 1 vale que FY (y) = P(Y y) = P(X 3 y) = P(X y 1/3 ) = y 1/3 .
Derivando FY (y) obtenemos la densidad de probabilidad de Y : fY (y) = 31 y 2/3 1{0 < y < 1}.
Por definicion,

Z
Z 1
Z
1 3 4/3 1 1
1 1 1/3
1 2/3
3
y dy =
dy =
y = .
y y
yfY (y)dy =
E[X ] = E[Y ] =
3
3 0
34
4
0

0
Nota Bene. Existe una manera mucho m
as simple para calcular la esperanza de Y = g(X)
que no recurre al procedimiento de determinar primero la distribucion de Y para luego calcular
su esperanza por definicion. El Teorema siguiente muestra como hacerlo.
Teorema 1.16. Sea X una variable aleatoria y sea g : R R una funcion tal que g(X)
tambien es una variable aleatoria.
(a) Si X es discreta con
atomos en el conjunto A, entonces
X
g(x)P(X = x).
(8)
E[g(X)] =
xA

(b) Si X es continua con densidad de probabilidad fX (x) y g(X) es continua, entonces


Z
g(x)fX (x)dx.
(9)
E[g(X)] =

(c) Si X es mixta,
E[g(X)] =

g(x)P(X = x) +

xA

g(x)FX (x)dx,

(10)

donde A es el conjunto de todos los atomos de FX (x) y FX (x) es un funcion que coincide
con la derivada de FX (x) en todos los puntos donde esa funcion es derivable y vale cero en
otro lado.
Demostraci
on. Para simplificar la demostraci
on supondremos que g 0.
(a) Por el Teorema 1.11 tenemos que
E[g(X)] =
=

P(g(X) > y)dy =

X Z

xA

1{g(x) > y}P(X = x) dy

xA


X
g(x)P(X = x).
1{g(x) > y}dy P(X = x) =
xA

(b) Por el Teorema 1.11 tenemos que


E[g(X)] =
=

Z
Z

P(g(X) > y)dy =

g(x)

dy f (x)dx =

f (x)dx dy

{x: g(x)>y}

g(x)f (x)dx.

(c) Se obtiene combinando adecuadamente los resultados (a) y (b).


Ejemplo 1.17. Aplicando la parte (a) del Teorema 1.16 al Ejemplo 1.14 se obtiene
E[X 2 ] = 02 (0.2) + 12 (0.5) + 22 (0.3) = 1.7.

Ejemplo 1.18. Aplicando la parte (b) del Teorema 1.16 al Ejemplo 1.15 se obtiene
Z 1
1
3
x3 dx = .
E[X ] =
4
0
Teorema 1.19 (Calculo de Esperanzas). Sea X un vector aleatorio y sea g : Rn R una
funcion tal que g(X) es una variable aleatoria. Si la variable aleatoria g(X) tiene esperanza
finita, entonces
P
en el caso discreto,

x g(x)pX (x)
E[g(X)] =
R
en el caso continuo,
Rn g(x)fX (x) dx

donde, seg
un sea el caso, pX (x) y fX (x) son la funcion de probabilidad y la densidad conjunta
del vector X, respectivamente.
9

Demostraci
on. Enteramente an
aloga a la que hicimos en dimension 1.
Sobre el c
alculo de esperanzas. El Teorema 1.19 es una herramienta practica para
calcular esperanzas. Su resultado establece que si queremos calcular la esperanza de una
transformacion unidimensional del vector X, g(X), no necesitamos calcular la distribucion
de g(X). La esperanza E[g(X)] puede calcularse directamente a partir del conocimiento de la
distribucion conjunta de X.
Corolario 1.20 (Esperanza de las marginales). Sea X = (X1 , . . . , Xn ) un vector aleatorio.
Si la variable Xi tiene esperanza finita, entonces
P
en el caso discreto,

x xi pX (x)
E[Xi ] =
R
en el caso continuo.
Rn xi fX (x) dx

1.3.

Propiedades

(a) Si X = 1, entonces E[X] = 1.


(b) Monotona. Si X1 y X2 son dos variables aleatorias tales que X1 X2 , entonces
E[X1 ] E[X2 ].
(c) Si X es una variable aleatoria tal que E[X n ] es finita y a0 , a1 , . . . , an son constantes,
entonces
#
" n
n
X
X
k
ak E[X k ].
(11)
ak X =
E
k=0

k=0

(d) Linealidad. Si las variables aleatorias X1 , . . . , Xn tienen esperanza finita y a1 , a2 , . . . , an


son constantes, entonces
" n
#
n
X
X
E
ai Xi =
ai E[Xi ].
(12)
i=1

i=1

(e) Regla del producto independiente. Si las variables aleatorias X1 , . . . , Xn tienen esperanza finita y son independientes, entonces el producto tiene esperanza finita y coincide con
el producto de las esperanzas:
" n
#
n
Y
Y
E
Xi =
E[Xi ].
(13)
i=1

i=1

Demostraci
on. (a) es consecuencia inmediata de la Definicion 1.1 porque P(X = 1) = 1.
(b) es consecuencia del Teorema 1.11 y de que para todo x R vale que FX1 (x) FX2 (x).
(c) es consecuencia inmediata del Teorema 1.16. (d) es consecuencia inmediata del Teorema
1.19. (e) es consecuencia del Teorema 1.19 y de la factorizacion de la distribucion conjunta
como producto de las distribuciones marginales.

10

1.4.

Dividir y conquistar

Teorema 1.21. Sea (, A, P) un espacio de probabilidad y sea X : R una variable


aleatoria. Sea A R un conjunto tal que {X A} = { : X() A} A. Si
P(X A) > 0, entonces
E[X|X A] =

1
E[X1{X A}].
P(X A)

(14)

Demostraci
on. Para simplificar la exposicion vamos a suponer que la variable aleatoria X
es discreta. Por la Definicion 1.1 tenemos que
E[X|X A] =
=

xpX|XA (x) =

xX()

1
P(X A)

xX()

xX()

P(X = x)
1{x A}
P(X A)

x1{x A}P(X = x) =

1
E[X1{X A}].
P(X A)

La u
ltima igualdad es consecuencia del Teorema 1.16.
Ejemplo 1.22. Sea X el resultado del tiro de un dado equilibrado y sea A = {2, 4, 6}. De
acuerdo con (14) la esperanza de X|X A es


1
1
2 4 6
E[X|X A] =
E[X1{X A}] =
+ +
= 4.
P(X A)
1/2 6 6 6
Resultado que por otra parte es intuitivamente evidente.
Teorema 1.23 (F
ormula de probabilidad total). Sea X una variable aleatoria. Si A1 , . . . , An
es una particion medible de R tal que P(X Ai ) > 0, i = 1, . . . , n. Entonces,
E[X] =

n
X
i=1

E[X|X Ai ]P(X Ai ).

(15)

Demostraci
on. Descomponemos
la variable X como una suma de variables (dependientes
Pn
de la particion) X = i=1 X1{X Ai }. Como la esperanza es un operador lineal tenemos
que
E[X] =

n
X
i=1

E[X1{X Ai }] =

n
X
i=1

E[X|X Ai ]P(X Ai ).

La u
ltima igualdad se obtiene de (14).
Nota Bene. Sea g : R R una funcion tal que g(X) es una variable aleatoria. Bajo las
hip
otesis del Teorema 1.23 tambien vale que
E[g(X)] =

n
X
i=1

E[g(X)|X Ai ]P(X Ai ).

La formula (16) se puede extender sin ninguna dificultad al caso multidimensional.


11

(16)

Ejemplo 1.24 (Dividir y conquistar). Todas las ma


nanas Lucas llega a la estacion del subte
entre las 7:10 y las 7:30 (con distribucion uniforme en el intervalo). El subte llega a la estacion
cada quince minutos comenzando a las 6:00. Calcular la media del tiempo que tiene que esperar
Lucas hasta subirse al subte.
Sea X el horario en que Lucas llega a la estacion del subte. El tiempo que tiene que esperar
hasta subirse al subte se describe por
T = (7.15 X)1{X [7 : 10, 7 : 15]} + (7 : 30 X)1{X (7 : 15, 7 : 30]}.
Ahora bien, dado que X [7 : 10, 7 : 15], la distribucion de T es uniforme sobre el intervalo
[0, 5] minutos y dado que X (7 : 15, 7 : 30] la distribucion de T es uniforme sobre el intervalo
[0, 15] minutos. De acuerdo con (16)
 
 
5 5
15 15
E[T ] =
+
= 6.25.
2 20
2 20

2.
2.1.

Varianza
Definici
on

La esperanza de una variable aleatoria X, E[X], tambien se conoce como la media o el


primer momento de X. La cantidad E[X n ], n 1, se llama el n-esimo momento de X. Si la
esperanza E[X] es finita, la cantidad E[(X E[X])n ] se llama el n-esimo momento central.
Despues de la esperanza la siguiente cantidad en orden de importancia para resumir el
comportamiento de una variable aleatoria X es su segundo momento central tambien llamado
la varianza de X.
Definici
on 2.1 (Varianza). Sea X una variable aleatoria con esperanza finita. La varianza
de X se define por


V(X) := E (X E[X])2 .
(17)

En otras palabras, la varianza de X es la esperanza de la variable aleatoria (X E[X])2 .


Puesto que (X E[X])2 s
olo puede tomar valores no negativos, la varianza es no negativa.
La varianza de X es una de las formas m
as utilizadas para medir la dispersi
on de los
valores de X respecto de su media. Otra medida de dispersi
on es el desvo est
andar de X,
que se define como la raz cuadrada de la varianza y se denota (X):
p
(X) := V(X).
(18)
A diferencia de la varianza, el desvo estandar de una variable aleatoria es m
as facil de
interpretar porque tiene las mismas unidades de X.

Nota Bene: Grandes valores de V(X) significan grandes variaciones de los valores de X
alrededor de la media. Al contrario, peque
nos valores de V(X) implican una pronunciada
concentraci
on de la masa de la distribucion de probabilidades en un entorno de la media. En
el caso extremo, cuando la varianza es 0, la masa total de la distribucion de probabilidades se
concentra en la media. Estas afirmaciones pueden hacerse m
as precisas y seran desarrolladas
en la secci
on 4.
12

2.2.

C
alculo

Una manera brutal de calcular V(X) es calcular la funcion de distribucion de la variable


aleatoria (X E[X])2 y usar la definicion de esperanza. En lo que sigue mostraremos una
manera m
as simple de realizar ese tipo calculo.
Proposici
on 2.2 (Expresion de la varianza en terminos de los momentos). Sea X una variable
aleatoria con primer y segundo momentos finitos, entonces
V(X) = E[X 2 ] E[X]2 .

(19)

En palabras, la varianza es la diferencia entre el segundo momento y el cuadrado del primer


momento.
Demostraci
on. Desarrollar el cuadrado (X E[X])2 y usar las propiedades de la esperanza.
Poniendo (X E[X])2 = X 2 2XE[X] + E[X]2 se obtiene
V(X) = E[X 2 ] 2XE[X] + E[X]2 = E[X 2 ] 2E[X]2 + E[X]2 = E[X 2 ] E[X]2 .

Ejemplo 2.3 (Varianza de la funcion indicadora). Sea (, A, P) un espacio de probabilidad.


Para cualquier evento A A vale que
V(1{ A}) = E[1{ A}2 ] E[1{ A}]2 = P(A) P(A)2 = P(A)(1 P(A)).

(20)

Ejemplo 2.4 (Dado equilibrado). Sea X el resultado del lanzamiento de un dado equilibrado.
Por el Ejemplo 1.3 sabemos que E[X] = 7/2. Por otra parte
2

E[X ] =

6
X
x=1

91
1 X 2 1 + 4 + 9 + 16 + 25 + 36
= .
x =
x P(X = x) =
6
6
6
2

x=1

Por lo tanto, de acuerdo con la Proposicion 2.2, la varianza de X es


 2
91
8
7
32
V(X) =

= .
=
6
2
12
3

Ejemplo 2.5 (Fiabilidad). Sea T el tiempo de espera hasta que ocurre la primer falla en
un sistema electr
onico con funcion intensidad de fallas de la forma (t) = 2t1{t > 0}. Por el

Ejemplo 1.7 sabemos que E[T ] = /2. Por otra parte,


Z
Z
Z
2
2
2
2
xex dx = 1.
t 2t exp(t )dt =
t f (t)dt =
E[T ] =

La tercera igualdad se obtiene mediante el cambio de variables t2 = x y la cuarta se deduce


usando la formula de integracion por partes aplicada a u = x y v = ex .
Por lo tanto, de acuerdo con la Proposicion 2.2, la varianza de T es
 2

V(T ) = 1
=1 .
2
4

13

2.3.

Propiedades

Proposici
on 2.6. Para todo a, b R
V(aX + b) = a2 V(X).

(21)

Demostraci
on. Por definicion,
V(aX + b) = E[(aX + b E[aX + b])2 ] = E[a2 (X E[X])2 ] = a2 V(X).
Para obtener la segunda igualdad usamos que E[aX + b] = aE[X] + b.
Error cuadr
atico medio. Una manera de representar la variable aleatoria X mediante
un valor fijo c R es hallar el valor c que minimice el llamado error cuadr
atico medio,
E[(X c)2 ].
Teorema 2.7 (Pit
agoras). Sea X una variable aleatoria con esperanza y varianza finitas.
Para toda constante c R vale que
E[(X c)2 ] = V(X)2 + (E[X] c)2 .
En particular, el valor de c que minimiza el error cuadratico medio es la esperanza de X,
E[X].
Demostraci
on. Escribiendo Xc en la forma XE[X]+E[X]c y desarrollando cuadrados
se obtiene (X c)2 = (X E[X])2 +(E[X]c)2 +2(X E[X])(E[X]c). El resultado se obtiene
tomando esperanza en ambos lados de la igualdad y observando que E[X E[X]] = 0.

3.
3.1.

Covarianza
Definici
on

Definici
on 3.1 (Covarianza). Sean X e Y dos variables aleatorias de varianzas finitas
definidas sobre el mismo espacio de probabilidad (, A, P). La covarianza de X e Y se define
por
Cov(X, Y ) := E[(X E[X]) (Y E[Y ])].

3.2.

(22)

C
alculo

Proposici
on 3.2. Sean X e Y dos variables aleatorias definidas sobre el mismo espacio de
probabilidad (, A, P). Si los segundos momentos de las variables aleatorias X e Y son finitos,
se tiene que
Cov(X, Y ) = E[XY ] E[X]E[Y ].

14

(23)

Demostraci
on. La esperanza del producto E[XY ] es finita porque las esperanzas E[X 2 ] y
E[Y 2 ] son finitas y vale que |xy| 12 (x2 + y 2 ). Usando la propiedad distributiva del producto
y la linealidad de la esperanza tenemos que
E[(X E[X]) (Y E[Y ])] = E[XY E[Y ]X E[X]Y + E[X]E[Y ]]

= E[XY ] E[Y ]E[X] E[X]E[Y ] + E[X]E[Y ]

= E[XY ] E[X]E[Y ].

Ejemplo 3.3. Sea (, A, P) un espacio de probabilidad y sean A A y B A dos eventos de


probabilidad positiva. Consideremos las variables aleatorias X = 1{ A} e Y = 1{ B}.
Entonces,
Cov(X, Y ) = E[XY ] E[X]E[Y ]

= P(XY = 1) P(X = 1)P(Y = 1)

= P(X = 1, Y = 1) P(X = 1)P(Y = 1).


La segunda y la tercera igualdad se obtienen de (2) observando que XY es una variable a
valores 0 o 1 que vale 1 si y solo si X e Y son ambas 1.
Notamos que
Cov(X, Y ) > 0

P(X = 1, Y = 1) > P(X = 1)P(Y = 1)


P(X = 1, Y = 1)
> P(Y = 1)
P(X = 1)
P(Y = 1|X = 1) > P(Y = 1).

En palabras, la covarianza de X e Y es positiva si y solamente si la condici


on X = 1 aumenta
la probabilidad de que Y = 1.
Ejemplo 3.4. En una urna hay 6 bolas rojas y 4 bolas negras. Se extraen 2 bolas al azar sin
reposicion. Consideramos los eventos
Ai = {sale una bola roja en la i-esima extraccion},

i = 1, 2,

y definimos las variables aleatorias X1 y X2 como las funciones indicadoras de los eventos
A1 y A2 respectivamente. De acuerdo con el Ejemplo anterior es intuitivamente claro que
Cov(X1 , X2 ) < 0. (Por que? )
Cov(X1 , X2 ) = P(X1 = 1, X2 = 1) P(X1 = 1)P(X2 = 1) = P(A1 A2 ) P(A1 )P(A2 )


6
5
6 5
6
6
4
2
=

+
= = 0.02666....
10 9 10 9 10 9 10
75

Nota Bene. Se puede mostrar que Cov(X, Y ) > 0 es una indicacion de que Y tiende a
crecer cuando X lo hace, mientras que Cov(X, Y ) < 0 es una indicacion de que Y decrece
cuando X crece.
15

3.3.

Propiedades

Lema 3.5 (Propiedades). Para variables aleatorias X, Y, Z y constantes a, valen las siguientes
propiedades
1. Cov(X, X) = V(X),
2. Cov(X, Y ) = Cov(Y, X),
3. Cov(aX, Y ) = aCov(X, Y ),
4. Cov(X, Y + Z) = Cov(X, Y ) + Cov(X, Z).
Demostraci
on. Ejercicio.
Sobre la esperanza del producto. Si se conoce la covarianza y la esperanza de las
marginales, la identidad (23) puede ser u
til para calcular la esperanza del producto:
E[XY ] = E[X]E[Y ] + Cov(X, Y ).
Nota Bene. Si X e Y son independientes, Cov(X, Y ) = 0 porque E[XY ] = E[X]E[Y ]. Pero
la recproca no es cierta.
Ejemplo 3.6 (Dos bolas en dos urnas). El experimento aleatorio consiste en ubicar dos
bolas distinguibles en dos urnas. Sean N la cantidad de urnas ocupadas y Xi la cantidad
de bolas en la urna i. El espacio muestral se puede representar de la siguiente manera =
{(1, 1); (1, 2); (2, 1); (2, 2)}. La funcion de probabilidad conjunta de N y X1 se muestra en el
Cuadro 1
N \ X1
1
2
p X1

0
1/4
0
1/4

1
0
1/2
1/2

2
1/4
0
1/4

pN
1/2
1/2

Cuadro 1: Funcion de probabilidad conjunta de (N, X1 ).


Para calcular la esperanza del producto N X1 usamos el Teorema 1.19
E[N X1 ] = 1 1 pN,X1 (1, 1) + 1 2 pN,X1 (1, 2) + 2 1 pN,X1 (2, 1) + 2 2 pN,X1 (2, 2)
= 1 0 + 2 1/4 + 2 1/2 + 4 0 = 3/2.

Es facil ver que E[N ] = 3/2 y E[X1 ] = 1. Por lo tanto, Cov(N, X1 ) = 0. Sin embargo, las
variables N y X1 no son independientes.

3.4.

Varianza de sumas

Usando las propiedades de la covarianza enunciadas en Lema 3.5 se puede demostrar que

m
m
n X
n
X
X
X
Cov
Cov(Xi , Yj )
(24)
Yj =
Xi ,
i=1

j=1

i=1 j=1

16

En particular, se obtiene que

!
n
n
n
n
n X
X
X
X
X
X
V
Xi = Cov
Xi ,
Xj =
V(Xi ) + 2
Cov(Xi , Yj ).
i=1

i=1

j=1

i=1

i=1 j<i

Finalmente, si las variables son independientes


!
n
n
X
X
V
Xi =
V(Xi ).
i=1

4.
4.1.

(25)

(26)

i=1

Algunas desigualdades
Cauchy-Schwartz

Teorema 4.1 (Cauchy-Schwartz).


E[|XY |] (E[X 2 ]E[Y 2 ])1/2

(27)

Demostraci
on. Observar que para todo t R:
0 E[(t|X| + |Y |)2 ] = t2 E[X 2 ] + 2tE[|XY |] + E[Y 2 ].
Como la funcion cuadratica en t que aparece en el lado derecho de la igualdad tiene a lo sumo
una raz real se deduce que
4E[|XY |]2 4E[X 2 ]E[Y 2 ] 0.
Por lo tanto,
E[|XY |]2 E[X 2 ]E[Y 2 ].
Corolario 4.2. Sea X una variable aleatoria tal que E[X 2 ] < . Si a < E[X], entonces
P(X > a)

(E[X] a)2
.
E[X 2 ]

Demostraci
on. De la desigualdad X1{X > a} |X1{X > a}| y de la propiedad de
monotona de la esperanza se deduce que
E[X1{X > a}] E[|X1{X > a}|].

(28)

Aplicando la desigualdad de Cauchy-Schwartz a |X1{X > a}| se obtiene que


E[|X1{X > a}|] (E[X 2 ]E[1{X > a}2 ])1/2 = (E[X 2 ]P(X > a))1/2
Observando que X = X1{X > a} + X1{X a} y que X1{X a} a se deduce que
E[X] = E[X1{X > a}] + E[X1{X a}] E[X1{X > a}] + a
17

(29)

y en consecuencia,
E[X] a E[X1{X > a}].

(30)

Combinando las desigualdades (30), (28) y (29) se obtiene que


E[X] a (E[X 2 ]P(X > a))1/2
y como E[X] a > 0, elevando al cuadrado, se concluye que
(E[X] a)2 E[X 2 ]P(X > a).

El resultado se obtiene despejando.

4.2.

Chebyshev

Teorema 4.3 (Desigualdad de Chebyshev). Sea : R R tal que 0 y A B(R). Sea


iA := nf{(x) : x A}. Entonces,
iA P(X A) E[(X)]

(31)

Demostraci
on. La definicion de iA y el hecho de que 0 implican que
iA 1{X A} (X)1{X A} (X)
El resultado se obtiene tomando esperanza.
En lo que sigue enunciaremos algunos corolarios que se obtienen como casos particulares
del Teorema 4.3.
Corolario 4.4 (Desigualdad de Markov). Sea X una variable aleatoria a valores no negativos.
Para cada a > 0 vale que
P(X a)

E[X]
.
a

(32)

Demostraci
on. Aplicar la desigualdad de Chebyshev usando la funcion (x) = x restringida a la semi-recta no negativa [0, ) y el conjunto A = [a, ) para obtener
aP(X a) E[(X)] = E[X].
y despejar.
Corolario 4.5. Sea a > 0. Vale que
P(X > a)

1
E[X 2 ].
a2

(33)

Demostraci
on. Aplicar la desigualdad de Chebyshev usando la funcion (x) = x2 y el
conjunto A = (a, ) para obtener
a2 P(X > a) E[X 2 ]

y despejar.
Corolario 4.6 (Peque
na desigualdad de Chebyshev). Sea X una variable aleatoria de varianza finita. Para cada a > 0 vale que
P(|X E[X]| a)
18

V(X)
.
a2

(34)

Demostraci
on. Debido a que (X E[X])2 es una variable aleatoria no negativa podemos
aplicar la desigualdad de Markov (poniendo a2 en lugar de a) y obtenemos
 E[(X E[X])2 ]
V(X)
P (X E[X])2 a2
=
.
2
a
a2

La desigualdad (X E[X])2 a2 es equivalente a la desigualdad |X E[X]| a. Por lo


tanto,
P (|X E[X]| a)

V(X)
.
a2

Lo que concluye la demostraci


on.
Nota Bene. Grosso modo la peque
na desigualdad de Chebyshev establece que si la varianza
es peque
na, los grandes desvos respecto de la media son improbables.
Corolario 4.7. Sea X una variable aleatoria con varianza finita, entonces para cada > 0
P(|X E[X]| (X))

1
.
2

(35)

El resultado se obtiene poniendo a = (X) en la peque


na desigualdad de Chebyshev.
Ejemplo 4.8. La cantidad X de artculos producidos por un fabrica durante una semana es
una variable aleatoria de media 500.
(a) Que puede decirse sobre la probabilidad de que la producci
on semanal supere los
1000 artculos? Por la desigualdad de Markov,
P (X 1000)

E[X]
500
1
=
= .
1000
1000
2

(b) Si la varianza de la producci


on semanal es conocida e igual a 100, que puede decirse
sobre la probabilidad de que la producci
on semanal se encuentre entre 400 y 600 artculos?
Por la desigualdad de Chebyshev,
P (|X 500| 100)

2
1
=
.
2
(100)
100

99
1
= 100
, la probabilidad de que la producci
on
Por lo tanto, P (|X 500| < 100) 1 100
semanal se encuentre entre 400 y 600 artculos es al menos 0.99.

El que mucho abarca poco aprieta. Las desigualdades de Markov y Chebyshev son importantes porque nos permiten deducir cotas sobre las probabilidades cuando solo se conocen
la media o la media y la varianza de la distribucion de probabilidades. Sin embargo, debe
tenerse en cuenta que las desigualdades de Markov y de Chebyshev producen cotas universales
que no dependen de las distribuciones de las variables aleatorias (dependen pura y exclusivamente de los valores de la esperanza y de la varianza). Por este motivo su comportamiento
sera bastante heterogeneo: en algunos casos produciran cotas extremadamente finas, pero en
otros casos solamente cotas groseras.

19

5.

La ley d
ebil de los grandes n
umeros

Teorema 5.1 (Ley debil de los grandes n


umeros). Sea X1 , X2 , . . . una sucesion de variables
aleatorias independientes identicamente distribuidas,
P tales que V(X1 ) < . Sea Sn , n 1, la
sucesion de las sumas parciales definida por Sn := ni=1 Xi . Entonces, para cualquier > 0



Sn



lm P
E[X1 ] > = 0.
n
n

Demostraci
on. Se obtiene aplicando la desigualdad de Chebyshev a la variable aleatoria
Sn /n. Usando que la esperanza es un operador lineal se obtiene que
" n
#
n
X
1X
1
Xi =
E[Xi ] = E[X1 ].
E [Sn /n] = E
n
n
i=1

i=1

Como las variables X1 , X2 , . . . son independientes tenemos que


!
n
n
X
1
V(X1 )
1 X
V (Sn /n) = 2 V
V(Xi ) =
.
Xi = 2
n
n
n
i=1

i=1

Entonces, por la desigualdad de Chebyshev, obtenemos la siguiente estimacion






Sn
V(X1 )


P
E[X1 ] >
.
n
n2

(36)

Como V(X1 ) < el lado derecho de la u


ltima desigualdad tiende a 0 cuando n .

Nota Bene. La ley debil de los grandes n


umeros establecida en el Teorema 5.1 sirve como
base para la noci
on intuitiva de probabilidad como medida de las frecuencias relativas. La
proposicion en una larga serie de ensayos identicos la frecuencia relativa del evento A se
aproxima a su probabilidad P(A) se puede hacer te
oricamente m
as precisa de la siguiente
manera: el resultado de cada ensayo se representa por una variable aleatoria (independiente de
las demas) que vale 1 cuando se obtiene el evento A y vale cero en caso contrario. La expresi
on
una larga serie de ensayos adopta la forma de una sucesion X1 , X2 , . . . de variables aleatorias
independientes cada una con la misma distribucion que la indicadora del evento A. Notar
P que
Xi = 1 significa que en el i-esimo ensayo ocurrio el evento A y la suma parcial Sn = ni=1 Xi
representa la frecuencia del evento A en los primeros n ensayos. Puesto que E[X1 ] = P(A)
y V(X1 ) = P(A)(1 P(A)) la estimacion (36) adopta la forma



Sn

P(A)(1 P(A))


P
P(A) >
.
(37)
n
n2

Por lo tanto, la probabilidad de que la frecuencia relativa del evento A se desve de su probabilidad P(A) en m
as de una cantidad prefijada , puede hacerse todo lo chica que se quiera,
siempre que la cantidad de ensayos n sea suficientemente grande.

Ejemplo 5.2 (Encuesta electoral). Se quiere estimar la proporci


on del electorado que pretende votar a un cierto candidato. Cual debe ser el tama
no muestral para garantizar un
determinado error entre la proporci
on poblacional, p, y la proporci
on muestral Sn /n?
20

Antes de resolver este problema, debemos reflexionar sobre la definicion de error. Habitualmente, cuando se habla de error, se trata de un n
umero real que expresa la (in)capacidad
de una cierta cantidad de representar a otra. En los problemas de estimacion estadstica,
debido a que una de las cantidades es una variable aleatoria y la otra no lo es, no es posible
interpretar de un modo tan sencillo el significado de la palabra error.
Toda medida muestral tiene asociada una incerteza (o un riesgo) expresada por un modelo
probabilstico. En este problema consideramos que el voto de cada elector se comporta como
una variable aleatoria X tal que P(X = 1) = p y P(X = 0) = 1 p, donde X = 1 significa que
el elector vota por el candidato considerado. Por lo tanto, cuando se habla de que queremos
encontrar un tama
no muestral suficiente para un determinado error m
aximo, por ejemplo
0.02, tenemos que hacerlo
con
una
medida
de
certeza
asociada.
Matem
a
ticamente,
queremos
S


n


encontrar n tal que P n p 0.02 0.9999 o, equivalentemente, queremos encontrar n
tal que



Sn



P
p > 0.02 0.0001.
n
Usando la estimacion (37) se deduce que



Sn

p(1 p)


P
p > 0.02
.
n
n(0.02)2

El numerador de la fraccion que aparece en el lado derecho de la estimacion depende de p y


el valor de p es desconocido. Sin embargo, sabemos que p(1 p) es una par
abola convexa con
races en p = 0 y p = 1 y por lo tanto su m
aximo ocurre cuando p = 1/2, esto es p(1p) 1/4.
En la peor hip
otesis tenemos:



Sn

1


P
p > 0.02
.
n
4n(0.02)2

Como m
aximo estamos dispuestos a correr un riesgo de 0.0001 y en el peor caso tenemos acotada la m
axima incerteza por (4n(0.02)2 )1 . El problema se reduce a resolver la desigualdad
2
(4n(0.02) )1 0.0001. Por lo tanto,
2 1

n ((0.0001)4(0.02)
) = 6250000.

Una cifra absurdamente grande!! M


as adelante, mostraremos que existen metodos m
as sofisticados que permiten disminuir el tama
no de la muestra.

21

6.

Distribuciones particulares

Para facilitar referencias posteriores presentaremos tablas de esperanzas y varianzas de


algunas distribuciones importantes de uso frecuente y describiremos el metodo para obtenerlas.

Discretas
No.

Nombre

Probabilidad

Soporte

Esperanza

Varianza

1.

Uniforme

1
ba+1

axb

(a + b)/2

(b a)(b a 2)/12

2.

Bernoulli

px (1 p)1x

x {0, 1}

p(1 p)

3.

Binomial

0xn

np

np(1 p)

4.

Geometrica

(1 p)x1 p

xN

1/p

(1 p)/p2

5.

Poisson

x
x! e

x N0

n
x

 x
p (1 p)nx

Cuadro 2: Esperanza y varianza de algunas distribuciones discretas de uso frecuente.

Continuas
No.

Nombre

Densidad

Soporte

Esperanza

Varianza

1.

Uniforme

1
ba

x [a, b]

(a + b)/2

(b a)2 /12

2.

Exponencial

ex

x>0

1/

1/2

3.

Gamma

1 x
e
() x

x>0

/2

4.

Beta

x (0, 1)

1
1 +2

1 2
(1 +2 )2 (1 +2 +1)

5.

Normal

xR

(1 +2 ) 1 1
(1
(1 )(2 ) x

x)2 1

2
2
1 e(x) /2
2

Cuadro 3: Esperanza y varianza de algunas distribuciones continuas de uso frecuente.

22

Cuentas con variables discretas


1. Distribuci
on uniforme discreta.
Sean a y b dos n
umeros enteros tales que a < b. Se dice que la variable aleatoria X tiene
distribucion uniforme sobre el intervalo de n
umeros enteros [a, b] := {a, a + 1, . . . , b}, y se
denota X U[a, b], si X es discreta y tal que
1
1{x {a, a + 1, . . . , b}}.
ba+1
Notando que la distribucion de X coincide con la de la variable X + a 1, donde X
esta uniformemente distribuida sobre {1, . . . , b a + 1}, resulta que
P(X = x) =

1 + (b a + 1)
a+b
+a1=
.
2
2
Para calcular la varianza de X, consideramos primero el caso m
as simple donde a = 1 y b = n.
Por induccion en n se puede ver que
E[X] = E[X ] + a 1 =

E[X 2 ] =

1 X 2 (n + 1)(2n + 1)
k =
.
n
6
k=1

La varianza puede obtenerse en terminos de los momentos de orden 1 y 2:


(n + 1)(2n + 1) (n + 1)2

6
4
(n + 1)[2(2n + 1) 3(n + 1)]
n2 1
=
=
.
12
12
Para el caso general, notamos que la variable aleatoria uniformemente distribuida sobre [a, b]
tiene la misma varianza que la variable aleatoria uniformemente distribuida sobre [1, ba+1],
puesto que esas dos variables difieren en la constante a 1. Por lo tanto, la varianza buscada
se obtiene de la formula anterior sustituyendo n = b a + 1
V(X) = E[X 2 ] E[X]2 =

V(X) =

(b a + 1)2 1
(b a)(b a + 2)
=
.
12
12

2. Distribuci
on Bernoulli.
Sea p (0, 1). Se dice que la variable aleatoria X tiene distribucion Bernoulli de par
ametro
p, y se denota X Bernoulli(p), si X es discreta y tal que
P(X = x) = px (1 p)1x , donde x = 0, 1.

Por definicion,
E[X] = 0 P(X = 0) + 1 P(X = 1) = 0 (1 p) + 1 p = p.
Por otra parte,
E[X 2 ] = 02 P(X = 0) + 12 P(X = 1) = p.
Por lo tanto,
V(X) = E[X 2 ] E[X]2 = p p2 = p(1 p).

23

3. Distribuci
on Binomial.
Sean p (0, 1) y n N. Se dice que la variable aleatoria X tiene distribucion Binomial
de par
ametros n y p, y se denota X Binomial (n, p), si X es discreta y tal que
 
n x
P(X = x) =
p (1 p)nx , donde x = 0, 1, . . . , n.
x
Por definicion,
n
X

E[X] =

x=0
n
X

 
n
n
X
X
n x
xn!
x
p (1 p)nx =
xP(X = x) =
px (1 p)nx
x
(n x)!x!
x=1

x=0

n
X

(n 1)!
n!
px (1 p)nx = np
px1 (1 p)nx
(n x)!(x 1)!
(n x)!(x 1)!
x=1
x=1


n1
X n1
py (1 p)n1y = np(p + (1 p))n1 = np.
= np
y

y=0

An
alogamente se puede ver que
E[X 2 ] = np((n 1)p + 1).
Por lo tanto,
V(X) = E[X 2 ] E[X]2 = np((n 1)p + 1) (np)2
= np((n 1)p + 1 np) = np(1 p).

4. Distribuci
on Geom
etrica.
Sea p (0, 1). Se dice que la variable aleatoria X tiene distribucion Geometrica de
par
ametro p, y se denota X Geometrica(p), si X es discreta y tal que
P(X = x) = (1 p)x1 p1{x N}.
Por definicion,
E[X] =

xP(X = x) =

X
x=1

x=1

x(1 p)x1 p = p

X
x=1

x(1 p)x1 .

d
La serie se calcula observando que x(1 p)x1 = dp
(1 p)x y recordando que las series de
potencias se pueden derivar termino a termino:

X
x=1

x1

x(1 p)


d X
d 1
=
(1 p)x =
p 1 = p2 .
dp
dp
x=1

Por lo tanto, E[X] = p p2 = 1/p.


24

Para calcular
V(X) usaremos la misma tecnica: derivamos dos veces ambos lados de la
P
igualdad x=1 (1 p)x1 = p1 y obtenemos
2p

X
d2 1
d2 X
x1
(x 1)(x 2)(1 p)x3
(1 p)
=
p = 2
dp2
dp
x=1

x=1

X
x=1

x1

(x + 1)x(1 p)

X
x=1

x1

x (1 p)

X
x=1

x(1 p)x1 .

Multiplicando por p los miembros de las igualdades obtenemos, 2p2 = E[X 2 ] + E[X] =
E[X 2 ] + p1 . En consecuencia, E[X 2 ] = 2p2 p1 . Por lo tanto,
V(X) = E[X 2 ] E[X]2 = 2p2 p1 p2 = p2 p1 = p2 (1 p).

5. Distribuci
on de Poisson.
Sea > 0. Se dice que la variable aleatoria X tiene distribucion de Poisson de intensidad
, y se denota X Poisson(), si X es discreta y tal que
P(X = x) =

x
e 1{x N0 }.
x!

Por definicion,
E[X] =

X
x=0

= .

X
X
X
x
x1
x1

x e = e
x
xP(X = x) =
= e
= e e
x!
x!
(x 1)!
x=0

x=1

x=1

Derivando termino a termino, se puede ver que


E[X 2 ] =

x2 P(X = x) =

x2

x=0

x=0

x=1

x=1

X x1
X xx1
x
e = e
= e
x2
x!
x!
(x 1)!



d  
d X x
e = e e + e = + 2 .
= e
= e
d
(x 1)!
d
x=1

Por lo tanto,
V(X) = E[X 2 ] E[X] = + 2 2 = .

Cuentas con variables continuas


1. Distribuci
on uniforme.
Sean a < b. Se dice que la variable aleatoria X tiene distribucion uniforme sobre el
intervalo [a, b], y se denota X U[a, b], si X es absolutamente continua con densidad de
probabilidades
1
1{x [a, b]}.
f (x) =
ba
25

Por definicion,
Z
Z
E[X] =
xf (x)dx =

1
1
x
1{x [a, b]} dx =
ba
b a

a+b
.
2

Por otra parte,


Z
2
E[X ] =

1
x f (x)dx =
ba

b
a

1
x dx =
ba
2

b3 a3
3

1
x dx =
ba

b2 a2
2

a2 + ab + b2
.
3

Finalmente,
a2 + ab + b2

V(X) = E[X ] E[X] =


3
2

a+b
2

2

(b a)2
a2 2ab + b2
=
.
12
12

2. Distribuci
on exponencial.
Sea > 0. Se dice que la variable aleatoria X tiene distribucion exponencial de intensidad , y se denota X Exp(), si X es absolutamente continua con funcion densidad de
probabilidades
f (x) = ex 1{x 0}.
El calculo de E[X] y V(X) se reduce al caso X Exp(1). Basta observar que Y Exp()
si y solo si Y = 1 X, donde X Exp(1) y usar las identidades E[1 X] = 1 E[X] y
V(1 X) = 2 V(X). En lo que sigue suponemos que X Exp(1).
Integrando por partes se obtiene,
Z
Z
Z
Z

x
x
x
ex dx
xe dx = xe +
xe 1{x 0} =
xf (x)dx =
E[X] =
0

= 1.

Por otra parte,


E[X 2 ] =

x2 f (x)dx =


x2 ex dx = x2 ex 0 +

2xex dx = 2.

Por lo tanto, V(X) = E[X 2 ] E[X]2 = 2 1 = 1.


3. Distribuci
on gamma.
La funci
on gamma se define por
Z
(t) :=
xt1 ex dx

t > 0.

Integrando por partes puede verse que (t) = (t 1)(t 1) para todo t > 0. De aqu se
deduce que la funcion gamma interpola a los n
umeros factoriales en el sentido de que
(n + 1) = n!

para
26

n = 0, 1, . . .

Sean > 0 y > 0. Se dice que la variable aleatoria X tiene distribucion gamma de par
ametros
, , , y se denota X (, ), si X es absolutamente continua con funcion densidad de
probabilidades
1 x
f (x) =
x e
1{x > 0}.
()
El calculo de E[X] y V(X) se reduce al caso X (, 1). Para ello, basta observar que Y
(, ) si y solo si Y = 1 X, donde X (, 1) y usar las identidades E[1 X] = 1 E[X]
y V(1 X) = 2 V(X). En lo que sigue suponemos que X (, 1)
E[X] =

xf (x) dx =

1 x
1
x e dx =
( + 1) = .
()
()

Del mismo modo se puede ver que E[X 2 ] = ( + 1) = 2 + . Por lo tanto, V(X) =
E[X 2 ] E[X]2 = .
4. Distribuci
on beta
Sean 1 > 0 y 2 > 0. Se dice que la variable aleatoria X tiene distribucion beta de
par
ametros 1 , 2 , y se denota X (1 , 2 ), si X es absolutamente continua con funcion
densidad de probabilidades
(1 + 2 ) 1 1
x
(1 x)2 1 1{x (0, 1}.
(1 )(2 )

f (x) =
Por definicion,
Z

E[X] =

xf (x)dx =

(1 + 2 )
(1 )(2 )

(1 + 2 ) 1 1
x
(1 x)2 1 1{x (0, 1} dx
(1 )(2 )

x1 (1 x)2 1 dx =

(1 + 2 ) (1 + 1)(2 )
1
=
(1 )(2 ) (1 + 2 + 1)
1 + 2

Por otra parte,


2

E[X ] =
=

Z
(1 + 2 ) 1 1 +1
x f (x)dx =
x
(1 x)2 1 dx
(1 )(2 ) 0

1 (1 + 1)
(1 + 2 ) (1 + 2)(2 )
=
(1 )(2 ) (1 + 2 + 2)
(1 + 2 )(1 + 2 + 1)

Finalmente,
1 (1 + 1)
V(X) = E[X ] E[X] =

(1 + 2 )(1 + 2 + 1)
1 2
=
.
(1 + 2 )2 (1 + 2 + 1)
2

27

1
1 + 2

2

5. Distribuci
on normal.
Sean R y > 0. Se dice que la variable aleatoria X tiene distribucion normal de
par
ametros , 2 , y se denota X N (, 2 ), si X es absolutamente continua con funcion
densidad de probabilidades
1
2
2
f (x) =
e(x) /2 .
2
El calculo de E[X] y V(X) se reduce al caso X N (0, 1). Para ello, basta observar que
Y N (, 2 ) si y solo si Y = X + , donde X N (0, 1) y usar las identidades E[X + ] =
E[X] + y V(X + ) = 2 V(X). En lo que sigue suponemos que X N (0, 1) y denotamos
su densidad mediante
1
2
(x) = ex /2
2
Es evidente que E[X] = 0. En consecuencia,
2

V(X) = E[X ] =

x2 (x)dx

Observando que (x) = x(x) e integrando por partes se obtiene,



Z
Z


(x)dx = 0 + 1.
+
x(x(x))dx = x(x)
V(X) =

7.

Bibliografa consultada
Para redactar estas notas se consultaron los siguientes libros:
1. Bertsekas, D. P., Tsitsiklis, J. N.: Introduction to Probability. M.I.T. Lecture Notes.
(2000)
2. Billingsley, P.: Probability and Measure. John Wiley & Sons, New York. (1986)
3. Durrett, R. Elementary Probability for Applications. Cambridge University Press, New
York. (2009)
4. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. John
Wiley & Sons, New York. (1957)
5. Kolmogorov, A. N.: The Theory of Probability. Mathematics. Its Content, Methods,
and Meaning. Vol 2. The M.I.T. Press, Massachusetts. (1963) pp. 229-264.
6. Ross, S.: Introduction to Probability and Statistics for Engineers and Scientists. Academic Press, San Diego. (2004)
7. Ross, S.: Introduction to Probability Models. Academic Press, San Diego. (2007)
8. Soong, T. T.: Fundamentals of Probability and Statistics for Engineers. John Wiley &
Sons Ltd. (2004)

28

Transformaciones de variables aleatorias


(Borradores, Curso 23)
Sebastian Grynberg
3 de abril de 2013

Mi unicornio azul ayer se me perdi


o,
pastando lo deje y desapareci
o.
(Silvio Rodrguez)

Indice
1. Funciones de variables aleatorias
1.1. Metodo basico: eventos equivalentes . .
1.2. Funciones a trozos: dividir y conquistar
1.3. Funciones inyectivas suaves . . . . . . .
1.4. Funciones suaves . . . . . . . . . . . . .

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

2
2
5
6
7

2. Funciones de vectores aleatorios


2.1. Metodo basico: eventos equivalentes
2.1.1. Suma de variables . . . . . .
2.1.2. Mnimo . . . . . . . . . . . .
2.2. El metodo del Jacobiano . . . . . . .
2.3. Funciones k a 1 . . . . . . . . . . . .

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

7
7
9
10
10
15

.
.
.
.
.

.
.
.
.
.

3. Mnimo y m
aximo de dos exponenciales independientes

18

4. Funciones regulares e independencia

19

5. Bibliografa consultada

20

1.

Funciones de variables aleatorias

Sea X una variable aleatoria definida sobre un espacio de probabilidad (, A, P). Sea
g : D R R una funcion cuyo dominio D contiene al rango de X: X() := {x() : }.
Entonces Y = g(X) esta bien definida y sera una variable aleatoria si y s
olo si
{ : g(X) y} A

para todo y R.

(1)

En palabras, si g 1 ((, y]) := {x R : g(x) y}, el conjunto {X g 1 (, y]} debe tener


asignada probabilidad. Este es tpicamente el caso. Por ejemplo, si X es discreta, cualquier
funcion g cuyo dominio contenga al rango de X satisface (1). Si X no es discreta, cualquier
funcion g seccionalmente continua cuyo dominio contenga al rango de X satisface (1).

1.1.

M
etodo b
asico: eventos equivalentes

Si queremos hallar la funcion de distribucion de Y = g(X) tenemos que calcular


FY (y) = P(Y y) = P(g(X) y) = P(X g 1 (, y]).

(2)

Los siguientes ejemplos ilustran el metodo b


asico para hacerlo.
Ejemplo 1.1 (Del pendulo a la distribucion de Cauchy). Sea el angulo de un pendulo
medido desde la vertical cuyo extremo superior se encuentra sostenido del punto (0, 1). Sea
(X, 0) el punto de interseccion de la recta que contiene al pendulo y el eje x -ver la Figura 1-.
Trigonometra mediante, sabemos que
X = tan

Figura 1: Pendulo.
Si el angulo es una variable aleatoria uniformemente distribuida sobre el intervalo ( 2 , 2 ),
cu
al es la distribucion de X?
Primero observamos que para cada (/2, /2) tenemos que
P( ) =
De all se deduce que

+ /2
1
(/2)
=
= + .
/2 (/2)

P(X x) = P(tan x) = P( arctan x) =


y derivando obtenemos que
fX (x) =

1 1
+ arctan x,
2

1
.
(1 + x2 )

Teorema 1.2. Sea X una variable aleatoria continua con funci


on de distribuci
on creciente.
Entonces, Y = FX (X) U(0, 1).
Demostraci
on. El an
alisis se reduce a examinar el comportamiento de la funcion de distribuci
on de Y sobre el intervalo (0, 1). Para cada y (0, 1) vale que
FY (y) = P(Y y) = P(FX (X) y) = P(X FX1 (y)) = FX (FX1 (y)) = y.
Corolario 1.3. Sea X una variable aleatoria continua con funci
on de distribuci
on creciente.
Sea Y una variable aleatoria cualquiera. Entonces X puede transformarse en una copia de Y
haciendo lo siguiente: Y = FY1 (FX (X)), donde FY1 es la inversa generalizada de Y .
Ejemplo 1.4. Construir una moneda equilibrada X usando una variable aleatoria T con
distribucion exponencial de intensidad 1.


1
T

<1e <1 .
X=1
2

El siguiente ejemplo puede considerarse un prototipo que ilustra como tratar con las
funciones de variables aleatorias cuando no son inyectivas.
Ejemplo 1.5 (Prototipo). Sea X una variable aleatoria cualquiera y sea Y = X 2 . Queremos
determinar la distribucion de Y .
1. C
alculo explcito de la funci
on de distribuci
on. La funcion
calcula observando que g(x) = x2 y utilizando la formula: FY (y) = P
este caso, el conjunto g 1 ((, y]) adopta la forma




[ y, y] si y
1
2
g ((, y]) = x R : x y =

si y

de distribucion de Y se
X g 1 ((, y]) . En
0,
< 0.

Por lo tanto,

FY (y) = P ( y X y ) 1{y 0} = (FX ( y) FX ( y)) 1{y 0}.

(3)

En particular, si X es continua, P(X = x) = 0 para todo x R y la identidad (3) adopta la


forma

FY (y) = (FX ( y) FX ( y)) 1{y > 0}.


(4)
2. C
alculo explcito de la densidad de probabilidades. Si X es absolutamente continua
con densidad de probabilidades fX (x), la densidad de probabilidades de Y = X 2 se obtiene
derivando la funcion de distribucion FY (y). De la identidad (4) se deduce que:


1
1
d

FY (y) = fX ( y) fX ( y)
1{y > 0}
fY (y) =
dy
2 y
2 y
1

=
(5)
(fX ( y) + fX ( y)) 1{y > 0}.
2 y
Ejemplo 1.6 (De continua a discreta). Sea U U(0, 1]. Hacemos Y = [10 U ], donde [x]
representa la parte entera de x R. Queremos determinar la funcion de probabilidad de Y .
En primer lugar observamos que la variable aleatoria Y es el primer dgito del desarrollo
decimal de un n
umero elegido al azar sobre el intervalo (0, 1). Los posibles valores de Y son
0, 1, . . . , 9. Para cada y {0, 1, . . . , 9} vale que


y
y+1
1
P(Y = y) = P
<U
= .
10
10
10
En otras palabras, Y U{0, 1, . . . , 9}.

Ejemplo 1.7. Sea T Exp () la duraci


on en minutos de una llamada telef
onica. Se factura
un pulso cada t0 minutos o fraccion. Queremos determinar la distribucion de la cantidad de
pulsos facturados por la llamada.
La cantidad de pulsos facturados por la llamada se describe por:
X
N=
n1{(n 1)t0 < T nt0 }.
n1

Notando que N > n T > nt0 obtenemos que



n
P (N > n) = ent0 = et0 = P(T > t0 )n .

Por lo tanto, N Geometrica (P(T t0 )).

Ejemplo 1.8 (Variables discretas). Sea X una variable aleatoria discreta a valores (xi )i1 .
De la relaci
on Y = g(X) se deduce que los posibles valores de Y son yi = g(xi ), i 1. Si la
funcion de probabilidad de X esta dada por pX (xi ) = pi , i 1, la funcion de probabilidad de
Y se determina por
X
pY (yi ) = P(Y = yi ) = P(X g 1 (yi )) =
px .
xg 1 (yi )

Ejercicios adicionales
1. Sea X una variable aleatoria discreta tal que P (X = 1) = 1/2, P(X = 0) = 1/4 y
P(X = 1) = P(X = 2) = 1/8. Hallar la funcion de probabilidad de Y para Y = 2X + 1 y para
Y = 2X 2 + 1.

1.2.

Funciones a trozos: dividir y conquistar

Sea X una variable y sea A1 , A2 , . . . una particion de R tal que P(X Ai ) > 0 para todo
i 1. Consideramos una funcion a trozos definida por
X
g(x) =
gi (x)1{x Ai },
i1

donde, para cada i 1, gi : R R, es una funcion tal que gi (X) es una variable aleatoria. Si
se quiere hallar la distribucion de
X
Y = g(X) =
gi (X)1{X Ai }
i1

se puede hacer lo siguiente: considerar las variables truncadas Xi = X|X Ai , hallar las
distribuciones de las variables Yi = gi (Xi ) y luego ponderarlas con los pesos P(X Ai ):
X
FY (y) =
FYi (y)P(X Ai ).
(6)
i1

En efecto, por una parte tenemos que

X
X
X
FY (y) = P
gj (X)1{X Aj } y =
P
gj (X)1{X Aj } y, X Ai
j1

X
i

i1

P (gi (X) y, X Ai ) =

Por otra parte,

X
i1

j1


P X gi1 (, y] Ai .

FYi (y) = P(gi (Xi ) y) = P(Xi g 1 (, y]) =


Equivalentemente,

P(X g 1 (, y] Ai )
.
P(X Ai )

P (X g 1 (, y] Ai ) = FYi (y)P(X Ai ).
Combinando (7) y (8) se obtiene (6).
5

(7)

(8)

1.3.

Funciones inyectivas suaves

Teorema 1.9 (Cambio de variables). Sea X una variable aleatoria absolutamente continua
con densidad de probabilidades fX (x). Sea Y = g(X), donde g es una funcion monotona
con derivada no nula. Entonces Y es absolutamente continua y admite una densidad de
probabilidades de la forma

fX (x)
fY (y) =
.
(9)
|g (x)| 1
x=g

(y)

Demostraci
on.
1. La funcion g es creciente: g(x1 ) g(x2 ) para x1 x2 . En tal caso la funcion inversa
g 1 tambien es creciente. En consecuencia,


FY (y) = P(Y y) = P(g(X) y) = P X g 1 (y) = FX g 1 (y) .
(10)
La funcion FY (y) es derivable porque es una composicion de funciones derivables. Derivando
con respecto a y y usando la regla de la cadena se obtiene
d
d
fX (g 1 (y))
FY (y) =
FX (g 1 (y)) = 1
.
dy
dy
g (g (y))
g 1

2. La funcion g es decreciente: g(x1 ) g(x2 ) para x1 x2 . En este caso la funcion inversa


tambien es decreciente. En consecuencia,


(11)
FY (y) = P(Y y) = P(g(X) y) = P X g 1 (y) = 1 FX g 1 (y) .

Derivando con respecto a y se obtiene


fX (g 1 (y))
d
d
1 FX (g 1 (y)) = 1
FY (y) =
.
dy
dy
g (g (y))
Corolario 1.10 (Cambio lineal). Dados a > 0 y b R, la densidad de probabilidades de
Y = aX + b adopta la forma


1
yb
fY (y) = fX
.
(12)
a
a
En palabras, desde el punto de vista de la densidad de probabilidades, el cambio lineal
y = ax + b efect
ua una traslaci
on en b seguida de un cambio de escala de 1 en a sobre la
densidad original. Cuando el par
ametro a se achica, los valores de Y tienden a estar m
as
concentrados (alrededor del valor medio) y cuando a se agranda, tienden a dispersarse.

Ejemplo 1.11 (Variables exponenciales). Se dice que la variable aleatoria Y tiene distribuci
on
1
exponencial de intensidad > 0, y se denota Y Exp(), si Y = X, donde X es una
variable aleatoria absolutamente continua que admite una densidad de probabilidades de la
forma fX (x) = ex 1{x 0}. De (12) se deduce que Y admite una densidad de probabilidades
de la forma fY (y) = ey 1{y 0}.

Ejemplo 1.12 (Variables Normales). Sean R y > 0. Se dice que la variable aleatoria
Y tiene distribucion normal de par
ametros , 2 , y se denota Y N (, 2 ), si Y = X + ,
donde X es una variable aleatoria absolutamente continua con densidad de probabilidades
2
(x) = 12 ex /2 . De (12) se deduce que Y admite una densidad de probabilidades de la


(y)2
1

forma fY (y) = 2 exp 22 .


6

1.4.

Funciones suaves

Nota Bene. Las formulas (10) y (11) permiten calcular explcitamente la funcion de distribuci
on, FY , para transformaciones monotonas (continuas) Y = g(X), independientemente
de la clase de variable que sea X. Que hacer cuando la transformacion g es suave pero no es
inyectiva?
Ejemplo 1.13. Sea X N (0, 1). Seg
un la formula (5) la densidad de probabilidades de


2
1
2
Y = X es fY (y) = 2y ( y) + ( y) 1{y > 0}, donde (x) = 12 ex /2 . Por lo tanto,
1
fY (y) = y 1/2 ey/2 1{y > 0}.
2

En otras palabras, si X N (0, 1), entonces X 2 (1/2, 1/2).


El Teorema 1.9 puede generalizarse del siguiente modo
Teorema 1.14 (Cambio de variables II). Sea X una variable aleatoria absolutamente continua con densidad de probabilidades fX (x). Sea Y = g(X), donde g es una funcion derivable con derivada no nula (salvo en contables puntos). Si para cada y R, el conjunto
g 1 (y) = {x R : g(x) = y} es discreto, entonces Y es absolutamente continua y admite una
funcion densidad de probabilidades de la forma
fY (y) =

xg 1 (y)

fX (x)
.
|g (x)|

Se sobreentiende que si g 1 (y) = , fY (y) = 0.

Ejercicios adicionales
2. [James p.98] Si X tiene densidad fX (x), cu
al es la densidad de Y = cos X?

2.
2.1.

Funciones de vectores aleatorios


M
etodo b
asico: eventos equivalentes

Sea X = (X1 , . . . , Xn ) un vector aleatorio definido sobre un espacio de probabilidad


(, A, P) y sea g : Rn R una funcion cualquiera. Entonces, Y := g(X) sera una variable
aleatoria si y solo si { : g(X()) y} A para todo y R. La funcion de distribucion
de Y , FY (y), se puede calcular mediante la funcion de distribucion de X de la siguiente
manera:
FY (y) = P(Y y) = P(g(X) y) = P (X By ) ,
donde By := g 1 ((, y]) = {x Rn : g(x) y}.

(13)

Caso bidimensional continuo. Sea (X, Y ) un vector aleatorio con densidad conjunta
fX,Y (x, y). Cualquier funcion continua a valores reales g : R2 R define una nueva variable
aleatoria Z := g(X, Y ). La funcion de distribucion de Z, FZ (z) = P(Z z), se puede obtener
a partir de la densidad conjunta de X e Y de la siguiente forma:
1. Para cada z R se determina el conjunto Bz R2 de todos los puntos (x, y) tales que
g(x, y) z.
2. Integrando la densidad conjunta fX,Y (x, y) sobre el conjunto Bz se obtiene la funcion
de distribucion de Z:
x
FZ (z) =
fX,Y (x, y)dxdy.
(14)
Bz

3. La densidad de Z se obtiene derivando la funcion de distribucion respecto de z.


Ejemplo 2.1. Sean X e Y dos variables aleatorias independientes cada una con distribucion
uniforme sobre el intervalo [1, 1]. Se quiere hallar la funcion de distribucion y la densidad
de Z = |X Y |.
La funcion de distribucion de la variable Z = |X Y | se puede obtener observando la
Figura 2.
y

y =x+z

11111111111111111111111111111111111111111
00000000000000000000000000000000000000000
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000 y = x z
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
11111111111111111010
000000000000000000000000000000000000000000000000000000000
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
1010
111111111111111111111111111111111111111111
1
00000000000000000000000000000000000000000
x
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
1010
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
1010
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
1010
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
1010
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
1
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
111111111111111110
0000000000000000

2z

Figura 2: La regi
on sombreada representa los puntos del cuadrado [1, 1] [1, 1] tales que
|x y| z, 0 z 2 y su
area es 4 (2 z)2 = 4z z 2 .
Debido a que las variables aleatorias X e Y son independientes y uniformemente distribuidas obre el intervalo [1, 1], tenemos que P((X, Y ) B) = area(B)/4, para cualquier
regi
on B contenida en el cuadrado [1, 1] [1, 1] para la que tenga sentido la nocion
de area. En consecuencia, FZ (z) = P (|X Y | z) = (4z z 2 )/4 para todo z [0, 2].
Derivando esta
ltima expresi
on respecto de z se obtiene la densidad de Z = |X Y |:
 u
fZ (z) = 2z
1{z

(0,
2)}.
2
8

Caso bidimensional discreto. Sea (X, Y ) un vector aleatorio discreto sobre un espacio
de probabilidad (, A, P), con funcion de probabilidad conjunta pX,Y (x, y). Sea g : R2
R una funcion cualquiera, Z := g(X, Y ) es una nueva variable aleatoria, cuya funcion de
probabilidad, pZ (z), se obtiene de la siguiente manera:
X
pX,Y (x, y),
(15)
pZ (z) = P(Z = z) = P(g(X, Y ) = z) =
(x,y)Bz

donde Bz = {(x, y) X() Y () : g(x, y) = z}.


2.1.1.

Suma de variables

Ejemplo 2.2 (Suma). Sean X, Y dos variables aleatorias con densidad conjunta fX,Y (x, y)
y sea Z = X + Y . Para cada z R, Bz = {(x, y) R2 : y z x}. Usando la formula (14)
se obtiene la funcion de distribucion de Z

Z Z zx
fX,Y (x, y)dy dx.
(16)
FZ (z) =

La densidad de Z se obtiene derivando respecto de z la funcion de distribucion FZ (z)


Z
d
fZ (z) =
fX,Y (x, z x)dx.
FZ (z) =
dz

(17)

Ejemplo 2.3 (Suma de variables independientes). Sean X, Y dos variables aleatorias continuas e independientes con densidad conjunta fX,Y (x, y) = fX (x)fY (y). Seg
un la formula (17)
la densidad de probabilidades de la suma Z = X + Y es
Z
Z
fX (x)fY (z x)dx
(18)
fX,Y (x, z x)dx =
fZ (z) =

y se denomina el producto convoluci


on, fX fY , de las densidades marginales fX y fY .
Si las densidades marginales fX (x) y fY (y) concentran la masa en [0, ) la formula (18)
del producto convolucion es un poco m
as sencilla:
Z z
Z
fX (x)fY (z x)dx.
(19)
fX (x)fY (z x)dx =
(fX fY )(z) =
0

Ejemplo 2.4 (Suma de exponenciales independientes de igual intensidad). Sean X e Y


variables aleatorias independientes con distribucion exponencial de intensidad > 0. La
densidad de la suma X + Y es
Z z
ex ezx dx = 2 zez .
(20)
fX+Y (z) =
0

En el lado derecho de la identidad (20) se puede reconocer la densidad de la distribucion


Gamma: (2, ).

2.1.2.

Mnimo

Queremos caracterizar la funcion de distribucion del mnimo entre dos variables aleatorias
X e Y , U := mn{X, Y }. En primer lugar observamos que para cada u R vale que
FU (u) = P(U u) = P(mn{X, Y } u) = 1 P(mn{X, Y } > u)
= 1 P(X > u, Y > u).

Si (X, Y ) es continuo con funcion de densidad conjunta fX,Y (x, y) tenemos que
Z Z
fX,Y (x, y)dxdy.
FU (u) = 1
u

(21)

(22)

Si (X, Y ) es discreto con funcion de probabilidad conjunta pX,Y (x, y) tenemos que
XX
FU (u) = 1
pX,Y (x, y).

(23)

x>u y>u

Si X e Y son independientes tenemos que


FU (u) = 1 P(X > u)P(Y > u).

(24)

Etcetera...
Ejemplo 2.5 (Mnimo de exponenciales independientes). Sean X1 e X2 variables aleatorias
exponenciales independientes de intensidades 1 y 2 respectivamente. De acuerdo con la
identidad (24) tenemos que la funcion de distribucion del mnimo U = mn{X1 , X2 } es
FU (u) = (1 e1 u e2 u )1{u 0} = (1 e(1 +2 )u )1{u 0}.

(25)

En palabras, el mnimo de dos variables exponenciales independientes es una exponencial cuya


intensidad es la suma de las intensidades de las variables originales.

2.2.

El m
etodo del Jacobiano

Teorema 2.6 (Cambio de variables en la integral m


ultiple). Sea f : Rn R una funci
on
n
n
integrable. Sean G0 R y G R regiones abiertas y sea h : G0 G, h = (h1 , . . . , hn )
una biyecci
on entre G0 y G, cuyas componentes tienen derivadas parciales de primer orden
son continuas. Si el Jacobiano
continuas. Esto es, para todo 1 i, j n, las funciones hyi (y)
j
de h es diferente de cero en casi todo punto, entonces,
Z

f (x)dx =
A

f (h(y))|Jh (y)|dy,

h1 (A)

para todo conjunto abierto A G, donde


Jh (y) = det


10

hi (y)
yj

 !
i,j

El siguiente resultado, que caracteriza la distribucion de un cambio de variables aleatorias,


es una consecuencia inmediata del Teorema 2.6.
Corolario 2.7. Sea X un vector aleatorio n-dimensional con funcion densidad de probabilidad
fX (x). Sean G0 Rn y G Rn regiones abiertas y sea g : G G0 una biyecci
on cuya funcion
1
inversa h = g satisface las hip
otesis del Teorema 2.6. Si P(X G) = 1, entonces, el vector
aleatorio Y = g(X) tiene funcion densidad de probabilidad fY (y) de la forma:
fY (y) = fX (g 1 (y))|Jg1 (y)|.

(26)

Demostraci
on. Cualquiera sea el conjunto abierto B G0 tenemos
Z
1
fX (x)dx.
P (Y B) = P (g(X) B) = P(X g (B)) =
g 1 (B)

Poniendo f = fX y h = g 1 en el Teorema 2.6 se obtiene


Z
Z
fX (g 1 (y))|Jg1 (y)|dy.
fX (x)dx =
B

g 1 (B)

En consecuencia,
P (Y B) =

fX (g 1 (y))|Jg1 (y)|dy.

Por lo tanto, el vector aleatorio Y tiene funcion densidad de probabilidad de la forma fY (y) =
fX (g 1 (y))|Jg1 (y)|.
Nota Bene. Operativamente, la formula (26) para hallar la densidad conjunta de Y = g(X)
involucra los siguientes pasos: 1. Invertir las variables (i.e., despejar las xs en funcion de las
ys). 2. Calcular el Jacobiano de la inversa de g (i.e., calcular el determinante de la matriz
formada por las derivadas parciales de las xi respecto de las yj ). 3. Substituir los resultados
obtenidos en los pasos 1. y 2. en la formula (26). Aunque mec
anico, el m
etodo del
jacobiano es un m
etodo de naturaleza analtica muy poderoso.
Nota Bene. Con frecuencia es m
as facil obtener el jacobiano de y en relaci
on a x, pues Y
es una funcion de X. Hay que recordar que los dos jacobianos son recprocos y que Jg1 (y) se
puede obtener a partir de Jg (x), invirtiendo este u
ltimo y substituyendo x por g 1 (y). Esta
regla es an
aloga a la regla para la derivada de una funcion inversa en el caso unidimensional:

1
dg 1 (y)
1
= 1
=
.

dy
g (x) x=g1 (y) g (g (y))
Ejemplo 2.8 (Transformaciones lineales). Si (X1 , X2 ) = (aY1 + bY2 , cY1 + dY2 ). Entonces,
fY1 ,Y2 (y1 , y2 ) = |ad bc|fX1 ,X2 (ay1 + by2 , cy1 + dy2 ).
En general, si X = AY, donde A Rnn es una matriz inversible, se obtiene
fY (y) = | det(A)|fX (Ay).
11

(27)

Ejemplo 2.9 (Suma y resta de normales independientes). Sean X1 y X2 dos variables aleatorias independientes con distribuciones normales N (1 , 2 ) y N (2 , 2 ), respectivamente. Su
densidad conjunta es



1
1
2
2
fX1 ,X2 (x1 , x2 ) =
(x

)
+
(x

)
exp

(28)
1
1
2
2
2 2
2 2
Consideramos el cambio de variables (y1 , y2 ) = g(x1 , x2 ) = (x1 + x2 , x1 x2 ) cuya inversa es
(x1 , x2 ) = g 1 (y1 , y2 ) = 21 (y1 + y2 , y1 y2 ). De acuerdo con la formula (27) tenemos que
2 
2 !!

y1 y2
1
y1 + y2
1
exp 2
1 +
2
fY1 ,Y2 (y1 , y2 ) =
4 2
2
2
2






1
1
2
2
exp 2 y1 2(1 + 2 )y1 exp 2 y2 2(1 2 )y2
4
4




2
(y1 (1 + 2 ))
(y2 (1 2 ))2
exp
exp
.
(29)
2(2 2 )
2(2 2 )

De la identidad (29) podemos concluir que las variables Y1 e Y2 son independientes y que
se distribuyen de la siguiente manera: Y1 N (1 + 2 , 2 2 ), Y2 N (1 2 , 2 2 ). En
otras palabras, si X1 y X2 son dos variables aleatorias independientes con distribuciones
normales N (1 , 2 ) y N (2 , 2 ), entonces X1 +X2 y X1 X2 son independientes y X1 +X2
N (1 + 2 , 2 2 ) y X1 X2 N (1 2 , 2 2 )
Nota Bene. Sean X1 y X2 dos variables aleatorias independientes con distribuciones normales N (1 , 12 ) y N (2 , 22 ), respectivamente. Calculos similares permiten deducir que X1 +
X2 N (1 + 2 , 12 + 22 ) y X1 X2 N (1 2 , 12 + 22 ). M
as a
un, X1 + X2 y X1 X2
2
2
son independientes si y solo si 1 = 2 .
Ejemplo 2.10 (Persistencia de la mala suerte). Sean X1 y X2 variables aleatorias independientes con distribucion com
un exponencial de intensidad . Vamos a hallar la densidad
conjunta de (Y1 , Y2 ) donde
(Y1 , Y2 ) = (X1 + X2 , X1 /X2 ).
Para ello consideramos la transformacion
g(x1 , x2 ) = (x1 + x2 , x1 /x2 ) = (y1 , y2 ).
La transformacion inversa de g es
x1 =

y1 y2
,
1 + y2

x2 =

y1
1 + y2

(30)

y se obtiene resolviendo un sistema de dos ecuaciones en las variables x1 y x2 :


(



x2 =
x1 + x2 = y1
x1 + x2 = y1
(1 + y2 )x2 = y1

x1 =
x1 /x2 = y2
x1 = y2 x2
x1 = y2 x2
  
xi
El Jacobiano de la transformacion inversa Jg1 (y1 , y2 ) = det
es
yj

y1
1+y2
y1 y2
1+y2

i,j

Jg1 (y1 , y2 ) =
=



y1
y2
y1
x1 x2 x1 x2

=
2
y1 y2
y2 y1
1 + y2
(1 + y2 )
(1 + y2 )2
y1 y2
y1
y1 (1 + y2 )
y1

=
=
.
3
3
3
(1 + y2 )
(1 + y2 )
(1 + y2 )
(1 + y2 )2
12



1
1 + y2


(31)

Substituyendo los resultados (30) y (31) en la formula (26) se obtiene:




y 1 y2
y1
|y1 |
fY1 ,Y2 (y1 , y2 ) = fX1 ,X2
,
.
1 + y2 1 + y2 (1 + y2 )2

(32)

Por hip
otesis,
fX1 ,X2 (x1 , x2 ) = ex1 1{x1 > 0}ex2 1{x2 > 0} = 2 e(x1 +x2 ) 1{x1 > 0, x2 > 0}. (33)
De (32) y (33) se obtiene
y1
1{y1 > 0, y2 > 0}
(1 + y2 )2



1
2
y1
1{y2 > 0} .
=
y1 e
1{y1 > 0}
(1 + y2 )2

fY1 ,Y2 (y1 , y2 ) = 2 ey1

(34)

De (34) se deduce que las variables Y1 e Y2 son independientes.


Nota Bene sobre la persistencia de la mala suerte. De (34) se deduce que la densidad
del cociente Y2 = X1 /X2 de dos variables exponenciales independientes de igual intensidad
es de la forma
fY2 (y2 ) =

1
1{y2 > 0}.
(1 + y2 )2

(35)

En consecuencia, la variable Y2 tiene esperanza infinita. Se trata de un hecho notable que


ofrece una explicacion probabilstica de un fen
omeno conocido por cualquiera que haya entrado
en una fila de espera denominado la persistencia de la mala suerte 1
Por que? Supongamos que la variable X1 representa el tiempo de espera para ser atendidos en la fila elegida (a la que llamaremos la fila 1) y que X2 representa el tiempo de espera
en otra fila que estamos observando mientras esperamos ser atendidos (a la que llamaremos
la fila 2). El cociente X1 /X2 representa la proporci
on del tiempo esperado en la fila 1 en en
relaci
on al tiempo de espera en fila 2. Por ejemplo, X1 /X2 3 significa esperamos por lo
menos el triple del tiempo que hubiesemos esperado en la otra fila.
Integrando (35) se deduce que
Z y2
1
y2
1
dy = 1
=
,
y2 0
P(Y2 y2 ) =
2
(1 + y)
1 + y2
1 + y2
0
Equivalentemente,
P(Y2 > y2 ) =

1
,
1 + y2

y2 0

En particular, la probabilidad de que tengamos que esperar por lo menos el triple del tiempo
que hubiesemos esperado en la otra fila es 1/4. Aunque de acuerdo con este modelo, en
promedio, la mitad de las veces esperamos menos tiempo que en la otra fila, en la practica, el
fen
omeno de la mala suerte se ve sobredimensionado porque no le prestamos atencion a los
tiempos cortos de espera.
1
Basta elegir una fila en las m
ultiples cajas de un supermercado para sufrir este fen
omeno y observar que
en la fila elegida el tiempo de espera es el doble o el triple que el tiempo de espera en las otras filas.

13

Para percibir que significa el resultado E[X1 /X2 ] = + basta simular algunos valores de
la variable X1 /X2 . Por ejemplo, en 10 simulaciones obtuvimos la siguiente muestra:
1.2562, 0.8942, 0.9534, 0.3596, 29.3658, 1.2641, 3.3443, 0.3452, 13.5228, 7.1701.
El lector puede extraer sus propias conclusiones.
Ejemplo 2.11 (Gammas y Betas). Sean X1 y X2 variables aleatorias independientes con
distribuciones (1 , ) y (2 , ). Vamos a hallar la densidad conjunta de (Y1 , Y2 ) donde
Y1 = X1 + X2 ,

Para ello consideramos la transformacion



g(x1 , x2 ) = x1 + x2 ,

Y2 =

x1
x1 + x2

X1
.
X1 + X2

= (y1 , y2 ).

La transformacion inversa de g es
x1 = y1 y2 ,

x2 = y1 (1 y2 ).

El Jacobiano de la transformacion inversa es


x1 x2 x1 x2

= y2 (y1 ) y1 (1 y2 ) = y1
Jg1 (y1 , y2 ) =
y1 y2
y2 y1

(36)

(37)

Substituyendo los resultados (36) y (37) en la formula (26) se obtiene:


fY1 ,Y2 (y1 , y2 ) = fX1 ,X2 (y1 y2 , y1 (1 y2 )) |y1 |.

(38)

Por hip
otesis,
fX1 ,X2 (x1 , x2 ) = =
=

1 x11 1 ex1
2 x22 1 ex2
1{x1 > 0}
1{x2 > 0}
(1 )
(2 )

1 +2 x11 1 x22 1 e(x1 +x2 )


1{x1 > 0, x2 > 0}.
(1 )(2 )

(39)

De (38) y (39) se obtiene


1 +2 (y1 y2 )1 1 (y1 (1 y2 ))2 1 ey1
1{y1 y2 > 0, y1 (1 y2 ) > 0}|y1 |
(1 )(2 )
!
1 +2 y11 +2 1 ey1
=
1{y1 > 0}
(1 + 2 )
!
(1 + 2 )y21 1 (1 y2 )2 1

1{0 < y2 < 1} .


(40)
(1 )(2 )

fY1 ,Y2 (y1 , y2 ) =

Por lo tanto, Y1 e Y2 son independientes y sus distribuciones son Y1 (1 + 2 , ), Y2


(1 , 2 ):
fY1 (y1 ) =
fY2 (y2 ) =

1 +2
y 1 +2 1 ey1 1{y1 > 0},
(1 + 2 ) 1
(1 + 2 ) 1 1
y
(1 y2 )2 1 1{0 < y2 < 1}.
(1 )(2 ) 2

14

Nota Bene. Algunos autores utilizan (y promueven!) el metodo del Jacobiano como una
herramienta para obtener la densidad de variables aleatorias de la forma Y1 = g1 (X1 , X2 ).
Hacen lo siguiente: 1. Introducen una variable auxiliar de la forma Y2 = g2 (X1 , X2 ) para
obtener un cambio de variables (g1 , g2 ) : R2 R2 . 2. Utilizan la formula del Jacobiano (26)
para obtener la densidad conjunta de (Y1 , Y2 ) a partir de la densidad conjunta de (X1 , X2 ).
3. Obtienen la densidad de Y1 marginando (i.e., integrando la densidad conjunta de (Y1 , Y2 )
con respecto de y2 ). Por ejemplo,
Suma: (X1 , X2 ) (X1 + X2 , X2 ) =: (Y1 , Y2 ). En tal caso, (x1 , x2 ) = (y1 y2 , y2 ) y el
x1 x2
1 x2
Jacobiano tiene la forma J(y1 , y2 ) = x
y1 y2 y2 y1 = 1. De donde se obtiene
Z
fX1 ,X2 (y1 y2 , y2 )dy2 .
fY1 (y1 ) =
R

Producto: (X1 , X2 ) (X1 X2 , X1 ) =: (Y1 , Y2 ). En tal caso, (x1 , x2 ) = (y2 , y1 /y2 ) y el


x1 x2
1
1 x2
Jacobiano tiene la forma J(y1 , y2 ) = x
y1 y2 y2 y1 = y2 . De donde se obtiene
Z
fX1 ,X2 (y2 , y1 /y2 )|y2 |1 dy2 .
fY1 (y1 ) =
R

Cociente: (X1 , X2 ) (X1 /X2 , X2 ) =: (Y1 , Y2 ). En tal caso, (x1 , x2 ) = (y1 y2 , y2 ) y el


x1 x2
1 x2
Jacobiano tiene la forma J(y1 , y2 ) = x
y1 y2 y2 y1 = y2 . De donde se obtiene
Z
fX1 ,X2 (y1 y2 , y2 )|y2 |dy2 .
fY1 (y1 ) =
R

Ejercicios adicionales
3. [James p.97] Si X, Y, Z tienen densidad conjunta
fX,Y,Z (x, y, z) =

6
1{x > 0, y > 0, z > 0}.
(1 + x + y + z)4

Hallar la densidad de la variable aleatoria W = X + Y + Z de dos maneras diferentes (metodo


basico y metodo del Jacobiano)

2.3.

Funciones k a 1

Si la funcion g : Rn Rn no es 1 a 1 tambien podemos utilizar el metodo del jacobiano


para determinar la distribucion de Y = g(X). Basta con que g sea 1 a 1 cuando se la restringe
a una de k regiones abiertas disjuntas cuya uni
on contiene al valor de X con probabilidad 1.
Supongamos que G, G1 , . . . , Gk son regiones abiertas de Rn tales que G1 , . . . Gk son disjuntas dos a dos y que
!
k
[
G = 1.
P X
=1

Supongamos adem
as que la restriccion de g a G , g|G , es una correspondencia 1 a 1 entre
G y G, para todo = 1, . . . , k y que la funcion inversa de g|G , denotada por h() , satisface
todas las condiciones de la funcion h del Teorema 2.6.
15

Teorema 2.12. Bajo las condiciones enunciadas m


as arriba, si X tiene densidad fX (x),
entonces Y tiene densidad
fY (y) =

k
X
=1

fX (h() (y))|Jh() (y)|1{y G}.

(41)

Demostraci
on. Sea B G,
P(Y B) = P(g(X) B) =
=

k Z
X

()
=1 h (B)
k Z
X

=1

k
X
=1

P(g(X) B, X G ) =

k
X
=1

P(X h() (B))

fX (x)dx = (cambio de variables en la integral)


()

fX (h (y))|Jh() (y)|dy =

k
X

()

fX (h (y))|Jh() (y)| dy.

=1

Ejemplo 2.13. Sean X e Y dos variables aleatorias independientes con distribucion com
un
2
2
N (0, 1). Mostrar que Z = X +Y y W = X/Y son independientes y hallar sus distribuciones.
Soluci
on. La funcion g : R2 R2 , definida por g(x, y) = (x2 + y 2 , x/y) = (z, w), es 2 a 1.
Sean G = {(z, w) : z > 0}, G1 = {(x, y) : y > 0}, G2 = {(x, y) : y < 0}. Entonces,
las restricciones g|G1 y g|G2 son correspondencias 1 a 1 entre las regiones abiertas Gi y G,
i = 1, 2, y P((X, Y ) G1 G2 ) = 1.
Tenemos que calcular los jacobianos de las funciones inversas h(1) y h(2) en G. Para
ello calculamos los jacobianos de las restricciones g|G1 y g|G2 , que son los recprocos de los
jacobianos de las inversas, y substituimos el valor (x, y) por el valor h(1) (z, w) o h(2) (z, w).
Tenemos


1
  2
2x 2y 1
1
x

J1 (z, w) = 1
+1
=
= 2
x
2
2 + 1)

y
2(w
2
y
y
y

J2 (z, w) =

1
.
2(w2 + 1)

Por lo tanto, la densidad de (Z, W ) es




fZ,W (z, w) = f (h(1) (z, w)) + f (h(2) (z, w))
Como

f (x, y) =

1
1{(z, w) G}.
2(w2 + 1)

1 (x2 +y2 )/2


1 z/2
e
=
e
,
2
2

tenemos
fZ,W (z, w) = 2

1 z/2
e
2

1
1{z > 0, w R} =
2(w2 + 1)


1 z/2
1
e
1{z > 0}
.
2
(w2 + 1)

Como la densidad conjunta es el producto de dos densidades, concluimos que Z y W son


independientes, Z Exp(1/2) y W Cauchy.
16

Ejemplo 2.14 (Mnimo y m


aximo). Sean X1 , X2 dos variables aleatorias con densidad conjunta fX1 ,X2 (x1 , x2 ). Hallar la densidad conjunta de U = mn(X1 , X2 ) y V = m
ax(X1 , X2 ).
La funcion g(x1 , x2 ) = (mn(x1 , x2 ), m
ax(x1 , x2 )), es 2 a 1.
Sean G = {(u, v) : u < v}, G1 = {(x1 , x2 ) : x1 < x2 } y G2 = {(x1 , x2 ) : x2 < x1 }.
Las restricciones g|G1 (x1 , x2 ) = (x1 , x2 ) y g|G2 (x1 , x2 ) = (x2 , x1 ) son correspondencias 1
a 1 entre las regiones abiertas Gi y G, i = 1, 2; P((X, Y ) G1 G2 ) = 1 y los jacobianos de
las funciones inversas h(1) y h(2) en G valen 1 y 1, respectivamente. Usando la formula (41)
obtenemos la densidad conjunta de (U, V ):
fU,V (u, v) = (fX1 ,X2 (u, v) + fX1 ,X2 (v, u)) 1{u < v}.

Ejercicios adicionales
4. La distribucion de (X, Y ) es uniforme sobre el recinto sombreado
1

1
0

Hallar la densidad conjunta de (U, V ) = (|2Y |, |3X|).


5. [James p.99] Sean X1 , . . . , Xn variables aleatorias independientes e identicamente distribuidas, con densidad com
un f . Mostrar que la densidad conjunta de
U = mn Xi
1in

V = m
ax Xi
1in

es
fU,V (u, v) = n(n 1)[F (v) F (u)]n2 f (u)f (v)1{u < v}.
(Sugerencia. Primero hallar P(u < U, V v). Despues, calcular las derivadas parciales
cruzadas de la distribucion conjunta.)
6. [James p.99] Sean X1 , . . . , Xn variables aleatorias independientes e identicamente distribuidas, con distribucion uniforme sobre el intervalo [0, 1]. Sean
U = mn Xi
1in

y
17

V = m
ax Xi
1in

(a) Mostrar que la densidad conjunta de (U, V ) es


fU,V (u, v) = n(n 1)(v u)n2 1{0 u < v 1}.
(b) Mostrar que la densidad de W = V U es
fW (w) = n(n 1)wn2 (1 w) 1{0 w 1}.

3.

Mnimo y m
aximo de dos exponenciales independientes

Teorema 3.1. Sean X1 y X2 dos variables aleatorias independientes con distribuciones exponenciales de intensidades 1 y 2 respectivamente. Si U = mn(X1 , X2 ), V = m
ax(X1 , X2 ),
W = V U y J = 1{U = X1 } + 21{U = X2 }, entonces
(a) U Exp (1 + 2 ).
(b) P(J = i) = i (1 + 2 )1 , i = 1, 2.
(c) U y J son independientes.
(d) fW (w) = P(J = 1)fX2 (w) + P(J = 2)fX1 (w).
(e) U y W son independientes.
Demostraci
on. Primero observamos que para cada u > 0 el evento {J = 1, U > u} equivale
al evento {X2 X1 > u}. En consecuencia,
Z

Z
Z
x1
2 x2
1 ex1 e2 x1 dx1
1 e
2 e
dx2 dx1 =
P(J = 1, U > u) =
u
u
Z x1
1
(1 + 2 )e(1 +2 )x1 dx1
=
1 + 2 u


1
=
e(1 +2 )u .
(42)
1 + 2
De (42) se deducen (a), (b) y (c).
Si g : {(u, v) : 0 < u < v} {(u, w) : u > 0, w > 0} es la funcion definida por
g(u, v) = (u, v u), tenemos que (U, W ) = g(U, V ). La funcion g es biyectiva y su inversa
h(u, w) = (u, u + w) tiene jacobiano identicamente igual a 1. Aplicar el metodo del jacobiano
del Corolario 2.7 obtenemos:
fU,W (u, w) = fU,V (u, u + w).
Por el Ejemplo 2.14 sabemos que la densidad conjunta de U y V es


fU,V (u, v) = 1 2 e(1 u+2 v) + e(1 v+2 u) 1{0 < u < v}.
18

(43)

(44)

Combinando (43) y (44) obtenemos:




fV,W (u, w) = 1 2 e(1 u+2 (u+w)) + e(1 (u+w)+2 u) 1{u > 0, w > 0}


= 1 2 e(1 +2 )u e2 w + e1 w 1{u > 0, w > 0}
= (1 + 2 )e(1 +2 )u 1{u > 0}


1
2
2 w
1 w

2 e
+
1 e
1{w > 0}.
1 + 2
1 + 2

(45)

De (45) se deducen (d) y (e).

Ejercicios adicionales
7. Un avi
on tiene dos motores cada uno de los cuales funciona durante un tiempo exponencial de media 10 horas independientemente del otro. El avi
on se mantiene volando mientras
funcione alguno de sus motores. Calcular la probabilidad de que el avion se mantenga volando
durante m
as de cinco horas despues de que dej
o de funcionar un motor.
8. Una cueva sera iluminada por dos l
amparas L1 y L2 cuyas duraciones (en horas) son independientes y tienen distribuciones exponenciales de medias 8 y 10, respectivamente. Sabiendo
que desde que se apago una l
ampara la cueva se mantuvo iluminada durante m
as de una hora
calcular la probabilidad de que se haya apagado primero la l
ampara L2 .

4.

Funciones regulares e independencia

Definici
on 4.1. Una funci
on g se dice regular si existen n
umeros < a1 < a0 < a1 < ,
con ai y ai , tales que g es continua y mon
otona sobre cada intervalo (ai , ai+1 ).

Ejemplo 4.2. La funcion sen x es regular; todos los polinomios son funciones regulares. Un
ejemplo de una funcion que no es regular es 1{x Q}.

Teorema 4.3. Sean X1 , . . . , Xn variables aleatorias independientes. Si g1 , . . . , gn son funciones regulares, entonces g1 (X1 ), . . . , gn (Xn ) son variables aleatorias independientes.
Demostraci
on. Para simplificar la prueba supondremos que n = 2. De la regularidad de
las funciones g1 y g2 se deduce que para todo y R podemos escribir
A1 (y) := {x : g1 (x) y} = i A1,i (y)

A2 (y) := {x : g2 (x) y} = i A2,i (y),

como uniones de intervalos disjuntos dos a dos. Por lo tanto,


XX
P(g1 (X1 ) y1 , g1 (X2 ) y2 ) =
P(X1 A1,i (y1 ), X2 A2,i (y2 ))
i

XX
i

X
i

P(X1 A1,i (y1 ))P(X2 A2,i (y2 ))

P(X1 A1,i (y1 ))

X
j

P(X2 A2,i (y2 ))

= P(g1 (X1 ) y1 )P(g2 (X2 ) y2 ).


19

En rigor de verdad, vale un resultado mucho m


as general.
Teorema 4.4. Si para 1 i n, 1 j mi , Xi,j son independientes y fi : Rmi R son
medibles entonces fi (Xi,1 , . . . , Xi,mi ) son independientes.
Demostraci
on. Durrett(1996), p.25-27.
Un caso concreto que usaremos permanentemente al estudiar sumas es el siguiente: si
X1 , . . . , Xn son independientes, entonces X = X1 + + Xn1 y Xn son independientes.
Ejercicios adicionales
9. (Fragmentaciones aleatorias.) Si U1 , . . . , Un son independientes con distribucion com
un
U(0, 1), entonces
n
Y
Ui (n, 1).
log
i=1

10. Una varilla de 1 metro de longitud es sometida a un proceso de fragmentaci


on aleatoria.
En la primera fase se elige un punto al azar de la misma y se la divide por el punto elegido en
dos varillas de longitudes L1 y L2 . En la segunda fase se elige un punto al azar de la varilla
de longitud L1 y se la divide por el punto elegido en dos varillas de longitudes L1,1 y L1,2 .
Calcular la probabilidad de que L1,1 sea mayor que 25 centmetros.

5.

Bibliografa consultada
Para redactar estas notas se consultaron los siguientes libros:
1. Durrett R.:Probability. Theory and Examples. Duxbury Press, Belmont. (1996).
2. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 2. John
Wiley & Sons, New York. (1971).
3. James, B. R.: probabilidade: um curso em nvel intermediario. IMPA, Rio de Janeiro.
(2002).
4. Meester, R.: A Natural Introduction to Probability Theory. Birkhauser, Berlin. (2008).
5. Meyer, P. L.: Introductory Probability and Statistical Applications. Addison-Wesley,
Massachusetts. (1972).
6. Ross, S.: Introduction to Probability Models. Academic Press, San Diego. (2007)
7. Soong, T. T.: Fundamentals of Probability and Statistics for Engineers. John Wiley &
Sons Ltd. (2004).

20

Condicionales
(Borradores, Curso 23)
Sebastian Grynberg
8-10 de abril 2013

Serpientes de Akiyoshi Kitaoka.

Si no se espera,
no se encontrar
a lo inesperado,
pues el sendero que a ello conduce
es inaccesible
(Heraclito.)

Indice
1. Condicionales
1.1. Caso discreto . . . . . .
1.2. Mezclas . . . . . . . . .
1.3. Sobre la regla de Bayes
1.4. Caso continuo . . . . . .

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

2
2
4
5
7

2. Predicci
on y Esperanza condicional
2.1. Ejemplos . . . . . . . . . . . . . . . . . . . . . .
2.1.1. Caso continuo . . . . . . . . . . . . . . . .
2.1.2. Regla de Bayes para mezclas . . . . . . .
2.1.3. Caso discreto . . . . . . . . . . . . . . . .
2.2. Propiedades . . . . . . . . . . . . . . . . . . . . .
2.3. Ejemplo: sumas aleatorias de variables aleatorias
2.4. Ejemplo: esperanza y varianza de una mezcla. . .

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

10
12
12
12
13
14
16
17

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

3. Predicci
on lineal y coeficiente de correlaci
on

18

4. Bibliografa consultada

20

1.
1.1.

Condicionales
Caso discreto

Sean X e Y dos variables aleatorias discretas definidas sobre un mismo espacio de probabilidad (, A, P). Fijemos un valor x R tal que pX (x) > 0. Usando la nocion de probabilidad
condicional podemos definir la funci
on de probabilidad condicional de Y dado que X = x,
mediante
pY |X=x (y) := P(Y = y|X = x) =

pX,Y (x, y)
P(X = x, Y = y)
=
.
P(X = x)
pX (x)

(1)

Funci
on de distribuci
on condicional de Y dado que X = x. La funci
on de distribuci
on
condicional de Y dado que X = x se define por
X
X
FY |X=x (y) := P(Y y|X = x) =
P(Y = z|X = x) =
pY |X=x (z).
(2)
zy

zy

Esperanza condicional de Y dado que X = x. La esperanza condicional de Y dado que


X = x se define por
X
E[Y |X = x] :=
y pY |X=x (y).
(3)
y

Nota Bene 1. La funcion FY |X=x : R R definida en (2) es una funci


on de distribuci
on
genuina: es no decreciente, continua a derecha, tiende a 0 cuando y y tiende a 1
cuando y . Por lo tanto, podemos interpretarla como la funcion de distribucion de una
nueva variable aleatoria, Y |X = x, cuya ley de distribucion coincide con la de Y cuando se
sabe que ocurrio el evento X = x. Motivo por el cual la llamaremos Y condicional a que
X = x.
Nota Bene 2. Todas las nociones asociadas a las distribuciones condicionales se definen
de la misma manera que en el caso de una u
nica variable aleatoria discreta, salvo que ahora
todas las probabilidades se determinan condicionales al evento X = x. Las definiciones tienen
sentido siempre y cuando x Sop(pX ).
Nota Bene 3. Si se quieren calcular las funciones de probabilidad de las variables Y |X = x,
x Sop(pX ), la formula (1) dice que basta dividir cada fila de la representaci
on matricial
de la funcion de probabilidad conjunta de X e Y , pX,Y (x, y) por el correspondiente valor de
su margen derecho, pX (x). En la fila x de la matriz resultante se encuentra la funcion de
probabilidad condicional de Y dado que X = x, pY |X=x (y).
Ejemplo 1.1. En una urna hay 3 bolas rojas, 2 amarillas y 1 verde. Se extraen dos. Sean
X e Y la cantidad de bolas rojas y amarillas extradas, respectivamente. La representaci
on
matricial de la funcion de probabilidad conjunta pX,Y (x, y) y de sus marginales pX (x), pY (y)
es la siguiente
X \Y
0
1
2
pY

0
0
3/15
3/15
6/15

1
2/15
6/15
0
8/15

2
1/15
0
0
1/15

pX
3/15
9/15
3/15

Cuadro 1: Distribucion conjunta de X e Y y sus respectivas marginales.


Dividiendo cada fila de la matriz pX,Y (x, y) por el correspondiente valor de su margen
derecho se obtiene el Cuadro 2 que contiene toda la informaci
on sobre las funciones de probabilidad de las condicionales Y |X = x.
X \Y
0
1
2

0
0
1/3
1

1
2/3
2/3
0

2
1/3
0
0

Cuadro 2: Distribuciones de las variables condicionales Y dado que X = x. Interpretacion


intuitiva de los resultados: a medida que X aumenta el grado de indeterminaci
on de Y disminuye.
Por ejemplo, la funcion de probabilidad condicional de Y dado que X = 0, es la funcion de
y definida en la primera fila del Cuadro 2: pY |X=0 (0) = 0, pY |X=0 (1) = 2/3 y pY |X=0 (2) = 1/3.

Notar que la funcion de probabilidad condicional obtenida es diferente de la correspondiente a la marginal de Y , pY (y). Del Cuadro 2 y la definicion (3) se deduce que
4
2
E[Y |X = x] = 1{x = 0} + 1{x = 1}.
3
3

(4)

Nota Bene. Observar que en general la funcion de probabilidad condicional pY |X=x (y) es
diferente de la funcion de probabilidad pY (y). Esto indica que se pueden hacer inferencias
sobre los valores posibles de Y a partir de los valores observados de X y viceversa; las dos
variables son (estocasticamente) dependientes. M
as adelante veremos algunas maneras de
hacer este tipo de inferencias.

1.2.

Mezclas

Definici
on 1.2 (Mezcla). Sea (, A, P) un espacio de probabilidad. Sea M : R una
variable aleatoria discreta tal que M () = M y pM (m) = P(M = m) > 0 para todo m M.
Sea (Xm : m M) una familia de variables aleatorias definidas sobre el mismo espacio de
probabilidad (, A, P) e independiente de M . En tal caso, la variable aleatoria X := XM
esta bien definida y se llama la mezcla de las variables Xm obtenida mediante la variable
mezcladora M .
Nota Bene. La distribucion de probabilidades de M indica la proporci
on en que deben
mezclarse las variables Xm : para cada m M, la probabilidad pM (m) representa la proporci
on con que la variable Xm participa de la mezcla XM .
C
alculo de la funci
on de distribuci
on. La funcion de distribucion de la mezcla X se
obtiene utilizando la formula de probabilidad total:
X
FX (x) = P(XM x) =
P(XM x|M = m)P(M = m)
mM

mM

mM

P(Xm x|M = m)pM (m)


P(Xm x)pM (m)

(pues (Xm : m M) y M son indep.)

FXm (x)pM (m),

(5)

mM

donde, para cada m M, FXm (x) = P(Xm x) es la funcion de distribucion de la variable


Xm .
Variables discretas. Si las variables aleatorias Xm son discretas con funciones de probabilidad pXm (x) = P(Xm = x), respectivamente, la mezcla X es discreta y su funcion de
probabilidad es
X
(6)
pX (x) =
pXm (x)pM (m).
mM

Variables absolutamente continuas. Si las variables Xm son absolutamente continuas


con densidades fXm (x), respectivamente, la mezcla X es absolutamente continua y tiene
densidad
X
(7)
fX (x) =
fXm (x)pM (m).
mM

Ejemplo 1.3. Para simular los valores de una variable aleatoria X se recurre al siguiente algoritmo: se simula el valor de un variable aleatoria M con distribucion Bernoulli de par
ametro
p = 1/5. Si M = 0, se simula el valor de una variable aleatoria X0 con distribucion uniforme
sobre el intervalo (0, 4). Si M = 1, se simula el valor de una variable aleatoria X1 con distribuci
on uniforme sobre el intervalo (2, 6). Se quiere hallar la densidad de probabilidades de
la variable X as simulada.
La variable X es una mezcla. La variable mezcladora es M y las variables aleatorias que
componen la mezcla son X0 y X1 1. Por hip
otesis, la variable mezcladora M se distribuye de
acuerdo con la funcion de probabilidad pM (0) = 4/5, pM (1) = 1/5 y las distribuciones de las
variables componentes son X0 U(0, 4) y X1 U(2, 6). En otras palabras, las densidades de
las variables componente son fX0 (x) = 14 1{0 < x < 4} y fX1 (x) = 41 1{2 < x < 6}. Usando la
formula de probabilidad total (7) se obtiene la densidad de la mezcla X
 
 
4 1
1 1
fX (x) = pM (0)fX0 (x) + pM (1)fX1 (x) =
1{0 < x < 4} +
1{2 < x < 6}
5 4
5 4
5
1
4
1{0 < x 2} + 1{2 < x < 4} + 1{4 x < 6}.
(8)
=
20
20
20

1.3.

Sobre la regla de Bayes

Sean (, A, P) un espacio de probabilidad; M : R una variable aleatoria discreta tal


que M () = M y pM (m) = P(M = m) > 0 para todo m M. Sea (Xm : m M) una
familia de variables aleatorias definidas sobre el mismo espacio de probabilidad (, A, P) e
independiente de M . Supongamos adem
as que las variables Xm , m M son absolutamente
continuas con densidades de probabilidad continuas fXm (x), m M, respectivamente.
Sea X := XM la mezcla de las variables Mm obtenida mediante la variable mezcladora M .
Que sentido debera tener la expresi
on P(M = m|X = x)? No debe olvidarse que la variable
X es absolutamente continua y en consecuencia P(X = x) = 0. Por lo tanto, no tiene ning
un
sentido definir P(M = m|X = x) mediante un cociente de la forma
P(M = m|X = x) =

P(X = x, M = m)
0
= .
P(X = x)
0

Que hacer? El obst


aculo se puede superar siempre y cuando fX (x) > 0. En tal caso, si
engordamos el punto x mediante el intervalo de radio h > 0 (suficientemente chico) centrado
en x, Bh (x) := {x h < t < x + h}, el evento {X Bh (x)} tiene probabilidad positiva
P(X Bh (x)) =

x+h

fY (t)dt = 2hfX ((h)),

xh

(h) Bh (x).

(9)

y la probabilidad condicional del evento {M = m}, dado que ocurrio el evento {X Bh (x)}
esta bien definida y vale
P(M = m|X Bh (x)) =
Por otra parte,

P(M = m, X Bh (x))
.
P(X Bh (x))

P(M = m, X Bh (x)) = pM (m)P(Xm Bh (x)|M = m) = pM (m)P(Xm Bh (x))


Z x+h
(10)
fXm (t)dt = 2hpM (m)fXm (m (h)),
= pM (m)
xh

para alg
un m (h) Bh (x). De (9) y (10) se deduce que
P (M = m|X Bh (x)) =

pM (m)fXm (m (h))
fX ((h))

(11)

Para adelgazar el punto engordado hacemos h 0 y obtenemos


lm P (M = m|X Bh (x)) =

h0

lm

h0

pM (m)fXm (m (h))
pM (m)fXm (x)
=
.
fX ((h))
fX (x)

(12)

Finalmente, para cada x R tal que fX (x) > 0 definimos P(M = m|X = x) mediante la
formula
P(M = m|X = x) :=

pM (m)fXm (x)
.
fX (x)

(13)

Ejemplo 1.4 (Detecci


on de se
nales). Un emisor transmite un mensaje binario en la forma
de una se
nal aleatoria Y que puede ser 1 o +1 con igual probabilidad. El canal de comunicaci
on corrompe la transmision con un ruido normal aditivo de media 0 y varianza 1. El
receptor recibe la se
nal X = N + Y , donde N es un ruido (noise) con distribucion N (0, 1),
independiente de Y . La pregunta del receptor es la siguiente: dado que recib el valor x, cu
al
es la probabilidad de que la se
nal sea 1?
La se
nal que recibe el receptor es una mezcla. La variable mezcladora es Y y las variables
aleatorias que componen la mezcla son X1 = N 1 y X1 = N + 1. Por hip
otesis, la variable
mezcladora Y se distribuye de acuerdo con la funcion de probabilidad pY (1) = pY (1) = 1/2
y las distribuciones de las variables componentes son X1 N (1, 1) y X1 N (1, 1). En
otras palabras, las densidades de las variables componente son
1
2
fX1 (x) = e(x+1) /2
2

1
2
fX1 (x) = e(z1) /2 .
2

Usando la formula de probabilidad total (7) se obtiene la densidad de la mezcla X






1
1
1
1
2
2
e(x+1) /2 +
e(z1) /2 .
fX (x) = pY (1)fX1 (x) + pY (1)fX1 (x) =
2
2
2
2
El receptor pregunta P(Y = 1|X = x) =? La respuesta se obtiene usando la regla de Bayes
(13)
2

ex
e(x1) /2
pY (1)fX1 (x)
=
= (x1)2 /2
.
P(Y = 1|X = x) =
2
fX (x)
ex + ex
e
+ e(x+1) /2

(14)

1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
4

Figura 1: Gr
afico de la probabilidad condicional P(Y = 1|X = ) : R R vista como funcion
de x.

1.4.

Caso continuo

Sean X e Y dos variables aleatorias definidas sobre (, A, P) con densidad conjunta


fX,Y (x, y) continua. A diferencia del caso en que X es discreta en este caso tenemos que
P(X = x) = 0 para todo x R, lo que hace imposible definir la funcion de distribucion
condicional de Y dado que X = x, P(Y y|X = x), mediante el cociente (2):
P(Y y, X = x)
0
= .
P(X = x)
0
Este obst
aculo se puede superar observando que para cada x Sop(fX ) y para cada h > 0 el
evento {X Bh (x)} = {x h < X < x + h} tiene probabilidad positiva
P(X Bh (x)) =

x+h

fX (s)ds = 2hfX (1 (h)),

xh

1 (h) Bh (x).

Por otra parte,


P(Y y, X Bh (x)) =

x+h Z y

xh


Z
fX,Y (s, t)dt ds = 2h

fX,Y (2 (h), t)dt,

donde 2 (h) Bh (x).


Si x Sop(fX ), la probabilidad condicional P(Y y|X Bh (x)) esta bien definida y vale
Ry
fX,Y (2 (h), t)dt
P(Y y, X Bh (x))
P (Y y|X Bh (x)) =
=
.
P(X Bh (x))
fX (1 (h))
En consecuencia,
lm P(Y y|X Bh (x)) =

h0

Ry

fX,Y (x, t)dt

fX (x)

(15)

El lado derecho de (15) define una genuina funcion de distribucion FY |X=x : R R,


Ry
fX,Y (x, t)dt
FY |X=x (y) :=
,
fX (x)

(16)

que se llama la funci


on distribuci
on condicional de Y dado X = x y se puede interpretar como
la funcion de distribucion de una nueva variable aleatoria que llamaremos Y condicional a
que X = x y que sera designada mediante el smbolo Y |X = x.
La funcion de distribucion FY |X=x (y) es derivable y su derivada
fX,Y (x, y)
d
FY |X=x (y) =
dy
fX (x)

fY |X=x (y) :=

(17)

se llama la densidad condicional de Y dado que X = x.


Curva peligrosa. Todo el argumento usa la hip
otesis fX (x) > 0. Si fX (x) = 0 las expresiones (15)-(17) carecen de sentido. Sin embargo, esto no es un problema grave ya que
P(X Sop(fX )) = 1. Para los valores de x tales que fX (x) = 0 las variables condicionales
Y |X = x seran definidas como identicamente nulas. En tal caso, FY |X=x (y) = 1{y 0}.
Regla mnemot
ecnica. De la formula (17) se deduce que fX,Y (x, y) = fY |X=x (y)fX (x) y
puede recordarse mediante el siguiente versito: la densidad conjunta es igual a la densidad
condicional por la marginal de la condici
on.
Ejemplo 1.5 (Dos etapas: conjunta = marginal condicional). Se elige un n
umero al
azar X sobre el intervalo (0, 1) y despues otro n
umero al azar Y sobre el intervalo (X, 1).
Se quiere hallar la densidad marginal de Y . Por hip
otesis, fX (x) = 1{0 < x < 1} y
1
fY |X=x (y) = 1x 1{x < y < 1}. La densidad conjunta de X e Y se obtiene multiplicando la densidad condicional fY |X=x (y) por la densidad marginal fX (x): fX,Y (x, y) =
1
fY |X=x (y)fX (x) = 1x
1{0 < x < y < 1}. La densidad marginal de Y se obtiene integrando
la densidad conjunta fX,Y (x, y) con respecto a x
Z y
Z
1
1
1{0 < x < y < 1}dx = 1{0 < y < 1}
dx
fY (y) =
0 1x
1 x
= log(1 y)1{0 < y < 1}.

F
ormula de probabilidad total.
convexa de las condicionales:
fY (y) =

La densidad de probabilidades de Y es una combinacion


Z

fY |X=x (y)fX (x)dx.

Inmediato de la relaci
on conjunta = marginal condicional. Integrando respecto de y se
obtiene que la funcion de distribucion de Y es una combinacion convexa de las condicionales:

Z y Z
Z y
fY |X=x (t)fX (x)dx dt
fY (t)dt =
FY (y) =


Z Z y
Z
=
fY |X=x (t)dt fX (x)dx =
FY |X=x (y)fX (x)dx.

Esperanza condicional de Y dado que X = x. Para cada x R, la esperanza condicional


de Y dado que X = x se define por
Z
yfY |X=x (y)dy.
(18)
E[Y |X = x] :=

siempre y cuando la integral del converja absolutamente. Si fX (x) = 0, E[Y |X = x] = 0.

Varianza condicional
En cualquier caso, definidas las esperanzas condicionales de Y y de Y 2 dado que X = x,
la varianza condicional de Y dado que X = x se define mediante
h
i
V(Y |X = x) := E (Y E[Y |X = x])2 |X = x
(19)
Desarrollando el termino derecho se obtiene

V(Y |X = x) = E[Y 2 |X = x] E[Y |X = x]2 .

(20)

Nota Bene. La definicion es consistente y coincide con la varianza de la variable aleatoria


Y |X = x cuya funcion de distribucion es FY |X=x (y).
Ejemplo 1.6 (Dardos). Volvamos al problema del juego de dardos de blanco circular =
{(x, y) R2 : x2 + y 2 1}. Por hip
otesis, el dardo se clava en un punto de coordenadas
(X, Y ) uniformemente distribuido sobre .
Y

1 x2

1 x2

h
i

Figura 2: Para cada x [1, 1] se observa que Y |X = x U 1 x2 , 1 x2 .


9

La densidad conjunta de X e Y es fX,Y (x, y) = 1 1{x2 +y 2 1}. Por definicion, para cada
x [1, 1], la densidad condicional de Y dado que X = x es el cociente entre la densidad
conjunta fX,Y (x, y) y la densidad marginal de X

2 1 x2
fX (x) =
1{x [1, 1]}.

Por lo tanto,
p
p
1
1{ 1 x2 y 1 x2 }.
fY |X=x (y) =
2 1 x2

(21)

En otras palabras,h dado que X = x, xi [1, 1], la variable Y se distribuye uniformemente

sobre el intervalo 1 x2 , 1 x2 . En consecuencia,


E[Y |X = x] = 0

2.

p
V(Y |X = x) = (2 1 x2 )2 /12 = (1 x2 )/3.

Predicci
on y Esperanza condicional

Planteo del problema


En su versi
on m
as simple un problema de predicci
on o estimacion involucra dos variables
aleatorias: una variable aleatoria Y desconocida (o inobservable) y una variable aleatoria X
conocida (u observable). El problema consiste en deducir informaci
on sobre el valor de Y a
partir del conocimiento del valor de X. Para ser m
as precisos, se busca una funcion (X) que
(en alg
un sentido) sea lo m
as parecida a Y como sea posible. La variable aleatoria Y := (X)
se denomina un estimador de Y .
Ejemplo 2.1 (Detecci
on de se
nales). Un emisor transmite un mensaje binario en la forma de
una se
nal aleatoria Y que puede ser 1 o +1 con igual probabilidad. El canal de comunicaci
on
corrompe la transmision con un ruido normal aditivo de media 0 y varianza 2 . El receptor
recibe la se
nal X = Y + N , donde N es un ruido con distribucion N (0, 2 ), independiente
de Y . El receptor del mensaje observa la se
nal corrompida X y sobre esa base tiene que
reconstruir la se
nal original Y . Como lo hace?, Que puede hacer?
En lo que sigue desarrollaremos herramientas que permitan resolver este tipo de problemas. Sean X e Y dos variables aleatorias definidas sobre un mismo espacio de probabilidad
(, A, P). El objetivo es construir una funcion (X) que sea lo m
as parecida a Y como sea
posible. En primer lugar, vamos a suponer que E[|Y |] < . Esta hip
otesis permite precisar el
sentido del enunciado parecerse a Y . Concretamente, queremos construir una funcion de X,
(X), que solucione la siguiente ecuaci
on funcional
E[(X)h(X)] = E[Y h(X)],
para toda funcion medible y acotada h : R R.

10

(22)

Esperanza condicional
Sean X e Y dos variables aleatorias definidas sobre un mismo espacio de probabilidad
(, A, P). Supongamos que E[|Y |] < . Definimos la esperanza condicional de Y dada X,
E[Y |X], como cualquier variable aleatoria de la forma (X), donde : R R es una funcion
(medible), que solucione la ecuaci
on funcional (22).
Existencia. La existencia de la esperanza condicional depende de teoremas profundos de
Teora de la medida y no sera discutida en estas notas. El lector interesado puede consultar
Billingsley(1986) y/o Durrett(1996).
Unicidad. Supongamos que (X) y (X) son dos soluciones de la ecuaci
on funcional (22).
Entonces, (X) = (X) cas seguramente (i.e., P((X) 6= (X)) = 0).
Demostraci
on. Por cuestiones de simetra, la prueba se reduce a mostrar que para cada
> 0, P(A ) = 0, donde A := {(X) (X) }. Observar que, por hip
otesis, para
toda funcion medible y acotada h : R R vale que E[(X)h(X)] = E[(X)h(X)] o lo
que es equivalente E[((X) (X))h(X)] = 0. Poniendo h(X) = 1{X A } tenemos que
0 = E[((X) (X))1{X A }] E[1{X A }] = P(A ). Por lo tanto, P(A ) = 0.

Lema 2.2 (Tecnico). La esperanza condicional satisface E[|E[Y |X]|] E[|Y |].

Demostraci
on. La variable aleatoria (X) satisface la ecuaci
on (22). Poniendo h(X) =
1{(X) > 0} y usando (22) se obtiene
E[(X)1{(X) > 0}] = E[Y 1{(X) > 0}] E[|Y |].
An
alogamente se puede ver que E[(X)1{(X) 0}] = E[Y 1{(X) 0}] E[|Y |]. Por
lo tanto,
E[|(X)|] = E[(X)1{(X) > 0} (X)1{(X) 0}]

= E[(X)1{(X) > 0}] E[(X)1{(X) 0}]


= E[Y 1{(X) > 0}] E[Y 1{(X) 0}]

= E[Y 1{(X) > 0} Y 1{(X) 0}] E[|Y |]].

Propiedades que merecen ser subrayadas


Aunque se deducen inmediatamente de la definicion, las propiedades siguientes merecen ser
subrayas porque, como se podra apreciar m
as adelante, constituyen poderosas herramientas
de calculo.
1. Formula de probabilidad total:
E[E[Y |X]] = E[Y ].

(23)

2. Sea g : R R una funcion tal que E[|g(X)Y |] < ,


E[g(X)Y |X] = g(X)E[Y |X].
3. Si X e Y son independientes, entonces E[Y |X] = E[Y ].
11

(24)

Demostraci
on. La formula de probabilidad total se deduce de la ecuaci
on (22) poniendo
h(X) 1. La identidad (24) se obtiene observando que g(X)E[Y |X] es una funcion de X que
soluciona la ecuaci
on E[g(X)E[Y |X]h(X)] = E[(g(X)Y )h(X)]. Si X e Y son independientes
E[Y h(X)] = E[Y ]E[h(X)] = E[E[Y ]h(X)].

2.1.
2.1.1.

Ejemplos
Caso continuo

Sean X e Y dos variables aleatorias continuas definidas sobre un mismo espacio de probabilidad (, A, P) con densidad de probabilidades conjunta fX,Y (x, y) y E[|Y |] < . La
esperanza condicional de Y dada X es E[Y |X] = (X), donde : R R es la funcion de
regresion de Y sobre X definida por
Z
yfY |X=x (y)dy.
(25)
(x) := E[Y |X = x] =

Demostraci
on. Basta ver (X) verifica la ecuaci
on funcional (22) para cualquier funci
on
h medible y acotada.
Z
Z
E[Y |X = x]h(x)fX (x)dx
(x)h(x)fX (x)dx =
E[(X)h(X)] =


Z Z
yfY |X=x (y)dy h(x)fX (x)dx
=

Z Z
yh(x)fY |X=x (y)fX (x)dxdy
=

Z Z
yh(x)fX,Y (x, y)dxdy = E[Y h(X)].
=

2.1.2.

Regla de Bayes para mezclas

Volvamos el Ejemplo 2.1 la pregunta es Que puede hacer el receptor para reconstruir la
se
nal original, Y , a partir de la se
nal corrompida X? Lo mejor que puede hacer es estimar
Y mediante la esperanza condicional E[Y |X]. El receptor recibe la mezcla de dos variables
aleatorias X|Y = 1 N (1, 2 ) e X|Y = 1 N (1, 2 ), mezcladas en igual proporci
on:
pY (1) = pY (1) = 1/2. Las densidades de las componentes de la mezcla son
fX|Y =1 (x) =

1
2
2
e(x+1) /2
2

fX|Y =1 (x) =

1
2
2
e(x1) /2 .
2

De la formula de probabilidad total se deduce que la densidad de la mezcla X es


fX (x) = pY (1)fX|Y =1 (x) + pY (1)fX|Y =1 (x)




1
1
1
1
(x+1)2 /2 2
(x1)2 /2 2

e
e
+
.
=
2
2
2
2

12

(26)

Para construir la esperanza condicional E[Y |X] el receptor debe calcular la funcion de regresion (x) = E[Y |X = x] = 1P(Y = 1|X = x) 1P(Y = 1|X = x). Que de acuerdo con la
regla de Bayes para mezclas adopta la forma
2

pY (1)fX|Y =1 (x) pY (1)fX|Y =1 (x)


ex/ ex/
(x) =
= tanh(x/ 2 ).
= x/2
fX (x)
e
+ ex/2

0.8

0.8

0.6

0.6

0.4

0.4

0.2

0.2

0.2

0.2

0.4

0.4

0.6

0.6

0.8

0.8

1
4

1
2

1.5

0.5

(a)

0.5

1.5

(27)

(b)

Figura 3: Lneas de regresion de Y sobre X para distintos valores de la varianza 2 . (a) 2 = 1:


(x) = tanh(x); (b) 2 = 1/4, (x) = tanh(4x).
El receptor reconstruye Y bas
andose en X mediante E[Y |X] = tanh(X/ 2 ).
2.1.3.

Caso discreto

Sean X e Y dos variables aleatorias discretas definidas sobre un mismo espacio de probabilidad (, A, P),con funcion de probabilidad conjunta pX,Y (x, y) y E[|Y |] < . Para simplificar
la exposicion supongamos que Sop(pX ) = X(). En tal caso, la esperanza condicional de Y
dada X es E[Y |X] = (X), donde : R R es la funcion de regresion de Y sobre X definida
por
X
ypY |X=x (y)
(28)
(x) := E[Y |X = x] =
yY ()

Demostraci
on. Basta ver (X) verifica la ecuaci
on funcional (22) para cualquier funci
on
h medible y acotada.
X
X
E[(X)h(X)] =
(x)h(x)pX (x) =
E[Y |X = x]h(x)pX (x)
x

X X
x

XX
x

ypY |X=x (y) h(x)pX (x) =

XX

yh(x)pX,Y (x, y) = E[Y h(X)].

13

yh(x)pY |X=x (y)pX (x)

Ejemplo 2.3 (F
ormula de probabilidad total). Una rata esta atrapada en un laberinto.
Inicialmente puede elegir una de tres direcciones. Si elige la primera se perdera en el laberinto
y luego de 4 minutos volvera a su posicion inicial; si elige la segunda volvera a su posicion inicial
luego de 7 minutos; si elige la tercera saldra del laberinto luego de 3 minutos. Suponiendo que
en cada intento, la rata elige con igual probabilidad cualquiera de las tres direcciones, cu
al es
la esperanza del tiempo que demora en salir del laberinto?
Sean Y la cantidad de tiempo que demora la rata en salir del laberinto y sea X la direccion
que elige inicialmente. Usando la formula de probabilidad total puede verse que
E[Y ] = E[E[Y |X]] =

3
X
x=1

E[Y |X = x]P(X = x) =

1X
E[Y |X = x]
3
x=1

Si la rata elige la primera direccion, se pierde en el laberinto durante 4 minutos y vuelve a su


posicion inicial. Una vez que vuelve a su posicion inicial el problema se renueva y la esperanza
del tiempo adicional hasta que la rata consiga salir del laberinto es E[Y ]. En otros terminos
E[Y |X = 1] = 4 + E[Y ]. An
alogamente puede verse que E[Y |X = 2] = 7 + E[Y ]. La igualdad
E[Y |X = 3] = 3 no requiere comentarios. Por lo tanto,
E[Y ] =

1
1
(4 + E[Y ] + 7 + E[Y ] + 3) = (2E[Y ] + 14) .
3
3

Finalmente, E[Y ] = 14.

2.2.

Propiedades

La esperanza condicional tiene propiedades similares a la esperanza.


Linealidad.

E[aY1 + bY2 |X] = aE[Y1 |X] + bE[Y2 |X].

Monotona.

Si Y1 Y2 , entonces E[Y1 |X] E[Y2 |X].

Desigualdad de Jensen.
entonces

Si g : R R es una funcion convexa y E[|Y |], E[|g(Y )|] < ,


g(E[Y |X]) E[g(Y )|X].

(29)

En particular, si E[Y 2 ] < , poniendo g(t) = t2 en la desigualdad de Jensen se obtiene


E[Y |X]2 E[Y 2 |X]

(30)

Definici
on 2.4 (Varianza condicional). Sean X e Y dos variables aleatorias definidas sobre
el mismo espacio de probabilidad (, A, P). Si E[Y 2 ] < , la varianza condicional de Y dada
X, V(Y |X), se define por
V(Y |X) := E[Y 2 |X] E[Y |X]2

14

(31)

Predicci
on
Existen diversas maneras en las que dos variables pueden
p considerarse cercanas entre s.
Una manera es trabajar con la norma dada por kXk := E[X 2 ] y definir la distancia entre
dos variables aleatorias X e Y , d(X, Y ) mediante
p
d(X, Y ) := kY Xk = E[(Y X)2 ].
(32)
.

Definici
on 2.5 (Predictor). Sean X e Y variables aleatorias definidas sobre el mismo espacio
de probabilidad (, A, P), tales que E[Y 2 ] < . El predictor de error cuadratico medio mnimo
(o mejor predictor ) de Y dada X es la funcion Y = h(X) de X que minimiza la distancia
d(Y , Y ) definida en (32).
El mejor predictor de Y dada X es una variable aleatoria Y perteneciente al espacio
vectorial H = {h(X) : h : R R, E[h(X)2 ] < } tal que E[(Y Y )2 ] E[(Y Z)2 ] para
toda Z H.
Interpretaci
on geom
etrica. Sea L2 (, A, P) el conjunto de todas la variables aleatorias
definidas sobre (, A, P) que tienen varianza finita. H es un subespacio de L2 (, A, P). Si
Y
/ H entonces el camino m
as corto desde Y hasta H es por la recta ortogonal al subespacio
H que pasa por Y . Por lo tanto, Y debe ser la proyecci
on ortogonal de Y sobre H. En tal caso
Y Y es ortogonal a cualquier vector de H. En otras palabras, hY Y , Zi = 0 para todo
Z H, donde hX, Y i es el producto interno en L2 (, A, P) definido por hX, Y i := E[XY ].
La esperanza condicional E[Y |X] es el mejor predictor de Y basado en X
1) La condici
on E[Y 2 ] < implica que E[Y |X] H:
E[E[Y |X]2 ] E[E[Y 2 |X]] = E[Y 2 ] < .
2) La ecuaci
on funcional (22) significa que Y E[Y |X] H:
hY E[Y |X], h(X)i = 0

E[(Y E[Y |X])h(X)] = 0

E[E[Y |X]h(X)] = E[Y h(X)].

Por lo tanto, la esperanza condicional, E[Y |X], satisface las dos condiciones que caracterizan
a la proyecci
on ortogonal sobre el subespacio H y en consecuencia es el predictor de Y basado
en X de menor error cuadratico:
E[Y |X] = arg mn E[(Y h(X))2 ].
h(X)H

El error cuadratico medio mnimo se puede expresar en la forma


kY E[Y |X]k2 = E[(Y E[Y |X])2 ] = E[E[(Y E[Y |X])2 |X]]
= E[V(Y |X)].

La u
ltima igualdad se obtiene desarrollando el cuadrado (Y E[Y |X])2 y usando las
propiedades de la esperanza condicional. (Ejercicio)
15

p
0

E[Y 2 ]
p

V(Y )

E[V(Y |X)]

E[Y ]2
E[Y ]

E[Y |X]

V(E[Y |X])

Figura 4: Teorema de Pit


agoras: V(X) = E[V(Y |X)] + V(E[Y |X]) .
Por u
ltimo, como E[Y ] H, el Teorema de Pit
agoras implica que
V(Y ) = kY E[Y ]k2 = kY E[Y |X] + E[Y |X] E[Y ]k2

= kY E[Y |X]k2 + kE[Y |X] E[Y ]k2 = E[V(Y |X)] + V(E[Y |X]).

(33)

En otras palabras, la variabilidad de Y se descompone de la siguiente manera: la variabilidad


(media) de Y alrededor de su esperanza condicional, m
as la variabilidad de esta u
ltima.

2.3.

Ejemplo: sumas aleatorias de variables aleatorias

Sea X1 , X2 , . . . una sucesion de variables aleatorias identicamente distribuidas de media


y varianza 2 . Sea N una variable discreta a valores en N que es independiente de
Plas Xi .
El problema consiste en hallar la media y la varianza de la variable aleatoria S = N
i=1 Xi ,
llamada variable aleatoria compuesta. Este problema se puede resolver utilizando las identidades
E[S] = E[E[S|N ]]
y
V(S) = E[V(S|N )] + V(E[S|N ]).
En la jerga probabilstica esta tecnica de calculo se conoce bajo el nombre de c
alculo de
esperanzas y varianzas mediante condicionales.

16

C
alculo de la esperanza por condicionales.
"N
#
" n
#
X
X
E [S|N = n] = E
Xi N = n = E
Xi N = n
= E

"

i=1
n
X

= n.

i=1

Xi

i=1

por la independencia de las Xi y N

En consecuencia, E [S|N ] = N . Por lo tanto, E [S] = E[E[S|N ]] = E [N ] = E[N ].


C
alculo de la varianza por condicionales.
V(S|N = n) = V
= V

N
X

i=1
n
X


Xi N = n

Xi

i=1

=V

n
X
i=1


Xi N = n

por la independencia de Xi y N

= n 2 .

En consecuencia, V(S|N ) = 2 N . Por lo tanto, E[V(S|N )] = E[ 2 N ] = 2 E[N ]. Por otra


parte, V[E(S|N )] = V[N ] = 2 V[N ]. Finalmente,
V(S) = E[V(S|N )] + V(E[S|N ]) = 2 E[N ] + 2 V[N ].

2.4.

Ejemplo: esperanza y varianza de una mezcla.

Sea (, A, P) un espacio de probabilidad. Sea M : R una variable aleatoria discreta


tal que M () = M y pM (m) = P(M = m) > 0 para todo m M y sea (Xm : m M) una
familia de variables aleatorias definidas sobre el mismo espacio de probabilidad, independiente
de M . El problema consiste en hallar la media y la varianza de la mezcla X := XM .
La forma natural de resolver este problema es usar la tecnica del c
alculo de esperanzas y
varianzas mediante condicionales:
E[X] = E[E[X|M ]]

V(X) = E[V(X|M )] + V(E[X|M ]).

C
alculo de la esperanza por condicionales. En primer lugar hay que observar que
X|M = m Xm por lo tanto,
X
X
E[X] = E[E[X|M ]] =
E [X|M = m] P(M = m) =
E[Xm ]pM (m).
mM

mM

17

C
alculo de la varianza por condicionales.
X
X
E[V(X|M )] =
V(X|M = m)P(M = m) =
V(Xm )pM (m).
mM

mM

Por otra parte,


V(E[X|M ]) = E[(E[X|M ] E[X])2 ] =
=

mM

(E[X|M = m] E[X])2 P(M = m)

(E[Xm ] E[X]) pM (m).

V(Xm )pM (m) +

mM

Finalmente,
V(X) =

mM

Nota Bene.

3.

mM

(E[Xm ] E[X])2 pM (m).

Comparar con el Teorema de Steiner para el momento de inercia.

Predicci
on lineal y coeficiente de correlaci
on

Definici
on 3.1 (Predictor lineal). Sean X e Y dos variables aleatorias definidas sobre un
mismo espacio de probabilidad (, A, P), tales que E[X 2 ] < y E[Y 2 ] < . La recta de
regresi
on de Y basada en X es la funcion lineal Y = aX + b que minimiza la distancia
q

d(Y , Y ) = E[(Y Y )2 ].
C
alculo explcito de la recta de regresi
on. El problema consiste en hallar los valores
de a y b que minimizan la siguiente funcion de dos variables
g(a, b) := E[(Y (aX + b))2 ].
Usando tecnicas de calculo diferencial en varias variables el problema se reduce a resolver el
sistema de ecuaciones g = 0. Desarrollando cuadrados se puede ver que
g(a, b)
a
g(a, b)
b

= 2aE[X 2 ] 2E[XY ] + 2bE[X],


= 2b 2E[Y ] + 2aE[X].

El problema se reduce a resolver el siguiente sistema lineal de ecuaciones



aE[X 2 ] + bE[X] = E[XY ]
aE[X] + b = E[Y ]
Sumando la primera ecuaci
on y la segunda multiplicada por E[X], se obtiene
a(E[X 2 ] E[X]2 ) = E[XY ] E[X]E[Y ] a =
18

Cov(X, Y )
.
V(X)

Sustituyendo el valor de a en la segunda y despejando b se obtiene


b = E[Y ]

Cov(X, Y )
E[X].
V(X)

Por lo tanto, la recta de regresi


on de Y basada en X es
Y

=
=

Cov(X, Y )
Cov(X, Y )
X + E[Y ]
E[X]
V(X)
V(X)
Cov(X, Y )
(X E[X]) + E[Y ].
V(X)

(34)

Adem
as el error cuadr
atico medio es igual a

donde


E[(Y Y )2 ] = V(Y ) 1 (X, Y )2 ,
(X, Y ) :=

Cov(X, Y )
(X)(Y )

(35)

(36)

es el llamado coeficiente de correlaci


on de las variables X, Y .

Coeficiente de correlaci
on
El coeficiente de correlaci
on definido en (36) es la covarianza de las variables normalizadas
X :=

X E[X]
,
(X)

Y :=

Y E[Y ]
.
(Y )

(37)

Este coeficiente es independiente de los orgenes y unidades de medida, esto es, para constantes
a1 , a2 , b1 , b2 con a1 > 0, a2 > 0, tenemos (a1 X + b1 , a2 Y + b2 ) = (X, Y ).
Desafortunadamente, el termino correlaci
on sugiere implicaciones que no le son inherentes.
Si X e Y son independientes, (X, Y ) = 0. Sin embargo la recproca no es cierta. De hecho,
el coeficiente de correlaci
on (X, Y ) puede anularse incluso cuando Y es funci
on de X.
Ejemplo 3.2.
1. Sea X una variable aleatoria que toma valores 1, 2 cada uno con probabilidad
sea Y = X 2 . La distribucion conjunta esta dada por

1
4

p(1, 1) = p(1, 1) = p(2, 4) = p(2, 4) = 1/4.


Por razones de simetra (E[X] = 0 y E[XY ] = 0) (X, Y ) = 0 incluso cuando Y es una
funcion de X.
2. Sean U y V variables independientes con la misma distribucion, y sean X = U + V ,
Y = U V . Entonces E[XY ] = E[U 2 ] E[V 2 ] = 0 y E[Y ] = 0. En consecuencia,
Cov(X, Y ) = 0 y por lo tanto tambien (X, Y ) = 0. Por ejemplo, X e Y podran ser
la suma y la diferencia de los puntos de dos dados. Entonces X e Y son ambos pares
o ambos impares y por lo tanto dependientes.
19

Nota Bene. El coeficiente de correlaci


on no es una medida general de la dependencia entre
X e Y . Sin embargo, (X, Y ) esta conectado con la dependencia lineal de X e Y . En efecto,
de la identidad (35) se deduce que |(X, Y )| 1 y que (X, Y ) = 1 si y solo si Y es una
funcion lineal de X (cas seguramente).

4.

Bibliografa consultada
Para redactar estas notas se consultaron los siguientes libros:
1. Billingsley, P.: Probability and measure. John Wiley & Sons, New York. (1986)
2. Bertsekas, D. P., Tsitsiklis, J. N.: Introduction to Probability. M.I.T. Lecture Notes.
(2000)
3. Durrett R.:Probability.Theory and Examples. Duxbury Press, Belmont. (1996)
4. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. John
Wiley & Sons, New York. (1957)
5. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 2. John
Wiley & Sons, New York. (1971)
6. Maronna R.: Probabilidad y Estadstica Elementales para Estudiantes de Ciencias. Editorial Exacta, La Plata. (1995)
7. Ross, S.: Introduction to Probability Models. Academic Press, San Diego. (2007)

20

Ensayos Bernoulli y otras cositas


(Borradores, Curso 23)
Sebastian Grynberg
15-17 de abril de 2013

Jakob Bernoulli (1654 - 1705)

En la buena te encontre
y en la mala te perd ...
(Enrique Cadcamo)

Indice
1. Ensayos Bernoulli
1.1. La distribucion binomial: cantidad de exitos en n ensayos . . . . .
1.2. Termino central . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3. La distribucion geometrica: tiempo de espera hasta el primer exito
1.4. La distribucion Pascal: tiempo de espera hasta el k-esimo exito . .
1.5. La distribucion multinomial . . . . . . . . . . . . . . . . . . . . . .
1.6. j Miscelanea de ejemplos . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.

3
4
6
6
8
9
10

2. La distribuci
on de Poisson
2.1. Motivaci
on: Aproximacion de Poisson de la distribucion binomial . . . . . . .
2.2. La distribucion Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

12
12
14

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

2.3. e La aproximacion Poisson. (Tecnica de acoplamiento) . . . . . . . . . . . .

3. Cuentas con exponenciales


3.1. Motivaci
on: pasaje de lo discreto a lo continuo . . . . . .
3.2. Distribucion exponencial . . . . . . . . . . . . . . . . . . .
3.3. Suma de exponenciales independientes de igual intensidad
3.4. Mnimos . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4. Bibliografa consultada

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

16
20
20
21
21
22
24

1.

Ensayos Bernoulli

Se trata de ensayos repetidos en forma independiente en los que hay s


olo dos resultados
posibles, usualmente denominados exito y fracaso, cuyas probabilidades, p y 1 p, se
mantienen constantes a lo largo de todos los ensayos.
El espacio muestral de cada ensayo individual esta formado por dos puntos S y F . El
espacio muestral de n ensayos Bernoulli contiene 2n puntos o secuencias de n smbolos S y
F , cada punto representa un resultado posible del experimento compuesto. Como los ensayos
son independientes las probabilidades se multiplican. En otras palabras, la probabilidad de
cada sucesi
on particular es el producto que se obtiene reemplazando los smbolos S y F por p
y 1 p, respectivamente. As,
P(SSF SF . . . F F S) = pp(1 p)p(1 p) (1 p)(1 p)p.

Ejemplo 1.1. Si repetimos en forma independiente un experimento aleatorio y estamos interesados en la ocurrencia del evento A al que consideramos exito, tenemos ensayos Bernoulli
con p = P(A).
Modelando ensayos Bernoulli. Los ensayos Bernoulli (con probabilidad de exito p) se
describen mediante una sucesion de variables aleatorias independientes e identicamente distribuidas (Xi : i N) cada una con distribucion Bernoulli(p),
P(Xi = xi ) = pxi (1 p)1xi ,

xi {0, 1}.

(1)

Esto es, P(Xi = 1) = p y P(Xi = 0) = 1 p. En este contexto, Xi = 1 significa que el


resultado del i-esimo ensayo es exito.
Preguntas elementales. Se pueden formular varios tipos de preguntas relacionadas con
los ensayos Bernoulli. Las m
as sencillas son las siguientes:
(a) Cual es la cantidad total de exitos en los primeros n ensayos?
(b) En n ensayos, cu
al es el n
umero de exitos m
as probable?
(c) Cuanto tiempo hay que esperar para observar el primer exito?
(d) Cuanto tiempo hay que esperar para observar el k-esimo exito?
En lo que sigue expresaremos las preguntas (a)-(d) en terminos de las variables aleatorias
Xi , i 1, que describen los ensayos Bernoulli.
La cantidad de exitos en los primeros n ensayos se describe mediante la suma de las
primeras variables X1 , . . . , Xn
Sn :=

n
X
i=1

Xi .

(2)

La pregunta (a) interroga por la distribucion de probabilidades de la variable aleatoria


Sn definida en (2). Esto es, para cada k = 0, . . . , n, se trata de determinar cu
anto valen
las probabilidades P(Sn = k). En cambio, la pregunta (b) interroga por el valor de k que
maximiza a la funcion de k, P(Sn = k).
El tiempo de espera hasta el primer exito se describe mediante la variable aleatoria
T1 := mn{i N : Xi = 1},

(3)

y en general, el tiempo de espera hasta el k-esimo exito, k 1 se describe, recursivamente,


mediante
Tk := mn{i > Tk1 : Xi = 1}.

(4)

La pregunta (c) interroga por la distribucion de probabilidades de la variable T1 definida en


(3): cu
anto valen las probabilidades P(T1 = n), n N? Finalmente, la pregunta (d) interroga
por la distribucion de probabilidades de las variables Tk , k 2, definidas en (4): cu
anto valen
las probabilidades P(Tk = n), n k?

1.1.

La distribuci
on binomial: cantidad de
exitos en n ensayos

La cantidad de exitos puede ser 0, 1, . . . , n. El primer problema es determinar las correspondientes probabilidades. El evento en n ensayos resultaron k exitos y n k fracasos
(
)
n
X
(X1 , . . . , Xn ) = (x1 , . . . , xn ) :
xi = k
i=1

puede ocurrir de tantas formas distintas como k smbolos


1 se puedan ubicar en n lugares.

En otras palabras, el evento considerado contiene nk puntos, cada uno de probabilidad
!
n
n
Pn
Pn
Y
\
P
pxi (1 p)1xi = p i=1 xi (1 p)n i=1 xi
{Xi = xi }
=
i=1
k

i=1

= p (1 p)nk .

Por lo tanto,
P(Sn = k) =

 
n k
p (1 p)nk
k

0 k n.

(5)

En particular, la probabilidad de que no ocurra ning


un exito en n ensayos es (1 p)n y la
probabilidad de que ocurra al menos un exito es 1 (1 p)n .
La distribucion de Sn , determinada en (5), se denomina la distribuci
on binomial de
par
ametros n y p y se denota Binomial(n, p).
Nota Bene. Por definicion, la distribucion binomial de par
ametros n y p es la distribuci
on
de una suma de n variables aleatorias independientes cada con distribuci
on Bernoulli de
par
ametro p.

Ejemplo 1.2. Se tira un dado equilibrado 11 veces y en cada tiro se apuesta al 6, cu


al es
la probabilidad de ganar exactamente 2 veces? Como el dado es equilibrado, la probabilidad
de exito es 1/6 y la cantidad de exitos en 11 tiros tiene distribucion Binomial (11, 1/6). Por
lo tanto, la probabilidad requerida es
   2  9
1
11
5
= 0.2960 . . .
2
6
6
Ejemplo 1.3. Cada artculo producido por una m
aquina sera defectuoso con probabilidad
0.1, independientemente de los demas. En una muestra de 3, cu
al es la probabilidad de
encontrar a lo sumo un defectuoso?
Si X es la cantidad de artculos defectuosos en la muestra, entonces X Binomial(3, 0.1).
En consecuencia,
 
 
3
3
0
3
P(X 1) = P(X = 0) + P(X = 1) =
(0.1) (0.9) +
(0.1)1 (0.9)2 = 0.972.
0
1
Ejemplo 1.4. Un avi
on se mantendr
a en vuelo mientras funcionen al menos el 50 % de sus
motores. Si cada motor del avi
on en vuelo puede fallar con probabilidad 1 p independientemente de los demas, para cu
ales valores de p (0, 1) es m
as seguro un avi
on de 4 motores
que uno de 2?
Como cada motor puede fallar o funcionar independientemente de los demas, la cantidad
de motores que siguen funcionando es una variable aleatoria con distribucion binomial. La
probabilidad de que un avi
on de 4 motores realice un vuelo exitoso es
 
 
 
4 2
4 3
4 4
2
p (1 p) +
p (1 p) +
p = 6p2 (1 p)2 + 4p3 (1 p) + p4 ,
2
3
4
mientras que la correspondiente probabilidad para un avi
on de 2 motores es
 
 
2
2 2
p(1 p) +
p = 2p(1 p) + p2 .
1
2
En consecuencia, el avi
on de 4 motores es m
as seguro que el de 2 si
6p2 (1 p)2 + 4p3 (1 p) + p4 > 2p(1 p) + p2
lo que es equivalente a las siguientes expresiones simplificadas
3p3 8p2 + 7p 2 > 0 3(p 2/3)(p 1)2 > 0 p > 2/3.
Por lo tanto, el avi
on de 4 motores es m
as seguro cuando la probabilidad de que cada motor
se mantenga en funcionamiento es mayor que 2/3, mientras que el avi
on de 2 motores es m
as
seguro cuando esa probabilidad es menor que 2/3.
Ejemplo 1.5. Si la probabilidad de exito es p = 0.01, cu
antos ensayos se deben realizar para
asegurar que la probabilidad de que ocurra por lo menos un exito sea al menos 1/2?
Buscamos el menor entero n tal que 1 (0.99)n 21 , o equivalentemente 12 (0.99)n .
Tomando logaritmos log 2 n log(0.99) y despejando n resulta n log(2)/ log(0.99)
68.96. Por lo tanto, n = 69.
5

1.2.

T
ermino central

De la formula (5) se puede ver que


P(Sn = k)
P(Sn = k 1)

=
=

n
k

n
k1

 k
p (1 p)nk
(k 1)!(n k + 1)!p
=
k1
nk+1
k!(n k)!(1 p)
p (1 p)

(n + 1)p k
(n k + 1)p
=1+
.
k(1 p)
k(1 p)

(6)

De (6) se deduce que P(Sn = k) crece cuando k < (n + 1)p y decrece cuando k > (n + 1)p. Si
(n + 1)p es un n
umero entero, entonces P(Sn = (n + 1)p) = P(Sn = (n + 1)p 1). En otras
palabras, la cantidad m
as probable de exitos en n ensayos es m := [(n + 1)p]. Salvo en el caso
en que m = (n + 1)p, donde tambien lo es m 1.
Cuando p = 12 el resultado anterior se puede observar directamente en el tri
angulo de
Pascal: en el centro de las filas pares esta el m
aximo. En la regi
on central de las filas impares
hay dos m
aximos.
Ejemplo 1.6. Se tira un dado equilibrado n veces y en cada tiro se apuesta al 6. Cual es la
cantidad m
as probable de exitos cuando n = 12? y cuando n = 11?
La cantidad de exitos tiene distribucion Binomial (n, p), donde p = 1/6. Cuando n = 12,
(n + 1)p = 13/6 = 2.16... y entonces la cantidad m
as probable de exitos es m = 2. Cuando
n = 11, (n + 1)p = 2 y entonces la cantidad m
as probable de exitos es m = 1 o m = 2.

1.3.

La distribuci
on geom
etrica: tiempo de espera hasta el primer
exito

El tiempo que hay que esperar para observar el primer exito en una sucesion de ensayos
Bernoulli puede ser n = 1, 2, . . . . El evento T1 = 1 significa que se obtuvo exito en el primer
ensayo y tiene probabilidad p. Para cada n 2, el evento T1 = n significa que en los primeros
n 1 ensayos se obtuvieron fracasos y que en el n-esimo se obtuvo exito, lo que tiene probabilidad (1 p)n1 p. Por lo tanto, la distribucion de T1 es
P(T1 = n) = (1 p)n1 p,

n N.

(7)

El evento T1 > n significa que los primeros n ensayos de la sucesion resultaron fracaso. Por
lo tanto,
P(T1 > n) = (1 p)n ,

n 1.

(8)

La distribucion de T1 se denomina distribuci


on geometrica de par
ametro p y se designa mediante Geometrica(p).
Ejemplo 1.7. Se arroja repetidamente un dado equilibrado. Cual es la probabilidad de
que el primer 6 aparezca antes del quinto tiro?. La probabilidad de obtener 6 es 1/6 y la
cantidad de tiros hasta obtener el primer as tiene distribucion Geometrica(1/6). Por lo tanto,
la probabilidad requerida es


1 (5/6)4
2
3
1/6 + (5/6)(1/6) + (5/6) (1/6) + (5/6) (1/6) = (1/6)
= 1 (5/6)4 = 0.5177 . . .
1 (5/6)

Ejemplo 1.8 (Ocurrencias casi seguras). Si al realizarse un experimento aleatorio un evento


A tiene probabilidad positiva de ocurrir, entonces en una sucesion de experimentos independientes el evento A ocurrira casi seguramente.
En efecto, el tiempo de espera hasta que ocurra el evento A es una variable aleatoria TA
con distribucion geometrica de par
ametro p = P(A). Si se observa que
{TA > 1} {TA > 2} {TA > 3}
y que
{TA = } =

{TA > n}

n1

y se usa la propiedad de continuidad de P, se obtiene que

\
P(TA = ) = P {TA > n} = lm P(TA > n) = lm (1 p)n = 0.
n

n1

Por lo tanto, P(TA < ) = 1.


P
erdida de memoria

La variable aleatoria, T , con distribucion geometrica de par


ametro p tiene la propiedad
de perdida de memoria,
P(T > n + m|T > n) = P(T > m)

n, m N

(9)

La identidad (9) se obtiene de (8) y de la formula de probabilidad condicional:


P(T > n + m, T > n)
P(T > n)
(1 p)n+m
P(T > n + m)
=
=
P(T > n)
(1 p)n
= (1 p)m = P(T > m).

P(T > n + m|T > n) =

De hecho, la propiedad de perdida de memoria definida en (9) caracteriza a la distribucion


geometrica.
Teorema 1.9. Si T es una variable aleatoria a valores en N con la propiedad de perdida de
memoria, entonces T Geometrica(p), donde p = P(T = 1).
Demostraci
on. Sea G(n) := P(T > n). Si T pierde memoria, tenemos que
G(n + m) = G(n)G(m)

(10)

De (10) sigue que G(2) = G(1)G(1) = G(1)2 , G(3) = G(2)G(1) = G(1)3 y en general
G(n) = G(1)n cualquiera sea n N. En otros terminos, la distribucion de T es tal que
P(T > n) = G(1)n .
Por lo tanto,
P(T = n) = P(T > n 1) P(T > n) = G(1)n1 G(1)n = G(1)n1 (1 G(1)).

1.4.

La distribuci
on Pascal: tiempo de espera hasta el k-
esimo
exito

Si se quieren observar k-exitos en una sucesion de ensayos Bernoulli lo mnimo que se


debe esperar es k ensayos. Cuando ocurre el evento Tk = n, n k? El n-esimo ensayo debe
ser exito y en los n 1 ensayos anteriores deben ocurrir exactamente k 1 exitos. Hay n1
k1
formas distintas de ubicar k 1 smbolos 1 en n 1 lugares. Por lo tanto,


n1 k
p (1 p)nk
n k.
(11)
P(Tk = n) =
k1
La distribucion de Tk se denomina distribuci
on Pascal de par
ametros k y p y se designa
mediante Pascal(k, p).
La distribuci
on Pascal de par
ametros k y p es la distribuci
on de una suma de k variables
aleatorias independientes cada una con ley Geometrica(p). Lo cual es intuitivamente claro si
se piensa en el modo que arribamos a su definicion.
En efecto, definiendo T0 := 0 vale que
k
X
(Ti Ti1 ).
Tk =
i=1

Basta ver que para cada i = 1, . . . , k las diferencias Ti Ti1 son independientes y todas se
distribuyen como T1 Geometrica(p). De acuerdo con la regla del producto


P ki=1 {Ti Ti1 = mi }
= P(T1 = m1 )

n1
Y
i=2



P Ti Ti1 = mi | i1
{T

T
=
m
}
. (12)
j
j1
j
j=1

Si se sabe que T1 = m1 , . . . , Ti1 Ti2 = mi1 , entonces el evento Ti Ti1 = mi depende


las variables aleatorias XPi1 mj +1 , . . . , XPi mj y equivale a decir que las primeras mi 1
j=1
j=1
de esas variables valen 0 y la u
ltima vale 1. En consecuencia,


i1
P Ti Ti1 = mi | j=1
{Tj Tj1 = mj } = (1 p)mi 1 p.
(13)
De (12) y (13) se deduce que

k

 Y
P ki=1 {Ti Ti1 = mi } =
(1 p)mi 1 p.

(14)

i=1

De la factorizaci
on (14) se deduce que T1 , T2 T1 , . . . , Tk Tk1 son independientes y que
cada una tiene distribucion geometrica de par
ametro p.
Ejemplo 1.10. Lucas y Monk disputan la final de un campeonato de ajedrez. El primero
que gane 6 partidas (no hay tablas) resulta ganador. La probabilidad de que Lucas gane
cada partida es 3/4. Cual es la probabilidad de que Lucas gane el campeonato en la novena
partida? La cantidad de partidas que deben jugarse hasta que Lucas gane el campeonato tiene
distribucion Pascal(6, 3/4). Por lo tanto, la probabilidad requerida es
   6  3
3
8
1
= 0.1557 . . .
5
4
4

Ejemplo 1.11. En una calle hay tres parqumetros desocupados. Se estima que en los proximos 10 minutos pasaran 6 coches por esa calle y, en media, el 80 % tendr
a que estacionarse
en alguno de ellos. Calcular la probabilidad de que los tres parqumetros sean ocupados en
los proximos 10 minutos.
La probabilidad requerida es la probabilidad de que la cantidad, N , de ensayos hasta el
tercer exito sea menor o igual que 6. Como N tiene distribucion Pascal(3, 0.8) resulta que

6 
X
n1
P(N = n) =
(0.8)3 (0.2)n3
P(N 6) =
2
n=3
n=3
 
 
 
 

2
3
4
5
3
0
1
2
3
= (0.8)
(0.2) +
(0.2) +
(0.2) +
(0.2)
2
2
2
2


= (0.8)3 1 + 3(0.2) + 6(0.2)2 + 10(0.2)3
6
X

= 0.983 . . .

Notar que una forma alternativa de obtener el mismo resultado es sumar las probabilidades
de observar 3, 4, 5, 6 exitos en 6 ensayos Bernoulli.
Relaci
on entre las distribuciones Binomial y Pascal.
Tk Pascal(k, p). Vale que

Sean Sn Binomial(n, p) y

P(Sn k) = P(Tk n).

(15)

En efecto, decir que en n ensayos Bernoulli ocurren por lo menos k exitos es lo mismo que
decir que el tiempo de espera hasta observar el k-esimo exito no supera a n.

1.5.

La distribuci
on multinomial

La distribucion binomial se puede generalizar al caso de n ensayos independientes donde


cada ensayo puede tomar uno de varios resultados. Sean 1, 2, . . . , r los resultados posibles de
cada ensayo y supongamos que para cada k {1, 2, . . . , r} la probabilidad pk de observar el
valor k se mantiene constante a lo largo de los ensayos. La pregunta es: Cuantas veces ocurre
cada uno de los resultados en los primeros n ensayos?
Consideramos una sucesion X1 , X2 , . . . de variables aleatorias independientes e identicamente distribuidas a valores {1, 2, . . . ,P
r} tal que P(Xi = k) = pk . Fijado n, para cada
k = 1, . . . , r definimos la variables Mk = ni=1 1{Xi = k}. La variable Mk cuenta la cantidad
de veces que ocurre el resultado k en n ensayos. La probabilidad de que en n ensayos el
resultado 1 ocurra m1 veces, el resultado 2 ocurra m2 veces, etc. es
P(M1 = m1 , M2 = m2 , . . . , Mr = mr ) =

n!
r
pm1 pm2 pm
r ,
m1 !m2 ! mr ! 1 2

(16)

donde los mk son enteros no negativos sujetos a la condici


on m1 + m2 + + mr = n.
Si r = 2, entonces (16) se reduce a la distribucion Binomial con p1 = p, p2 = 1 p, k1 = k
y k2 = n k.

1.6.

j Miscel
anea de ejemplos

Observaci
on 1.12 (Desarrollo de Taylor). Para todo x (0, 1) vale que
X n + k 
1
xn .
=
k
(1 x)k+1

(17)

n0

La identidad (17) se obtiene desarrollando la funcion h(x) = (1 x)(k+1) en serie de


Taylor alrededor del 0: observando que h(n) (0) = (k + 1)(k + 2) (k + n), se obtiene que

h(n) (0)
= n+k
n!
k .

Ejemplo 1.13 (Variable compuesta). Sean N1 ; X1 , X2 , . . . una sucesion de variables aleatorias independientes. Supongamos que N1 Geometrica(p1 ) y que Xi Bernoulli(p2 ), i 1.
Entonces,
N2 =

NX
1 1

Xi Geometrica

i=1

p1
p1 + p2 (1 p1 )

1.

(18)

Por definicion N2 |N1 = n Binomial(n 1, p2 ). Aplicando la formula de probabilidad total


obtenemos
X
P(N2 = k) =
P(N2 = k|N1 = n)P(N1 = n)
n1

X n 1
pk2 (1 p2 )n1k (1 p1 )n1 p1
=
k
nk+1
X m + k 
=
pk2 (1 p2 )m (1 p1 )m+k p1
k
m0
X n + k 
k
= (p2 (1 p1 )) p1
[(1 p1 )(1 p2 )]m .
k

(19)

m0

Usando (17) vemos que


X m + k 
[(1 p1 )(1 p2 )]m =
k
m0

1
(1 (1 p1 )(1 p2 ))k+1
1
.
(p1 + p2 (1 p1 ))k+1

(20)

Combinando (19) y (20) obtenemos que


(p2 (1 p1 ))k p1
=
P(N2 = k) =
(p1 + p2 (1 p1 ))k+1

p2 (1 p1 )
p1 + p2 (1 p1 )

k 

p1
p1 + p2 (1 p1 )

(21)

Ejemplo 1.14 (Rachas). Para cada n


umero entero m > 1 sea Ym la cantidad de ensayos
Bernoulli(p) que se deben realizar hasta obtener por primera vez una racha de m exitos seguidos. En lo que sigue vamos a calcular E[Ym ] mediante condicionales. Para ello introducimos
10

una variable aleatoria auxiliar N que cuenta la cantidad de ensayos que deben realizarse hasta
obtener por primera vez un fracaso y usaremos la identidad E[Ym ] = E[E[Ym |N ]].
Observando que

n + Ym si n m,
Ym |N = n
m
si n > m,
obtenemos la expresi
on de la funcion de regresion

n + E[Ym ] si n m,
(n) = E[Ym |N = n] =
m
si n > m.
En consecuencia, E[Ym |N ] = N 1{N m} + E[Ym ]1{N m} + m1{N > m}, de donde se
deduce que E[Ym ] = E[N 1{N m}] + E[Ym ]P(N m) + mP(N > m). Equivalentemente,
E[Ym ] =

E[N 1{N m}]


+ m.
P(N > m)

(22)

Debido a que N 1{N m} = N N 1{N > m} el primer termino del lado derecho de la
igualdad (22) se puede expresar de siguiente forma
E[N 1{N m}]
P(N > m)

=
=

E[N ] E[N 1{N > m}]


E[N ]
=
E[N |N > m]
P(N > m)
P(N > m)
E[N ]
E[N ] m.
P(N > m)

(23)

La u
ltima igualdad se deduce de la propiedad de perdida de memoria de la distribucion
Geometrica. De N |N > m m + N , resulta que E[N |N > m] = m + E[N ].
Combinando (22) y (23) obtenemos
E[Ym ] =

E[N ]
E[N ]P(N m)
1 pm
E[N ] =
=
.
P(N > m)
P(N > m)
(1 p)pm

(24)

Ejemplo 1.15 (Coleccionista I). Sea M una variable aleatoria a valores 1, 2, . . . , m. Sea
(Mn : n N) una sucesion de variables aleatorias independientes tal que Mn M para
todo n N. Sea K = mn{n m : {M1 , . . . , Mn } = {1, 2, . . . , m}} el tama
no de muestra
mnimo que se necesita para coleccionar todos los valores 1, 2, . . . , m. En lo que sigue vamos
a calcular E[K] mediante condicionales. Introducimos un elemento aleatorio C que indica el
orden en que se obtuvieron los valores 1, 2, . . . , m y usamos la identidad E[K] = E[E[K|C]].
Sea S(m) al conjunto de todas las permutaciones de los n
umeros 1, 2, . . . , m. Para cada
permutaci
on = (1 , 2 , . . . , m ) S(m) vale que:
P(C = ) =

m1
Y
k=1

Por otra parte


K|C = 1 +

P(M = k )
Pm
.
i=k P(M = i )

m1
X

N (i : 1 1 k),

k=1

11


Pm
donde N (i : 1 i k) Geometrica
i=k+1 P(M = i ) . Por lo tanto,
X
E[K] =
E[K|C = ]P(C = )
S(m)

1+

m1
X
k=1

S(m)

1
Pm
i=k+1 P(M = i )

! m1
Y
k=1

P(M = k )
Pm
.
i=k P(M = i )

(25)

En el caso particular en que P(M = i) = 1/m para todo i {1, 2, . . . , m} tenemos que
! m1
m1
X
X
Y
1
1/m
Pm
Pm
1+
E[K] =
i=k+1 1/m
i=k 1/m
k=1
k=1
S(m)
!
m1
m
m1
X
X
X
1
1
1
1
Pm
Pm
= m! 1 +
=m
=
.
(26)
m!
i
i=k+1 1/m
i=k+1 1/m
k=1

i=1

k=0

Ejemplo 1.16 (Coleccionista II). Sea X1 , X2 , . . . una sucesion de variables aleatorias independientes e identicamente distribuidas aPvalores 1, 2, . . . , r. Sea Nr = mn{n 1 : Xn = r}.
Nr 1
Para cada i = 1, . . . , r 1 sea Mi =
on de
n=1 1{Xn = i}. Queremos hallar la funci
probabilidad de Mi .

Por definicion Nr Geometrica(pr ) y Mi |Nr = n Binomial n 1, pi (1 pr )1 . De
acuerdo con el Ejemplo 1.13 tenemos que




pr
pr
Mi Geometrica
1.
1 = Geometrica
pr + pi (1 pr )1 (1 pr )
pr + pi
En particular, E[Mi ] = pi /pr y V(Mi ) = pi (pr + pi )/p2r .

2.
2.1.

La distribuci
on de Poisson
Motivaci
on: Aproximaci
on de Poisson de la distribuci
on binomial

En diversas aplicaciones tenemos que tratar con ensayos Bernoulli donde, para decirlo
de alg
un modo, n es grande y p es peque
no, mientras que el producto = np es moderado. En tales casos conviene usar una aproximacion de las probabilidades P(Sn = k), donde
Sn Binomial(n, p) y p = /n. Para k = 0 tenemos


n
n
.
(27)
P(Sn = 0) = (1 p) = 1
n
Tomando logaritmos y usando el desarrollo de Taylor,
1
1
1
log(1 t) = t t2 t3 t4 ,
2
3
4
se obtiene


log P(Sn = 0) = n log 1


n
12

2

2n

(28)

En consecuencia, para n grande se tiene que


P(Sn = 0) e ,

(29)

donde el signo se usa para indicar una igualdad aproximada (en este caso de orden de
magnitud 1/n). M
as a
un, usando la identidad (6) se puede ver que para cada k fijo y n
suficientemente grande
P(Sn = k)
(n k + 1)p

=
.
P(Sn = k 1)
k(1 p)
k

(30)

Recursivamente se concluye que


P(Sn = 1) P(Sn = 0) e ,

2
P(Sn = 2)
P(Sn = 1)
e ,
2
2
y en general
P(Sn = k)

k
e .
k!

(31)

La igualdad aproximada (31) se llama la aproximaci


on de Poisson de la distribuci
on binomial.
0.35

0.3

0.25

0.2

0.15

0.1

0.05

10

Figura 1: Comparaci
on. Funciones de probabilidad de las distribuciones Binomial(10, 1/5)
(bolita negra) y Poisson(2) (cuadradillo vaco).

Otro modo de obtener el mismo resultado.


 


n k
1
np k
k
nk
p (1 p)

P(Sn = k) =
(1 p)nk
e .
k
k! 1 p
k!
13

Ejemplo 2.1 (Artculos defectuosos). Una industria produce tornillos. Supongamos que la
probabilidad de que un tornillo resulte defectuoso sea p = 0.015, entonces la probabilidad de
que una caja de 100 tornillos no contenga ninguno defectuoso es (0.985)100 = 0.2206... La
aproximacion de Poisson es e1.5 = 0.2231... y es suficientemente proxima para la mayora de
los prop
ositos practicos. Si se pregunta: Cuantos tornillos debera contener la caja para que la
probabilidad de encontrar al menos 100 tornillos sin defectos sea 0.8 o mejor? Si 100 + x es el
n
umero buscado, entonces x es un n
umero peque
no. Para aplicar la aproximacion de Poisson
para n = 100 + x ensayos debemos poner = np, pero np es aproximadamente 100p = 1.5.
Buscamos el menor entero x para el cual


1.5
(1.5)x
1.5
e
1+
+
0.8
(32)
1
x!
Para x = 1 el valor del lado izquierdo de la inecuacion (32) es aproximadamente 0.558, para
x = 2 es aproximadamente 0.809. Por lo tanto, la aproximacion de Poisson permite concluir
que se necesitan 102 tornillos. En realidad la probabilidad de encontrar al menos 100 tornillos
sin defectos en una caja de 102 es 0.8022 . . . .

2.2.

La distribuci
on Poisson

Sea > 0. Una variable aleatoria N tiene distribucion Poisson() si sus posibles valores
son los enteros no negativos y si
P(N = n) = e

n
,
n!

n = 0, 1, . . .

(33)

Media y varianza. Usando el desarrollo de Taylor de la funcion exponencial ex =


se demuestra que E[N ] = y V(N ) = .
Aditividad.

xn
n=0 n!

El rasgo m
as importante de la distribucion Poisson es su aditividad.

Teorema 2.2 (Aditividad). Si N1 y N2 son variables aleatorias independientes con distribuci


on Poisson de medias 1 y 2 , respectivamente. Entonces,
N1 + N2 P oisson(1 + 2 ).
Demostraci
on.
P(N1 + N2 = n) =
=

n
X

m=0
n
X

m=0

P(N1 = m, N2 = n m) =
m
1 1 2

m!

2nm
=
(n m)!

(1 + 2
= e(1 +2 )
n!

)n

14

n
X

P(N1 = m)P(N2 = n m)

m=0
(
e 1 +2 )

n!

n  
X
n m nm

m 1 2

m=0

Nota Bene. El resultado del Teorema 2.2 se extiende por induccion a la suma de una
cantidad finita de variables aleatorias independientes con distribucion Poisson.
Teorema 2.3 (Competencia). Sean N1 , N2 , . . . , Nm variables aleatorias independientes, cada
Nj con distribuci
on Poisson de media j , respectivamente. Sea S = N1 + + Nm . Entonces,
para cada n 1 vale que


1 2
m
(N1 , N2 , . . . , Nm )|S = n M ultinomial n, , , . . . ,
,

P
donde = j j . En particular,
P(Nj = 1|S = 1) =

j
.

Demostraci
on. La suma S = N1 + +Nm tiene distribucion Poisson de media =
y entonces siempre que n1 + + nm = n,
P(N1 = n1 , . . . , Nm = nm |S = n) =
=
=

j ;

P(N1 = n1 , . . . , Nm = nm )
P(S = n)

nj !, 
n
Y

j j

e
e
nj !
n!
j
Y  j nj
n!
.
n1 !n2 ! nm !

Nota Bene. En el caso particular n = 2, el resultado del Teorema 2.3 se reduce a que,
si N1 y N2 son variables aleatorias independientes con distribucion Poisson de medias 1 y
2 , respectivamente, entonces, dado que N1 + N2 = n, la distribucion condicional de N1 es
1
Binomial(n, p), donde p = 1+
.
2
Teorema 2.4 (Adelgazamiento). Sea N una variable aleatoria Poisson de media . Sea M
una variable aleatoria tal que
M |N = n Binomial(n, p).
Entonces, M y N M son variables aleatorias independientes con distribuci
on Poisson de
medias p y (1 p), respectivamente.
Demostraci
on. Sean m, k 0
P(M = m, N M = k) = P(M = m, N M = k|N = m + k)P(N = m + k)
= P(M = m|N = m + k)P(N = m + k)



m+k m
m+k
k
=
p (1 p) e
(m + k)!
m



m
k
p (p)
(1p) ((1 p))
=
e
e
.
m!
k!

15

Ejercicios adicionales
1. Sea N una variable aleatoria con distribucion Poisson de media . Mostrar que
P(N = n) =

P(N = n 1),
n

n = 1, 2, . . .

Usar ese resultado para encontrar el valor de n para el cual P(N = n) es maximal.


2.
Se lanza una moneda una cantidad aleatoria N de veces, donde N tiene distribucion
Poisson. Sean N1 y N2 la cantidad de total de caras y de cecas observadas, respectivamente.
Mostrar que las variables aleatorias N1 y N2 son independientes y que tienen distribucion
Poisson.
3. Sea X1 , X2 , . . . una sucesion de variables aleatorias
Pnindependientes, cada una con distribuci
on Bernoulli(p). Para cada n 1 se define Sn := i=1 Xi . Por convencion, S0 := 0. Sea N
una variable aleatoria con distribucion Poisson(). Mostrar que SN Poisson(p).

2.3.

e La aproximaci
on Poisson. (T
ecnica de acoplamiento)

En lo que sigue mostraremos que cuando se consideran una gran cantidad de eventos independientes y cada uno de ellos tiene una probabilidad muy peque
na de ocurrir, la cantidad de
tales eventos que realmente ocurre tiene una distribucion cercana a la distribucion Poisson.
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0

0.5

1.5

2.5

Figura 2: Comparaci
on de las funciones de probabilidad de las distribuciones Bernoulli(1/4)
(bolita negra) y Poisson(1/4) (cuadradillo vaco)

16

Construcci
on conjunta de variables Bernoulli y Poisson (Acoplamiento).
Para cada p [0, 1] dividimos el intervalo [0, 1) en dos intervalos
I0 (p) = [0, 1 p),

I1 (p) = [1 p, 1)

(34)

y en la sucesion de intervalos

k1
k
k
k
X
X
p
p
Jk (p) =
ep ,
ep ,
k!
k!

J0 (p) = [0, ep ),

j=0

k = 1, 2, . . . .

(35)

j=0

Consideramos una variable aleatoria U con distribucion U[0, 1) y construimos dos variables
aleatorias V y W con distribuciones Bernoulli(p) y Poisson(p), respectivamente:
V := 1{U I1 (p)},

W :=

k1{U Jk (p)}.

(36)

k=0

De la desigualdad 1 p ep resulta que I0 (p) J0 (p) y que J1 (p) I1 (p). En consecuencia,


V = W U I0 (p) J1 (p). Por ende,
P(V = W ) = P(U I0 (p) J1 (p)) = 1 p + ep p,

(37)

P(V 6= W ) = p ep p = p(1 ep ) p2 .

(38)

y en consecuencia,

Usando la desigualdad (38) pueden obtenerse las siguientes cotas:


sup |P(V = k) P(W = k)| p2 ,

(39)

k0

|P(V = k) P(W = k)| 2p2 .

La cota (39) se deduce de observar que


|P(V = k) P(W = k)| = |E[1{V = k}] E[1{W = k}]|
= |E[1{V = k} 1{W = k}]|
E[|1{V = k} 1{W = k}|]
E[1{V 6= W }]
= P(V 6= W ).
La cota (40) se deduce de observar que para todo k = 0, 1, . . .
|P(V = k) P(W = k)| = |P(V = k, W 6= k) P(W = k, V 6= k)|
P(V = k, V 6= W ) + P(W = k, V 6= W ),
y luego sumar sobre los posibles valores de k:
X
|P(V = k) P(W = k)| 2P(V 6= W ).
k

17

(40)

Nota Bene. Esta tecnica, denominada tecnica de acoplamiento de variables aleatorias,


permite probar (sin usar la formula de Stirling) que la distribucion Binomial converge a la
distribucion Poisson.
Teorema 2.5 (Le Cam). Sean X1 , . . . , Xn variables aleatorias independientes
con distribuP
ci
on Bernoulli de par
ametros p1 , . . . , pn , respectivamente y sea S = ni=1 Xi . Entonces
X

|P(S = k) P(N = k)| 2

n
X

p2i ,

(41)

i=1

donde N es una variable aleatoria con distribuci


on Poisson de media =

Pn

i=1 pi .

Demostraci
on. Sean U1 , . . . , Un variables aleatorias independientes con distribucion com
un
U[0, 1). Construimos variables aleatorias acopladas Vi Bernoulli(pi ) y Wi Poisson(pi ),
i = 1, . . . , n:
Vi := 1{Ui I1 (pi )},

Wi :=

k1{Ui Jk (pi )},

k=0

y las sumamos
S =

n
X

Vi ,

N=

n
X

Wi .

i=1

i=1

Por construcci
on, las variables V1 , . . . , Vn son independientes y con distribucion Bernoulli(pi ),
respectivamente, y entonces, la variable S tiene la misma distribucion que S; las variables
W1 , . . . , Wn son independientes y tienen distribucion Poisson(p
i ), respectivamente, y entonces,
Pn
la variable N tiene distribucion Poisson de media = i=1 pi .
Observando que cada k
|P(S = k) P(N = k)| P(S = k, N 6= k) + P(N = k, S 6= k).
se obtiene que
X

|P(S = k) P(N = k)| 2P(S 6= N ).

Si S 6= N , entonces Vi 6= Wi para alg


un i = 1, . . . , n. En consecuencia,
P(S 6= N )

n
X

P(Vi 6= Wi )

i=1

n
X

p2i .

i=1

Corolario 2.6 (Aproximacion Poisson). Para cada k 0


 

 
n
nk k
k
lm
1
= e
n k
n
n
k!

18

Demostraci
on. Sean U1 , . . . , Un variables aleatorias independientes con distribucion com
un
U[0, 1). Para cada i = 1, . . . , n definimos parejas de variables aleatorias (Vi , Wi ) independientes
Vi := 1{Ui I1 (p)},

Wi :=

k1{Ui Jk (p)}.

k=0

Por construcci
on, Vi Bernoulli(p) y Wi Poisson(p), en consecuencia las sumas
S=

n
X

Vi ,

N=

n
X

Wi

i=1

i=1

son variables aleatorias con distribuciones Binomial(n, p) y Poisson(np), respectivamente. De


acuerdo con la demostraci
on del Teorema de Le Cam tenemos que
  


 
n
k
nk k
2



1
0.
e = |P(S = k) P(N = k)| 2np2 = 2

k
n
n
k!
n
Teorema 2.7. Supongamos que para cada n, Xn,1 , . . . , Xn,rn son variables aleatorias independientes con distribuci
on Bernoulli(pn,k ). Si
rn
X

pn,k 0,

m
ax pn,k 0,

1krn

k=1

(42)

entonces
P

rn
X
k=1

Xn,k = i

i
,
i!

i = 0, 1, 2, . . . .

(43)

Si = 0, el lmite (43) se interpreta como 1 para i = 0 y 0 para i 1. En el caso rn = n


y pn,k = /n, (43) es la aproximaci
on Poisson a la binomial. Notar que si > 0, entonces
(42) implica que rn .
Demostraci
on. Sea U1 , U2 , . . . una sucesion de variables aleatorias independientes, con
distribucion com
un U[0, 1). Definimos
Vn,k := 1{Uk I1 (pn,k )}.
Las variables Vn,1 , . . . , Vn,rn son independientes y con distribucion Bernoulli(pn,k ). Puesto que
on que Xn,1 , . . . , Xn,rn , (43) se obtiene mostrando
Vn,1 , . . . , VP
n,rn tienen la misma distribuci
rn
que Vn = k=1 Vn,k satisface
P(Vn = i) e

Ahora definimos
Wn,k :=

i
.
i!

i1{Uk Ji (pn,k )}

i=0

19

(44)

Wn,k tiene distribucion Poisson de media pn,k . PuestoPque las Wn,k son independientes, Wn =
P
rn
n
pn,k . De la desigualdad 1p ep ,
on Poisson de media n = rk=1
k=1 Wn.k tiene distribuci
se obtiene como consecuencia que
P(Vn,k 6= Wn,k ) = P(Vn.k = 1 6= Wn,k ) = P(Uk I1 (pn,k ) J1 (pn,k ))
= pn,k epn,k pn,k p2n,k ,
y por (42)
P(Vn 6= Wn )

rn
X

p2n,k n m
ax pn,k 0.
1krn

k=1

(44) y (43) se obtienen de observar que


P(Wn = i) = en

3.
3.1.

in
n
e .
n!
n!

Cuentas con exponenciales


Motivaci
on: pasaje de lo discreto a lo continuo

Para fijar ideas consideraremos una conversacion telef


onica y supondremos que su duraci
on
es un n
umero entero de segundos. La duraci
on de la conversacion sera tratada como una
variable aleatoria T cuya distribucion de probabilidades pn = P(T = n) es conocida. La lnea
telef
onica representa un sistema fsico con dos estados posibles ocupada (E0 ) y libre (E1 ).
Imaginemos que cada segundo se decide si la conversacion contin
ua o no por medio de
una moneda cargada. En otras palabras, se realiza una sucesion de ensayos Bernoulli con
probabilidad de exito p a una tasa de un ensayo por segundo y se contin
ua hasta el primer
exito. La conversacion termina cuando ocurre el primer exito. En este caso la duraci
on total
de la conversacion, el tiempo de espera, tiene distribucion geometrica pn = (1 p)n1 p. Si en
un instante cualquiera la lnea esta ocupada, la probabilidad que permanezca ocupada por
m
as de un segundo es (1 p), y la probabilidad de transicion E0 E1 en el siguiente paso
es p. En este caso esas probabilidades son independientes de cu
anto tiempo estuvo ocupada
la lnea.
La descripci
on de los tiempos de espera mediante modelos discretos presupone la cuantizacion del tiempo y que los cambios solo pueden ocurrir en las epocas , 2, . . . . El tiempo de
espera T m
as sencillo es el tiempo de espera hasta el primer exito en una sucesion de ensayos
Bernoulli con probabilidad de exito p(). En tal caso P(T > n) = (1 p())n y el tiempo
medio de espera es E[T ] = /p(). Este modelo puede se puede refinar haciendo que sea
cada vez m
as chico pero manteniendo fija la esperanza /p() = 1/. Para un intervalo de
duraci
on t corresponden aproximadamente n t/ ensayos, y entonces para peque
no
P(T > t) (1 )t/ et .

(45)

Este modelo considera el tiempo de espera como una variable aleatoria discreta distribuida
geometricamente y (45) dice que en el lmite se obtiene una distribucion exponencial.
20

Si no discretizamos el tiempo tenemos que tratar con variables aleatorias continuas. El rol
de la distribucion geometrica para los tiempos de espera lo ocupa la distribuci
on exponencial.
Es la u
nica variable continua dotada de una completa falta de memoria. En otras palabras, la
probabilidad de que una conversacion que llego hasta el tiempo t contin
ue m
as all
a del tiempo
t + s es independiente de la duraci
on pasada de la conversacion si, y solo si, la probabilidad
que la conversacion dure por lo menos t unidades de tiempo esta dada por una exponencial
et .
Nota Bene Si en un momento arbitrario t la lnea esta ocupada, entonces la probabilidad
de un cambio de estado durante el proximo segundo depende de cuan larga ha sido la conversacion. En otras palabras, el pasado influye sobre el futuro. Esta circunstancia es la fuente
de muchas dificultades en problemas m
as complicados.

3.2.

Distribuci
on exponencial

Se dice que la variable aleatoria T tiene distribuci


on exponencial de intensidad > 0 y se
denota T Exp() si la funcion de distribucion de T es de la forma


FT (t) := P(T t) = 1 et 1{t 0}.
(46)

En tal caso T admite la siguiente funcion densidad de probabilidades


fT (t) = et 1{t 0}.

(47)

Media y Varianza. Los valores de la esperanza y la varianza de T son, respectivamente,


E[T ] = 1/ y V(T ) = 1/2 .

3.3.

Suma de exponenciales independientes de igual intensidad

Teorema 3.1. Sean T1 , T2 , . . . , Tn variables aleatorias independientes, identicamente distribuidas, con distribucion exponencial de intensidad > 0. La suma Sn = T1 + + Tn
admite una densidad de probabilidades de la forma
fSn (t) = et

(t)n1
1{t > 0}
(n 1)!

(48)

y su funcion de distribucion es
FSn (t) =

1 et

n1
X
i=0

(t)i
i!

1{t 0}.

(49)

En otras palabras, la suma de n variables aleatorias independientes exponenciales de intensidad > 0 tiene distribucion Gamma de par
ametros n y : (n, ).

21

Demostraci
on. Por induccion. Para n = 1 no hay nada que probar: S1 = T1 Exp().
Supongamos ahora que la suma Sn = T1 + + Tn admite una densidad de la forma (48).
Debido a que las variables aleatorias Sn y Tn+1 son independientes, la densidad de Sn+1 =
Sn + Tn+1 se obtiene convolucionando las densidades de Sn y Tn+1 :
Z t
fSn (t x)fTn+1 (x)dx
fSn+1 (t) = (fSn fTn+1 )(t) =
0
Z t
((t x))n1 x
e(tx)
=
e
dx
(n 1)!
0
Z t
n tn
n
t
(t x)n1 dx = et
= e
(n 1)! 0
(n 1)! n
n
(t)
= et
.
n!
Las funciones de distribucion (49) se obtienen integrando las densidades (48). Sea t 0,
integrando por partes puede verse que
Z t
Z t
(s)n1 s
fSn (s)ds =
FSn (t) =
e ds
0 (n 1)!
0
t Z t
(s)n2 t
(s)n1 s
=
e +
e ds
(n 1)!
(n 2)!
0

(t)n1 t
=
e
+ FSn1 (t).
(n 1)!

(50)

Iterando (50) obtenemos (49).


Nota Bene. En la demostraci
on anterior se utilizo el siguiente resultado: si T1 , . . . , Tn son
variables aleatorias independientes, entonces funciones (medibles) de familias disjuntas de las
Ti tambien son independientes. (Para m
as detalles ver el Captulo 1 de Durrett, R., (1996).
Probability Theory and Examples, Duxbury Press, New York.)

3.4.

Mnimos

Lema 3.2. Sean T1 y T2 dos variables aleatorias independientes y exponenciales de intensidades 1 y 2 , respectivamente. Vale que
P(T1 < T2 ) =

1
.
1 + 2

Demostraci
on. La probabilidad P(T1 < T2 ) puede calcularse condicionando sobre T1 :
Z
Z
P(t < T2 )1 e1 t dt
P(T1 < T2 |T1 = t)fT1 (t)dt =
P(T1 < T2 ) =
0
0
Z
Z
1
2 t 1 t
e(1 +2 )t dt =
e
e
dt = 1
= 1
.
1 + 2
0
0

22

(51)

Teorema 3.3. Sean T1 , T2 , . . . , Tn variables aleatorias exponenciales independientes de intensidades 1 , 2 , . . . , n , respectivamente. Sean T y J las variables aleatorias definidas por
T := mn Ti ,
i

J := ndice que realiza T.

Entonces, T tiene distribucion exponencial de intensidad 1 + + n y


P(J = j) =

j
.
1 + + n

M
as a
un, las variables T y J son independientes.
Demostraci
on. En primer lugar, hay que observar que T > t si y solo si Ti > t para
todo i = 1, . . . , n. Como las variables T1 , T2 , . . . , Tn son exponenciales independientes de
intensidades 1 , 2 , . . . n tenemos que
P(T > t) =

n
Y

P(Ti > t) =

i=1

n
Y

ei t = e(1 ++n )t .

i=1

Por lo tanto, T tiene distribucion exponencial de intensidad 1 + + n .


En segundo lugar hay que observar que J = j si y solo si T = Tj . Por lo tanto,
P(J = j) = P(Tj = mn Ti ) = P(Tj < mn Ti ) =
i

i6=j

j
.
1 + + n

La u
ltima igualdad se obtiene utilizando el Lema 3.2P
pues las variables Tj y mni6=j Ti son
independientes y exponenciales con intensidades j y i6=j i , respectivamente.
Finalmente, si para cada j definimos Uj = mni6=j Ti , tenemos que
P(J = j, T t) = P(t Tj < Uj )
Z
P(Tj < Uj |Tj = s)j ej s ds
=
t
Z
Z
P
j s
e( i6=j i )s ej s ds
P(Uj > s)e
ds = j
= j
t
t
Z
j
=
(1 + + n )e(1 ++n )s ds
1 + + n t
j
=
e(1 ++n )t .
1 + + n
Lo que completa la demostraci
on.

Ejercicios adicionales
4. Sean T1 y T2 variables aleatorias independientes exponenciales de intensidad 2. Sean
T(1) = mn(T1 , T2 ) y T(2) = m
ax(T1 , T2 ). Hallar la esperanza y la varianza de T(1) y de T(2) .

23

5. Suma geometrica de exponenciales independientes. Sean T1 , T2 , . . . variables aleatorias


independientes
identicamente distribuidas con ley exponencial de intensidad . Se define
P
T
,
donde
N es una variable aleatoria con distribucion geometrica de par
ametro
T = N
i=1 i
p, independiente de las variables T1 , T2 , . . . . Hallar la distribucion de T . (Sugerencia: Utilizar
la formula de probabilidad total condicionando a los posibles valores de N y el desarrollo en
serie de Taylor de la funcion exponencial.)

4.

Bibliografa consultada
Para redactar estas notas se consultaron los siguientes libros:
1. Billingsley, P.: Probability and measure. John Wiley & Sons, New York. (1986)
2. Durrett R.:Probability. Theory and Examples. Duxbury Press, Belmont. (1996)
3. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. John
Wiley & Sons, New York. (1957)
4. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 2. John
Wiley & Sons, New York. (1971)
5. Grimmett, G. R., Stirzaker, D. R.: Probability and Random Processes. Oxford University Press, New York. (2001)
6. Meester, R.: A Natural Introduction to Probability Theory. Birkhauser, Berlin. (2008).
7. Meyer, P. L.: Introductory Probability and Statistical Applications. Addison-Wesley,
Massachusetts. (1972)
8. Ross, S. M: Introduction to Probability and Statistics for Engineers and Scientists.
Elsevier Academic Press, San Diego. (2004)
9. Soong, T. T.: Fundamentals of Probability and Statistics for Engineers. John Wiley &
Sons Ltd. (2004)

24

Procesos de Poisson
(Borradores, Curso 23)
Sebastian Grynberg
22 de abril de 2013

ollin tonatiuh
el tiempo s
olo es tardanza
de lo que est
a por venir
(Martn Fierro)

Indice
1. Proceso puntual de Poisson
1.1. Procesos puntuales . . . . . . . . . . . . . . . . . . .
1.2. Procesos de Poisson . . . . . . . . . . . . . . . . . .
1.3. Construccion . . . . . . . . . . . . . . . . . . . . . .
1.4. Distribucion condicional de los tiempos de llegada .
1.5. Coloraci
on y adelgazamiento de procesos de Poisson
1.6. Superposicion de Procesos de Poisson: competencia .
1.7. Procesos de Poisson compuestos . . . . . . . . . . . .
2. Bibliografa consultada

1.
1.1.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

2
2
4
5
10
11
13
15
17

Proceso puntual de Poisson


Procesos puntuales

Informalmente, un proceso puntual aleatorio es un conjunto enumerable de puntos aleatorios ubicados sobre la recta real. En la mayora de las aplicaciones un punto de un proceso
puntual es el instante en que ocurre alg
un evento, motivo por el cual los puntos tambien se
llaman eventos o arribos. Por ejemplo, los tiempos de arribo de clientes a la caja de un supermercado o de los trabajos al procesador central de una computadora son procesos puntuales.
En teora fiabilidad, un evento podra ser el instante en que ocurre una falla. El ejemplo basico
de este tipo de procesos es el proceso de Poisson.
Definici
on 1.1 (Proceso puntual aleatorio). Un proceso puntual aleatorio sobre la semirecta positiva es una sucesi
on {Sn : n 0} de variables aleatorias no negativas tales que, casi
seguramente,
(a) S0 0,
(b) 0 < S1 < S2 < ,
(c) lmn Sn = +.
La condici
on (b) significa que no hay arribos simult
aneos. La condici
on (c) significa que
no hay explosiones, esto es, no hay una acumulacion de arribos en tiempos finitos.
La sucesion de variables aleatorias {Tn : n 1} definida por
Tn := Sn Sn1

(1)

se llama la sucesi
on de tiempos de espera entre arribos.
Introducimos una familia de nuevas variables aleatorias N (t), t 0, de la siguiente manera:
para cada t 0 definimos N (t) como la cantidad de arribos ocurridos durante el intervalo de
tiempo (0, t],
X
1{Sn t}
(2)
N (t) :=
n1

m
ax{n 0 : Sn t}.
2

(3)

N (t)
5
4
3
2
1

S1
T1

S2
T2

S3
T3

S4
T4

S5

T5

Figura 1: Realizaci
on tpica de un proceso puntual aleatorio sobre la semi-recta positiva.
Observaci
on 1.2. Notar que N (t) es una funci
on de t y de las variables aleatorias T1 , T2 , . . .
a valores enteros no negativos. Indicaremos esa relaci
on de la siguiente manera
N (t) = (t; T1 , T2 , . . . ),

(4)

donde es la relaci
on definida en (2).
La cantidad de arribos ocurridos durante el intervalo de tiempo (s, t] R+ , N (s, t], es el
incremento N (t) N (s)
X
N (s, t] := N (t) N (s) =
1{s < Sn t}.
(5)
n1

De (3) se obtiene la relaci


on basica que conecta a las variables N (t) con las Sn :
N (t) n Sn t.

(6)

N (t) = n Sn t < Sn+1 .

(7)

De all se desprende que

Proceso de conteo. La familia de variables aleatorias {N (t) : t 0} es un proceso estocastico denominado el proceso de conteo de la sucesion de arribos {Sn : n 0}. Debido a que
la sucesion de arribos se puede reconstruir a partir de N , N tambien recibe la denominacion
proceso puntual .
Propiedades. Por definicion, el proceso de conteo satisface las siguientes propiedades:
(i) Para cada t 0, la variable aleatoria N (t) tiene valores enteros no negativos.
(ii) N (0) = 0 y lmt N (t) = .
3

(iii) Si s < t, entonces N (s) N (t).


(iv) Como el intervalo (0, t] es cerrado a la derecha, la funcion (aleatoria) N : R+ N0
es continua a derecha. Adem
as, en los puntos de discontinuidad tiene saltos de longitud 1.
En otras palabras, el gr
afico de la funcion aleatoria N : R+ N0 es una escalera no
decreciente, continua a derecha y con saltos de longitud 1 en cada uno de los arribos del
proceso puntual.
Programa. En lo que sigue estudiaremos la distribucion conjunta de las N (t) bajo ciertas
condiciones sobre los tiempos de espera entre arribos Tn y vice versa.

1.2.

Procesos de Poisson

Existen varias definiciones equivalentes de procesos de Poisson. Adoptamos la que nos


parece m
as sencilla y generalizable. 1
Definici
on 1.3 (Proceso de Poisson). Un proceso puntual {Sn : n 0} sobre la semi-recta
positiva es un proceso de Poisson de intensidad > 0 si satisface las siguientes condiciones
(i) El proceso tiene incrementos independientes: para cada colecci
on finita de tiempos 0 =
t0 < t1 < < tn , los incrementos N (ti1 , ti ] = N (ti ) N (ti1 ), i = 1, . . . , n son
independientes.
(ii) Los incrementos individuales N (s, t] = N (t) N (s) tienen la distribucion Poisson:
P(N (s, t] = n) = e(ts)

((t s))n
,
n!

n = 0, 1, . . . , 0 s < t.

(8)

Nota Bene. La condici


on (ii) de la Definicion 1.3 se puede descomponer en dos partes.
(a) Los incrementos son temporalmente homogeneos (i.e., la distribucion de los incrementos
depende solamente de la longitud del intervalo de tiempo pero no de su posicion) y (b) la
distribuci
on de cada incremento individual es Poisson de media proporcional a la cantidad de
tiempo considerado.
Que un proceso puntual sea temporalmente homogeneo y que tenga incrementos independientes significa que si se lo reinicia desde cualquier instante de tiempo t, el proceso as obtenido
es independiente de todo lo que ocurrio previamente (por tener incrementos independientes)
y que tiene la misma distribucion que el proceso original (por ser temporalmente homogeneo).
En otras palabras, el proceso no tiene memoria.
Es de suponer que, bajo esas condiciones, los tiempos de espera entre arribos tienen
que ser variables aleatorias independientes, cada una con distribucion exponencial del mismo

par
ametro. Esto
u
ltimo es consistente con la condici
on sobre la distribucion que tienen los
incrementos individuales (8).
1
Elegimos la Definici
on 1.3 porque tiene la virtud de que se puede extender a Rd sin ninguna dificultad:
un subconjunto aleatorio (numerable) de Rd se llama un proceso de Poisson de intensidad si, para todo
A B(Rd ), las variables aleatorias N (A) = | A| satisfacen (a) N (A) tiene la distribuci
on Poisson de
par
ametro |A|, y (b) Si A1 , A2 , . . . , An B(Rd ) son conjuntos disjuntos, entonces N (A1 ), N (A2 ), . . . N (An )
son variables aleatorias independientes.

En efecto, de la relaci
on basica (6) se deduce que si {Sn : n 0} es un proceso de Poisson
de intensidad , entonces las variables Sn tienen distribucion (n, ):
P(Sn > t) = P(N (t) < n) =

n1
X

P(N (t) = k) =

et

k=0

k=0

1.3.

n1
X

(t)k
.
k!

Construcci
on

En lo que sigue mostraremos una forma de construir un proceso puntual de Poisson {Sn :
n 0} de intensidad . Los arribos, Sn , se construyen utilizando una sucesion de variables
aleatorias a valores positivos {Tn : n 1}:
S0 := 0,

Sn :=

n
X

Ti ,

n = 1, 2, . . . .

(9)

i=1

Teorema 1.4. Sea {Tn : n 1} una sucesi


on de variables aleatorias independientes, cada
una con distribuci
on exponencial de intensidad . El proceso de arribos {Sn : n 0} definido
en (9) es un proceso puntual de Poisson de intensidad . (Ver la Definicion 1.3).
Demostraci
on.
1. ProcesoPPuntual. Para cada n 1, P(Tn > 0) = 1 y por la ley fuerte de los grandes
n
umeros n1 ni=1 Ti 1 casi seguramente. Por lo tanto, {Sn : n 0} es un proceso puntual.
2. Distribuciones Poisson. Para cada n 1, Sn = T1 + + Tn tiene distribucion (n, ):
!
!
n1

X (t)k
X
(t)k
t
t
FSn (t) = P(Sn t) = 1 e
1{t 0} = e
1{t 0}.
k!
k!
k=0

k=n

Observando que {N (t) = n} = {N (t) < n + 1} \ {N (t) < n} y usando la relaci


on basica,
N (t) < n Sn > t, se deduce que
P(N (t) = n) = P(N (t) < n + 1) P(N (t) < n) = P(Sn+1 > t) P(Sn > t)
n
n1
X
X (t)k
(t)k
(t)n
= et
et
= et
,
n = 0, 1, . . . .
k!
k!
n!
k=0

(10)

k=0

Por lo tanto, para cada t > 0 fijo, el incremento N (t) tiene una distribucion Poisson de media
t:
N (t) P oisson(t).
3. P
erdida de memoria. Fijamos t > 0 y consideramos los arribos posteriores al instante t.
Por (3) tenemos que SN (t) t < SN (t)+1 . El tiempo de espera desde t hasta el primer arribo
posterior a t es SN (t)+1 t; el tiempo de espera entre el primer y el segundo arribo posteriores
a t es TN (t)+2 ; y as siguiendo. De este modo
(t)

T1 := SN (t)+1 t,

(t)

T2 := TN (t)+2 ,
5

(t)

T3 := TN (t)+3 , . . .

(11)

definen los tiempos de espera entre arribos posteriores a t.


Debido a la independencia de las Tk y la propiedad de perdida de memoria de la distribuci
on exponencial, parece intuitivamente claro que condicionando al evento {N (t) = n} las
variables aleatorias (11) son independientes y con distribucion exponencial.
(t)
(t)
En lo que sigue mostraremos que N (t), T1 , T2 , . . . son variables aleatorias independientes y que
(t)

(t)

(T1 , T2 , . . . ) (T1 , T2 , . . . ).

(12)

Basta mostrar que para todo n 0 y para toda elecci


on de n
umeros positivos t1 , . . . , tm ,
m N, vale que
(t)

(t)
P(N (t) = n, T1 > t1 , . . . , Tm
> tm ) = P(N (t) = n)et1 etm .

(13)

Para probarlo condicionaremos sobre la variable Sn ,


(t)

P(N (t) = n, T1 > t1 ) = P(Sn t < Sn+1 , Sn+1 t > t1 )


= P(Sn t, Tn+1 > t1 + t Sn )
Z t
P(Tn+1 > t1 + t s)fSn (s)ds
=
0
Z t
t1
P(Tn+1 > t s)fSn (s)ds
= e
0

= et1 P(Sn t, Tn+1 > t Sn )

= P(N (t) = n)et1 .


Para obtener la segunda igualdad hay que observar que {Sn+1 > t} {Sn+1 t > t1 } =
{Sn+1 > t1 + t} y escribir Sn+1 = Sn + Tn+1 ; la tercera se obtiene condicionando sobre Sn ; la
cuarta se obtiene usando la propiedad de perdida de memoria de la exponencial (P(Tn+1 >
t1 + t s) = P(Tn+1 > t1 )P(Tn+1 > t s) = et1 P(Tn+1 > t s)).
Por la independencia de las variables Tn ,
(t)

(t)
P(N (t) = n, T1 > t1 , . . . , Tm
> tm )

= P(Sn t < Sn+1 , Sn+1 t > t1 , Tn+2 > t2 , Tn+m > tm )


= P(Sn t < Sn+1 , Sn+1 t > t1 )et2 etm
= P(N (t) = n)et1 etm .

4. Incrementos estacionarios e independientes. Por (6), N (t + s) N (t) m, o N (t +


(t)
(t)
s) N (t) + m, si y solo si SN (t)+m t + s, que es la misma cosa que T1 + + Tm s. As
(t)

(t)
N (t + s) N (t) = m
ax{m : T1 + + Tm
s}.

(14)

Comparando (14) y (3) se puede ver que para t fijo las variables aleatorias N (t + s) N (t)
para s 0 se definen en terminos de la sucesion (11) exactamente de la misma manera en
que las N (s) se definen en terminos de la sucesion original de tiempos de espera. En otras
palabras,
(t)

(t)

N (t + s) N (t) = (s; T1 , T2 , . . . ),
6

(15)

donde es la funcion definida en la Observaci


on 4. De acuerdo con (12)
{N (t + s) N (t) : s 0} {N (s) : s 0}.

(16)

De (15) y lo visto en 3. se deduce que N (t) y {N (t+s)N (t) : s 0} son independientes.


Sean n 2 y 0 < t1 < t2 < . . . < tn . Como (N (t2 ) N (t1 ), . . . , N (tn ) N (tn1 )) es una
funcion de {N (t1 + s) N (t1 ) : s 0}, tenemos que
N (t1 ) y (N (t2 ) N (t1 ), . . . , N (tn ) N (tn1 ))
son independientes. Esto es,
P(N (t1 ) = m1 , N (t2 ) N (t1 ) = m2 , . . . , N (tn ) N (tn1 ) = mn )
= P(N (t1 ) = m1 )P(N (t2 ) N (t1 ) = m2 , . . . , N (tn ) N (tn1 ) = mn )
En particular, se obtiene la la independencia de los incrementos para el caso en que n = 2:
P(N (t1 ) = m1 , N (t2 ) N (t1 ) = m2 ) = P(N (t1 ) = m1 )P(N (t2 ) N (t1 ) = m2 ).
Usando (16) se concluye que
(N (t2 ) N (t1 ), N (t3 ) N (t2 ), . . . , N (tn ) N (tn1 ))
(N (t2 t1 ), N (t3 t1 ) N (t2 t1 ), . . . , N (tn t1 ) N (tn1 t1 )).

(17)

El caso general se obtiene por iteraci


on del mismo argumento, aplicado al lado derecho de
(17):
P(N (t2 ) N (t1 ) = m2 , N (tk ) N (tk1 ) = mk , 3 k n)
= P(N (t2 t1 ) = m2 , N (tk t1 ) N (tk1 t1 ) = mk , 3 k n)
= P(N (t2 t1 ) = m2 )P(N (tk t1 ) N (tk1 t1 ) = mk , 3 k n)
= P(N (t2 ) N (t1 ) = m2 )P(N (tk ) N (tk1 ) = mk , 3 k n)
=
n
Y
=
P(N (tk ) N (tk1 ) = mk ).
k=2

Por lo tanto, si 0 = t0 < t1 < < tn , entonces


P(N (tk ) N (tk1 ) = mk , 1 k n) =

n
Y

P(N (tk tk1 ) = mk ).

(18)

k=1

De (18) y (10) se obtienen las dos condiciones que definen a un proceso de Poisson.
En lo que sigue mostraremos que vale la recproca. Esto es, los tiempos de espera entre
arribos de un proceso de Poisson de intensidad son variables aleatorias independientes cada
una con distribucion exponencial de intensidad .
Teorema 1.5. Sea {Sn : n 0} un proceso puntual de Poisson de intensidad sobre la semirecta positiva. Los tiempos de espera entre arribos Tn , n 1, definidos en (1), constituyen
una sucesi
on de variables aleatorias independientes cada una con distribuci
on exponencial de
intensidad .
7

Demostraci
on. La densidad conjunta de T = (T1 , T2 . . . , Tn ) se obtendr
a a partir de la
densidad conjunta de las variables S = (S1 , S2 , . . . , Sn ) usando el metodo del Jacobiano. Por
definicion,
(T1 , T2 , . . . , Tn ) = g(S1 , S2 , . . . , Sn ),
donde g : G0 G es la transformacion lineal biyectiva entre los conjuntos abiertos G0 =
{(s1 , . . . , sn ) Rn : 0 < s1 < s2 < < sn } y G = {(t1 , . . . , tn ) : t1 > 0, . . . , tn > 0} definida
por
g(s1 , s2 , . . . , sn ) = (s1 , s2 s1 , . . . , sn sn1 ).
La funcion inversa h = g 1 es de la forma
h(t1 , . . . , tn ) = (t1 , t1 + t2 , . . . , t1 + + tn )
y sus derivadas parciales
P
ik=1 tk
si
=
= 1{j i},
tj
tj

1 i, j n

son continuas en G. El jacobiano es




si
=1
J(s, t) =
tj

debido a que se trata de una matriz triangular inferior con 1s en la diagonal. Bajo esas
condiciones tenemos que
fT (t) = fS (h(t))1{t G}.
La densidad conjunta de las variables (S1 , . . . , S2 ) queda unvocamente determinada por la
relaci
on
Z
fS (s)ds,
A = (a1 , b1 ] (an , bn ] G0 .
P(S A) =
A

Supongamos
n < bn y calculemos laTprobabilidad
T que 0 = b0 a1 < b1 < a2 < b2 < < aT
n1
del evento ni=1 {ai < Si bi }. Para ello observamos que ni=1 {ai < Si bi } = i=1
{N (ai )
N (bi1 ) = 0, N (bi ) N (ai ) = 1} {N (an ) N (bn1 ) = 0, N (bn ) N (an ) 1} y usamos las
propiedades de independencia y homogeneidad temporal que caracterizan a los incrementos
de un proceso de Poisson de intensidad :
!
n
\
P
{ai < Si bi }
i=1
n1
Y

(ai bi1 )

i=1
n1
Y

=
=
=

i=1
n1
Y

(bi ai )e

e(an bn1 ) (1 e(bn an ) )

(bi ai ) ean (1 e(bn an ) )


!

(bi ai ) (ean ebn )

i=1
b1

ds1
a1
b1

a1

(bi ai )

bn1

an1

bn1

dsn1

an1
Z bn

bn

esn dsn

an

n esn ds1 dsn1 dsn

an

(19)

De (19) se deduce que la densidad conjunta de (S1 , . . . , Sn ) es


f(S1 ,...,Sn ) (s1 , . . . , sn ) = n esn 1{0 < s1 < < sn }.
Por lo tanto,
Pn

f(T1 ,...,Tn ) (t1 , . . . , tn ) = n e i=1 ti 1{t1 > 0, . . . , tn > 0}


n
Y
eti 1{ti > 0}.
=

(20)

i=1

La identidad (20) significa que los tiempos de espera entre arribos son independientes cada
uno con distribucion exponencial de intensidad .
Ejemplo 1.6. Suponga que el flujo de inmigracion de personas hacia un territorio es un
proceso de Poisson de tasa = 1 por da.
(a) Cual es el tiempo esperado hasta que se produce el arribo del decimo inmigrante?
(b) Cual es la probabilidad de que el tiempo de espera entre el decimo y el undecimo arribo
supere los dos das?
Soluci
on:
(a) E[S10 ] =

10

= 10 das.

(b) P(T11 > 2) = e2 = e2 0.133.

Ejercicios adicionales
1. En un sistema electr
onico se producen fallas de acuerdo con un proceso de Poisson de tasa
2.5 por mes. Por motivos de seguridad se ha decidido cambiarlo cuando ocurran 196 fallas.
Hallar la media y la varianza del tiempo de uso del sistema.
2. Sean T una variable aleatoria con distribucion exponencial de media 2 y {N (t), t 0} un
proceso de Poisson de tasa 10 (independiente de T ). Hallar Cov(T, N (T )).


3.
h Sea A(t) = t SN (t) el tiempo reverso al evento mas reciente en un proceso de
Poisson y sea B(t) = SN (t)+1 t el tiempo directo hasta el proximo evento. Mostrar que
(a) A(t) y B(t) son independientes,
(b) B(t) se distribuye como T1 (exponencial de intensidad ) ,
(c) A(t) se distribuye como mn(T1 , t):
P(A(t) x) = (1 ex )1{0 x < t} + 1{x t}.

4.
h Sea L(t) = A(t) + B(t) = SN (t)+1 SN (t) la longitud del intervalo de tiempo entre
arribos que contiene a t.
(a) Mostrar que L(t) tiene densidad
dt (x) = 2 xex 1{0 < x < t} + (1 + t)ex 1{x t}.
(b) Mostrar que E[L(t)] converge a 2E[T1 ] cuando t . Esto parece una paradoja debido
a que L(t) es uno de los Tn . Dar una resoluci
on intuitiva de esta paradoja.

1.4.

Distribuci
on condicional de los tiempos de llegada

Supongamos que sabemos que ocurrio exactamente un arribo de un proceso de Poisson


en el intervalo [0, t]. Queremos determinar la distribucion del tiempo en que el arribo ocurri
o.
Como el proceso de Poisson es temporalmente homogeneo y tiene incrementos independientes
es razonable pensar que los intervalos de igual longitud contenidos en el intervalo [0, t] deben
tener la misma probabilidad de contener al arribo. En otras palabras, el tiempo en que ocurri
o el arribo debe estar distribuido uniformemente sobre el intervalo [0, t]. Esto es facil de
verificar puesto que, para s t,
P(T1 < s|N (t) = 1) =
=
=
=
=

P(T1 < s, N (t) = 1)


P(N (t) = 1)
P(1 arribo en (0, s], 0 arribos en (s, t])
P(N (t) = 1)
P(1 arribo en (0, s])P(0 arribos en (s, t])
P(N (t) = 1)
ses e(ts)
tet
s
t

Este resultado puede generalizarse


Teorema 1.7 (Propiedad condicional). Sea un proceso de Poisson de intensidad sobre
R+ . Condicional al evento N (t) = n, los n arribos ocurridos en el intervalo [0, t] tienen la misma distribuci
on conjunta que la de n puntos independientes elegidos al azar sobre el intervalo
[0, t]. En otras palabras, condicional a N (t) = n los puntos en cuesti
on se distribuyen como
n variables aleatorias independientes, cada una con distribuci
on uniforme sobre el intervalo
[0, t].
Demostraci
on. Sea A1 , A2 , . . . , Ak una particion del intervalo [0, t]. Si n1 +n2 + +nk = n,
entonces
Q
i P(N (Ai ) = ni )
P(N (Ai ) = ni , 1 i k|N (t) = n) =
P(N (t) = n)
Q |Ai |
(|Ai |)ni /ni !
ie
=
et (t)n /n!
Y  |Ai | ni
n!
.
(21)
=
n1 !n2 ! nk !
t
i

10

Por una parte la distribucion condicional de las posiciones de los n arribos queda completamente caracterizada por esta funcion de A1 , . . . , Ak .
Por otra parte la distribucion multinomial (21) es la distribucion conjunta de n puntos
independientes elegidos al azar de acuerdo con la distribucion uniforme sobre el intervalo [0, t].
En efecto, basta observar que si U1 , . . . , Un son variables
aleatorias independientes con
P
distribucion uniforme sobre un conjunto A, y M (B) = i 1{Ui B}, entonces
k

Y
n!
P(M (Bi ) = ni , i = 1, . . . , k) =
n1 ! nk !
i=1

|Bi |
|Ai |

ni

Se infiere que la distribucion conjunta de los puntos en [0, t] condicional a que hay
exactamente n de ellos, es la misma que la de n puntos independientes elegidos al azar con
la distribucion uniforme sobre el intervalo [0, t].
Nota Bene. La propiedad condicional permite probar la existencia de procesos de Poisson
mediante simulacion. Sea > 0 y sea A1 , A2 , . . . una particion de Rd en conjuntos borelianos
de medida de Lebesgue finita. Para cada i, simulamos una variable aleatoria Ni con distribuci
on Poisson de par
ametro |Ai |. Luego muestreamos n puntos elegidos independientemente
sobre Ai , cada uno con distribucion uniforme sobre Ai . La uni
on sobre i de tales conjuntos de
puntos es un proceso de Poisson de intensidad . (Para m
as detalles ver el Chap 7 de Ferrari,
Galves (2001))
Ejemplo 1.8 (Insectos en un asado). Todo tipo de insectos aterrizan en la mesa de un asado
a la manera de un proceso de Poisson de tasa 3 por minuto. Si entre las 13:30 y las 13:35
aterrizaron 8 insectos, cu
al es la probabilidad de que exactamente 3 de ellos hayan aterrizado
durante el primer minuto?
Soluci
on: Dado que aterrizaron 8 insectos durante 5 minutos, la distribucion de cada aterrizaje se distribuye, independientemente de los demas, como una variable uniforme sobre el
intervalo [0, 5]. En consecuencia, la probabilidad de que cada insecto hubiese aterrizado durante el primer minuto es 1/5. Por lo tanto, la probabilidad de que exactamente 3 insectos
hayan aterrizado durante el primer minuto es
   3  5
4
45
8
1
= 56 8 = 0.1468 . . .
5
5
5
3

1.5.

Coloraci
on y adelgazamiento de procesos de Poisson

Teorema 1.9 (Coloraci


on). Sea un proceso de Poisson de intensidad sobre R+ . Coloreamos los puntos de de la siguiente manera. Cada punto de se pinta de rojo con
probabilidad p o de negro con probabilidad 1 p. Los puntos se pintan independientemente
unos de otros. Sean 1 y 2 los conjuntos de puntos pintado de rojo y de negro, respectivamente. Entonces 1 y 2 son procesos de Poisson independientes de intensidades p y
(1 p), respectivamente.

11

Demostraci
on. Sea t > 0 fijo. Por la propiedad condicional, si N (t) = n, esos puntos tienen
la misma distribucion que n puntos independientes elegidos al azar sobre el intervalo [0, t] de
acuerdo con la distribucion uniforme. Por tanto, podemos considerar n puntos elegidos al azar
de esa manera. Por la independencia de los puntos, sus colores son independientes unos de los
otros. Como la probabilidad de que un punto dado sea pintado de rojo es p y la probabilidad
de sea pintado de negro es 1 p se deduce que, condicional a N (t) = n, las cantidades N1 (t)
y N2 (t) de puntos rojos y negros en [0, t] tienen, conjuntamente, la distribucion binomial
P(N1 (t) = n1 , N2 (t) = n2 |N (t) = n) =

n! n1
p (1 p)n2 , donde n1 + n2 = n.
n1 !n2 !

Por lo tanto, la probabilidad incondicional es





n1 +n2
(n1 + n2 )! n1
n2
t (t)
P(N1 (t) = n1 , N2 (t) = n2 ) =
p (1 p)
e
n1 !n2 !
(n1 + n2 )!
!


n
(1p)t
1
e
((1 p)t)n2
pt (pt)
.
=
e
n1 !
n2 !
Vale decir, las cantidades N1 (t) y N2 (t) de puntos rojos y negros en el intervalo [0, t] son independientes y tienen distribuciones Poisson de intensidades pt y (1 p)t, respectivamente.
La independencia de las contadoras de puntos en intervalos disjuntas sigue trivialmente
del hecho de que tiene esa propiedad.
Otra prueba. Sean N1 (t) y N2 (t) la cantidad de arribos de tipo I y de tipo II que ocurren
en [0, t], respectivamente. Es claro que N (t) = N1 (t) + N2 (t).
Los arribos de tipo I (II) son un proceso puntual aleatorio debido a que son una subsucesion
(aleatoria) infinita de los arribos del proceso original y heredan su propiedad de independencia
para intervalos disjuntos.
La prueba de que {N1 (t), t 0} y que {N2 (t), t 0} son procesos de Poisson independientes de intensidades p y (1 p), respectivamente, se completa observando que
P(N1 (t) = n, N2 (t) = m) = P(N1 (t) = n)P(N2 (t) = m).
Condicionando a los valores de N (t) y usando probabilidades totales se obtiene
P(N1 (t) = n, N2 (t) = m) =

P(N1 (t) = n, N2 (t) = m | N (t) = i)P(N (t) = i)

i=0

Puesto que P(N1 (t) = n, N2 (t) = m | N (t) = i) = 0 cuando i 6= n + m, la ecuaci


on anterior
se reduce a
P(N1 (t) = n, N2 (t) = m) = P(N1 (t) = n, N2 (t) = m | N (t) = n + m)P(N (t) = n + m)
(t)n+m
= P(N1 (t) = n, N2 (t) = m | N (t) = n + m)et
.
(n + m)!
Dado que ocurrieron n + m arribos, la probabilidad de que n sean de tipo I (y m sean de tipo

12

II) es la probabilidad binomial de que ocurran n exitos en n + m ensayos. Por lo tanto,




n+m n
(t)n+m
P(N1 (t) = n, N2 (t) = m) =
p (1 p)m et
n
(n + m)!
(n + m)! n
(t)n (t)m
=
p (1 p)m ept e(1p)t
n! m!
(n + m)!



n
m
pt (pt)
(1p)t ((1 p)t)
=
e
e
.
n!
m!
Lo que completa la demostraci
on.
Ejemplo 1.10 (Insectos en un asado). Todo tipo de insectos aterrizan en la mesa de un
asado a la manera de un proceso de Poisson de tasa 3 por minuto y cada insecto puede ser
una mosca con probabilidad 2/3, independientemente de la naturaleza de los demas insectos.
Si a las 13:30 se sirven los chorizos, cu
al es la probabilidad de que la tercer mosca tarde m
as
de 2 minutos en aterrizar en la mesa?
Soluci
on: Las moscas aterrizan en la mesa a la manera de un proceso de Poisson de tasa
2
3 3 = 2 por minuto. En consecuencia, los aterrizajes de moscas ocurren cada tiempos exponenciales independientes de intensidad 2. De aqu se deduce que el tiempo que tarda en aterrizar
la tercer mosca, S3 tiene distribucion (3, 2). Por lo tanto, la probabilidad de que la tercer
mosca tarde m
as de 2 minutos en aterrizar en la mesa es
P(S3 > 2) = e22

31
X
(2 2)i
i=0

i!

= e4 (1 + 4 + 8) = 0.2381 . . .

Ejercicios adicionales
5. A un banco llegan clientes de acuerdo con un proceso de Poisson de intensidad 20 por
hora. En forma independiente de los demas, cada cliente realiza un dep
osito con probabilidad
1/4 o una extraccion con probabilidad 3/4.
(a) Si el banco abre sus puertas a las 10:00, cu
al es la probabilidad de que el segundo dep
osito
se efectue pasadas las 10:30?
(b) Cada dep
osito (en pesos) se distribuye como una variable U[100, 900] y cada extraccion
como una variable U[100, 500]. Si un cliente realiza una operacion bancaria de 200 pesos, cu
al
es la probabilidad de que se trate de un dep
osito?

1.6.

Superposici
on de Procesos de Poisson: competencia

El siguiente teorema de superposicion puede verse como complementario del teorema de


coloracion.
Teorema 1.11 (Superposicion). Sean 1 y 2 dos procesos de Poisson independientes de
intensidades 1 y 2 , respectivamente, sobre R+ . El conjunto = 1 2 es un proceso de
Poisson de intensidad 1 + 2 .
13

Demostraci
on. Sean N1 (t) = |1 [0, t]| y N2 (t) = |2 [0, t]|. Entonces N1 (t) y N2 (t)
son variables aleatorias independientes con distribucion Poisson de par
ametros 1 t y 2 t.
Se infiere que la suma N (t) = N1 (t) + N2 (t) tiene la distribucion de Poisson de par
ametro
1 t + 2 t = (1 + 2 )t. M
as a
un, si A1 , A2 , . . . , son intervalos disjuntos las variables aleatorias
N (A1 ), N (A2 ), . . . son independientes. Falta mostrar que, casi seguramente, N (t) = |[0, t]|
para todo t > 0, que es lo mismo que decir que 1 y P12 no tienen puntos en com
un. Este es
un paso tecnico (ver el Lema 1.12) y la prueba puede omitirse en una primera lectura.
Lema 1.12. Dos procesos de Poisson 1 = {Sn1 : n 0} y 2 = {Sn2 : n 0} independientes
y de tasas 1 y 2 , respectivamente, no tienen puntos en com
un.
Demostraci
on. Basta probar que P(D(t)) = 0 para todo t, donde D(t) es el evento definido
por
D(t) := {existen puntos en com
un en el intervalo (0, t]}
Para simplificar la notaci
on lo demostraremos para D = D(1).
Sean {N1 (t), t 0} y {N2 (t), t 0} los procesos de conteo de los procesos de Poisson
{Sn1 : n 0} y {Sn2 : n 0}. El evento
 




i i+1
i i+1
n
Dn := N1
+ N2
2 para alg
un i [0, 2 1]
,
,
2n 2n
2n 2n
decrece a D cuando n tiende a infinito, y por lo tanto, por la continuidad de la probabilidad
para sucesiones monotonas de eventos,
P(D) = lm P(Dn ) = 1 lm P(Dnc ).
n

Pero
n 1 
2\




!
i
i
+
1
i
+
1
i
+ N2
1
N1
,
,
P(Dnc ) = P
2n 2n
2n 2n
i=1
n 1




 
2Y
i i+1
i i+1
+
N

1
.
P N1
=
,
,
2
2n 2n
2n 2n


i=1

Debido a que los procesos son temporalmente homogeneos, para cada i vale que
 







i i+1
i i+1
P N1
= P N1 2n + N2 2n 1
, n + N2
, n 1
n
n
2
2
2
2

Y el problema se reduce a calcular P (N1 (2n ) + N2 (2n ) 1). La u


ltima probabilidad puede
expresarse como la suma de los siguientes terminos



n
n
P N1 2n = 0, N2 2n = 0 = e1 2 e2 2 ,



n
n
P N1 2n = 0, N2 2n = 1 = e1 2 e2 2 2 2n ,



n
n
P N1 2n = 1, N2 2n = 0 = e1 2 1 2n e2 2 .
En consecuencia,





n
1 + (1 + 2 )2n .
P N1 2n + N2 2n 1 = e(1 +2 )2
14

(22)

Por lo tanto,
P(Dnc ) = e(1 +2 ) 1 + (1 + 2 )2n

2n

(23)

La u
ltima cantidad tiende a 1 cuando n , y se concluye que P(D) = 0.
Teorema 1.13 (Competencia). En la situaci
on del Teorema 1.11, sea T el primer arribo del
proceso N = N1 + N2 y J el ndice del proceso de Poisson responsable por dicho arribo; en
particular T es el primer arribo de NJ . Entonces
P(J = j, T t) = P(J = j)P(T t) =
En particular, J y T son independientes, P(J = j) =
de intensidad 1 + 2 .

j
e(1 +2 )t .
1 + 2

j
1 +2

y T tiene distribuci
on exponencial

Demostraci
on. Ver la demostraci
on del Teorema que caracteriza la distribucion del mnimo
de dos exponenciales independientes.
Ejemplo 1.14 (Insectos en un asado). Moscas y abejas aterrizan en la mesa de un asado a la
manera de dos procesos de Poisson independientes de tasas 2 y 1 por minuto, respectivamente.
Cual es la probabilidad de que el primer insecto en aterrizar en la mesa sea una mosca? Rta.
2/3.

1.7.

Procesos de Poisson compuestos

Un proceso estocastico se dice un proceso de Poisson compuesto si puede representarse


como
N (t)
X
X(t) =
Yi
i=1

donde {N (t), t 0} es un proceso de Poisson, y las variables {Yi , i 1} son iid e independientes de N .
Lema 1.15. Sea X(t) un proceso de Poisson compuesto. Si {N (t), t 0} tiene intensidad
y las variables Y tienen esperanza finita, entonces
E[X(t)] = tE[Y1 ].
M
as a
un, si las variables Y tienen varianza finita, entonces,
V(X(t)) = tE[Y12 ].
Demostraci
on. Para calcular la esperanza de X(t) condicionamos sobre N (t):
E [X(t)] = E [E [X(t) |N (t)]]

15

Ahora bien,

N (t)

E [X(t) | N (t) = n] = E
= E

"

= E

"

Yi | N (t) = n

i=1

n
X

Yi | N (t) = n

i=1

n
X

Yi

i=1

por la independencia de Yi y N (t)

= nE[Y1 ].
Esto implica que
E [X(t) | N (t)] = N (t)E[Y1 ]
y por lo tanto,
E [X(t)] = E [N (t)E[Y1 ]] = E[N (t)]E[Y1 ] = tE[Y1 ].
Aunque podemos obtener E[X(t)2 ] condicionando sobre N (t), usaremos la formula de la
varianza condicional
V(X(t)) = E[V(X(t)|N (t))] + V(E[X(t)|N (t)]).
Ahora bien,

V [X(t) | N (t) = n] = V
= V
= V

N (t)

X
i=1

n
X

i=1
n
X
i=1

Yi | N (t) = n
Yi | N (t) = n
Yi

por la independencia de Yi y N (t)

= nV[Y1 ].
Esto implica que
V (X(t) | N (t)) = N (t)V(Y1 )
y por lo tanto,
V (X(t)) = E [N (t)V(Y1 )] + V(N (t)E[Y1 ])
= V(Y1 )E[N (t)] + E[Y1 ]2 V(N (t))
= V(Y1 )t + E[Y1 ]2 t
= tE[Y12 ].

16

Ejemplo 1.16. Supongamos que la cantidad de accidentes en una fabrica industrial se rige por
un proceso de Poisson de intensidad 4 por mes y que la cantidad de trabajadores damnificados
en cada accidente son variables aleatorias independientes con distribucion uniforme sobre
{1, 2, 3}. Supongamos tambien que la cantidad de trabajadores damnificados en cada accidente
es independiente de la cantidad de accidentes ocurridos. Se quiere hallar la media y la varianza
de la cantidad anual de trabajadores damnificados en dicha f
abrica.
Soluci
on: Sean N (t) la cantidad de accidentes en t meses e Yi el n
umero de trabajadores
damnificados en el i-esimo accidente, i = 1, 2, . . . . El n
umero total de trabajadores damnifiPN (12)
cados en un a
no puede expresarse en la forma X(12) = i=1 Yi .
Utilizando los resultados del Lema 1.15 tenemos que
E[X(12)] = (4 12)E[Y1 ] = 48E[Y1 ] = 48 2 = 96
14
V(X(12)) = (4 12)E[Y12 ] = 48
= 224.
3

Ejercicios adicionales
6. Una partcula suspendida en agua es bombardeada por moleculas en movimiento termico
de acuerdo con un proceso de Poisson de intensidad 10 impactos por segundo. Cuando recibe
un impacto la partcula se mueve un milmetro hacia la derecha con probabilidad 3/4 o un
milmetro hacia la izquierda con probabilidad 1/4. Transcurrido un minuto, cu
al es la posicion
media de la partcula?
7. Un servidor recibe clientes de acuerdo con un proceso de Poisson de intensidad 4 clientes
por hora. El tiempo de trabajo (en minutos) consumido en cada servicio es una variable
aleatoria U[1, 9]. Al cabo de 8 horas, cu
al es el tiempo medio de trabajo consumido por todos
los servicios?

2.

Bibliografa consultada
Para redactar estas notas se consultaron los siguientes libros:
1. Bremaud, P.: Markov Chains: Gibbs Fields, Monte Carlo Simulation, and Queues.
Springer, New York. (1999)
2. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 2. John
Wiley & Sons, New York. (1971)
3. Ferrari, P. A., Galves, A.: Construction of Stochastic Procecesses, Coupling and Regeneration. (2001)
4. Grimmett, G. R., Stirzaker, D. R.: Probability and Random Processes. Oxford University Press, New York. (2001)
17

5. Kingman, J. F. K.: Poisson Processes. Oxford University Press. New York. (2002)
6. Meester, R.: A Natural Introduction to Probability Theory. Birkhauser, Berlin. (2008)
7. Ross, S.: Introduction to Probability Models. Academic Press, San Diego. (2007)

18

Normalidad y Teorema central del lmite


(Borradores, Curso 23)
Sebastian Grynberg
24 de abril de 2013

d
onde es m
as u
til aplicar la fuerza de la propia voluntad:
en el desarrollo de la cantidad o en el de la calidad?
Cu
al de los dos aspectos es m
as fiscalizable?
Cu
al m
as f
acilmente mensurable?
Sobre cu
al se pueden hacer previsiones, construir planes de trabajo?

Indice
1. La distribuci
on normal
1.1. Presentaci
on . . . . . . . . . . .
1.2. Cuentas con normales . . . . . .
1.3. Ejemplos . . . . . . . . . . . . .
1.4. Suma de normales independientes

.
.
.
.

2
2
5
6
7

. . . . . . . . . . . . . . . . . . . . .

8
8

3. Teorema central del lmite


3.1. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

14
15

4. Distribuciones relacionadas con la


4.1. 2 (chi-cuadrado) . . . . . . . . .
4.2. t de Student . . . . . . . . . . . .
4.3. F de Fisher . . . . . . . . . . . .

19
19
21
21

.
.
.
.

.
.
.
.

.
.
.
.

2. G
enesis de la distribuci
on normal
2.1. Teorema lmite de De Moivre - Laplace

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

1.1.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

Normal
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .

5. Bibliografa consultada

1.

.
.
.
.

23

La distribuci
on normal
Presentaci
on

Definici
on 1.1. La funci
on definida por
1
2
(x) = ex /2
2
se llama la funcion densidad normal; su integral
Z x
1
2
et /2 dt
(x) =
2

(1)

(2)

es la funcion distribucion normal.


2

Folclore. Se sabe que la funcion ex no admite una primitiva que pueda expresarse mediante un n
umero finito de funciones elementales: x , sen(x), cos(x), ax , etc.... (Ver Piskunov,
N., (1983). c
alculo diferencial e integral, tomo I, Mir, Mosc
u). Sin
R embargo, usando tecnicas
de cambio de variables bidimensionales se puede demostrar que (x)dx = 1.
La funcion (x) crece desde 0 hasta 1. Su gr
afico es una curva con forma de S con
(x) = 1 (x).

(3)

0.4

0.35

0.3

0.25

0.2

0.15

0.1

0.05

0
4

(a)
1

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0
4

(b)

Figura 1: (a) La funcion densidad normal (x) :=


Rx
2
normal (x) = 12 et /2 dt

2
1 ex /2 ;
2

(b) La funcion distribucion

Tablas. La tabla de valores de la funcion distribucion normal se puede consultar en la


mayora de los libros sobre probabilidad y/o estadstica. En general se tabulan los valores
d2
de (x) para x = d0 + d101 + 100
, donde d0 {0, 1, 2, 3} y d1 , d2 {0, 1, 2, . . . , 9}. Las filas
de la tabla estan indexadas por los n
umeros d0 . d1 y sus columnas por los n
umeros 0.0d2 :
en la posicion (d0 . d1 , 0.0d2 ) de la tabla se encuentra el valor (d0 . d1 d2 ). Por ejemplo, si
se consulta la tabla del libro de Feller, W. (1968). An Introduction to Probability Theory
and its Applications, en fila 1.2 y columna de 0.08 puede leerse 0.8997, lo que significa que
(1.28) = 0.8997.
En el Cuadro 1.1 reproducimos algunos de los valores de la tabla del Feller:
Lema 1.2. Para cada x > 0 valen las siguientes desigualdades:

 

1
1
1
.
(x)
3 < 1 (x) < (x)
x x
x
3

(4)

x
(x)

1.28
0.8997

1.64
0.9495

1.96
0.975

2.33
0.9901

2.58
0.9951

3.09
0.9990

Cuadro 1: En la tabla se muestran algunos valores de (x) :=

1
2

3.29
0.9995
Rx

t2 /2 dt.
e

d
Demostraci
on. Usando que dx
(x) = x(x) es facil ver que las derivadas de los miembros
de las desigualdades (4) satisfacen:





d
3
1
1
= (x) 1 4 .

(x)
dx
x x3
x
d
[1 (x)] = (x).
dx

 


d
1
1
(x)
= (x) 1 + 2 .
dx
x
x

Por lo tanto,




 
d
1
1
1
d
d
3
[(x) 1] <
(x)
<
(x)
dx
x x
dx
dx
x

(5)

Las desigualdades (4) se obtienen integrando desde x hasta .


Nota Bene. De las desigualdades (4) se infiere un metodo de calculo para aproximar los
valores de 1 (x): promediando los valores de los extremos de las desigualdades se obtiene
una aproximacion cuyo error absoluto es menor que la semi-diferencia entre ambos:





1 (x) (x) 1 1 (x) .
(6)

3
x 2x
2x3
De la desigualdad (6) se puede ver que la aproximacion


1
1
(x) 1 (x)

x 2x3

(7)

es practicamente in
util para valores peque
nos de x (i.e., x (0, 1]) pero va mejorando a
medida que los valores de x crecen. Usando la aproximacion dada en (7) se obtienen las
siguientes aproximaciones
x
(x)
|error|

1.28
0.90454
0.04192

1.64
0.94839
0.01178

1.96
0.97406
0.00388

2.33
0.98970
0.00104

2.58
0.99487
0.00041

3.09
0.99896
0.00005

3.29
0.99948
0.00002

Cuadro 2: Algunos valores de (x) obtenidos mediante la estimacion (7).

Nota hist
orica La distribucion normal fue descubierta por De Moivre en 1733 como resultado de analizar la forma lmite de la distribucion binomial simetrica y redescubierta
nuevamente por Gauss (1809) y Laplace (1812) quienes la estudiaron en relaci
on con sus trabajos sobre la teora de los errores de observaci
on. Laplace dio, adem
as, el primer enunciado
(incompleto) del teorema central del lmite. (Ver Cramer, H., (1970). Metodos matem
aticos
de estadstica, Aguilar, Madrid.)
4

1.2.

Cuentas con normales

Sean R y > 0 arbitrarios, pero fijos. Se dice que la variable aleatoria X tiene
distribucion normal de par
ametros y 2 y se denota X N (, 2 ) si la funcion densidad
de X es de la forma


1
(x )2

,2 (x) =
.
(8)
exp
2 2
2
Nota Bene. Un hecho importante sobre las variables aleatorias normales es que si X tiene
distribucion normal N (, 2 ), entonces
Z=

(9)

tiene distribucion normal N (0, 1). En efecto,


P(Z z) = P((X )/ z) = P(X z + )


Z z+
(x )2
1

exp
=
dx
2 2
2
Z z
1 2
1
por sustituci
on x = t + .
e 2 t dt
=
2
Este hecho significa que si trasladamos el origen de las abscisas en y cambiamos la escala
de manera tal que represente la unidad de medida, la distribucion normal N (, 2 ) se
transforma en la distribucion normal N (0, 1). Su importancia practica radica en que permite
reducir el calculo de probabilidades de las distribuciones normales N (, 2 ) al de la distribuci
on normal N (0, 1). Motivo por el cual esta u
ltima recibe el nombre de normal est
andar (o
2
tpica). M
as precisamente, si X tiene distribucion normal N (, ), su funcion de distribuci
on podra reducirse a la funcion de distribucion normal () definida en (2) de la siguiente
manera:






X
x
x
x
P(X x) = P

=P Z
=
.
(10)

La identidad (10) resume toda la informaci


on probabilsticamente relevante sobre la variable
aleatoria X N (, 2 ) y permite calcular (con ayuda de la tabla de la funcion de distribucion
normal ()) la probabilidad de que la variable X se encuentre en cualquier intervalo prefijado
de antemano:




a
b

.
(11)
P(a < X < b) =

En particular, cuando el intervalo (a, b) es simetrico con respecto a , las cantidades a y b se


pueden expresar en la forma a = , b = + , donde > 0, y la formula (11) adopta la
forma

 

P (|X | < ) =

= 2
1.
(12)

Significado de los par


ametros y 2 . La relaci
on (9) dice que si X es una variable
aleatoria con distribucion normal de par
ametros y 2 , entonces X = Z + donde Z es
una variable con distribucion normal estandar. Calculos de rutina muestran que E[Z] = 0
y V(Z) = 1, lo que permite deducir que la media y la varianza de la N (, 2 ) son y 2 ,
respectivamente.

1.3.

Ejemplos

Ejemplo 1.3. Una maquina produce ejes cuyos di


ametros X tienen distribucion normal de
2
media = 10 mm y varianza = 0.25 mm. Un eje se considera defectuoso si X < 9.5 mm.
Cual es la probabilidad de que un eje elegido al azar resulte defectuoso?
Soluci
on: El problema se resuelve calculando P(X
 < 9.5). Poniendo = 10 y = 0.5 en
9.510
la formula (10) obtenemos P(X < 9.5) = 0.5
= (1) = 0.1587.

Curva peligrosa. De inmediato podra surgir una objeci


on al uso de la distribucion normal N (10, 0.25) para modelar el di
ametro de los ejes. Al fin y al cabo, los di
ametros deben
ser positivos y la distribucion normal adopta valores positivos y negativos. Sin embargo, el
modelo anteriorasigna una probabilidad despreciable al evento X < 0. En efecto,P(X < 0) =
010
P X10
= P (Z < 20) = (20)
(20). De acuerdo con la estimacion (6)
0.5 < 0.5
 = 1 89
1
1
= O(10 ). Este tipo de situacion es habitual en
tenemos que 1 (20) (20) 20
220
3
la practica. Se tiene una variable aleatoria X de la que se sabe que no puede tomar valores
negativos (p.ej. una distancia, una longitud, un area, un peso, una temperatura, un precio,
etc.) y se la modela utilizando una distribucion normal N (, 2 ); motivados, por ejemplo,
por cuestiones de simetra. En principio, el modelo podra ser perfectamente valido siempre
y cuando los valores de los par
ametros y 2 sean tales que la probabilidad P(X < 0) sea
practicamente 0.
Nota Bene sobre grandes desvos. Sea X una variable aleatoria con distribucion normal
de media y varianza 2 . Sea t > 0, utilizando la formula (12) podemos ver que
  

t
pt := P (|X | > t) = 1 P (|X | t) = 1 2
1 = 2 (1 (t)) .

Usando la tabla de la distribucion normal () se puede ver que p1 = 0.3174, p2 = 0.0454,


p3 = 0.0028. Estos probabilidades admiten la siguiente interpretacion: cerca del 32 % de los
valores de una variable X N (, 2 ) se desvan de su media en m
as de ; solamente cerca
de un 5 % lo hacen en m
as de 2 y solamente cerca de un 3 % en m
as de 3. Esto da lugar
a que en la mayor parte de los problemas de la practica se consideren casi imposibles las
desviaciones respecto de la media que superen 3 y se consideren limitados por el intervalo
[ 3, + 3] todos los valores practicamente posibles de la variable X.
Ejemplo 1.4. Sea X una variable aleatoria con distribucion normal de media = 3 y
varianza 2 = 4. Cual es la probabilidad de que X sea no menor que 1 y no mayor que 7?
Soluci
on: Poner = 3 y = 2 en la f
ormula (11) y usar la tabla de la distribucion normal
13

= (2) (1) = 0.9773 0.1587 = 0.8186.


(): P(1 X 7) = 73
2
2
6

1.4.

Suma de normales independientes

Lema 1.5. Sean X1 y X2 dos variables aleatorias independientes con distribuci


on normal N (1 , 12 ) y N (2 , 22 ), respectivamente. Entonces X1 + X2 tiene distribuci
on normal
N 1 + 2 , 12 + 22 .

Demostraci
on. Observando que X1 + X2 = (X1 1 ) + (X2 2 ) + 1 + 2 el problema se
reduce a considerar el caso 1 = 2 = 0. La prueba
se obtiene mostrando que la convolucion de

1
1
las densidades f1 (x1 ) = 2
exp x21 /212 y f2 (x2 ) = 2
exp x22 /222 es la densidad
1

normal de media 1 + 2 y varianza 2 = 12 + 22 . Por definicion




Z
Z
y2
(x y)2
1
2 dy
exp
f1 (x y)f2 (y) =
(f1 f2 )(x) =
21 2
212
22

(13)

El resultado se obtendr
a mediante un poco de algebra, bastante paciencia, y un cambio de
variables en la integral del lado derecho de la identidad (13).
!



2
(x y)2
y2
1

2
x2
exp
2
= exp
y
x 2
2 1 2
1
2
212
22


2 !


2
1
x2
y
x
= exp
exp 2
2 1 2
1
2
2

La primera igualdad se obtuvo completando cuadrados respecto de y en la expresi


on (xy)

2 2
1

y2
222

y reagrupando algunos terminos. Mediante el cambio de variables z =


diferencial es de la forma dz = 12 dy, se puede ver que

1 2 y 1 x,

cuya

 2

Z


z
x2
1
x2
1

exp
exp 2
dz =
exp 2 .
(f1 f2 )(x) =
2
2
2
2
2

Este resultado se puede generalizar para una suma de n variables aleatorias independientes:
Sean X1 , X2 , . . . , Xn variables aleatorias independientes con distribuciones normales: Xi
N (i , i2 ), 1 i n. Entonces,
!
n
n
n
X
X
X
2
Xi N
i .
i ,
i=1

i=1

i=1

La prueba se obtiene por induccion y utilizando la siguiente propiedad hereditaria de


familias de variables aleatorias independientes (cuya prueba puede verse en el Captulo 1
del libro de Durrett, R.(1996): Probability Theory and Examples): Si X1 , X2 , . . . , Xn son
variables aleatorias independientes, entonces funciones (medibles) de familias disjuntas de las
Xi tambien son independientes.
Nota Bene. Observando que para cada a R y X N (, 2 ) resulta que aX N (a, a2 2 )
se obtiene el siguiente resultado:

Teorema 1.6. Sean X1 , X2 , . . . , Xn variables aleatorias independientes con distribuciones


normales: Xi N (i , i2 ), 1 i n y sean a1 , a2 , . . . , an n
umeros reales cualesquiera.
Entonces,
!
n
n
n
X
X
X
ai Xi N
a21 i2 .
ai i ,
i=1

2.
2.1.

i=1

i=1

G
enesis de la distribuci
on normal
Teorema lmite de De Moivre - Laplace

En 1733, De Moivre observ


o que la distribucion binomial correspondiente a la cantidad
de exitos, Sn , en n ensayos de Bernoulli simetricos tiene la forma lmite de una campana.
Esta observaci
on fue la clave que le permitio descubrir la famosa campana de Gauss y allanar
el camino que lo condujo a establecer la primera versi
on del Teorema Central del Lmite: la
convergencia de la distribucion Binomial(n, 1/2) a la distribucion normal estandar. En 1801,
Laplace refin
o y generaliz
o este resultado al caso de la distribucion Binomial(n, p). El Teorema
de De Moivre-Laplace, que enunciamos m
as abajo, mejora sustancialmente la Ley debil de los
grandes n
umeros
porque
proporciona
una
estimacion mucho m
as precisa de las probabilidades

Sn
P | n p| .
0.18

0.16

0.14

0.12

0.1

0.08

0.06

0.04

0.02

10

12

14

16

Figura 2: Relaci
on entre la distribucion Binomial simetrica y la distribucion normal. La probabilidad de que ocurran k exitos en n ensayos de Bernoulli esta representada por un segmento
paralelo al eje de las abscisas localizado en la ordenada k de altura igual a P(Sn = k). La curva
continua aproxima los valores de P(Sn = k). Observar que dichas probabilidades tambien
se pueden representar como
areas de rectangulos de altura P(Sn = k) y de base unitaria
centrada en k.

Teorema 2.1 (Teorema lmite de De Moivre-Laplace). Consideramos una sucesi


on de ensayos de Bernoulli independientes. Sean p la probabilidad de exito en cada ensayo y Sn la
cantidad de exitos observados en los primeros n ensayos. Para cualquier x R vale que
!
Sn np
lm P p
x = (x),
(14)
n
np(1 p)
Rx
2
on distribuci
on normal est
andar.
donde (x) := 12 et /2 dt es la funci

Demostraci
on. Ver Captulo VII de Feller, W., (1971). An Introduction to Probability
Theory and Its Applications, Vol. I, John Wiley & Sons, New York.
Qu
e significa el Teorema Lmite de De Moivre-Laplace? Para contestar esta pregunta vamos a reconstruir las ideas principales de su genesis. En otras palabras, vamos a
(re)construir el Teorema. La clave de la construcci
on esta embutida en la Figura 2. La imagen permite capturar de inmediato la existencia de una forma lmite para la distribucion
Binomial en el caso simetrico p = 1/2.
Paso 1. El primer paso en la direccion del Teorema de De Moivre consiste en darse cuenta
que la Figura 2 se
nala la existencia de una forma lmite. En una primera fase (completamente abstracta) podemos conjeturar que la distribuci
on binomial simetrica tiene una forma
asint
otica. En otras palabras, cuando la cantidad de ensayos de Bernoulli es suficientemente
grande, salvo traslaciones y cambios de escala apropiados, la distribuci
on Binomial se parece
a una funci
on continua par, (x), cuyo gr
afico tiene la forma de una campana.
Paso 2. El segundo paso consiste en precisar la naturaleza de la traslacion y los cambios de
escala que permiten capturar esa forma lmite. Si se reflexiona sobre el significado de la
media y la varianza de una variable aleatoria, parece claro que la forma lmite se obtendr
a centrando la variable Sn en su valor medio, E[Sn ] = 12 n, y adoptando como unidad de medida

la desviacion tpica de los valores observados respecto de dicho valor, (Sn ) = 21 n. El significado geometrico de esta transformacion consiste en (1) trasladar el origen de las abscisas

en 12 n y (2) dividirlas por 21 n. Para que las areas de los rectangulos sigan representando
probabilidades, las ordenadas deben multiplicarse por el mismo n
umero. Este paso permite
enunciar la siguiente versi
on mejorada de la conjetura inicial: existe una funci
on continua
(x) tal que
!
   n
k 12 n
1
n
1
P(Sn = k) =
1
,
(15)
1
k
2
2 n
2 n
siempre y cuando n sea suficientemente grande.
Paso 3. Establecida la conjetura el problema consiste en descubrir la expresi
on de la funcion
(x) y en precisar cu
al es el sentido de la relaci
on aproximada que aparece en (15). En este
punto no queda otra que arremangarse y meter la mano en el barro. Como resultado se
obtiene que la expresi
on de la funcion (x) es
 2
1
x
(x) = exp
2
2

y que la relaci
on vale para valores de k del orden de n y significa que el cociente de los
dos lados tiende a 1 cuando n .
9

Nota Bene. La relaci


on (15) expresa matem
aticamente un hecho que se observa claramente
en la Figura 2: la campana pasa por los puntos de base k y altura P(Sn = k). Conviene
observar que la expresi
on que aparece
on (15) es la funcion
 en el lado derecho de la relaci
1
1
de densidad de la normal N 2 n, 4 n evaluada en x = k. En la practica, esto significa que
para obtener una buena aproximacion de la probabilidad de observar k exitos en n ensayos de
Bernoulli independientes, basta con evaluar la densidad de la normal N 12 n, 41 n en x = k.
Sin temor a equivocarnos, podemos resumir estas observaciones mediante una expresi
on de
la forma Sn N ( E[Sn ], V(Sn ) ).
Paso 4. Observar que para cada x1 < x2 vale que
!


Sn 12 n
1
1
1
1
= P
x2
P x1 1
n Sn n + x2
n
n + x1
2
2
2
2
2 n


X
1
P Sn = n + j
=
2
1
1
x1 2

njx2 2

h (jh) ,

(16)

x1 jhx2

donde h = 2n y la suma se realiza sobre todos los enteros j tales que x1 jh x2 . Cada
uno de los sumandos que aparecen en el lado derecho de la aproximacion (16) es el area de
un rectangulo de base [kh, (k + 1)h y altura (kh). Como la funcion () es continua, para
valores peque
nos de h la suma total de las areas de los rectangulo debe estar proxima del area
bajo la curva de la densidad normal entre x1 y x2 . Por lo tanto, debe valer lo siguiente
! Z
x2
Sn 12 n
lm P x1 1
x2 =
(t)dt = (x2 ) (x1 ).
(17)
n
x1
2 n
Este paso puede hacerse formalmente preciso arremangandose y metiendo la mano en ...
Nota Bene.
de (17)

La variable aleatoria que aparece dentro de la probabilidad del lado izquierdo

Sn =

Sn 21 n
Sn E[Sn ]
=
1
(Sn )
2 n

(18)

es una medida de la desviacion de Sn respecto de la media E[Sn ] en unidades de la desviacion


tpica (Sn ). El teorema lmite de De Moivre-Laplace significa que cuando se considera una
cantidad n (suficientemente grande) de ensayos de Bernoulli independientes, la distribucion de
la variable aleatoria Sn es pr
acticamente indistinguible de la distribucion normal estandar
N (0, 1).
Comentario sobre prueba del Teorema 2.1. Si se sigue con cuidado la demostraci
on
presentada por Feller se puede ver que las herramientas principales de la prueba son el desarrollo de Taylor (1712) de la funcion log(1
+ O(t2 ) y la formula asintotica de Stirling
+ t) =n tn
(1730) para los n
umeros factoriales n! 2n n e . Partiendo de la funcion de
probabilidad
2
2)1 ex /2 :
de la Binomial(n,
1/2)
se
deduce
la
expresi
o
n
de
la
funci
o
n
densidad
normal
(
1
2
el factor ( 2) proviene de la formula de Stirling y el factor ex /2 del desarrollo de Taylor. Dejando de lado los recursos tecnicos utilizados en la prueba, se observa que las ideas
involucradas son simples y recorren el camino del descubrimiento de De Moivre (1733).
10

Ejemplo 2.2. Se lanza 40 veces una moneda honesta. Hallar la probabilidad de que se
obtengan exactamente 20 caras. Usar la aproximacion normal y compararla con la solucion
exacta.
Soluci
on: La cantidad de caras en 40 lanzamientos de una moneda honesta, S40 , es una
variable Binomial de par
ametros n = 40 y p = 1/2. La aproximacion normal (15) establece
que
1
1
P(S40 = 20) 1 (0) =
= 0.12615...
20
2 40
El resultado exacto es
P(X = 20) =

  40
1
40
= 0.12537...
2
20

Ejemplo 2.3. Se dice que los recien nacidos de madres fumadoras tienden a ser m
as peque
nos
y propensos a una variedad de dolencias. Se conjetura que adem
as parecen deformes. A un
grupo de enfermeras se les mostro una selecci
on de fotografas de bebes, la mitad de los
cuales nacieron de madres fumadoras; las enfermeras fueron invitadas a juzgar a partir de la
apariencia de cada uno si la madre era fumadora o no. En 1500 ensayos se obtuvieron 910
respuestas correctas. La conjetura es plausible?
Soluci
on: Aunque superficial, un argumento atendible consiste en afirmar que, si todos los
bebes parecen iguales, la cantidad de repuestas correctas Sn en n ensayos es una variable
aleatoria con distribucion Binomial (n, 1/2). Entonces, para n grande
!
!
Sn 21 n
Sn 12 n
1
P
>3 =1P
3 1 (3)
1
1
1000
2 n
2 n
por el Teorema lmite de De Moivre-Laplace. Para los valores dados de Sn ,
Sn 12 n
910 750

=
8.
1
5 15
2 n

Se podra decir que el evento {X 12 n > 32 n} es tan improbable que su ocurrencia arroja
dudas sobre la suposicion original de que los bebes parecen iguales. Este argumento otorgara
cierto grado de credibilidad a la conjetura enunciada.
Comentarios sobre el caso general
1. En el caso general, la probabilidad de exito en cada ensayo de Bernoulli individual es
p (0, 1). Si Sn es la cantidad de exitos observados en los primeros n ensayos, entonces
E[Sn ] = np y V(Sn ) = np(1 p). Por lo tanto, la variable aleatoria
Sn np
Sn := p
np(1 p)

(19)

es una medida de la desviaci


pon de Sn respecto de la media E[Sn ] = np en unidades de la
np(1 p). El teorema lmite de De Moivre-Laplace significa
desviacion tpica (Sn ) =
11

que cuando se considera una cantidad n (suficientemente grande) de ensayos de Bernoulli


independientes, la distribucion de la variable aleatoria Sn es pr
acticamente indistinguible
de la distribucion normal estandar N (0, 1).
2. Tecnicamente la prueba del teorema se puede hacer recurriendo a las mismas herramientas
utilizadas en la prueba del caso simetrico, pero los calculos involucrados son m
as complicados. Sin embargo, el resultado tambien es claro si se observan las gr
aficas de la distribucion
Binomial(n, p). En la Figura 3 se ilustra el caso n = 16 y p = 1/4. Nuevamente es evidente
que la forma lmite de distribucion Binomial debe ser la distribucion normal.

0.2

0.15

0.1

0.05

10

12

14

16

Figura 3: Gr
afica de la funcion de probabilidad binomial con n = 16 y p = 1/4. Cerca
del
t
e
rmino
central
m = np = 4, salvo un cambio de escala (cuya unidad de medida es
p

np(1 p) = 3) la gr
afica es indistinguible de la gr
afica de la densidad normal.
3. De la Figura 3 debera estar claro que, para n suficientemente grande, debe valer lo siguiente
!
 
k

np
1
n k
p
p (1 p)nk p
P(Sn = k) =
.
(20)
k
np(1 p)
np(1 p)

Ejemplo 2.4. Para el caso ilustrado en la Figura 3: n = 16 y p = 1/4, la aproximacion (20)


es bastante buena, incluso con un valor de n peque
no. Para k = 0, . . . 4 las probabilidades
P(Sn = 4+k) son 0.2252, 0.1802, 0.1101, 0.0524, 0.0197. Las aproximaciones correspondientes
son 0.2303, 0.1950, 0.1183, 0.0514, 0.0160.
Nota Bene. El Teorema lmite de De Moivre-Laplace justifica el uso de los metodos de la
curva normal para aproximar probabilidades relacionadas con ensayos de Bernoulli con probabilidad de exito p. La experiencia indica que la aproximacion es bastante buena siempre
que np > 5 cuando p 1/2, y n(1 p) cuando p > 1/2. Un valor muy peque
no de p junto
con un valor de n moderado dar
an lugar a una media peque
na y con ello se obtendr
a una
12

distribucion asimetrica. La mayor parte de la distribucion se acumulara alrededor de 0, impidiendo con ello que una curva normal se le ajuste bien. Si la media se aparta por lo menos
5 unidades de una y otra extremidad, la distribucion tiene suficiente espacio para que resulte
bastante simetrica. (Ver la Figura 4).
0.8
0.4

0.7
0.5

0.35

0.6
0.3

0.4
0.5
0.25

0.3

0.4

0.2

0.3

0.15

0.2
0.2

0.1

0.1
0.1

0.05

10

(a)

10

(b)

0.25

10

10

(c)
0.25

0.25

0.3

0.2

0.2

0.2
0.15

0.15

0.1

0.1

0.05

0.05

0.15

0.1

0.05

(d)

10

(e)

10

(f)

Figura 4: Comparaci
on entre la distribucion Binomial(10, p) y su aproximacion por la normal
para distintos valores de p (a) p = 0.025; (b) p = 0.05; (c) p = 0.1; (d) p = 0.2; (e) p = 0.4;
(f) p = 0.5.

Ejemplo 2.5 (Encuesta electoral). Queremos estimar la proporci


on del electorado que pretende votar a un cierto candidato. Para ello consideramos que el voto de cada elector tiene
una distribucion Bernoulli de par
ametro p. Concretamente, queremos encontrar un tama
no
muestral n suficiente para que con una certeza del 99.99 % podamos garantizar un error m
aximo de 0.02 entre el verdadero valor de p y la proporci
on muestral Sn /n. En otras palabras,
queremos encontrar n tal que




Sn


(21)
p 0.02 0.9999.
P
n
Para acotar la incerteza usaremos la aproximacion por la normal provista por el teorema lmite
de De Moivre - Laplace. Para ello, en lugar
p de observar la variable Sn , debemos observar la
variable normalizada Sn := (Sn np)/ np(1 p). En primer lugar observamos que, como
consecuencia del teorema lmite, tenemos la siguiente aproximacion


!
S np


n
P p
(22)
a (a) (a) = 2(a) 1
np(1 p)
13

o lo que es equivalente
!
p


Sn
a p(1 p)

P
2(a) 1.
p
n
n

(23)

Como el verdadero valor de p es p


desconocido, la formula (23) no puede aplicarse
directamente
p
ya que no se conoce el valor de p(1 p). Sin embargo, es facil ver que p(1 p) 1/2 y
por lo tanto
!
p






a p(1 p)
Sn
Sn
a

p
p
P
2(a) 1.
(24)
P
n
n
2 n
n

Esta u
ltima relaci
on es la herramienta con la que podemos resolver nuestro problema.
En primer lugar tenemos que resolver la ecuaci
on 2(a) 1 = 0.9999 o la ecuaci
on
equivalente (a) = 1.9999
=
0.99995.
La
soluci
o
n
de
est
a
ecuaci
o
n
se
obtiene
consultando
una
2
tabla de la distribucion normal: a = 3.9. Reemplazando este valor de a en (24) obtenemos



Sn

3.9


0.9999.
P
p
n
2 n
En segundo lugar tenemos que encontrar los valores de n que satisfacen la desigualdad
3.9
0.02.
2 n

(25)

Es facil ver que n satisface la desigualdad (25) si y solo si




3.9 2
n
= (97.5)2 = 9506.2
0.04
El problema esta resuelto.

3.

Teorema central del lmite

Los teoremas sobre normalidad asintotica de sumas de variables aleatorias se llaman Teoremas Centrales del Lmite. El Teorema lmite de De Moivre - Laplace es un Teorema Central
del Lmite para variables aleatorias independientes con distribucion Bernoulli(p). Una versi
on
m
as general es la siguiente:
Teorema 3.1 (Teorema Central del Lmite). Sea X1 , X2 , . . . una sucesi
on de variables aleatorias independientes identicamente distribuidas, cada una con media y varianza 2 . Entonces
la distribuci
on de
Pn
i n
i=1 X

n
tiende a la normal est
andar cuando n . Esto es,

 Pn
i n
i=1 X

x = (x),
lm P
n
n
Rx
2
donde (x) := 12 et /2 dt es la funci
on de distribuci
on de una normal de media 0 y
varianza 1.
14

Demostraci
on. Ver Captulo XV de Feller, W., (1971). An Introduction to Probability
Theory and Its Applications, Vol. II, John Wiley & Sons, New York.
Corolario 3.2. Sea X1 , X2 , . . . una sucesi
on de variables aleatorias independientes identicamente distribuidas, cada una con media y varianza 2 . Si n es suficientemente grande,
para cada valor a > 0 vale la siguiente aproximaci
on
n

!
1 X



P
Xi a
2(a) 1
(26)
n

n
i=1

Demostraci
on. El teorema central del lmite establece que si n es suficientemente grande,
entonces para cada x R vale que

 Pn
i n
i=1 X

x (x)
(27)
P
n
De la aproximacion (27) se deduce que para cada valor a > 0


 Pn
i=1 Xi n

P
a (a) (a) = 2(a) 1.
n

El resultado se obtiene de (28) observando que


n

n
Pn



1 X
1 X
i=1 Xi n
n
n





=

=
X


.

i
i






n
n
n n
i=1

(28)

(29)

i=1

Nota Bene. Para los usos practicos, especialmente en estadstica, el resultado lmite en
s mismo no es de interes primordial. Lo que interesa es usarlo como una aproximacion con
valores finitos de n. Aunque no es posible dar un enunciado consiso sobre cuan buena es la
aproximacion, se pueden dar algunas pautas generales y examinando algunos casos especiales
se puede tener alguna idea m
as precisa del comportamiento de cuan buena es la aproximacion.
Que tan r
apido la aproximacion es buena depende de la distribucion de los sumandos. Si
la distribucion es bastante simetrica y sus colas decaen rapidamente, la aproximacion es
buena para valores relativamente peque
nos de n. Si la distribucion es muy asimetrica o si
sus colas decaen muy lentamente, se necesitan valores grandes de n para obtener una buena
aproximacion.

3.1.

Ejemplos

 1 1
Ejemplo 3.3 (Suma de uniformes). Puesto que la distribucion uniforme
sobre
2 , 2 tiene


1
, la suma de 12 variables independientes U 21 , 21 tiene media 0 y
media 0 y varianza 12
varianza 1. La distribucion de esa suma esta muy cerca de la normal.
Ejemplo 3.4. Para simplificar el calculo de una suma se redondean todos los n
umeros al
entero m
as cercano. Si el error de redondeo se puede representar como una variable aleatoria
U 12 , 12 y se suman 12 n
umeros, cu
al es la probabilidad de que el error de redondeo exceda
1?
15

0.45

0.4

0.9
0.8

0.35

0.7

0.3

0.6
0.25
0.5
0.2
0.4
0.15

0.3

0.1

0.2

0.05
0
4

0.1
3

0
3

(a)

(b)

Figura 5: (a) Comparaci


on entre un histograma
de 1000 valores, cada uno de los cuales es la

1 1
suma de 12 variables uniformes U 2 , 2 , y la funcion densidad normal; (b) Comparaci
on
entre la funci
o
n
de
distribuci
o
n
emp
rica
correspondiente
a
1000
valores
de
la
suma
de
12
 1 1
uniformes U 2 , 2 y la funcion de distribucion normal. El ajuste es sorprendentemente
bueno, especialmente si se tiene en cuenta que 12 no se considera un n
umero muy grande.
Soluci
on: El error de redondeo cometido al sumar 12 n
umeros se representa por la suma
P
12
on unii=1 Xi de 12 variables aleatorias independientes X1 , . . . , X12 cada una con distribuci
P

12

1 1
forme sobre el intervalo 2 , 2 . El error de redondeo excede 1 si y solamente si i=1 Xi > 1.
1
de acuerdo con el teorema central del lmite tenemos que
Puesto que E[Xi ] = 0 y V(Xi ) = 12
la distribucion de
P12
12
Xi 12E[Xi ] X
i=1
p
Xi
=
12V(Xi )
i=1

se puede aproximar por la distribucion normal estandar. En consecuencia,


12

12

!
!
X
X




P
Xi > 1
= 1P
Xi 1 1 ((1) (1))




i=1

i=1

= 1 (2(1) 1) = 2 2(1) = 0.3173...

16

Ejemplo 3.5 (Suma de exponenciales). La suma Sn de n variables aleatorias independientes


exponenciales de intensidad = 1 obedece a una distribucion gamma, Sn (n, 1). En la
siguiente figura se comparan, para distintos valores de n, la funcion de distribucion de la suma
n E[Sn ]
estandarizada S
con la funcion de distribucion normal estandar.
V(Sn )

1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
3

Figura 6: La normal estandar (solida) y las funciones de distribucion de las variables (n, 1)
estandarizadas para n = 5 (punteada), n = 10 (quebrada y punteada) y n = 30 (quebrada).
Ejemplo 3.6. La distribucion de Poisson de media se puede aproximar por la normal para
valores grandes de : si N Poisson(), entonces
N

N (0, 1).

Ejemplo 3.7. Si la emisi


on de una cierta clase de partculas obedece a un proceso de Poisson
de intensidad 900 por hora, cu
al es la probabilidad de que se emitan m
as de 950 partculas
en una hora determinada?
Soluci
on:
do

Sea N una variable Poisson de media 900. Calculamos P(N > 950) estandarizan-

P(N > 950) = P

N 900
950 900

>
900
900

 
5
= 0.04779.
1
3

Ejemplo 3.8. El tiempo de vida de una batera es una variable aleatoria de media 40 horas
y desvo 20 horas. Una batera se usa hasta que falla, momento en el cual se la reemplaza por
17

una nueva. Suponiendo que se dispone de un stock de 25 bateras, cuyos tiempos de vida son
independientes, aproximar la probabilidad de que pueda obtenerse un uso superior a las 1100
horas.
Soluci
on: Si ponemos Xi para denotar el tiempo de vida de la i-esima batera puesta en
uso, lo que buscamos es el valor de p = P(X1 + + X25 > 1000), que puede aproximarse de
la siguiente manera:
!
P25
X

1000
1100

1000
i
i=1

p = P
1 (1) = 0.1587.
>
20 25
20 25
Ejemplo 3.9. El peso W (en toneladas) que puede resistir un puente sin sufrir da
nos estructurales es una variable aleatoria con distribucion normal de media 1400 y desvo 100. El
peso (en toneladas) de cada camion de arena es una variable aleatoria de media 22 y desvo
0.25. Calcular la probabilidad de que ocurran da
nos estructurales cuando hay 64 camiones de
arena sobre el tablero del puente.
Soluci
on: Ocurren da
nos estructurales cuando la suma de los pesos de los 64 camiones,
X
,
.
.
.
,
X
,
supera
al
peso
W . Por el teorema central del lmite, la distribucion de la suma
1
64
P64
X
es
aproximadamente
una normal de media 1408 y desvo 2. En consecuencia, W
i=1 i
P64
i=1 Xi se distribuye (aproximadamente) como una normal de media 1400 1408 = 8 y
varianza 10000 + 4 = 10004. Por lo tanto,
!
!
!
P
64
64
X
X
W 64
X
+
8
8
i
i=1
P
Xi < 0 = P
Xi > W
= P W
<
10004
10004
i=1
i=1
(0.07998...) = 0.5318...

Ejercicios adicionales
1. Un astronauta debera permanecer 435 das en el espacio y tiene que optar entre dos
alternativas. Utilizar 36 tanques de oxgeno de tipo A o 49 tanques de oxigeno de tipo B.
Cada tanque de oxgeno de tipo A tiene un rendimiento de media 12 das y desvo 1/4. Cada
tanque de oxgeno de tipo B tiene un rendimiento de media de 8, 75 das y desvo 25/28.
Que alternativa es la m
as conveniente?
2. 432 n
umeros se redondean al entero m
as cercano y se suman. Suponiendo que los errores
individuales de redondeo se distribuyen uniformemente sobre el intervalo (0.5, 0.5), aproximar la probabilidad de que la suma de los n
umeros redondeados difiera de la suma exacta en
m
as de 6.
3. Dos aerolneas A y B que ofrecen identico servicio para viajar de Buenos Aires a San Pablo
compiten por la misma poblacion de 400 clientes, cada uno de los cuales elige una aerolnea
al azar. Cual es la probabilidad de que la lnea A tenga m
as clientes que sus 210 asientos?

18

4.

Distribuciones relacionadas con la Normal

En esta secci
on se presentan tres distribuciones de probabilidad relacionadas con la distribuci
on normal: las distribuciones 2 , t y F . Esas distribuciones aparecen en muchos problemas estadsticos.

4.1.

2 (chi-cuadrado)

Definici
on 4.1 (Distribucion chi-cuadrado con un grado de libertad). Si Z es una una variable aleatoria con distribucion normal estandar, la distribucion de U = Z 2 se llama la distribuci
on chi-cuadrado con 1 grado de libertad.
1.8
1.6
1.4
1.2
1
0.8
0.6
0.4
0.2
0

Figura 7: Gr
afico de la funcion densidad de probabilidad de la distribucion 21 .
Caracterizaci
on de la distribuci
on 21 . La funcion de distribucion de la variable U = Z 2
2
es FU (u) = P(Z u), donde Z es N (0, 1). Para cada u > 0, vale que
Z u

1
2
2
F (x) = P(Z u) = P(|Z| u) = P( u Z u) = ez /2 dz.
2
u

Usando el teorema fundamental del calculo integral y la regla de la cadena obtenemos que
para cada u > 0 vale que
Z u
1
d
d
2
ez /2 dz
fU (u) =
FU (u) =
du
du u 2



1
( u)2 /2 d
( u)2 /2 d
( u) e
( u)
=
e
du
du
2




1
1
u/2 1
u/2 1
u/2 1
+e

=
=
e
e
2 u
2 u
u
2
2
1 
1

(1/2) 2
(1/2) 2 1

(30)
=
u1/2 e(1/2)u = u 2 1 e(1/2)u .

19

La u
ltima expresi
on que aparece en el lado derecho de la identidad (30) es la expresi
on de la
1 1
densidad de la distribucion 2 , 2 . Por lo tanto,


1 1
2
1 =
,
.
2 2
Nota Bene.
21 .

Notar que si X N (, 2 ), entonces

N (0, 1), y por lo tanto

2

Definici
on 4.2 (Distribucion chi-cuadrado). Si U1 , U2 , . . . , Un P
son variables aleatorias independientes, cada una con distribucion 21 , la distribucion de V = ni=1 Ui se llama distribucion
chi-cuadrado con n grados de libertad y se denota 2n .
Caracterizaci
on de la distribuci
on chi-cuadrado.
ticular de la distribucion Gamma. M
as precisamente,


n 1
2
n =
,
.
2 2

La distribucion 2n es un caso par-

Basta recordar que la suma de variables i.i.d. tambien es . En particular, la funcion


densidad de V es
n
(1/2) 2 n 1 1 v

v 2 e 2 1{v > 0}.
fV (v) =
n2
Nota Bene.

La distribucion 2n no es simetrica.
0.14

0.12

0.1

0.08

0.06

0.04

0.02

10

15

20

25

Figura 8: Gr
afico de la funcion densidad de probabilidad de la distribucion 27 .

20

4.2.

t de Student

Definici
on 4.3 (La distribucion t de Student). Sean Z y U variables aleatorias independientes
con distribuciones N (0, 1) y 2n , respectivamente. La distribuci
on de la variable
Z
T =p
U/n

se llama distribuci
on t de Student con n grados de libertad y se denota mediante tn .
La funcion densidad de la t de Student con n grados de libertad es
 
 n+1
2
n+1
t2
2

fT (t) =
1
+
.
n
n n2

La formula de la densidad se obtiene por los metodos estandar desarrollados en las notas
sobre transformaciones de variables.
0.4

0.35

0.3

0.25

0.2

0.15

0.1

0.05

0
5

Figura 9: Comparaci
on de la funcion densidad de probabilidad de una distribucion t7 (lnea
solida) con la de la distribucion N (0, 1) (lnea punteada).
Observaci
on 4.4. Notar que la densidad de tn es simetrica respecto del origen. Cuando la
cantidad de grados de libertad, n, es grande la distribucion tn se aproxima a la la distribucion
N (0, 1); de hecho para m
as de 20 o 30 grados de libertad, las distribuciones son muy cercanas.
.

4.3.

F de Fisher

Definici
on 4.5 (Distribucion F ). Sean U y V variables aleatorias independientes con distribuciones 2m y 2n , respectivamente. La distribuci
on de la variable
W =

U/m
V /n
21

se llama distribuci
on F con m y n grados de libertad y se denota por Fm, n .
La funcion densidad de W es
  m
m+n
m  m+n
m 2 m 1 
2
2
2


fW (w) =
1
+
w
1{w 0}.
w
n
n
n
m

2
2

W es el cociente de dos variables aleatorias independientes, y su densidad se obtiene usando


los metodos estandar desarrollados en las notas sobre transformaciones de variables.
Nota Bene. Se puede mostrar que, para n > 2, E[W ] = n/(n 2). De las definiciones de
las distribuciones t y F , se deduce que el cuadrado de una variable aleatoria tn se distribuye
como una F1,n .
0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

Figura 10: Gr
afico tpico de la funcion densidad de probabilidad de una distribucion F .

C
omo usar las tablas de las distribuciones F ? Para cada (0, 1), sea F,m,n el
punto del semieje positivo de las abscisas a cuya derecha la distribucion Fm,n acumula una
probabilidad :
P(Fm,n > F,m,n ) = .
Observaci
on 4.6. Notar que de las igualdades






U/m
V /n
V /n
1
1
=P
> F,m,n = P
<
=1P

V /n
U/m
F,m,n
U/m
F,m,n
se deduce que
F1,n,m =

1
F,m,n

22

(31)

En los manuales de estadstica se pueden consultar las tablas de los valores F,m,n para
diferentes valores de m, n y {0.01, 0.05}. Por ejemplo, seg
un la tabla que tengo a mi
disposicion1
P(F9, 9 > 3.18) = 0.05
y
P(F9,9 > 5.35) = 0.01
Usando esa informaci
on queremos hallar valores 1 y 2 tales que
P(F9, 9 > 2 ) = 0.025

P(F9, 9 < 1 ) = 0.025.

El valor de 2 se obtiene por interpolacion lneal entre los dos puntos dados en la tabla:
A = (3.18, 0.05) y B = (5.35, 0.01). La ecuaci
on de la recta que pasa por ellos es y 0.01 =
0.04
2.17 (x 5.35). En consecuencia, 2 sera la solucion de la ecuaci
on 0.025 0.01 = 0.04
2.17 (2
5.35). Esto es, 2 = 4.5362.
El valor de 1 se obtiene observando que la ecuaci
on P(F9, 9 < 1 ) = 0.025 es equivalente
a la ecuaci
on P (1/F9, 9 > 1/1 ) = 0.025. Por definicion, la distribucion de 1/F9, 9 coincide con
la de F9, 9 . En consecuencia, 1 debe satisfacer la ecuaci
on P (F9, 9 > 1/1 ) = 0.025. Por lo
tanto, 1 = 1/4.5362 = 0.2204.

5.

Bibliografa consultada
Para redactar estas notas se consultaron los siguientes libros:
1. Cramer, H.: Metodos matem
aticos de estadstica. Aguilar, Madrid. (1970)
2. Durrett R.: Probability. Theory and Examples. Duxbury Press, Belmont. (1996)
3. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. John
Wiley & Sons, New York. (1968)
4. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 2. John
Wiley & Sons, New York. (1971)
5. Hoel P. G.: Introducci
on a la estadstica matem
atica. Ariel, Barcelona. (1980)
6. Piskunov, N.: C
alculo diferencial e integral, tomo I. Mir, Mosc
u (1983)
7. Rice, J. A.: Mathematical Statistics and Data Analysis. Duxbury Press, Belmont. (1995)
8. Ross, S. M: Introduction to Probability and Statistics for Engineers and Scientists.
Elsevier Academic Press, San Diego. (2004)
9. Ross, S.: Introduction to Probability Models. Academic Press, San Diego. (2007)

Introducci
on a la estadstica matem
atica. Ariel, Barcelona. (1980).

23

Estimadores puntuales
(Borradores, Curso 23)
Sebastian Grynberg
20-22 de mayo de 2013

La libertad de los pueblos no consiste en palabras,


ni debe existir en los papeles solamente. (...)
Si deseamos que los pueblos sean libres,
observemos religiosamente el sagrado dogma de la igualdad.
(Mariano Moreno)

Indice
1. Introducci
on
1.1. Nociones y presupuestos basicos . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2. Algunas familias parametricas . . . . . . . . . . . . . . . . . . . . . . . . . . .

2
2
3

2. Estimadores
2.1. Error cuadratico medio, sesgo y varianza . . . . . . . . . . . . . . . . . . . . .
2.2. Comparaci
on de estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4
5
7
9

3. M
etodo de m
axima verosimilitud
3.1. Estimador de m
axima verosimilitud (emv)
3.2. C
alculo del emv para familias regulares .
3.2.1. Familias exponenciales . . . . . . .
3.2.2. Malas noticias! . . . . . . . . . . .
3.3. C
alculo del emv para familias no regulares
3.4. Principio de invariancia . . . . . . . . . .

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

4. Bibliografa consultada

1.

10
10
12
17
19
20
22
23

Introducci
on

1.1.

Nociones y presupuestos b
asicos

Definici
on 1.1 (Muestra aleatoria). Sea (, A, P) un espacio de probabilidad y X : R
una variable aleatoria. Una muestra aleatoria de volumen n de la variable aleatoria X es una
sucesion X1 , . . . , Xn de variables aleatorias independientes cada una con la misma distribucion
de X.
Modelos param
etricos. En todo lo que sigue vamos a suponer que
1. La funcion de distribucion de la variable aleatoria X es desconocida parcialmente: se
sabe que F (x) = P(X x) pertenece a una familia, F, de distribuciones conocidas que
dependen de un par
ametro desconocido: F = {F : }.
2. El conjunto parametrico, , es no vaco y esta contenido en Rd .
3. Las distribuciones de la familia F son distinguibles: F1 6= F2 cuando 1 6= 2 .
4. Las distribuciones de la familia F tienen densidad. Si se trata de una familia de
distribuciones continuas esto significa que para cada , existe una funcion densidad
d
F (x) = f (x|). Si se trata de una familia
de probabilidades (f.d.p.) f (x|) tal que dx
de distribuciones discretas esto significa que para cada , existe una funcion de
probabilidad (f.p.) f (x|) tal que F (x) F (x) = f (x|).
5. Es posible conseguir muestras aleatorias de la variable X del volumen que se desee.

Nota Bene. De los presupuestos basicos adoptados resulta que los modelos parametricos
adoptan la forma
F = {f (x|) : } ,
donde es un par
ametro desconocido que puede tomar valores en un espacio parametrico
d
R .

1.2.

Algunas familias param


etricas

Repasamos algunas de las familias de distribuciones que se utilizan com


unmente en el
an
alisis de datos en problemas practicos.
1. Familia Normal, N (, 2 ). Decimos que X tiene distribucion normal de par
ametros
R y 2 > 0 cuando la f.d.p. de X esta dada por


1
(x )2
2
f (x|, ) = exp
,
< x < .
2 2
2
Vale que E[X] = y V(X) = 2 .
2. Familia Gamma, (, ). Decimos que X tiene distribucion gamma de par
ametros
> 0 y > 0 cuando la f.d.p. de X esta dada por
f (x|, ) =

1 x
x e
1{x 0},
()

R
donde () := 0 x1 ex dx. Vale que E[X] = / y V(X) = /2 .
Casos particulares de las familias Gamma son las familias exponenciales Exp() = (1, )
y las familias chi cuadrado 2 = (/2, 1/2).
3. Familia Beta, (1 , 2 ). Decimos que X tiene distribucion beta de par
ametros 1 > 0
y 2 > 0 cuando la f.d.p. de X esta dada por
f (x|1 , 2 ) =

(1 + 2 ) 1 1
x
(1 x)2 1 1{0 < x < 1}.
(1 )(2 )

Vale que
E[X] =

1
1 + 2

V(X) =

(1 +

1 2
2
2 ) (1 + 2

+ 1)

Notar que cuando los par


ametros 1 y 2 son n
umeros naturales se tiene que


(1 + 2 1)!
(1 + 2 )
1 + 2 2
.
=
= (1 + 2 1)
(1 )(2 )
(1 1)!(2 1)!
1 1
La distribucion (1 , 2 ) se puede obtener como la distribucion del cociente X1 /(X1 + X2 )
donde X1 (1 , 1) y X2 (2 , 1).
Notar que (1, 1) = U(0, 1).

4. Familia Binomial, Binomial(n, p). Decimos que X tiene distribucion Binomial de


par
ametros n N y 0 < p < 1 cuando su f.p. esta dada por
 
n
f (x|n, p) =
(1 p)nx px ,
x = 0, 1, . . . , n.
x
Vale que E[X] = np y V(X) = np(1 p).
5. Familia Pascal, Pascal(n, p). Decimos que X tiene distribucion Pascal de par
ametros
n N y 0 < p < 1 cuando su f.p. esta dada por


x1 n
p (1 p)xn ,
x = n, n + 1, . . . .
f (x|n, p) =
n1
Vale que E[X] = n/p y V(X) = n(1 p)/p2 .
6. Familia Poisson, Poisson(). Decimos que X tiene distribucion Poisson de par
ametro
> 0 cuando su f.p. esta dada por
f (x|) = e

x
,
x!

x = 0, 1, . . . .

Vale que E[X] = y V(X) = .

2.

Estimadores

El punto de partida de la investigacion estadstica esta constituido por una muestra


aleatoria, X = (X1 , . . . , Xn ), de la distribucion desconocida F perteneciente a una familia
parametrica de distribuciones F = {F : }1 . Como las distribuciones de la familia F
son distinguibles lo que se quiere saber es cu
al es el par
ametro que corresponde a la
distribucion F . En otras palabras, se quiere hallar tal que F = F .

Formalmente, cualquier funcion, := (X),


de la muestra aleatoria X que no depende
de par
ametros desconocidos se denomina una estadstica.
Ejemplo 2.1. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de la variable aleatoria X con
funcion de distribucion F . Ejemplos de estadsticas son
(i) X(1) = mn(X1 , . . . , Xn ),
(ii) X(n) = m
ax(X1 , . . . , Xn ),
= 1 Pn X i ,
(iii) X
i=1
n
1 Pn
2
2.
(iv)
= n i=1 (Xi X)
1

Notaci
on. Si F es una familia de distribuciones F con densidades f (x|), , escribimos
Z
Z
P (X A) =
f (x|)dx
y
E [r(X)] = r(x)f (x|)dx
A

El subndice indica que la probabilidad o la esperanza es con respecto a f (x|). Similarmente, escribimos V
para la varianza.

En (i) y (ii), mn() y m


ax() denotan, respectivamente, el mnimo y el m
aximo muestrales
2

observados. Por otro lado, X y


denotan, respectivamente, la media y la varianza muestrales.
Cualquier estadstica que asuma valores en el conjunto parametrico de la familia de
distribuciones F se denomina un estimador puntual para . El adjetivo puntual esta puesto
para distinguirla de las estimaciones por intervalo que veremos m
as adelante.
En muchas situaciones lo que interesa es estimar una funcion g(). Por ejemplo, cuando
se considera una muestra aleatoria X de una variable X N (, 2 ) donde y 2 son
desconocidos entonces = (, 2 ) y el conjunto de par
ametros es = {(, 2 ) : R y 2 >
0}. Si el objetivo es estimar solamente , entonces g() = .
Definici
on 2.2. Cualquier estadstica que solamente asuma valores en el conjunto de los
posibles valores de g() es un estimador para g().
Uno de los grandes problemas de la estadstica es construir estimadores razonables para
el par
ametro desconocido o para una funcion g(). Existen diversos metodos para elegir
entre todos los estimadores posibles de . Cada elecci
on particular del estimador depende de
ciertas propiedades que se consideran deseables para la estimacion.

2.1.

Error cuadr
atico medio, sesgo y varianza

Uno de los procedimientos m


as usados para evaluar el desempe
no de un estimador es
considerar su error cuadratico medio. Esta noci
on permite precisar el sentido que se le otorga

a los enunciados del tipo el estimador puntual = (X)


est
a pr
oximo de .
Definici
on 2.3 (Error cuadratico medio). El error cuadr
atico medio (ECM) de un estimador

para el par
ametro se define por
h
i
= E ( )2 .
ECM()
(1)
El ECM se puede descomponer de la siguiente manera2
h
i
+ B2 (),

E ( )2 = V ()

(2)

:= E []
es el llamado sesgo del estimador. El primer termino de la descomdonde B ()

posicion (2) describe la variabilidad del estimador, y el segundo el error sistematico: E []

describe alrededor de que valor fluct


ua y V () mide cu
anto fluct
ua.
+ (E []
). Desarrollando
La descomposici
on (2) se obtiene escribiendo en la forma ( E [])

2
2
2
+ 2( E [])(E

cuadrados obtenemos ( ) = ( E [])


. El resultado se obtiene
[] ) + E []
2

observando que la esperanza E de los terminos cruzados ( E [])(E


[] ) es igual a 0:

h
i

2
2 + 2( E [])(E

E ( )2
= E ( E [])
[] ) + E []
=

h
i

2
2 + 0 + E []
= V ()
+ B2 ().

E ( E [])

Definici
on 2.4 (Estimadores insesgados). Diremos que un estimador es insesgado para el
par
ametro si
= .
E []
0. Si lmn B []
= 0 para todo , diremos que el
para todo , o sea B ()

estimador es asint
oticamente insesgado para .
Nota Bene.

En el caso en que es un estimador insesgado para , tenemos que


= V (),

ECM()

o sea, el error cuadratico medio de se reduce a su varianza.


Nota Bene. Una consecuencia destacable de la descomposicion (2) para grandes muestras
(n >> 1) es la siguiente: si a medida que se aumenta el volumen de la muestra, el sesgo y la
varianza del estimador tienden a cero, entonces, el estimador converge en media cuadratica
al verdadero valor del par
ametro .
Ejemplo 2.5 (Estimacion de media). Sea F = {F : } una familia de distribuciones.
Para cada designemos mediante () y 2 () la media y la varianza correspondientes a
la distribucion F , respectivamente. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de alguna
el promedio de la muestra:
distribucion perteneciente a F. Denotemos mediante X
n

X
= 1
X
Xi .
n
i=1

En lo que sigue vamos a suponer que para cada , () R y 2 () < . Si la muestra


aleatoria proviene de la distribucion F , tenemos que
" n
#
n
X
 
1
1X

E X = E
Xi =
E [Xi ] = ().
n
n
i=1

i=1

es un estimador insesgado para () y su error cuadratico medio al estimar


Por lo tanto X
() es
!
n
n
X

1 X
1
1
= V X
= V
ECM(X)
Xi = 2
V [Xi ] = 2 ().
n
n
n
i=1

i=1

Ejemplo 2.6 (Estimacion de varianza). Sea F = {F : } una familia de distribuciones.


Para cada designemos mediante () y 2 () la media y la varianza correspondientes
a la distribucion F , respectivamente, a las que supondremos finitas. Sea X1 , . . . , Xn una
y
muestra aleatoria de alguna distribucion perteneciente a F. Sean X
2 la media y la
varianza muestrales definidas en el Ejemplo 2.1:
n

X
:= 1
X
Xi
n

2 :=

i=1

1X
2.
(Xi X)
n
i=1

Para analizar el sesgo de la varianza muestral conviene descomponerla de la siguiente manera:


n

1X
())2 ,

=
(Xi ())2 (X
n
2

(3)

i=1

cualquiera sea . 3 Si la muestra aleatoria, X1 , . . . , Xn , proviene de la distribucion F , al


tomar esperanzas en ambos lados de (3) se obtiene
n

E [
2] =




1X 
())2
E (Xi ())2 E (X
n
i=1

n
1X

V (Xi ) V (X).
n

(4)

i=1

es un estimador insesgado para la media () y su varianza vale


Seg
un el Ejemplo 2.5 X
1 2

V (X) = n (), en consecuencia,


n

1X
= 2 () 1 2 () = n 1 2 ().
E [
]=
V (Xi ) V (X)
n
n
n
2

(5)

i=1

Esto demuestra que


2 no es un estimador insesgado para la varianza 2 (). La identidad
2
E [
2 ] = n1
no n y se promedian
n () significa que si tomamos repetidas muestras de tama
las varianzas muestrales resultantes, el promedio no se aproximara a la verdadera varianza,
sino que de modo sistematico el valor sera m
as peque
no debido al factor (n 1)/n. Este factor
adquiere importancia en las muestras peque
nas. Si n , el factor (n 1)/n 1 lo que
demuestra que
2 es un estimador asint
oticamente insesgado para la varianza 2 ().
n
Para eliminar el sesgo en
2 , basta multiplicar
2 por n1
. De (5) sigue que
n

S 2 :=

1 X
n
2

2 =
(Xi X)
n1
n1

(6)

i=1

es un estimador insesgado para la varianza.

2.2.

Comparaci
on de estimadores

El error cuadratico medio puede usarse para comparar estimadores. Diremos que 1 es
mejor que 2 si
ECM(1 ) ECM(2 ),

(7)

para todo , con desigualdad estricta para al menos un valor de . En tal caso, el estimador 2
se dice inadmisible. Si existe un estimador tal que para todo estimador de con 6=

ECM( ) ECM(),

(8)

3
en la forma
La descomposici
on (3) se obtiene haciendo lo siguiente. Para cada i escribimos (Xi X)
()). Desarrollando cuadrados obtenemos (Xi X)
2 = (Xi ())2 + (X
())2
(Xi ()) (X

2(Xi ())(X ()). El resultado se obtiene observando que el promedio de los terminos cruzados (Xi
()) es igual a (X
())2 . (Hacer la cuenta y verificarlo! )
())(X

para todo , con desigualdad estricta para al menos un valor de , entonces se dice o
ptimo.
Cuando la comparacion se restringe a los estimadores son insesgados, el estimador optimo,
, se dice el estimador insesgado de varianza uniformemente mnima. Esta denominacion
resulta de observar que estimadores insesgados la relaci
on (8) adopta la forma

V ( ) V (),
para todo , con desigualdad estricta para al menos un valor de .
Ejemplo 2.7. Sean X1 , X2 , X3 una muestra aleatoria de una variable aleatoria X tal que
E [X] = y V (X) = 1. Consideremos los estimadores
1
1
1
= X1 + X2 + X3
X
y
= X1 + X2 + X3 .
3
2
4
4
1
= y V (X)
= . Tenemos tambien que
Seg
un el Ejemplo 2.5 E [X]
3
= 1 E [X1 ] + 1 E [X2 ] + 1 E [X3 ] = 1 + 1 + 1 =
E []
2
4
4
2
4
4
y

= 1 V (X1 ) + 1 V (X2 ) + 1 V (X3 ) = 1 + 1 + 1 = 6 .


V ()
4
16
16
4 16 16
16
pues V (X)
para todo .
y son insesgados, resulta que X
es mejor que ,
< V ()
Como X
Ejemplo 2.8. Sea X1 , . . . , Xn una muestra aleatoria de una variable aleatoria X U(0, ).
y 2 = X(n) como estimadores para y estudiaremos su comVamos a considerar 1 = 2X
portamiento. Como E [X] = /2 y V (X) = 2 /12, tenemos que
=
E [1 ] = E [2X]

V (1 ) =

2
.
3n

(9)

Por lo tanto, 1 es un estimador insesgado para . En consecuencia,


2
ECM(1 ) = V (1 ) =
.
3n

(10)

Por otro lado, la funcion densidad de X(n) esta dada por f (x) =
donde se deduce que
E [X(n) ] =

n+1

V (X(n) ) =

nxn1
n 1{0

n2
.
(n + 1)2 (n + 2)

< x < }, de

(11)

Por lo tanto, 2 es un estimador asintoticamente insesgado para . Combinando las identidades


(11) en (2), obtenemos

2
n
n2
ECM(2 ) = V (2 ) + B2 (2 ) =
+

(n + 1)2 (n + 2)
n+1
2
2
2
n

2
=
+
=
.
(12)
2
2
(n + 1) (n + 2) (n + 1)
(n + 1)(n + 2)
Es facil, pero tedioso, ver que ECM(2 ) < ECM(1 ) para todo y todo n. Por lo tanto, X(n)
para todo y todo n.
es mejor que 2X

2.3.

Consistencia

1 , . . . , Xn ), es que, en
Lo mnimo que se le puede exigir a un estimador puntual, (X
alg
un sentido, se aproxime al verdadero valor del par
ametro cuando el volumen de la muestra
aumenta. En otras palabras, si es tal que F = F y X1 , X2 , . . . es una sucesion
de variables aleatorias independientes cada una con distribucion F , en alg
un sentido, debe
ocurrir que
1 , . . . , Xn ) ,
(X
cuando n .
Por ejemplo, es deseable que el estimador tenga la siguiente propiedad, llamada consistencia debil : para cada > 0 debe cumplir que
1 , . . . , Xn ) | > ) = 0.
lm P (|(X

(13)

M
as exigente, es pedirle que tenga la siguiente propiedad, llamada consistencia fuerte:


1 , . . . , Xn ) = = 1.
P lm (X
(14)
n

Normalidad asint
otica. Tambien se le puede pedir una propiedad similar a la del teorema
central lmite, llamada normalidad asint
otica: existe = () > 0 tal que
! Z

x
1
n((X1 , . . . , Xn ) )
2
et /2 dt
lm P
x =
(15)
n

Nota Bene. Los problemas de consistencia y normalidad asintotica estan relacionados con
las leyes de los grandes n
umeros y el teorema central de lmite. El siguiente ejemplo muestra
dicha relaci
on para el caso en que se quiere estimar la media de una distribucion.
Ejemplo 2.9 (Estimacion de media). Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una
variable aleatoria cuya distribucion pertenece a una familia F = {F : }. Sean () y
2 () la media y la varianza correspondientes a la distribucion F , respectivamente. Aplicando
se obtiene que para cada > 0
la desigualdad de Chebychev a X





 V (X)
1 2 ()



P X () >
=
0,
2
n
2

cuando n .
Hasta aqu, lo u
nico que hicimos es volver a demostrar la ley debil de los grandes n
umeros.
Lo que queremos subrayar es que en el contexto de la estimaci
on de par
ametros, la ley debil de
es un estimador debilmente
los grandes n
umeros significa que el promedio de la muestra, X,
consistente para la la media de la distribuci
on, ().
La consistencia fuerte del promedio, como estimador para la media es equivalente a la
Ley fuerte de los grandes n
umeros que afirma que: Si X1 , X2 , . . . es una sucesi
on de variables
aleatorias independientes e identicamente distribuidas y si existe E[Xi ] = , entonces


= = 1.
P lm X
n

La normalidad asintotica es equivalente al teorema central del lmite.


9

Nota Bene. De todas las propiedades de convergencia la consistencia debil es la mas simple,
en el sentido de que puede establecerse con unas pocas herramientas tecnicas. Para verificar
la consistencia debil del promedio para estimar la media solamente usamos la desigualdad
de Chebychev y las propiedades de la media y la varianza. El razonamiento utilizado en el
Ejemplo 2.9 se puede extender un poco m
as all
a.
Teorema 2.10. Sea un estimador de basado en una muestra aleatoria de volumen n. Si
es asintoticamente insesgado y su varianza tiende a cero, entonces es debilmente consistente.
Demostraci
on. El resultado se obtiene usando la desigualdad de Chebychev y la identidad
(2):




h
i
1
1 


+ B2 ()
0.
P > 2 E ( )2 = 2 V ()

3.

M
etodo de m
axima verosimilitud

El metodo de m
axima verosimilitud es un metodo universal para construir estimadores
puntuales. Su base intuitiva es la siguiente: si al realizar un experimento aleatorio se observa
un resultado, este debe tener alta probabilidad de ocurrir.
Para hacer m
as precisa esa base intuitiva consideremos una muestra aleatoria, X =
(X1 , . . . , Xn ), de una variable aleatoria discreta X con funcion de probabilidad f (x|),
, donde es el espacio parametrico. La probabilidad de observar los resultados X1 =
x1 , . . . , Xn = xn se calcula del siguiente modo:
P (X1 = x1 , . . . , Xn = xn ) =

n
Y

P (Xi = xi ) =

i=1

n
Y
i=1

f (xi |).

(16)

Si los resultados observables deben tener una alta probabilidad de ocurrir y observamos que
X1 = x1 , . . . , Xn = xn , entonces lo razonable sera elegir entre todos los par
ametros posibles,
, aquel (o aquellos) que maximicen (16). En consecuencia,
Q se podra estimar como el
valor (o los valores) de que hace m
axima la probabilidad ni=1 f (xi |).

3.1.

Estimador de m
axima verosimilitud (emv)

Definici
on 3.1 (EMV). Sea X una variable aleatoria cuya distribucion pertenece a la familia
parametrica F = {F : }. Un estimador de m
axima verosimilitud de , basado en los
valores x = (x1 , . . . , xn ) de una muestra aleatoria X = (X1 , . . . , Xn ), es un valor mv que
maximiza la funcion de verosimilitud
L(|x) :=

n
Y
i=1

f (xi |),

(17)

donde, dependiendo de la naturaleza de las distribuciones de la familia F, f (x|) es la funcion


de probabilidad o la funcion densidad de probabilidades de X.

10

Sobre la notaci
on. Para destacar que el valor del estimador de m
axima verosimilitud

depende de los valores observados, x = (x1 , . . . , xn ), en lugar de mv escribiremos mv (x):


mv = mv (x) := arg m
ax L(|x).

(18)

Ejemplo 3.2. Supongamos que tenemos una moneda que puede ser equilibrada o totalmente
cargada para que salga cara. Lanzamos la moneda n veces y registramos la sucesion de caras
y cecas. Con esa informaci
on queremos estimar que clase de moneda tenemos.
Cada lanzamiento de la moneda se modela con una variable aleatoria X con distribucion
Bernoulli(), donde es la probabilidad de que la moneda salga cara. El espacio parametrico
es el conjunto = {1/2, 1}.
El estimador de m
axima verosimilitud para , basado en los valores x = (x1 , . . . , xn ) de
una muestra aleatoria X = (X1 , . . . , Xn ) de la variable X, es el valor de mv (x) = {1/2, 1}
que maximiza la funcion de verosimilitud L(|x). Para encontrarlo comparamos los valores
de la funcion de verosimilitud L(1/2|x) y L(1|x):
( n
)
n
Y
X
n
f (xi |1/2) = (1/2) ,
L(1|x) = 1
L(1/2|x) =
xi = n .
i=1

i=1

En consecuencia, el estimador de m
axima verosimilitud para , basado en los valores x =
(x1 , . . . , xn ) de una muestra aleatoria X = (X1 , . . . , Xn ) es
( n
)
( n
)
X
X
1
mv (x) = 1
xi < n + 1
xi = n .
2
i=1

i=1

Por lo tanto, el estimador de m


axima verosimilitud para basado en una muestra aleatoria
X = (X1 , . . . , Xn ) es
( n
)
( n
)
X
X
1
Xi < n + 1
mv (X) = 1
Xi = n .
2
i=1

i=1

Por ejemplo, si en 10 lanzamientos de la moneda se observaron 10 caras, el estimador de


m
axima verosimilitud para es mv = 1; en cambio si se observaron 8 caras y 2 cecas, el
estimador de m
axima verosimilitud es mv = 1/2.
Ejemplo 3.3.

Sea X una variable aleatoria con funcion densidad dada por


1
f (x|) = (1 + x)1{x [1, 1]},
2

[1, 1].

Supongamos que queremos hallar el estimador de m


axima verosimilitud para basado en la
realizacion de una muestra aleatoria tama
no 1, X1 . Si se observa el valor x1 , la funcion de
verosimilitud adopta la forma
1
L(|x1 ) = (1 + x1 )
2
El gr
afico de L(|x1 ) es un segmento de recta de pendiente x1 . Como se trata de una recta el
m
aximo se alcanza en alguno de los extremos del intervalo = [1, 1]:
1. si x1 < 0, el m
aximo se alcanza en = 1,
11

2. si x1 = 0, el m
aximo se alcanza en cualquiera de los valores del intervalo ,
3. si x1 > 0, el m
aximo se alcanza en = 1.
Abusando de la notaci
on tenemos que
mv (x1 ) = 1{x1 < 0} + 1{x1 = 0} + 1{x1 > 0}.
Por lo tanto,
mv (X1 ) = 1{X1 < 0} + 1{X1 = 0} + 1{X1 > 0}.

Ejemplo 3.4.

Sea X una variable aleatoria con funcion densidad dada por


1
f (x|) = (1 + x)1{x [1, 1]},
2

[1, 1].

Supongamos que una muestra aleatoria de tama


no 2 arrojo los valores 1/2 y 1/4 y con esa
informaci
on queremos hallar el estimador de m
axima verosimilitud para . La funcion de
verosimilitud adopta la forma



1
1
1
L(|1/2, 1/4) =
1+
1+
,
4
2
4
y su gr
afico es un segmento de par
abola concava cuyas races son 4 y 2. Por lo tanto,

mv (1/2, 1/4) = 1.
Supongamos ahora que una muestra aleatoria de tama
no 2 arrojo los valores 1/2 y 1/4 y
con esa informaci
on queremos hallar el estimador de m
axima verosimilitud para . La funcion
de verosimilitud adopta la forma



1
1
1
L(|1/2, 1/3) =
1+
1
,
4
2
3
y su gr
afico es un segmento de par
abola convexa cuyas races son 2 y 3. Por lo tanto,
mv (1/2, 1/3) = 0.5.

3.2.

C
alculo del emv para familias regulares

Sea F = {F : } una familia parametrica de distribuciones y sea {f (x|) : }


la familia de funciones de densidad (o de probabilidad) asociada. Diremos que la familia F
es regular si satisface las siguientes condiciones:
1. El conjunto parametrico Rd es abierto.
2. El soporte de las funciones f (x|) no depende del par
ametro. Esto es, existe un conjunto
S tal que sopf (|) := {x R : f (x|) > 0} = S para todo .
3. Para cada x S, la funcion f (x|) tiene derivadas parciales respecto de todas las
componentes j , j = 1, . . . , d.

12

Supongamos ahora que X = (X1 , . . . , Xn ) es una muestra aleatoria de tama


no n de una
variable aleatoria X con funcion de densidad (o de probabilidad) f (x|), , perteneciente
a una familia regular de distribuciones. Debido a que la familia es regular cada uno de los
valores observados pertenece al soporte com
un de las funciones f (x|): x = (x1 , . . . , xn ) Sn .
Por lo tanto, cualesquiera sean los valores observados, x = (x1 , . . . , xn ), vale que
L(|x) =

n
Y
i=1

f (xi |) > 0.

Esto habilita a tomar logaritmos y utilizar la propiedad el logaritmo del producto es igual
a la suma de los logaritmos. En consecuencia, para cada x = (x1 , . . . , xn ) Sn , la funcion
log L(|x) esta bien definida y vale que
log L(|x) = log

n
Y
i=1

f (xi |) =

n
X
i=1

log f (xi |).

(19)

Como el logaritmo natural log() es una funcion monotona creciente, maximizar la funcion
de verosimilitud L(|x) sera equivalente a maximizar log L(|x). La ventaja de maximizar el
logaritmo de la funcion de verosimilitud es que, bajo las condiciones de regularidad enunciadas
previamente, los productos se convierten en sumas, aligerando considerablemente el trabajo
de computo del EMV ya que el EMV debe verificar el sistema de ecuaciones
log L(|x)
=0
j

j = 1, . . . , d.

(20)

En vista de (19) el sistema de ecuaciones (20) se transforma en


n
X
log f (xi |)
i=1

= 0,

j = 1, . . . , d.

(21)

Por este camino llegamos al siguiente resultado que provee la herramienta adecuada para el
calculo del EMV.
Lema 3.5. Sea X una variable aleatoria con funcion de densidad (o de probabilidad) f (x|),
Rd , perteneciente a una familia regular de distribuciones. El estimador de m
axima
verosimilitud de , basado en los valores x = (x1 , . . . , xn ) de una muestra aleatoria X =
(X1 , . . . , Xn ), es solucion del siguiente sistema de ecuaciones:
n
X

j (|xi ) = 0

j = 1, . . . , d,

(22)

i=1

donde, para cada x S, la funciones de , j (|x), j = 1, . . . , d, se definen por


j (|x) :=

log f (x|)
.
j

(23)

Nota Bene. Por supuesto que las condiciones (22) son necesarias pero no suficientes para
que sea un m
aximo. Para asegurarse que es un m
aximo deberan verificarse las condiciones de segundo orden. Adem
as debe verificarse que no se trata de un m
aximo relativo sino
absoluto.
13

Nota Bene. Si la funcion de densidad (o de probabilidad) f (x|) de la variable aleatoria


X pertenece a una familia regular uniparametrica de distribuciones, i.e., cuando el espacio
parametrico es un subconjunto de la recta real R, el sistema de ecuaciones (22) se reduce
a una sola ecuaci
on, denominada la ecuaci
on de verosimilitud,
n
X

(|xi ) = 0,

(24)

i=1

donde, para cada x S, la funcion de , (|x), se define por


(|x) :=

log f (x|)
.

(25)

Ejemplo 3.6 (Distribuciones de Bernoulli). Es facil ver que la familia de distribuciones


Bernoulli(), (0, 1), es una familia uniparametrica regular con funciones de probabilidad
de la forma f (x|) = (1 )1x x , x = 0, 1. En consecuencia, para encontrar el estimador de
m
axima verosimilitud para basado en una muestra aleatoria X = (X1 , . . . , Xn ) podemos
usar el resultado del Lema 3.5.
En primer lugar hallamos la expresi
on de la funcion (|x) =

log f (x|)
.

Observando que

log f (x|) = log(1 )1x x = (1 x) log(1 ) + x log ,


y derivando respecto de obtenemos
(|x) =

1
1
(x 1) + x
1

Por lo tanto, la ecuaci


on de verosimilitud (24) adopta la forma
n
n
1X
1 X
(xi 1) +
xi = 0.
1

i=1

(26)

i=1

Un poco de
algebra muestra que para cada pareja a 6= b vale que:
1
1
b
a+ b=0 =
.
(27)
1

ba
P
P
P
Sigue de (27), poniendo a = ni=1 (xi 1) = ni=1 xi n y b = ni=1 xi , que la solucion de la
ecuaci
on (26) es
n

1X
xi .
n
i=1

Con un poco m
as de trabajo, se puede verificar que dicha solucion maximiza el logaritmo de
la verosimilitud.
En resumen, si x = (x1 , . . . , xn ) son los valores observados de una muestra aleatoria
X = (X1 , . . . , Xn ), el estimador de m
axima verosimilitud para es el promedio (o media)
muestral
n

1X
mv = mv (x) =
xi
n
i=1

14

Por lo tanto, el estimador de m


axima verosimilitud para , basado en una muestra aleatoria
X = (X1 , . . . , Xn ) de una variable con distribuci
on Bernoulli(), es el promedio muestral
n

1X
mv (X) =
Xi .
n

(28)

i=1

Nota Bene. El estimador de m


axima verosimilitud para , basado en una muestra aleatoria
X = (X1 , . . . , Xn ), de una variable aleatoria con distribucion Bernoulli(),
n

X
= 1
Xi ,
X
n
i=1

es una variable aleatoria. Subrayamos este hecho para que no se pierda de vista que los
estimadores puntuales son funciones de la muestra aleatoria X = (X1 , . . . , Xn ) y por lo tanto
son variables aleatorias. En el Ejemplo 3.6, el par
ametro es la media de la distribucion que
produce la muestra y el estimador de m
axima verosimilitud para es el promedio muestral.
Por lo tanto, mv es un estimador insesgado, consistente y asint
oticamente normal.
Nota Bene. Si la muestra aleatoria arrojo los valores 1, 1, . . . , 1, es facil ver que mv = 1,
en cambio si arrojo 0, 0, . . . , 0 resulta que mv = 0. Estos resultados tambien coinciden con
el promedio de los valores observados. Por lo tanto, el resultado obtenido en (28) se puede
extender al caso en que = [0, 1].
Ejemplo 3.7 (Distribuciones de Bernoulli). Bajo el supuesto de que los valores de la secuencia
0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0.

(29)

fueron arrojados por una muestra aleatoria de tama


no 20 de una variable aleatoria X
Bernoulli(), el estimador de m
axima verosimilitud arrojar
a como resultado la siguiente estimacion para el par
ametro :
11
mv (0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0) =
= 0.55
20
Con esta estimacion podramos decir que la ley que produce esos valores es la distribucion de
Bernoulli (0.55). Por lo tanto, si queremos reproducir el generador de n
umeros aleatorios
que produjo esos resultados, debemos simular n
umeros aleatorios con distribucion de Bernoulli
de par
ametro 0.55.
Ejemplo 3.8 (Distribuciones normales con varianza conocida). Sea X = (X1 , . . . , Xn ) una
muestra aleatoria de una variable aleatoria X N (, 2 ), con varianza 2 > 0 conocida y
media R. La familia de distribuciones normales N (, 2 ), R, es una familia regular
uniparametrica con densidades de la forma
(x)2
1
f (x|) = e 22 .
2

15

Usando el resultado del Lema 3.5 se puede ver que el estimador de m


axima verosimilitud para
es
n

1X

mv (X) =
Xi = X.
n
i=1

En efecto, como
(|x) =

x
log f (x|)
=

la ecuaci
on de verosimilitud (24) equivale a
n
X
i=1

(xi ) = 0.

El resultado se obtiene despejando .


Ejemplo 3.9 (Distribuciones normales). La familia de distribuciones normales
{N (, 2 ) : R, 2 > 0}
es una familia regular con par
ametro bidimensional = (, 2 ) = R (0, ). Para
encontrar el estimador de m
axima verosimilitud del par
ametro (, 2 ) basado en una muestra
aleatoria X = (X1 , . . . , Xn ) usaremos los resultados del Lema 3.5. La densidad de cada
variable X es


 1
(x )2
2
12
2 2
exp
f (x|, ) = (2)

2 2
con lo cual

log f (x|, 2 ) = log(2) 2


En consecuencia,

(x )2
1
log 2
.
2
2 2

log f (x|, 2 )
x
=

2
log f (x|, 2 )
1
(x )2
=

+
.
2
2 2
2( 2 )2

Luego el sistema de ecuaciones (22) se transforma en el sistema


!
n
1 X
xi n
= 0,
2
i=1
!
n
1
1 X
(xi )2
n + 2
= 0.
2 2

i=1

que tiene como solucion


n

=
2 =

1X
xi = x
,
n
1
n

i=1
n
X
i=1

16

(xi x
)2 .

Se puede comprobar que en ese punto de coordenadas (, 2 ) se alcanza el m


aximo absoluto
2
de la funcion log L(, |x).
Resumiendo, cuando la muestra aleatoria X = (X1 , . . . , Xn ) arroja los valores x =
(x1 , . . . , xn ), el estimador de m
axima verosimilitud para (, 2 ) es el punto del conjunto parametrico R (0, ) cuyas coordenadas son el promedio y la varianza muestrales:
P
c2 mv (x) = 1 Pn (xi x

mv (x) = n1 ni=1 xi = x
y
)2 .
i=1
n
Por lo tanto, el estimador de m
axima verosimilitud para (, 2 ), basado en una muestra
aleatoria X = (X1 , . . . , Xn ) de variables normales, N (, 2 ), es el punto en R (0, ) de
coordenadas aleatorias
n

X
c2 mv (X) = 1
2.

(Xi X)
n

mv (X) = X,

(30)

i=1

3.2.1.

Familias exponenciales

Muchos modelos estadsticos pueden considerarse como casos particulares de una familia
m
as general de distribuciones.
Definici
on 3.10 (Familias exponenciales). Decimos que la distribucion de una variable
aleatoria X pertenece a una familia exponencial unidimensional de distribuciones, si podemos
escribir su funcion de probabilidad o su funcion densidad como
f (x|) = ea()T (x)+b()+S(x) ,

x S,

(31)

donde, a y b son funciones de ; T y S son funciones de x y S no depende de .


Nota Bene. Si las funciones a y b son derivables y el espacio parametrico es abierto,
las densidades (31) constituyen una familia regular uniparametrica y en consecuencia, para
encontrar el estimador de m
axima verosimilitud de , basado en una muestra aleatoria X =
(X1 , . . . , Xn ), se puede usar el resultado del Lema 3.5.
Debido a que el logaritmo de la densidad (31) es
log f (x|) = a()T (x) + b() + S(x)
tenemos que
(|x) =

log f (x|)
= a ()T (x) + b ()

y en consecuencia, la ecuaci
on de verosimilitud (24) adopta la forma

a ()

n
X

T (xi ) + nb () = 0.

i=1

Por lo tanto, el estimador de m


axima verosimilitud para satisface la ecuaci
on
n

1X
b ()
=
T (xi ).
a ()
n
i=1

17

(32)

Ejemplo 3.11 (Distribuciones exponenciales). Sea X una variable aleatoria con distribucion
Exponencial(), > 0. Podemos escribir
f (x|) = ex = ex+log
Por lo tanto, la distribucion de X pertenece a una familia exponencial unidimensional con
a() = , b() = log , T (x) = x, S(x) = 0 y S = (0, ). La ecuaci
on de verosimilitud (32)
adopta la forma
n
1
1X
=
xi = x

(33)

n
i=1

cuya solucion es = 1/
x. Se puede verificar que el valor de as obtenido maximiza el
logaritmo de la verosimilitud.
Si la muestra aleatoria X = (X1 , . . . , Xn ) arrojo los valores x = (x1 , . . . , xn ), el estimador
de m
axima verosimilitud para es
mv (x) = (

x)1 .

Por lo tanto, el estimador de m


axima verosimilitud para , basado en una muestra aleatoria
X = (X1 , . . . , Xn ) de variables con distribucion Exponencial(), es
!1
n
X
1
mv (X) =
Xi
.

n
i=1

Ejemplo 3.12 (Distribuciones normales con media conocida). Sea X una variable aleatoria
con distribucion normal N (, 2 ), donde la media es conocida y la varianza 2 > 0. Podemos
escribir

(x)2
1
2 1
2
1
f (x| 2 ) =
e 22 = e 22 (x) 2 log log 2
2
Por lo tanto, la distribucion de X pertenece a una familia exponencial
unidimensional con

on
a( 2 ) = 21 2 , b( 2 ) = 21 log 2 , T (x) = (x )2 , S(x) = log 2 y S = R. La ecuaci
de verosimilitud (32) adopta la forma
n

1X
1/2 2
=
(xi )2
1/2( 2 )2
n

(34)

i=1

P
cuya solucion es 2 = n1 ni=1 (xi )2 . Se puede verificar que el valor de 2 as obtenido
maximiza el logaritmo de la verosimilitud.
Si la muestra aleatoria X = (X1 , . . . , Xn ) arrojo los valores x = (x1 , . . . , xn ), el estimador
de m
axima verosimilitud para 2 es
n
1X
c
2
(xi )2 .
mv (x) =
n
i=1

Por lo tanto, el estimador de m


axima verosimilitud para 2 , basado en una muestra aleatoria
X = (X1 , . . . , Xn ) de variables con distribucion N (, 2 ), es
n

X
c2 mv (X) = 1

(Xi )2 .
n
i=1

18

3.2.2.

Malas noticias!
Esta calle es m
as angosta de lo que pens
as.
(Proverbio Zen)

Ejemplo 3.13 (Fiabilidad). Sea T1 , . . . , Tn una muestra aleatoria del tiempo de duraci
on sin
1
fallas de una m
aquina cuya funcion intensidad de fallas es (t) = t
1{t > 0}, donde el
par
ametro de desgaste > 0 es desconocido. La densidad de cada tiempo T es

f (t|) = t1 et 1{t > 0}

(35)

Observando que
log f (t|) = log + ( 1) log t t
y derivando respecto de se obtiene
log f (x|)
1
= + log t t log t.

Por lo tanto, la ecuaci


on de verosimilitud (24) adopta la forma
n

i=1

i=1

X
n X
ti log ti = 0
log ti
+

(36)

La mala noticia es que la ecuaci


on (36) no tiene una solucion analtica explcita.
El ejemplo anterior muestra que en algunos casos la ecuaci
on de verosimilitud no presenta
solucion analtica explcita. En tales casos, los estimadores de m
axima verosimilitud pueden
obtenerse mediante metodos numericos.
M
etodo de Newton-Raphson. El metodo de Newton-Raphson es un procedimiento iterativo para obtener una raz de una ecuaci
on
g() = 0,

(37)

donde g() es una funcion suave. La idea es la siguiente: supongamos que es una raz de la
ecuaci
on (37). Desarrollando g() en serie de Taylor en torno de un punto 0 , obtenemos que
g() g(0 ) + ( 0 )g (0 ).
En consecuencia, si 0 esta cerca de una raz de la ecuaci
on (37), debera ocurrir lo siguiente
0

g(0 )
.
g (0 )

(38)

De la ecuaci
on (38) obtenemos el procedimiento iterativo
j+1 = j

g(j )
g (j )

(39)

que se inicia con un valor 0 y produce un nuevo valor 1 a partir de (39) y as siguiendo,
hasta que el proceso se estabilice, o sea, hasta que |j+1 j | < para un > 0 peque
no y
prefijado.
19

Ejemplo 3.14 (Continuaci


on del Ejemplo 3.13). Para resolver la ecuaci
on (36) usaremos el
procedimiento de Newton-Raphson aplicado a la funcion
g() =

i=1

i=1

X
n X
+
log ti
ti log ti .

Como
n

X
n
ti (log ti )2 ,
g () = 2

i=1

el procedimiento iterativo (39) adopta la forma


j+1 = j +

Pn
i=1 ti log ti
i=1 log ti
.
P

n
n
2
+
t
(log
t
)
i
2
i=1
i

Pn

(40)

Generando una muestra aleatoria de tama


no n = 20 de una variable aleatoria T con
densidad dada por (35) con = 2 e inicializando el procedimiento iterativo (40) con 1 = T
obtuvimos que mv = 2.3674.
Generando una muestra aleatoria de tama
no n = 10000 de una variable aleatoria T con
densidad dada por (35) con = 2 e inicializando el procedimiento iterativo (40) con 1 = T
obtuvimos que mv = 1.9969.

3.3.

C
alculo del emv para familias no regulares
Vena r
apido, muy r
apido y se le solt
o un patn ...

Ahora mostraremos algunos ejemplos correspondientes a familias no regulares. En estos


casos hay que analizar donde se realiza el m
aximo a mano.
Ejemplo 3.15 (Distribuciones de Bernoulli con par
ametros discretos). Supongamos que los
valores observados en la secuencia (29) que aparece en el Ejemplo 3.7 fueron arrojados por una
muestra aleatoria de tama
no n = 20 de una variable aleatoria X con distribucion Bernoulli(p),
donde p = 0.45 o p = 0.65. La familia de distribuciones no es regular debido a que el espacio
parametrico {0.45, 0.65} no es abierto. En esta situacion no puede utilizarse la metodologa
del Lema 3.5 pues conduce a resultados totalmente disparatados. Lo u
nico que se puede hacer
es comparar los valores L(0.45|x), L(0.65|x) y quedarse con el valor de p {0.45, 0.65} que
haga m
axima la probabilidad de observar el resultado x:
L(0.45|x) = (0.45)11 (0.55)9 = (7.0567...)107
L(0.65|x) = (0.65)11 (0.35)9 = (6.8969...)107 .
Por lo tanto, el estimador de m
axima verosimilitud, basado en las observaciones (29), sera
pmv (0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0) = 0.45.

20

Ejemplo 3.16 (Distribucion uniforme). La familia {U(0, ) : > 0} de distribuciones uniformes no es una familia regular debido a que el soporte de la densidad de la distribucion
U(0, ) es [0, ] (y depende claramente del valor del par
ametro ). En esta situacion tampoco
puede utilizarse la metodologa del Lema 3.5. En este caso = (0, ) y las funciones de
densidad son de la forma
1
f (x|) = 1{0 x }.

La funcion de verosimilitud es
n
n
Y
1
1 Y
L(|x) =
1{0 xi } = n
1{0 xi }

i=1
i=1


1
=
1
m
a
x
x

.
i
i=1,...,n
n
Si < m
axi xi , entonces L(|x) = 0. Si m
axi xi , entonces L(|x) = n , una funcion
decreciente en . En consecuencia, su m
aximo se alcanza en
= m
ax xi .
i=1,...,n

Por lo tanto, el estimador de m


axima verosimilitud para , basado en una muestra aleatoria
X = (X1 , . . . , Xn ) de una variable aleatoria X U(0, ), es el m
aximo de la muestra
mv (X) = X(n) := m
ax Xi .
i=1,...,n

Ejemplo 3.17 (Distribucion uniforme). La familia {U( 1/2, + 1/2) : R} de distribuciones uniformes no es una familia regular debido a que el soporte de la densidad de
la distribucion U( 1/2, + 1/2) es [ 1/2, + 1/2] (y depende claramente del valor del
par
ametro ). En este caso = R y las funciones de densidad son de la forma
f (x|) = 1{ 1/2 x + 1/2}.
La funcion de verosimilitud es
L(|x) =

n
Y
i=1

1{ 1/2 xi + 1/2}

pues
si y solamente si


= 1 m
ax xi 1/2 mn xi + 1/2
i=1,...,n
i=1,...,n


= 1 x(n) 1/2 x(1) + 1/2 ,
1/2 xi + 1/2,
xi + 1/2

i = 1, . . . , n,

xi 1/2 ,

i = 1, . . . , n,

Como L(|x) se anula para < x(n) y para > x(1) + 1/2 y es constantemente 1 en el
intervalo [x(n) 1/2, x(1) + 1/2], tenemos que cualquier punto de ese intervalo es un estimador
de m
axima verosimilitud para . En particular,
x(1) + x(n)

(x)
=
2
es un estimador de m
axima verosimilitud para . Etc...
21

3.4.

Principio de invariancia

En lo que sigue presentamos una propiedad bastante importante del metodo de m


axima
verosimilitud.
Teorema 3.18 (Principio de invariancia). Sea X1 , . . . , Xn una muestra aleatoria de una
variable aleatoria X cuya distribuci
on pertenece a la familia parametrica F = {F : }.
Sea g : una funci
on biunvoca de sobre . Si es un estimador de m
axima

verosimilitud para , entonces g() es un estimador de m


axima verosimilitud para = g().
Demostraci
on. Como = g() es una funcion biunvoca de sobre , la funcion de
verosimilitud L(|x) se puede expresar en funcion de ya que = g 1 (). Denominemos a
la funcion de verosimilitud, como funcion de , por L (|x). Es claro que
L (|x) = L(g 1 ()|x).
:= g(mv ) su imagen
Sea mv un estimador de m
axima verosimilitud para y sea
por g. Hay que mostrar que vale lo siguiente:

L (|x)
= m
ax L (|x)

Pero esto es inmediato, debido a que

L (|x)
= L(g 1 ()|x)
= L(mv |x) = m
ax L(|x) = m
ax L(g 1 ()|x)

= m
ax L (|x).

Por lo tanto,
d

g()
mv = g(mv ).
Ejemplo 3.19. Sea X1 , . . . , Xn una muestra aleatoria de la variable aleatoria X N (, 1).
es el estimador de m
En el Ejemplo 3.8 vimos que
mv = X
axima verosimilitud para .
Queremos estimar
g() = P (X 0) = ().
Por el principio de invariancia, tenemos que

g(
mv ) = (X)
es el estimador de m
axima verosimilitud para P (X 0).
Nota Bene En general, si = g(), aunque g no sea biunvoca, se define el estimador de
m
axima verosimilitud de por
= g(mv ).

22

4.

Bibliografa consultada
Para redactar estas notas se consultaron los siguientes libros:
1. Bolfarine, H., Sandoval, M. C.: Introducao `a Inferencia Estatstica. SBM, Rio de Janeiro.
(2001).
2. Borovkov, A. A.: Estadstica matem
atica. Mir, Mosc
u. (1984).
3. Cramer, H.: Metodos matem
aticos de estadstica. Aguilar, Madrid. (1970).
4. Hoel P. G.: Introducci
on a la estadstica matem
atica. Ariel, Barcelona. (1980).
5. Maronna R.: Probabilidad y Estadstica Elementales para Estudiantes de Ciencias. Editorial Exacta, La Plata. (1995).

23

Estimacion por intervalo


(Borradores, Curso 23)
Sebastian Grynberg
27-29 de mayo de 2013

Si ves al futuro, dile que no venga.


(Juan Jose Castelli)

Indice
1. Estimaci
on por intervalo
1.1. El metodo del pivote . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.1. Pivotes decrecientes . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.2. Pivotes crecientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2. Muestras de Poblaciones Normales
2.1. Media y varianza desconocidas . . . . . . . .
2.1.1. Teorema llave . . . . . . . . . . . . . .
2.1.2. Cotas e intervalos de confianza para la
2.1.3. Cotas e intervalos de confianza para la
2.1.4. Ejemplo . . . . . . . . . . . . . . . . .
2.2. Media de la normal con varianza conocida . .
2.3. Varianza de la normal con media conocida . .

. . . . .
. . . . .
varianza
media .
. . . . .
. . . . .
. . . . .

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

3
5
5
8
10
10
10
11
12
13
13
14

3. Intervalos aproximados para ensayos Bernoulli

15

4. Comparaci
on de dos muestras normales
4.1. Cotas e intervalos de confianza para la diferencia de medias .
4.1.1. Varianzas conocidas . . . . . . . . . . . . . . . . . . .
4.1.2. Varianzas desconocidas. . . . . . . . . . . . . . . . . .
4.2. Cotas e intervalos de confianza para el cociente de varianzas.

.
.
.
.

17
17
17
17
19

5. Comparaci
on de dos muestras
5.1. Planteo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2. Problema de dos muestras binomiales . . . . . . . . . . . . . . . . . . . . . .

19
19
20

6. Ap
endice: Demostraci
on del Teorema llave

6.1. Preliminares de An
alisis y Algebra
. . . . . . . . . . . . . . . . . . . . . . . .
6.2. Lema previo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.3. Demostraci
on del Teorema. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

22
22
23
23

7. Bibliografa consultada

24

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

1.

Estimaci
on por intervalo

En lo que sigue consideramos el problema de estimacion de par


ametros utilizando intervalos de confianza. Consideramos una muestra aleatoria X = (X1 , . . . , Xn ) de la variable
aleatoria X cuya funcion de distribucion F (x) := P(X x), pertenece a la familia parametrica de distribuciones (distinguibles) F = {F : }, R. La idea basica es la siguiente:
aunque no podamos determinar exactamente el valor de podemos tratar de construir un intervalo aleatorio [ , + ] tal que con una probabilidad bastante alta, sea capaz de capturar
el valor desconocido .
Definici
on 1.1 (Intervalo de confianza). Un intervalo de confianza para de nivel es un
intervalo aleatorio, I(X), que depende de la muestra aleatoria X, tal que
P ( I(X)) = ,

(1)

para todo .
Definici
on 1.2 (Cotas de confianza). Una cota inferior de confianza para , de nivel ,
basada en la muestra aleatoria X, es una variable aleatoria 1 (X) tal que
P (1 (X) ) = ,

(2)

para todo .
Una cota superior de confianza para , de nivel , basada en la muestra aleatoria X, es
una variable aleatoria 2 (X) tal que
P ( 2 (X)) = ,

(3)

para todo .
Nota Bene. En el caso discreto no siempre se pueden obtener las igualdades (1), (2) o (3).
Para evitar este tipo de problemas se suele definir un intervalo mediante la condici
on m
as
laxa P ( I(X)) , . En este caso el mn P ( I(X)) se llama nivel de confianza.
Observaci
on 1.3. Sean 1 (X) una cota inferior de confianza de nivel 1 > 1/2 y 2 (X) una
cota superior de confianza de nivel 2 > 1/2, tales que P (1 (X) 2 (X)) = 1 para todo
. Entonces,
I(X) = [1 (X), 2 (X)]
define un intervalo de confianza para de nivel = 1 + 2 1. En efecto,
P ( I(X)) = 1 P ( < 1 (X) o > 2 (X))

= 1 P ( < 1 (X)) P ( > 2 (X))

= 1 (1 1 ) (1 2 ) = 1 + 2 1.

(4)

La identidad (4) muestra que la construcci


on de intervalos de confianza se reduce a la
construcci
on de cotas inferiores y superiores. M
as precisamente, si se quiere construir un
intervalo de confianza de nivel , basta construir una cota inferior de nivel 1 = (1 + )/2 y
una cota superior de nivel 2 = (1 + )/2.
Las ideas principales para construir intervalos de confianza estan contenidas en el ejemplo
siguiente.
3

Ejemplo 1.4 (Media de la normal con varianza conocida). Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria X N (, 2 ), con varianza 2 conocida. Para obtener
un intervalo de confianza de nivel para , consideramos el estimador de m
axima verosimilitud para
n

X
= 1
X
Xi .
n
i=1

se obtiene utilizando los resultados conocidos sobre sumas de normales


La distribucion de X
independientes y de cambio de escala:


2
N , .
X
n
En consecuencia,



n X
N (0, 1) .

Por lo tanto, para cada R vale que


P

z(1+)/2

!


n X
z(1+)/2 = .

Despejando de las desigualdades dentro de la probabilidad, resulta que





P X z(1+)/2 X + z(1+)/2 = ,
n
n
y por lo tanto el intervalo



I(X) = X
z
,X+
z
n (1+)/2
n (1+)/2
es un intervalo de confianza para de nivel .
Nota Bene. Las ideas principales para construir el intervalo de confianza contenidas en el
ejemplo anterior son las siguientes:
1. Obtener un estimador del par
ametro y caracterizar su distribucion.
2. Transformar el estimador de par
ametro hasta convertirlo en una variable aleatoria cuya
distribucion conocida que no dependa del par
ametro.
3. Poner cotas para el estimador transformado y despejar el par
ametro.

1.1.

El m
etodo del pivote

Cuando se quieren construir intervalos de confianza para lo m


as natural es comenzar la

construcci
on apoyandose en alg
un estimador puntual del par
ametro (X)
(cuya distribucion
depende de ). Una tecnica general para construir intervalos de confianza, llamada el metodo

del pivote, consiste en transformar el estimador (X)


hasta convertirlo en una variable aleatoria cuya distribucion sea conocida y no dependa de . Para que la transformacion sea u
til
no debe depender de ning
un otro par
ametro desconocido.
Definici
on 1.5 (Pivote). Una variable aleatoria de la forma Q(X, ) se dice una cantidad
pivotal o un pivote para el par
ametro si su distribucion no depende de (ni de ning
un
par
ametro desconocido, cuando hay varios par
ametros).
Nota Bene. Por definicion, la distribucion del pivote Q(X, ) no depende de . Para cada
(0, 1) notaremos mediante q el cuantil- del pivote. Si el pivote tiene distribucion
continua y su funcion de distribucion es estrictamente creciente, q es la u
nica solucion de la
ecuaci
on
P (Q(X, ) q ) = .
M
etodo. Si se consigue construir un pivote Q(X, ) para el par
ametro , el problema de la
construcci
on de intervalos de confianza, de nivel , se descompone en dos partes:
1. Encontrar parejas de n
umeros reales a < b tales que P (a Q(X; ) b) = . Por
ejemplo, a = q 1 y b = q 1+ .
2

2. Despejar el par
ametro de las desigualdades a Q (X, ) b.
Si el pivote Q(X, ) es una funcion monotona en se puede ver que existen 1 (X) y 2 (X)
tales que
a Q(X; ) b 1 (X) 2 (X)
y entonces
P (1 (X) 2 (X)) = ,
de modo que I(X) = [1 (X), 2 (X)] es un intervalo de confianza para de nivel .
1.1.1.

Pivotes decrecientes

Sea Q(X, ) un pivote para que goza de las siguientes propiedades:


(i) la funcion de distribucion de Q(X, ) es continua y estrictamente creciente;
(ii) para cada x, la funcion Q(x, ) es continua y monotona decreciente en la variable :
1 < 2 = Q(x, 1 ) > Q(x, 2 )
Sea (0, 1), arbitrario pero fijo y sea q el cuantil- del pivote Q(X, ).
Para cada x, sea (x, ) la u
nica solucion de la ecuaci
on en
Q(x, ) = q .

q = Q(x, )
{ : Q(x, ) q }

(x, )

Como el pivote Q(X, ) es decreciente en tenemos que


Q(X, ) q (X, ) .
En consecuencia,
P ((X, ) ) = P (Q(X, ) q ) = ,

Por lo tanto, (X, ) es una cota inferior de confianza para de nivel y una cota superior
de nivel 1 .
M
etodo
Sea (0, 1). Si se dispone de un pivote Q(X, ) que satisface las propiedades (i) y (ii)
enunciadas m
as arriba, entonces
la variable aleatoria, 1 (X), que se obtiene resolviendo la ecuaci
on Q(X, ) = q es una
cota inferior de confianza para , de nivel .
la variable aleatoria, 2 (X), que se obtiene resolviendo la ecuaci
on Q(X, ) = q1 es
una cota superior de confianza para , de nivel .
el intervalo aleatorio I(X) = [1 (X), 2 (X)] cuyos extremos son las soluciones respectivas
de las ecuaciones Q(X, ) = q 1+ y Q(X, ) = q 1 , es un intervalo bilateral de
2
2
confianza para , de nivel .
Ejemplo 1.6 (Extremo superior de la distribucion uniforme). Sea X = (X1 , . . . , Xn ) una
muestra aleatoria de una variable aleatoria X U(0, ), > 0.
6

El estimador de m
axima verosimilitud para es X(n) = m
ax(X1 , . . . , Xn ) y tiene densidad
de la forma
nxn1
f (x) =
1{0 x }.
n
Como la distribucion de X(n) depende de , X(n) no es un pivote para . Sin embargo, podemos
liberarnos de utilizando un cambio de variables lineal de la forma Q = X(n) /:
fQ (q) = nq n1 1{0 q 1}.
Por lo tanto,
Q(X, ) = X(n) /
es un pivote para .
5
4.5
4
3.5
3
2.5
2
1.5
1
0.5
0

0.2

0.4

0.6

0.8

Figura 1: Forma tpica del gr


afico de la densidad del pivote Q(X, ).
Los cuantiles- para Q se obtienen observando que
Z q
fQ (q)dq q = 1/n .
= P(Q(X, ) q ) =
0

Construyendo un intervalo de confianza. Dado el nivel de confianza (0, 1), para construir un intervalo de confianza de nivel notamos que

= P (q1 Q(X, ) 1) = P q1 X(n) / 1

Despejando de las desigualdades dentro de la probabilidad, resulta que




 
X(n)
X(n)
I(X) = X(n) ,
= X(n) ,
q1
(1 )1/n
es un intervalo de confianza para de nivel .

1.1.2.

Pivotes crecientes

Sea Q(X, ) un pivote para que goza de las siguientes propiedades:


(i) la funcion de distribucion de Q(X, ) es continua y estrictamente creciente;
(ii) para cada x, la funcion Q(x, ) es continua y monotona creciente en la variable :
1 < 2 = Q(x, 1 ) < Q(x, 2 )

q
q = Q(x, )

{ : Q(x, ) q }

(x, )

Sea (0, 1), arbitrario pero fijo y sea q el cuantil- del pivote Q(X, ).
Para cada x, sea (x, ) la u
nica solucion de la ecuaci
on en
Q(x, ) = q .
Como el pivote Q(X, ) es creciente en tenemos que
Q(X, ) q (X, ).
En consecuencia,
P ( (X, )) = P (Q(X, ) q ) = ,

Por lo tanto, (X, ) es una cota superior de confianza para de nivel y una cota inferior
de nivel 1 .

M
etodo
Sea (0, 1). Si se dispone de un pivote Q(X, ) que satisface las propiedades (i) y (ii)
enunciadas m
as arriba, entonces
la variable aleatoria, 1 (X), que se obtiene resolviendo la ecuaci
on Q(X, ) = q1 es
una cota inferior de confianza para , de nivel .
la variable aleatoria, 2 (X), que se obtiene resolviendo la ecuaci
on Q(X, ) = q es una
cota superior de confianza para , de nivel .
el intervalo aleatorio I(X) = [1 (X), 2 (X)], cuyos extremos son las soluciones respectivas de las ecuaciones Q(X, ) = q 1 y Q(X, ) = q 1+ , es un intervalo bilateral de
2
2
confianza para , de nivel .
Ejemplo 1.7 (Intensidad de la distribucion exponencial). Sea X = (X1 , . . . , Xn ) una muestra
aleatoria de una variable aleatoria X Exp(), > 0.
donde X
= 1 Pn Xi . Sabemos
El estimador deP
m
axima verosimilitud para es 1/X,
i=1
n
= n Xi tiene distribucion (n, ).
que la suma nX
i=1
depende de , nX
no es un pivote para . Sin embargo,
Como la distribucion de nX

podemos liberarnos de utilizando un cambio de variables lineal de la forma Q = anX,

donde a es positivo yelegido adecuadamente para nuestros prop


ositos. Si a > 0 y Q = anX,

1
2
n,
entonces Q n, a . Poniendo a = 2, resulta que Q = 2nX
2 = 2n . (Recordar
n 1
2
que 2 , 2 = n .)
Por lo tanto,
= 2
Q(X, ) = 2nX

n
X
i=1

Xi 22n

es un pivote para .
Construyendo una cota superior de confianza. Dado (0, 1), para construir una cota

superior de confianza para , de nivel , primero observamos que el pivote Q(X, ) = 2nX
es una funcion continua y decreciente en . Debido a que
= 2 =
2nX

resulta que
2 (X) =

2nX

2
Pn

i=1 Xi

es una cota superior de confianza para de nivel .


Ilustraci
on.

Consideremos ahora las siguientes 10 observaciones


0.5380, 0.4470, 0.2398, 0.5365, 0.0061,
0.3165, 0.0086, 0.0064, 0.1995, 0.9008.

P
En tal caso tenemos 10
i=1 = 3.1992. Tomando = 0.975, tenemos de la tabla de la distribuci
on 220 que 220,0.975 = 34.17, entonces 2 (x) = 5.34 es una cota superior de confianza para
de nivel = 0.975.
9

2.

Muestras de Poblaciones Normales

En esta secci
on estudiaremos la distribucion de probabilidades de los estimadores de m
axima verosimilitud para la media y la varianza de poblaciones normales. La tecnica de an
alisis
se basa en la construcci
on de pivotes para los par
ametros desconocidos. Usando esos pivotes
mostraremos como construir intervalos de confianza en los distintos escenarios posibles que
se pueden presentar.
Notaci
on. En todo lo que sigue usaremos la siguiente notaci
on: para cada (0, 1), z
sera el u
nico n
umero real tal que (z ) = . Gr
aficamente, a izquierda del punto z el area
bajo la campana de Gauss es igual a .
Nota Bene. De la simetra de la campana de Gauss, se deduce que para cada (0, 1)
vale que z(1)/2 = z(1+)/2 . Por lo tanto, para Z N (0, 1) vale que


 1+ 1
P z(1+)/2 Z z(1+)/2 = z(1+)/2 z(1+)/2 =

= .
2
2

2.1.

Media y varianza desconocidas

Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria X N (, 2 ), con


media y varianza desconocidas. Los estimadores de m
axima verosimilitud para la media y
la varianza, basados en X, son, respectivamente,
n

mv (X) = X,

X
c2 mv (X) = 1
2.
(Xi X)

(5)

i=1

2.1.1.

Teorema llave

Teorema 2.1 (Llave). Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una distribuci
on
N (, 2 ). Valen las siguientes afirmaciones:
(a) Z =
(b) U =

n(X)
tiene distribuci
on N (0, 1).

1 Pn
n1 2
2 tiene distribuci
S = 2 i=1 (Xi X)
on
2

2n1 .

(c) Z y U son variables aleatorias independientes.

Nota Bene. El calificativo de llave para el Teorema 2.1 esta puesto para destacar que
sus resultados son la clave fundamental en la construcci
on de intervalos de confianza y de
reglas de decisi
on sobre hip
otesis estadsticas para distribuciones normales. La prueba de este
Teorema puede verse en el Apendice.
Corolario 2.2 (Pivotes para la media y la varianza).PSea X = (X1 , . . . , XP
n ) una muestra
n
= 1 n Xi y S 2 = 1
2
aleatoria de una distribucion N (, 2 ). Sean X
i=1
i=1 (Xi X) .
n
n1
Vale que
(a)
Q(X, 2 ) =
10

(n 1) 2
S
2

(6)

es un pivote para la varianza 2 y su distribucion es una chi cuadrado con n 1 grados


de libertad (en smbolos, Q(X, 2 ) 2n1 ).
(b)
Q(X, ) =

)
n(X
S

(7)

es un pivote para la media y su distribucion es una t de Student con n 1 grados de


libertad (en smbolos, Q(X, ) tn1 ).
Demostraci
on.
(a) Inmediato de la afirmacion (b) del Teorema 2.1.

(b) La afirmacion (a) del Teorema 2.1 indica que Z = n(X
)/ N (0, 1). Pero como 2

es un par
ametro desconocido, la transformacion n(X )/ es in
util por s sola para
construir un pivote. Sin embargo, la afirmacion (c) del Teorema 2.1 muestra que este
problema se puede resolver reemplazando la desconocida 2 por su estimacion insesgada
S 2 . Concretamente, tenemos que



Z
n(X )
n(X )/
n(X )/
p
=p
,
Q(X, ) =
=
=
2
2
S
S/
U/(n 1)
S /

donde Z = n(X
S 2 2n1 son variables aleatorias
)/ N (0, 1) y U = (n1)
2
independientes. En consecuencia, Q(X, ) tn1 .

2.1.2.

Cotas e intervalos de confianza para la varianza

Notar que el pivote para la varianza Q(X, 2 ) definido en (6) goza de las propiedades
enunciadas en la secci
on 1.1.1 para pivotes decrecientes:
la funcion de distribucion de Q(X, 2 ) es continua y estrictamente creciente;
para cada x, la funcion Q(x, 2 ) es continua y monotona decreciente respecto de 2 .
En consecuencia, las cotas e intervalos de confianza para la varianza se pueden construir
usando el resolviendo la ecuaci
on Q(X, 2 ) = 2n1, , donde chi2n1, designa el cuantil- de
la distribucion chi cuadrado con n 1 grados de libertad.
Observando que
Q(X, 2 ) = 2n1,

(n 1)S 2
(n 1)S 2
2
2
,
=

=
n1,

2
2n1,

se deduce que, para cada (0, 1),


1.
12 (X) =

(n 1)S 2
2n1,

es una cota inferior de confianza de nivel para 2 ;


11

(8)

2.
22 (X) =

(n 1)S 2
2n1, 1

es una cota superior de confianza de nivel para 2 ;


3.

"

(n 1)S 2
(n 1)S 2
,
I(X) =
2n1, (1+)/2 2n1, (1)/2

es un intervalo de confianza de nivel para 2 .


2.1.3.

Cotas e intervalos de confianza para la media

Notar que el pivote para la media Q(X, ) definido en (7) goza de las propiedades enunciadas en la secci
on 1.1.1 para pivotes decrecientes:
la funcion de distribucion de Q(X, ) es continua y estrictamente creciente;
para cada x, la funcion Q(x, ) es continua y monotona decreciente respecto de .
En consecuencia, las cotas e intervalos de confianza para la varianza se pueden construir
usando el resolviendo la ecuaci
on Q(X, ) = tn1, , donde tn1, designa el cuantil- de la
distribucion t de Student con n 1 grados de libertad.
Observando que

n(X )
S tn1, ,
Q(X, ) = tn1,
= tn1, = X
(9)
S
n
y usando que que la densidad de la distribucion tn1 es simetrica respecto del origen (i.e,
tn1, 1 = tn1, ), tenemos que, para cada (0.5, 1),
1.

S tn1,
1 (X) = X
n
es una cota inferior de confianza de nivel para ;

2.

S tn1, 1 = X
+ S tn1,
2 (X) = X
n
n
es una cota superior de confianza de nivel para ;

3.

+ S tn1, (1+)/2
S tn1, (1+)/2 , X
I(X) = X
n
n
es un intervalo de confianza de nivel para .

12

2.1.4.

Ejemplo

Para fijar ideas vamos a construir intervalos de confianza de nivel = 0.95 para la media
y la varianza de una variable normal N (, 2 ), basados en una muestra aleatoria de volumen
n = 8 que arrojo los resultados siguientes: 9, 14, 10, 12, 7, 13, 11, 12.
El problema se resuelve recurriendo a las tablas de las distribuciones 2 y t y haciendo
algunas cuentas.
Como n = 8 consultamos las tablas de 27 y de t7 . Para el nivel = 0.95 tenemos que
(1 + )/2 = 0.975 y (1 )/2 = 0.025. De acuerdo con las tablas 27, 0.975 = 16.0127, 27, 0.025 =
= 11, S 2 = 36/7 = 5.1428 y S = 2.2677.
1.6898 y t7, 0.975 = 2.3646. Por otra parte, X
Algunas cuentas m
as (y un poco de paciencia) permiten rematar este asunto. Salvo errores
de cuentas, I1 = [2.248, 21.304] es un intervalo de confianza de nivel 0.95 para la varianza,
mientras que I2 = [9.104, 12.895] es un intervalo de confianza de nivel 0.95 para la media.

2.2.

Media de la normal con varianza conocida

Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria X N (, 2 ), con


varianza 2 conocida. En el Ejemplo 1.4 mostramos que

n(X )
Q(X, ) =
N (0, 1)

es un pivote para la media .


Como el pivote para la media goza de las propiedades enunciadas en la secci
on 1.1.1 para
pivotes decrecientes,
la funcion de distribucion de Q(X, ) es continua y estrictamente creciente,
para cada x, la funcion Q(x, ) es continua y monotona decreciente respecto de ,
las cotas e intervalos de confianza para la media se pueden construir resolviendo la ecuaci
on
Q(X, ) = z , donde z designa el cuantil- de la distribucion normal estandar N (0, 1).
Observando que

n(X )
z ,
Q(X, ) = z
= z = X

n
y usando que que la densidad de la distribucion N (0, 1) es simetrica respecto del origen (i.e,
z1 = z ), tenemos que, para cada (0.5, 1),
1.

2.

3.

z
1 (X) = X
n
es una cota inferior de confianza de nivel para ;
+ z
2 (X) = X
n
es una cota superior de confianza de nivel para ;



I(X) = X z(1+)/2 , X + z(1+)/2


n
n
es un intervalo de confianza de nivel para .
13

2.3.

Varianza de la normal con media conocida

Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria X N (, 2 ), con


media conocida. El estimador de m
axima verosimilitud para 2 es
n

X
c2 mv (X) = 1

(Xi )2 .
n
i=1

Para construir un pivote para la varianza observamos que



n
n 
X
n c2
Xi 2 X 2
Zi ,
=

(X)
=
mv
2

i=1

i=1

Xi

son variables independientes cada una con distribucion normal estandar


n c
2
N (0, 1). En otras palabras, la distribuci
Ponn de 2la variable aleatoria 2 mv (X) coincide con la
distribucion de una suma de la forma i=1 Zi , donde las Zi son N (0, 1) independientes. Por
lo tanto,
donde Zi =

Q(X, 2 ) =

c2 mv (X)
n
2n
2

es un pivote para 2 .
Como el pivote para la varianza Q(X, 2 ) goza de las propiedades enunciadas en la secci
on
1.1.1 para pivotes decrecientes,
la funcion de distribucion de Q(X, 2 ) es continua y estrictamente creciente,
para cada x, la funcion Q(x, 2 ) es continua y monotona decreciente respecto de 2 ,
las cotas e intervalos de confianza para la varianza se pueden construir resolviendo la ecuaci
on
Q(X, 2 ) = 2n, , donde 2n, designa el cuantil- de la distribucion chi cuadrado con n grados
de libertad.
Observando que
Q(X, 2 ) = 2n,

c2 mv (X)
c2 mv (X)
n
n
2
2
,
=

=
n,
2
2n1,

se deduce que, para cada (0, 1),


1.

12 (X) =

c2 mv (X)
n
2n,

es una cota inferior de confianza de nivel para 2 ;


2.
22 (X) =

c2 mv (X)
n
2n, 1

es una cota superior de confianza de nivel para 2 ;


3.

"

c2 mv (X)
c2 mv (X) n
n
,
I(X) =
2n, (1+)/2 2n, (1)/2

es un intervalo de confianza de nivel para 2 .


14

3.

Intervalos aproximados para ensayos Bernoulli

Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria X Bernoulli(p),


donde n >> 1. El estimador de m
axima verosimilitud para p es
n

X
= 1
X
Xi .
n
i=1

Para construir un pivote para la varianza observamos


que de acuerdo con el Teorema cenPn
tral del lmite la distribucion aproximada de i=1 Xi es una normal N (np, np(1 p)) y en
consecuencia

n(X p)
Q(X, p) = p
N (0, 1)
p(1 p)

es un pivote asintotico para p.


Usando metodos analticos se puede mostrar que Q(X, p) es una funcion continua y decreciente en p (0, 1). Como el pivote asintotico para p goza de las propiedades enunciadas
en la secci
on 1.1.1 para pivotes decrecientes, las cotas e intervalos de confianza para p se
pueden construir resolviendo la ecuaci
on Q(X, p) = z , donde z designa el cuantil- de la
distribucion normal estandar N (0, 1).
Para resolver la ecuaci
on Q(X, p) = z se elevan ambos miembros al cuadrado y se obtiene
una ecuaci
on cuadratica en p cuya solucion es
p

X)

z 2 + 2nX
z z 2 + 4nX(1
p=

2z 2 + 2n
2z 2 + 2n

Usando que la densidad de la distribucion N (0, 1) es simetrica respecto del origen tenemos
que, para cada (0.5, 1),
1.
p1 (X) =

z2

+ 2nX

2z2 + 2n

q
X)

z2 + 4nX(1
2z2 + 2n

es una cota inferior de confianza de nivel para p;


2.
p2 (X) =

z2 + 2nX
2z2 + 2n

q
X)

z2 + 4nX(1
2z2 + 2n

es una cota superior de confianza de nivel para p;


3.

I(X) =

z(1+)/2
+ 2nX
2
2z(1+)/2
+ 2n

z(1+)/2

2
X)

z(1+)/2
+ 4nX(1

2
2z(1+)/2
+ 2n

donde [a b] = [a b, a + b], es un intervalo de confianza de nivel para p.


15

(10)

1/2

1/2 sen

Ejemplo 3.1 (Las agujas de Buffon). Se arroja al azar una aguja de longitud 1 sobre un
plano dividido por rectas paralelas separadas por una distancia igual a 2.
Si localizamos la aguja mediante la distancia de su centro a la recta m
as cercana y el
angulo agudo entre la recta y la aguja, el espacio muestral es el rectangulo 0 1
y 0 /2. El evento la aguja interesecta la recta ocurre cuando 12 sen y su
probabilidad es
R /2 1
sen d
1
p= 0 2
= .
/2

Con el objeto de estimar se propone construir un intervalo de confianza de nivel = 0.95


para p, basado en los resultados de realizar el experimentos de Buffon con n = 100 agujas.
Poniendo en (10) n = 100 y z(1+)/2 = z0.975 = 1.96 se obtiene que
"

#
p

X)

1.962 + 200X
1.96 1.962 + 400X(1
I(X) =

2(1.96)2 + 200
2(1.96)2 + 200
#
"
p
X)

1.96 3.8416 + 400X(1


3.8416 + 200X

=
207.6832
207.6832
Al realizar el experimento se observ
o que 28 de las 100 agujas intersectaron alguna recta.
= 0.28 y en consecuencia se
Con ese dato el estimador de m
axima verosimilitud para p es X
obtiene el siguiente intervalo de confianza para p
#
"
p
3.8416 + 200(0.28) 1.96 3.8416 + 400(0.28)(1 0.28)

I(X) =
207.6832
207.6832
= [0.28814 0.08674] = [0.20140, 0.37488].
De donde se obtiene la siguiente estimacion: 2.66 4.96.
Nota Bene. Notando que la longitud del intervalo de confianza de nivel > 1/2 para p se
puede acotar de la siguiente forma
q
q
2
2
X)

z(1+)/2 z(1+)/2
+n
+ 4nX(1
z(1+)/2 z(1+)/2
z(1+)/2
|I(X)| =

<
,
2
2
n
z(1+)/2 + n
z(1+)/2 + n
se puede mostrar que para garantizar que |I(X)| < , donde es positivo y peque
no basta
2
tomar n z(1+)/2 / .
16

Ejemplo 3.2 (Las agujas de Buffon (continuaci


on)). Cuantas agujas deben arrojarse si se
desea estimar utilizando un intervalo de confianza para p, de nivel 0.95, cuyo margen de
error sea 0.01? De acuerdo con la observaci
on anterior basta tomar n (1.96/0.01)2 = 38416.
Simulando 38416 veces el experimento de Buffon obtuvimos 12222 exitos. Con ese dato el
estimador de m
axima verosimilitud para p es 0.31814... y el intervalo para p es
I(X) = [0.31350, 0.32282] .
De donde se obtiene la siguiente estimacion: 3.09766 3.18969.

4.

Comparaci
on de dos muestras normales

Supongamos que X = (X1 , . . . , Xm ) es una muestra aleatoria de tama


no m de una dis2 ), y que Y = (Y , . . . , Y ) es una muestra aleatoria de tama
tribuci
on normal N (X , X
no n
1
n
2
de una distribucion normal N (Y , Y ). M
as a
un, supongamos que las muestras X e Y son
2 y 2 son desconocidos.
independientes. Usualmente los par
ametros X , Y , X
Y

4.1.

Cotas e intervalos de confianza para la diferencia de medias

Queremos estimar = X Y .
4.1.1.

Varianzas conocidas

2 y 2
Para construir un pivote para la diferencia de medias, , cuando las varianzas X
Y
son conocidas, observamos que el estimador de m
axima verosimilitud para = X Y es
Y y que
X

2 
2
Y N , X + Y
(11)
X
m
n

En consecuencia,
Y
X
N (0, 1),
Q(X, Y, ) = q 2
2
X
Y
m + n

(12)

es un pivote para la diferencia de medias .


Como el pivote para la diferencia de medias, Q(X, Y, ), goza de las propiedades enunciadas en la secci
on 1.1.1 las cotas e intervalos de confianza para se pueden construir
resolviendo la ecuaci
on Q(X, Y, ) = z , donde z designa el cuantil- de la distribucion
N (0, 1).
4.1.2.

Varianzas desconocidas.

2 y 2 son desconocidas. Hay dos posibilidades:


Supongamos ahora que las varianzas X
Y
las varianzas son iguales o las varianzas son distintas.

17

Caso 1: Varianzas iguales.

2 = 2 = 2 . En tal caso
Supongamos que X
Y

Y
Y
X
X
= q
Z= q
N (0, 1).
1
1
2
2
2

+
m
n
m + n

La varianza desconocida
2 se puede estimar ponderando
adecuadamente los estimadores
P
1 P
1
2
2
2

de varianza SX = m1 (Xi X) y SY = n1 (Yj Y )2 ,


SP2 :=

2 + (n 1)S 2
(m 1)SX
n1
m1
2
Y
SX
+
SY2 =
.
m+n2
m+n2
m+n2

Se puede mostrar que


U :=

2 + (n 1)S 2
(m 1)SX
(n + m 2) 2
Y
S
=
n+m2 .
P
2
2

Como las variables Z y U son independientes, se obtiene que

Por lo tanto,

Y
X
Z
tm+n2
=q q
T =p
1
U/(m + n 2)
+ n1
SP2 m
Y
X
Q(X, Y, ) = q q
1
+ n1
SP2 m

(13)

es un pivote para la diferencia de medias . Debido a que el pivote goza de las propiedades
enunciadas en la secci
on 1.1.1, las cotas e intervalos de confianza para se pueden construir
resolviendo la ecuaci
on Q(X, Y, ) = tm+n2, , donde tm+n2 designa el cuantil- de la
distribucion t de Student con m + n 2 grados de libertad.
Caso 2: Varianzas distintas. En varios manuales de Estadstica (el de Walpole, por
ejemplo) se afirma que la distribucion de la variable
Y
X
Q(X, Y, ) = q 2
SX
SY2
m + n

es una t de Student con grados de libertad, donde

2
SY2
SX
m + n
2 2

S
X
m

m1

2

S2
Y
n

n1

Es de suponer que este misterioso valor de es el resultado de alguna controversia entre


Estadsticos profesionales con suficiente experiencia para traducir semejante jeroglfico. Sin
embargo,ninguno de los manuales se ocupa de revelar este misterio.

18

4.2.

Cotas e intervalos de confianza para el cociente de varianzas.

2 / 2 .
Queremos estimar el cociente de las varianzas R = X
Y
2 y 2 se pueden estimar mediante
Si las medias X y Y son desconocidas,
las
varianzas

X
Y
Pm
1 Pn
2 = 1
2
2
2
sus estimadores insesgados SX
i=1 (Xi X) y SY = n1
j=1 (Yj Y ) .
m1
Debido a que las variables

U :=

(m 1) 2
SX 2m1
2
X

V :=

(n 1) 2
SY 2n1
Y2

son independientes, tenemos que el cociente


2
S 2 /X
U/(m 1)
1
=
= X
V /(n 1)
R
SY2 /Y2

2
SX
SY2

se distribuye como una F de Fisher con m 1 y n 1 grados de libertad.


Por lo tanto,
 2 
1 SX
Fm1, n1
Q(X, Y, R) =
R SY2
2 / 2 . Debido a que el pivote goza de
es un pivote para el cociente de varianzas R = X
Y
las propiedades enunciadas en la secci
on 1.1.1, las cotas e intervalos de confianza para R se
pueden construir resolviendo la ecuaci
on Q(X, Y, R) = Fm1,n1, , donde Fm1,n1 designa
el cuantil- de la distribucion F de Fisher con m 1 y n 1 grados de libertad.

5.
5.1.

Comparaci
on de dos muestras
Planteo general

Supongamos que tenemos dos muestras aleatorias independientes X = (X1 , . . . , Xm ) e


Y = (Y1 , . . . , Yn ) con distribuciones dependientes de los par
ametros y , respectivamente.
Queremos estimar la diferencia
= .
En lo que sigue mostraremos que, bajo ciertas hip
otesis, podemos construir cotas e intervalos
de confianza (aproximados) basados en el comportamiento de la diferencia m n , donde

m = (X)
y n = (Y) son estimadores de los par
ametros y , respectivamente.
En todo lo que sigue vamos a suponer que los estimadores m y n tienen la propiedad de
normalidad asintotica. Esto es,

m(m ) N (0, 2 )

n(
n ) N (0, 2 )

cuando m ,
cuando n ,

donde 2 y 2 pueden depender de y , respectivamente. Sea N = m + n y supongamos que


para alg
un 0 < < 1,
m
n
,
1
N
M

cuando m y n ,

19

de modo que, cuando N tenemos





N (m ) N 0,



2
N (
n ) N 0,
.
1

Entonces, vale que



h
i
2
2

N (m ) (
+
n ) N 0,

o, equivalentemente, que

(m n )
q
N (0, 1)
2
2
+
m
n

(14)

Si 2 y 2 son conocidas, de (14) resulta que


Q(X, Y, ) =

(m n )
q
2
2
m + n

(15)

es un pivote (aproximado) para la diferencia .


c2 y b2 son estimadores consistentes para 2 y 2 , se puede
Si 2 y 2 son desconocidas y
c2 y b2 ,
demostrar que la relaci
on (14) conserva su validez cuando 2 y 2 se reemplazan por
respectivamente y entonces
Q(X, Y, ) =

(m n )
q
c2
c2

m + n

(16)

es un pivote (aproximado) para la diferencia .


Para mayores detalles se puede consultar el libro Lehmann, E. L. (1999) Elements of
Large-Sample Theory. Springer, New York.
Nota Bene. Notar que el argumento anterior proporciona un metodo general de naturaleza
asintotica. En otras palabras, en la practica los resultados que se obtienen son aproximados.
Dependiendo de los casos particulares existen diversos refinamientos que permiten mejorar
esta primera aproximacion.

5.2.

Problema de dos muestras binomiales

Sean X = (X1 , . . . , Xm ) e Y = (Y1 , . . . , Yn ) dos muestras aleatorias independientes de dos


variables aleatorias X e Y con distribucion Bernoulli de par
ametros pX y pY , respectivamente.
Queremos estimar la diferencia
= pX = pY
Para construir cotas e intervalos de confianza usaremos los estimadores de m
axima verosimilitud para las probabilidades pX y pY
m

X
= 1
pX = X
Xi ,
m

1X
pY = Y =
Yj ,
n

i=1

j=1

20

Vamos a suponer que los vol


umenes de las muestras, m y n, son suficientemente grandes y
que ninguna de las dos variables esta sobre representada (i.e. m y n son del mismo orden de
magnitud).
y Y son consistentes para las pX y pY , resulta que los
Debido a que los estimadores X

estimadores X(1 X) y Y (1 Y ) son consistentes para las varianzas pX (1pX ) y pY (1pY ),


respectivamente. Por lo tanto,
Q(X, Y, ) = q

Y
X

1
m X(1

(17)

+ 1 Y (1 Y )
X)
n

es un pivote (aproximado) para .

Ejemplo 5.1. Se toma una muestra aleatoria de 180 argentinos y resulta que 30 estan desocupados. Se toma otra muestra aleatoria de 200 uruguayos y resulta que 25 estan desocupados.
Hay evidencia suficiente para afirmar que la tasa de desocupacion de la poblacion Argentina
es superior a la del Uruguay?
Soluci
on. La poblacion desocupada de la Argentina puede modelarse con una variable
aleatoria X Bernoulli(pX ) y la del Uruguay con una variable aleatoria Y Bernoulli(pY ).
Para resolver el problema utilizaremos una cota inferior de nivel de significacion = 0.95
para la diferencia = pX pY basada en dos muestras aleatorias independientes X e Y de
vol
umenes m = 180 y n = 200, respectivamente.
En vista de que el pivote definido en (17) goza de las propiedades enunciadas en la secci
on
1.1.1, la cota inferior de nivel = 0.95 para se obtiene resolviendo la ecuaci
on Q(X, Y, ) =
z0.95 .
Observando que
Q(X, Y, ) = z0.95

1
180 X(1

Y
X
+
X)

1
200 Y (1

Y 1.64
=X

Y )

= 1.64

1
+ 1 Y (1 Y )
X(1 X)
180
200

= 30 = 1 y Y = 25 = 1 . Por lo tanto, la cota inferior


De cuerdo con los datos observados, X
180
6
200
8
para adopta la forma
s
  
  
1
1
1
5
1
7
1 1
+
= 0.0178...
(x, y) = 1.64
6 8
180 6
6
200 8
8
De este modo se obtiene la siguiente estimacion pX pY > 0.0178 y de all no se puede
concluir que pX > pY .

21

6.
6.1.

Ap
endice: Demostraci
on del Teorema llave

Preliminares de An
alisis y Algebra

En la prueba del Teorema 2.1 se usar


an algunas nociones de Algebra
Lneal1 y el Teorema
2
de cambio de variables para la integral m
ultiple .
Teorema 6.1 (Cambio de variables en la integral m
ultiple). Sea f : Rn R una funci
on
n
n
integrable. Sea g : R R , g = (g1 , . . . , gn ) una aplicaci
on biyectiva, cuyas componentes
tienen derivadas parciales de primer orden continuas. Esto es, para todo 1 i, j n, las
funciones y j gi (y) son continuas. Si el Jacobiano de g es diferente de cero en casi todo
punto, entonces,
Z
Z
f (g(y))|Jg (y)|dy,
f (x)dx =
g 1 (A)

para todo conjunto abierto A

Rn ,

donde Jg (y) = det



 
.

gi (y)
yj
i,j

El siguiente resultado, que caracteriza la distribucion de un cambio de variables aleatorias,


es una consecuencia inmediata del Teorema 6.1.
Corolario 6.2. Sea X un vector aleatorio n-dimensional con funci
on densidad de probabilidad
on que satisface las hip
otesis del Teorema 6.1. Entonces,
fX (x). Sea : Rn Rn una aplicaci
el vector aleatorio Y = (X) tiene funci
on densidad de probabilidad fY (y) de la forma:
fY (y) = fX (1 (y))|J1 (y)|.
Demostraci
on. Cualquiera sea el conjunto abierto A se tiene que
Z
1
P (Y A) = P ((X) A) = P(X (A)) =

fX (x)dx.

1 (A)

Aplicando el Teorema 6.1 para g = 1 se obtiene


Z
Z
fX (x)dx =
fX (1 (y))|J1 (y)|dy.
1 (A)

Por ende
P (Y A) =

fX (1 (y))|J1 (y)|dy.

Por lo tanto, el vector aleatorio Y tiene funcion densidad de probabilidad de la forma fY (y) =
fX (1 (y))|J1 (y)|.
La noci
on de base ortonormal respecto del producto interno can
onico en Rn y la noci
on de matriz ortogonal.
Si lo desea, aunque no es del todo cierto, puede pensar que las matrices ortogonales corresponden a rotaciones
espaciales.
2
Sobre la nomenclatura: Los vectores de Rn se piensan como vectores columna y se notar
an en negrita
x = [x1 . . . xn ]T .
1

22

6.2.

Lema previo

Observaci
on 6.3. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una distribuci
on N (0, 2 ).
Por independencia, la distribuci
on conjunta de las variables X1 , . . . , Xn tiene funci
on densidad
de probabilidad de la forma
!


n
n
Y
1
1
1 X 2
1 2

f (x) =
xi
exp 2
exp 2 xi =
2
2
(2)n/2 n
2
i1
i=1


1
1
2
=
||x||
exp

2 .
2 2
(2)n/2 n
De la observaci
on anterior es claro que la distribucion conjunta de las variables X1 , . . . , Xn
es invariante por rotaciones. M
as concretamente vale el siguiente resultado:
Lema 6.4 (Isotropa). Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable N (0, 2 )
y sea B Rnn una matriz ortogonal, i.e. B T B = BB T = In . Si X = [X1 . . . Xn ]T , entonces
Y = [Y1 . . . Yn ]T = BX tiene la misma distribuci
on conjunta que X. En particular las variables aleatorias Y1 , . . . , Yn son independientes y son todas N (0, 2 ).
Demostraci
on. Es consecuencia inmediata del Teorema de cambio de variables para y =
g(x) = Bx. Debido a que B es una matriz ortogonal, g 1 (y) = B T y y Jg1 (y) = det B T =
1


1
1
T
T
T
2
fY (y) = fX (B y)| det(B )| =
exp 2 ||B y||2 | det(B T )|
2
(2)n/2 n


1
1
exp 2 ||y||22 .
=
n/2
n
2
(2)
En la u
ltima igualdad usamos que ||B T y||2 = ||y||2 debido a que las transformaciones ortogonales preservan longitudes.

6.3.

Demostraci
on del Teorema.

Sin perder generalidad se puede suponer que = 0. Sea B = {b1 , b2 , . . . , bn } una base
ortonormal de Rn , donde b1 = 1n [1 . . . 1]T . Sea B Rnn la matriz ortogonal cuya i-esima
fila es bTi . De acuerdo con el Lema 6.4 el vector aleatorio Y = [Y1 . . . Yn ]T = BX tiene la
misma distribucion que X.
En primer lugar, observamos que
n

1 X

Xi = n(X).
Y1 = bT1 X =
n
i=1

En segundo lugar,
n
X

Yi2

= Y Y = (BX) BX = X B BX = X X =

i=1

n
X
i=1

23

Xi2 .

En consecuencia,
n
X
i=2

Yi2

n
X
i=1

Xi2

Y12

n
X

Xi2

i=1

2 =
nX

n
X
i=1

Xi X

2


Las variables Y1 , . . . , Yn son independientes. Como n(X)
depende de Y1 , mientras que
2
Pn
2

depende de Y2 , . . . , Yn , resulta que X y S son independientes (lo que prueba


i=1 Xi X


la parte (c)). Adem
as, n(X)
= Y1 N (0, 2 ), por lo tanto Z = n(X) N (0, 1) (lo que
prueba la parte (a)). La parte (b) se deduce de que

n 
n
2 X
(n 1)S 2
Yi 2
1 X

Xi X =
2n1 ,
= 2
2

i=2

i=1

pues las n 1 variables Y2 /, . . . , Yn / son independientes y con distribucion N (0, 1).

7.

Bibliografa consultada
Para redactar estas notas se consultaron los siguientes libros:
1. Bolfarine, H., Sandoval, M. C.: Introducao `a Inferencia Estatstica. SBM, Rio de Janeiro.
(2001).
2. Borovkov, A. A.: Estadstica matem
atica. Mir, Mosc
u. (1984).
3. Cramer, H.: Metodos matem
aticos de estadstica. Aguilar, Madrid. (1970).
4. Hoel P. G.: Introducci
on a la estadstica matem
atica. Ariel, Barcelona. (1980).
5. Lehmann, E. L.: Elements of Large-Sample Theory. Springer, New York. (1999)
6. Maronna R.: Probabilidad y Estadstica Elementales para Estudiantes de Ciencias. Editorial Exacta, La Plata. (1995).
7. Meyer, P. L.: Introductory Probability and Statistical Applications. Addison-Wesley,
Massachusetts. (1972).
8. Walpole, R. E.: Probabilidad y estadstica para ingenieros, 6a. ed., Prentice Hall, Mexico.
(1998)

24

Test de hipotesis y Test de bondad de ajuste


(Borradores, Curso 23)
Sebastian Grynberg
3-12 de junio de 2013

Que no se oiga ya que los ricos devoran a los pobres,


y que la justicia es s
olo para los ricos.
(Manuel Belgrano)

Indice
1. Planteo del problema
1.1. Test de hipotesis . .
1.2. Funcion de potencia
1.3. Nivel de significacion
1.4. Sobre la construccion

. . . . . . .
. . . . . . .
. . . . . . .
de reglas de

. . . . .
. . . . .
. . . . .
decision

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

2. Regiones de confianza y test de hip


otesis

3
3
5
6
7
8

3. El m
etodo del pivote
3.1. Hipotesis fundamental simple contra alternativa bilateral . .
3.2. Hipotesis fundamental simple contra alternativa unilateral .
3.3. Hipotesis fundamental unilateral contra alternativa unilateral
3.4. Algunos pivotes . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.

9
9
10
10
11

4. Test para media de normales


4.1. Hipotesis sobre media con varianza conocida . . . . . . . . . . . . . . . . .
4.2. Variaciones sobre el mismo tema . . . . . . . . . . . . . . . . . . . . . . . .
4.3. Hipotesis sobre media con varianza desconocida . . . . . . . . . . . . . . .

13
13
18
20

5. Test para probabilidad de


exito de distribuciones Bernoulli
5.1. Test para moneda honesta (de lo simple a lo complejo) . . . . . . . . . . .
5.2. Hipotesis fundamental simple . . . . . . . . . . . . . . . . . . . . . . . . .
5.3. Hipotesis fundamental compuesta . . . . . . . . . . . . . . . . . . . . . . .

22
23
29
32

6. Test para varianza de normales


6.1. Hipotesis sobre varianza con media conocida . . . . . . . . . . . . . . . . .
6.2. Hipotesis sobre varianza con media desconocida . . . . . . . . . . . . . . .

34
34
36

7. Comparaci
on de dos muestras
7.1. Test para medias de dos muestras normales.
7.1.1. Varianzas conocidas . . . . . . . . . .
7.1.2. Varianzas desconocidas pero iguales.
7.2. Test F para varianzas de normales. . . . . .
7.3. Planteo general . . . . . . . . . . . . . . . .
7.4. Problema de dos muestras binomiales . . . .

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

37
37
37
37
38
39
40

8. Test de la 2 para bondad de ajuste


8.1. Planteo del problema . . . . . . . . . . . . . . . . .
8.2. Test de bondad de ajuste para hipotesis simples . .
8.3. Ejemplos (1a parte) . . . . . . . . . . . . . . . . . .
8.4. Comentarios sobre el metodo . . . . . . . . . . . . .
8.5. Test de bondad de ajuste para hipotesis compuestas

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

42
42
43
45
48
51

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

9. Bibliografa consultada

1.
1.1.

52

Planteo del problema


Test de hip
otesis

Hip
otesis estadstica. El punto de partida es una muestra aleatoria X = (X1 , . . . , Xn )
de una variable aleatoria X cuya funcion de distribucion FX (x) = P(X x) pertenece a
una familia parametrica de distribuciones de probabilidad, F = {F : }.
En este contexto, una hip
otesis estadstica respecto de la distribucion de probabilidades
de la variable aleatoria X es una afirmacion de la forma siguiente:
F = F para alg
un ,

(1)

donde es alguna parte del conjunto parametrico . Para simplificar la escritura, las
hipotesis estadsticas (1) seran denotadas
H : .

(2)

El problema general consiste en lo siguiente: en base a los resultados arrojados por la


muestra aleatoria X se quiere decidir entre dos hipotesis estadsticas sobre la distribucion
de probabilidades de la variable aleatoria X.
Test de hip
otesis. Sean 0 y 1 dos subconjuntos del espacio parametrico tales que
0 1 = . El problema consiste en decidir entre las dos hipotesis
H0 : 0

contra

H1 : 1 ,

basandose en el conocimiento de una muestra aleatoria, X = (X1 , . . . , Xn ).


Como los valores de que no pertenecen a 0 1 no se examinan, se puede suponer
que = 0 1 , y que H1 es la hipotesis contraria de H0 . En tal caso, la hipotesis
H1 se puede escribir en la forma H1 :
/ 0 . La hipotesis H0 sera llamada hip
otesis
fundamental o hip
otesis nula y las hipotesis de la forma H : = 1 , para 1 1 , se
llamaran alternativas.
Un test (o regla de decisi
on) para decidir entre las dos hipotesis H0 contra H1 es una
n
aplicacion medible : R {0, 1} que le asigna a cada posible realizacion de la muestra
aleatoria x una y solo una de las hipotesis. Concretamente, (X) es una variable aleatoria
a valores en el {0, 1}. Cuando (X) = 1 se rechazara la hipotesis H0 a favor de la hipotesis
H1 . En cambio, cuando, (X) = 0 se aceptara la hipotesis H0 .
Regi
on crtica. Sea : Rn {0, 1} un test para decidir entre las hipotesis H0 contra
H1 . La region del espacio Rn en la que (x) = 1:
R := {x Rn : (x) = 1}
3

(3)

se denomina region crtica o region de rechazo de la hip


otesis fundamental. La region crtica,
R, se identifica con la regla de decision debido a que
(x) = 1{x R}.

(4)

Tipos de error. Todo test para decidir entre las hipotesis H0 contra H1 conduce a
decisiones erroneas. Hay dos clases de decisiones erroneas.
Las llamadas errores de tipo I que consisten en RECHAZAR la hip
otesis H0 cuando
esta es verdadera.
Las llamadas errores de tipo II que consisten en ACEPTAR la hip
otesis H0 cuando
esta es falsa.
Nota Bene. Cuando 0 , la probabilidad de cometer un error de tipo I sera
P(Rechazar H0 |) = P((X) = 1|) = P(X R|).
Cuando 1 , la probabilidad de cometer un error de tipo II sera
P(Aceptar H0 |) = P((X) = 0|) = P(X 6 R|) = 1 P(X R|).
Ejemplo 1.1. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una distribucion uniforme
sobre el intervalo (0, ), > 0. Para decidir entre las dos hipotesis
H0 : 2

contra

H1 : < 2

consideramos el test (x) = 1{x(n) 3/2}, donde x(n) = max(x1 , . . . , xn ) y queremos


determinar, para cada > 0, la probabilidad de decidir erroneamente.
Soluci
on. Para calcular las probabilidades de decidir erroneamente estudiaremos la funcion : (0, ) [0, 1] definida por


3
() = P(Rechazar H0 |) = P((X) = 1|) = P X(n)
,
> 0.
(5)
2
Sabemos que Q(X, ) = X(n) / es un pivote para y que su distribucion tiene densidad
de probabilidades fQ (q) = nq n1 1{0 < q < 1}. En consecuencia,




 Z mn(1, 3 )
2
X(n)
3
3
nq n1 dq
() = P X(n)

=P
=
2

2

n
  0n 


3
3
3
3
= mn 1,
+
.
=1 0<
1 >
2
2
2
2
Por lo tanto,
4

(6)

1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0

Figura 1: Grafico de la funcion () para distintos vol


umenes de muestra: en lnea quebrada
para volumen n = 3; en lnea solida para volumen n = 11. Notar que cuando n aumenta
disminuyen las probabilidades de los errores de tipo I, pero aumentan las de los errores de
tipo II.
la probabilidad de que ocurra un error de tipo I cuando el verdadero valor del
3 n
parametro satisface 2 es () = 2
,
la probabilidad de que ocurra un error de tipo II cuando el verdadero valor del
parametro satisface (0, 3/2] es 1 () = 1 1 = 0,
la probabilidad de que ocurra un error de tipo II cuando
el verdadero valor del

3 n
parametro satisface (3/2, 2) es 1 () = 1 2 .

1.2.

Funci
on de potencia

La calidad de un test de hipotesis () se caracteriza por el conjunto de probabilidades


de decisiones erroneas (o riesgos de decision).
Las probabilidades de los errores de un test () se pueden representar en el grafico de
la funcion : [0, 1] definida por
() := P (Rechazar H0 | ) = P ((X) = 1| ) = P (X R) ,

(7)

llamada la funcion de potencia del test.1


1
En control de calidad, a la funcion L() = 1 () se la llama caracterstica operativa y su gr
afico se
llama la curva caracterstica operativa del test.

En efecto, la probabilidad de que ocurra un error de tipo I cuando el verdadero valor


del parametro es 0 sera el valor de la probabilidad () y la probabilidad de cometer
un error de tipo II cuando el verdadero valor del parametro es 1 sera el valor de la
probabilidad 1 ().
Nota Bene. Una test puede considerarse bueno si los valores de su funcion de potencia
estan cerca del 0 en la region fundamental 0 y cerca del 1 en la region alternativa 1 . En
general, establecido el volumen de la muestra, X = (X1 , . . . , Xn ), no es posible construir
test capaces de conciliar ambas exigencias.

1.3.

Nivel de significaci
on

Sea un test para decidir entre las hipotesis H0 : 0 contra H1 : 1 . El


n
umero
() = max ()
0

(8)

se llama nivel de significaci


on del test. Dicho en palabras, el nivel de significacion de un
test es la maxima probabilidad de rechazar la hipotesis fundamental H0 cuando ella es
verdadera.
Ejemplo 1.2. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una distribucion U(0, )
y sea el test definido en el Ejemplo 1.1 para decidir entre las dos hipotesis H0 : 2
contra H1 : < 2.
Debido a que la funcion de potencia () es decreciente en , el nivel de significacion
del test es
 n
3
() = max () = (2) =
.
2
4

Para que, por ejemplo, el nivel de significacion del test sea 0.05, debe tomarse un volumen
de muestra n tal que (3/4)n 0.05. Equivalentemente, n log(0.05)/ log(3/4) = 10.413.
Para n = 11 el nivel del test resulta () = 0.042...

Comentario sobre el nivel de significaci


on. Utilizar un test de nivel de significacion
significa que, en una larga serie de experimentos, no nos equivocaremos al rechazar la
hipotesis H0 , siendo que ella es verdadera, mas que un 100 % de los casos. La eleccion
del nivel de significacion del test es arbitraria. Habitualmente, en calidad de se elige
alguno de los valores estandar, tales como 0.005, 0.01, 0.05, 0.1. Esta estandarizacion tiene
la ventaja de que permite reducir el volumen de las tablas que se utilizan en el trabajo
estadstico.
Nota Bene. La actitud que se tenga hacia la hipotesis fundamental antes de realizar el
experimento es una circunstancia importante que puede influir en la eleccion del nivel de
significacion. Si se cree firmemente en su veracidad se necesitaran pruebas convincentes
6

en su contra para que se renuncie a ella. En tales condiciones hacen falta criterios de
nivel muy peque
nos. Entonces, si la hipotesis fundamental es verdadera, la realizacion
de un valor de muestra perteneciente a la region crtica R sera demasiado inverosmil. La
concepcion en la que se basa todo el razonamiento es la siguiente: si la probabilidad de
cierto evento A es muy peque
na, consideramos practicamente imposible el hecho de que
este evento ocurra al realizar una sola prueba. Si ocurre, significa que su probabilidad no
era tan peque
na.
M
axima potencia. Elegido el nivel de significacion del test de hipotesis, hay que
prestarle atencion a los valores de su funcion de potencia en la region alternativa 1 . Si
la potencia en 1 resulta demasiado peque
na, los riesgos de cometer errores de tipo II son
muy grandes y tal vez sea conveniente sustituir el nivel de significacion por uno mayor.
Entre todos los test de nivel se prefieren aquellos que tengan la potencia mas alta en
toda la region alternativa 1 .

1.4.

Sobre la construcci
on de reglas de decisi
on

En la practica, las reglas de decision se construyen basandose en una estadstica de la


muestra aleatoria X = (X1 , . . . , Xn ), i.e., son de la forma
(X) = 1{T (X) C},

(9)

donde T : Rn R es una funcion a valores reales y C es una region de la recta real


denominada la region crtica o region de rechazo del test: si (X) = 1 rechazamos la
hipotesis H0 y si (X) = 0 no la rechazamos.
Nota Bene. La estadstica de la muestra, T (X), con la que se construye la regla de
decision (9) debe contener toda la informacion relevante que hay en la muestra X para
reconstruir el parametro sobre el que recaen las hipotesis H0 y H1 . Por ejemplo, si se hacen
hipotesis sobre la media de la variable aleatoria X, es in
util observar simplemente todos
los datos contenidos en la muestra aleatoria X = (X1 , . . . , Xn ). Es intuitivamente claro
que si se quiere tomar una decision entre dos hip
otesis sobre la media de una distribucion
P
1

hay que observar el promedio muestral X := n ni=1 Xi . Si la muestra es suficientemente


grande, este valor se no puede desviar demasiado del verdadero valor de la media. Si el
desvo fuese desconocido, para tener
su tama
no bastara con observar el valor
Pnuna idea de
1
2
2

de la varianza muestral S := n1 i=1 (Xi X) . Esos dos datos deberan ser suficientes
para tomar una decision sobre una hipotesis sobre la media.
Algunos problemas
1. Dado un test caracterizar su funcion de potencia, determinar su nivel y los distintos
tipos de riesgos estadsticos.
2. Construccion de test prefijando el nivel y el volumen de la muestra aleatoria n.
7

3. Construccion de test prefijando el nivel y la potencia en alguno de los parametros


alternativos.
Nota Bene. El objetivo de estas notas es presentar una introduccion para tratar algunos
problemas de caracter muy elemental y el modo de resolverlos mediante razonamientos
intuitivos (lo mas rigurosos posibles dentro del marco de un curso elemental).2

2.

Regiones de confianza y test de hip


otesis

Supongamos que disponemos de regiones de confianza S(X) de nivel para el parametro


y queremos construir un test para decidir entre las hipotesis
H 0 : = 0

contra

H1 : 6= 0 .

Debido a que la region de confianza se construye con el objeto de capturar al verdadero


valor del parametro (con alta probabilidad de lograrlo) parece claro que si se observa un
resultado x tal que la region S(x) contenga a 0 deberemos aceptar la hipotesis H0 y
rechazar la contraria H1 . El argumento permite construir el siguiente test
(X) = 1{S(X) 6 0 }.
cuyo nivel de significacion es
() = P (RechazarH0 |0 ) = P0 (S(X) 6 0 ) = 1 P0 (S(X) 0 ) = 1 .
Usando argumentos similares se obtienen los siguientes resultados.
1. Si 1 (X) es una cota inferior de confianza de nivel 1 para , entonces
(X) = 1{0 < 1 (X)}
es un test de nivel para decidir entre las hipotesis
H 0 : 0

contra

H 1 : > 0 .

2. Si 2 (X) es una cota superior de confianza de nivel 1 para , entonces


(X) = 1{0 > 2 (X)}
es un test de nivel para decidir entre las hipotesis
H 0 : 0

contra

H 1 : < 0 .

2
Dependiendo de las normas de calidad que se le impongan al test y de la naturaleza de las hip
otesis
a ser confrontadas, existen metodologas generales para construir test optimos que pueden consultarse
en cualquier libro de Estadstica matem
atica. Una exposicion rigurosa puede encontrarse en el libro de
Borovkov.

3. Si [1 (X), 2 (X)] es un intervalo de confianza de nivel 1 para . Entonces


(X) = 1{[1 (X), 2 (X)] 6 0 }

es un test de nivel para decidir entre las hipotesis


H 0 : = 0

H1 : 6= 0 .

contra

Nota Bene. Notar que en cualquiera de los tres casos se rechaza la hipotesis H0 cuando
y solo cuando los intervalos de confianza estan contenidos en la hipotesis alternativa H1 .

3.

El m
etodo del pivote

Cuando se quieren construir test de hipotesis para el parametro desconocido lo mas


natural es comenzar la construccion apoyandose en alg
un estimador puntual del parametro

(X) (cuya distribucion depende de ). El metodo del pivote consiste en transformar el

estimador (X)
en un pivote Q((X),
) y utilizarlo para construir el test deseado.

Nota Bene. Por definicion, la distribucion del pivote Q((X),


) no depende de . Para
cada (0, 1) notaremos mediante q el cuantil- del pivote.

En todo lo que sigue vamos a suponer que Q((X),


) es un pivote que goza de las
siguientes propiedades:

1. La funcion de distribucion de Q((X),


) es continua y estrictamente creciente.
2. La funcion Q(t, ) es monotona decreciente en :
1 < 2 = Q(t, 1 ) > Q(t, 2 ).

3.1.

(10)

Hip
otesis fundamental simple contra alternativa bilateral

Se desea un test de nivel para decidir entre las hipotesis


H 0 : = 0

contra

H1 : 6= 0 .

Proponemos un test de la forma


o
o
n
n

0 ) > q2
(X) = 1 Q((X),
0 ) < q1 + 1 Q((X),

(11)

Como la hipotesis fundamental es de la forma = 0 el nivel de significacion del test es





() = (0 ) = P (Rechazar H0 |0 ) = P(Q((X), 0 ) < q1 ) + P Q((X), 0 ) > q2





= P(Q((X),
0 ) q1 ) + 1 P Q((X),
0 ) q 2 = 1 + 1 2 .

Poniendo 1 = /2 y 2 = 1 /2 obtenemos que () = . Por lo tanto, el test de


hipotesis deseado puede obtenerse de la siguiente manera:
o
o
n
n

(12)
0 ) > q1/2 .
(X) = 1 Q((X),
0 ) < q/2 + 1 Q((X),
9

3.2.

Hip
otesis fundamental simple contra alternativa unilateral

Se desea un test de nivel para decidir entre las hipotesis


H 0 : = 0

contra

H 1 : > 0 .

Proponemos un test de la forma


n
o

(X) = 1 Q((X), 0 ) > q

(13)

Como la hipotesis fundamental es de la forma = 0 el nivel de significacion del test es





() = (0 ) = P (Rechazar H0 |0 ) = P Q((X),
0 ) > q = 1 .

Poniendo = 1 obtenemos que () = . Por lo tanto, el test deseado puede obtenerse


de la siguiente manera:
n
o

(X) = 1 Q((X), 0 ) > q1 .


(14)

3.3.

Hip
otesis fundamental unilateral contra alternativa unilateral

1.- Como consecuencia de que la funcion Q(t, ) es decreciente en , el test definido en


(14) tambien se puede utilizar como test de nivel para decidir entre las hipotesis
H 0 : 0

contra

H 1 : > 0 .

En efecto, si 0 , entonces Q((X),


) Q((X),
0 ) y en consecuencia





() = P (Rechazar H0 |) = P Q((X), 0 ) > q1 P Q((X), ) > q1 = .


Por lo tanto,

max () .
0




0 ) > q1 = , resulta que


Pero como (0 ) = P0 Q((X),
max () = .
0

10

2.- Si se desea un test de nivel para decidir entre las hipotesis


H 0 : 0

contra

H 1 : < 0

basta considerar
n
o

(X) = 1 Q((X),
0 ) < q .

(15)

En efecto, si 0 , entonces Q((X),


) Q((X),
0 ) y en consecuencia





() = P (Rechazar H0 |) = P Q((X),
0 ) < q P Q((X),
) < q = .
Por lo tanto,

max () .
0

Pero como (0 ) = P0 (Q((X),


0 < q ) = , resulta que
max () = .
0

3.4.

Algunos pivotes

1. Para media de normales con varianza conocida. Si X1 , . . . , Xn es una m.a. de


una distribucion N (, 2 ), con 2 conocida, entonces

n(X )
N (0, 1)

es un pivote para .
2. Para media de normales con varianza desconocida. Si X1 , . . . , Xn es una m.a.
de una distribucion N (, 2 ), con 2 desconocida, entonces

n(X )
tn1
S
es un pivote para .
3. Para varianza de normales con media conocida. Si X1 , . . . , Xn es una m.a. de
una distribucion N (, 2 ), con conocida, entonces

es un pivote para 2 .

n
1 X
n b2
(Xi )2 2n

=
mv
2
2 i=1

11

4. Para varianza de normales con media desconocida. Si X1 , . . . , Xn es una m.a.


de una distribucion N (, 2 ), con desconocida, entonces

es un pivote para 2 .

n
(n 1) 2
1 X
2 2
(Xi X)
S = 2
n1
2
i=1

5. Para probabilidad de
exito de distribuciones Bernoulli. Si X1 , . . . , Xn es una
m.a. de una distribucion Bernoulli(p) y n >> 1, entonces

n(X p)
p
N (0, 1)
p(1 p)
es un pivote aproximado para p.

6. Para intensidad de exponenciales. Si X1 , . . . , Xn es una m.a. de una distribucion


Exponencial(), entonces
n
X

2nX =
Xi 22n
i=1

es un pivote para .

7. Para extremo derecho de uniformes. Si X1 , . . . , Xn es una m.a. de una distribucion U(0, ), entonces
X(n)
max(X1 , . . . , Xn )
=

es un pivote para cuya densidad es f (x) = nxn1 1{0 x 1}.


8. Para diferencia de medias de normales con varianzas conocidas. Si X1 , . . . , Xm
2
e Y1 , . . . , Yn son dos m.a. independientes de distribuciones N (X , X
) y N (Y , Y2 ),
2
con X
y Y2 conocidas, entonces
Y
X
q
N (0, 1)
2
2
X
Y
+ n
m
es un pivote para la diferencia de medias = X Y .

9. Para diferencia de medias de normales con varianzas desconocidas pero


iguales. Si X1 , . . . , Xm e Y1 , . . . , Yn son dos m.a. independientes de distribuciones
N (X , 2 ) y N (Y , 2 ), con varianza com
un 2 desconocida, entonces3
Y
X
tm+n2
p q1
SP2 m + n1

SP2 :=

2
(m 1)SX
+ (n 1)SY2
m+n2

12

es un pivote para la diferencia de medias = X Y .


10. Para cociente de varianzas de normales con medias desconocidas. Si X1 , . . . , Xm
2
e Y1 , . . . , Yn son dos m.a. independientes de distribuciones N (X , X
) y N (Y , Y2 ),
con X y Y desconocidas, entonces
 2
1 SX
Fm1, n1
R SY2
2
es un pivote para el cociente de las varianzas R = X
/Y2 .

11. Para diferencia de probabilidades de


exito de Bernoulli. Si X1 , . . . , Xm e
Y1 , . . . , Yn son dos m.a. independientes de distribuciones Bernoulli(pX ) y Bernoulli(pY ).
Entonces,
Y
X
q
N (0, 1)
1
1

X(1 X) + n Y (1 Y )
m
es un pivote aproximado para la diferencia = pX pY .

4.

Test para media de normales

En esta seccion usaremos el metodo del pivote para construir test de hipotesis sobre la
media de distribuciones normales.

4.1.

Hip
otesis sobre media con varianza conocida

Basados en una muestra aleatoria X = (X1 , . . . , Xn ) de una distribucion normal N (, 2 )


con varianza 2 conocida queremos construir un test de nivel de significacion para decidir
entre las hipotesis
H0 : = 0
contra
H1 : 6= 0 ,

donde 0 es un alg
un valor determinado.
Test de hip
otesis

Para distribuciones normales con varianza conocida sabemos que



) = n(X ) N (0, 1)
Q(X,

P
= 1 n Xi .
es un pivote para basado en X
i=1
n
Es facil ver que el pivote satisface las dos condiciones enunciadas al principio de la
Seccion 3. De acuerdo con los resultados expuestos en la seccion 3.1




n(X 0 )
n(X 0 )
(16)
< z/2 + 1
> z1/2 ,
(X) = 1

13

es un test de nivel para decidir entre las hipotesisH0 : = 0 contra


H : 6= 0 .
1

n(X
n(X0 )
0)
< z/2 o
> z1/2
Dicho en palabras, el test consiste en rechazar H0 si

y aceptarla en otro caso.


Nota Bene. Construir un test es la primera fase para decidir entre dos hipotesis. Construido el test es obligatorio analizar los riesgos de tomar decisiones erroneas. En otras
palabras, el test debe acompa
narse con su correspondiente funcion de potencia.
Funci
on de potencia
Los riesgos de tomar decisiones erroneas utilizando el test de hipotesis definido en
(16) pueden evaluarse caracterizando su correspondiente funcion de potencia: () :=
P(Rechazar H0 |). Se trata de obtener una expresion analticaque nos permita caracterizar cuantitativa y cualitativamente las propiedades de dicha funcion.
Vale que





n(0 )
n( 0 )
() = z/2 +
+ z/2 +
.
(17)

En efecto,
() = P(Rechazar H0 |)




n(X 0 )
n(X 0 )
= P
< z/2 + P
> z1/2




n(X )
n( 0 )
= P
+
< z/2




n(X )
n( 0 )
+
> z1/2
+P




n(X )
n(0 )
= P
< z/2 +




n(X )
n( 0 )
> z/2
+P






n(0 )
n( 0 )
+ z/2 +
.
= z/2 +

Notar que la funcion de potencia dada en (17) satisface las siguientes propiedades
(a) () es simetrica con respecto a 0 : (0 + m) = (0 m) para todo m > 0.
(b) () es creciente4 sobre la semi-recta (0 , ).
(c) (0 ) = .
4

Derivar con respecto de la expresi


on (17) y hacer cuentas.

14

(d) lm+ () = 1
Esto significa que a medida que nos alejamos de la hipotesis = 0 disminuye el riesgo
de aceptar dicha hipotesis cuando es falsa. La forma tpica del grafico de la funcion de
potencia correspondiente al test de la forma (16) para decidir entre las hipotesis H0 : = 0
contra H1 : 6= 1 puede observarse en las Figuras 2 y 3.
Nota Bene. La funcion de potencia es u
til para determinar cuan grande debe ser la
muestra aleatoria para conseguir ciertas especificaciones relativas a los errores de tipo II.
Por ejemplo, supongamos que queremos determinar el volumen de la muestra n necesario
para asegurar que la probabilidad de rechazar H0 : = 0 cuando el verdadero valor de la
media es 1 sea aproximadamente . Esto es, queremos determinar n tal que
(1 ) .
De la expresion (17), esto es equivalente a





n(0 )
n( 0 )
+ z/2 +
.
z/2 +

(18)

Aunque la ecuacion (18) no se pueda resolver analticamente, se puede conseguir una


solucion aproximada mediante la siguiente observacion.
1. Supongamos que 1 > 0 . En tal caso, el primer termino del lado izquierdo de (18) es
despreciable, (es facil ver que esta acotado por /2 0) y por lo tanto, el problema
se reduce a resolver la ecuacion aproximada



n(1 0 )
z/2 +
.

En consecuencia, basta tomar n tal que z/2 +


n

(z z/2 )
1 0

n(1 0 )

2

z o lo que es equivalente
(19)

2. Supongamos que 1 < 0 . En tal caso, el segundo termino del lado izquierdo de
(18) es despreciable, y por lo tanto, el problema se reduce a resolver la ecuacion
aproximada



n(0 1 )
z/2 +
.

En consecuencia, basta tomar n tal que




(z z/2 ) 2
n
.
0 1
15

(20)

El resultado obtenido en (19) coincide con el resultado obtenido en (20) y es una aproximacion razonable para el volumen de muestra necesario para asegurar que el error de tipo
II en el valor = 1 es aproximadamente igual a 1 .
Ejemplo 4.1. Si se enva una se
nal de valor desde un sitio A, el valor recibido en el
sitio B se distribuye como una normal de media y desvo estandar 2. Esto es, el ruido
que perturba la se
nal es una variable aleatoria N (0, 4). El receptor de la se
nal en el sitio
B tiene suficientes motivos para sospechar que recibira una se
nal de valor = 8. Analizar
la consistencia de dicha hipotesis suponiendo que la misma se
nal fue enviada en forma
independientemente 5 veces desde el sitio A y el promedio del valor recibido en el sitio B
= 9.5.
es X
Soluci
on. Se trata de construir un test de hipotesis para decidir entre las hipotesis
H0 : = 8

contra

H1 : 6= 8,

usando una muestra X = (X1 , . . . , X5 ) de una distribucion N (, 4).


Test de hip
otesis. Para un nivel de significacion del 5 % el test es de la forma

(
)
5(X

8)

(X) = 1
> 1.96


2

(21)

Decisi
on basada en la muestra observada. Calculamos el valor



0 ) 5(9.5 8)
n(X
=

= 1.68


Como este valor es menor que z1/2 = z0.975 = 1.96, se acepta la hipotesis = 8. En otras
palabras, los datos no son inconsistentes con la hipotesis = 8.
Nota Bene. Notar que, si se relaja el nivel de significacion al 10 %, entonces la hipotesis
= 8 debe rechazarse debido a que el valor z0.95 = 1.645 es menor que 1.68.
Funci
on de potencia. La funcion de potencia es
!
!

5(8 )
5( 8)
+ 1.96 +
.
() = 1.96 +
2
2

(22)

Si se quiere determinar la probabilidad de cometer un error de tipo II cuando el valor


real enviado es 10 basta poner = 10 en la expresion (22) y calcular 1 (10):




1 1.96 5 1.96 + 5 = (0.276) (4.196) = 0.392.
16

1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0

10

12

14

Figura 2: Grafico de la funcion de potencia (22) correspondiente al test de hipotesis definido


en (21) para decidir entre H0 : = 8 contra H1 : 6= 8 con un nivel de significacion del
5 % y basado en una muestra de volumen 5.
Ejemplo 4.2. Volvamos al problema del Ejemplo 4.1. Cuantas se
nales deberan enviarse
para que el test de nivel de significacion = 0.05 para H0 : = 8 contra H1 : 6= 8 tenga
al menos una probabilidad igual a 0.75 de rechazar esa hipotesis cuando = 9.2?

2
Soluci
on. Como z0.025 = 1.96 y z0.75 = 0.67, de (19) resulta n 2(0.67+1.96)
= 19.21.
9.28
Para una muestra de volumen 20 el test adopta la forma

(
)

20(X
o
n
8)


8) > 1.96
(23)
(X) = 1
> 1.96 = 1 5(X


2
y su funcion de potencia adopta la expresion





() = 1.96 + 5(8 ) + 1.96 + 5( 8) .

(24)

En consecuencia,

(9.2) = (4.6433) + (0.72328) = 0.76525.


Dicho en palabras, si el mensaje se enva 20 veces, entonces hay un 76.52 % de posibilidades
de que la hipotesis nula = 8 sea rechazada cuando la media verdadera es 9.2.

17

1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0

10

12

14

Figura 3: Grafico de la funcion de potencia (24) correspondiente al test definido en (23)


para decidir entre las hipotesis H0 : = 8 contra H1 : 6= 8 con un nivel de significacion
del 5 % y basado en una muestra de volumen 20.
Nota Bene. Comparando las Figuras 2 y 3 se puede ver que, fijado el nivel de significacion del test, cuando se aumenta el volumen de la muestra disminuyen los errores de tipo
II.

4.2.

Variaciones sobre el mismo tema

Basados en una muestra X = (X1 , . . . , Xn ) de una distribucion normal N (, 2 ) con


varianza 2 conocida se quiere construir un test de nivel de significacion para decidir
entre las hipotesis
H0 : = 0
contra
H 1 : > 0 ,
donde 0 es un alg
un valor determinado.
Usando los resultados expuestos en la seccion 3.2 tenemos que


n(X 0 )
(X) = 1
> z1 .

(25)

es un test de nivel para decidir entre H0 : = 0 contra H1 : 6= 0 . Dicho en palabras,


> 0 + z1 y aceptarla en otro caso.
el test de hipotesis consiste en rechazar H0 si X
n

18

Funci
on de potencia. La funcion de potencia correspondiente al test (25) es


n(X 0 )
> z1
() = P (RechazarH0 |) = P




n(X )
n( 0 )
= P
+
> z1




n(X )
n( 0 )
> z
= P




n( 0 )
.
= z +

(26)

De las propiedades de la funcion () y de la expresion (26) para la funcion de potencia se


deduce que
(a) () creciente.
(b) (0 ) =
(c) lm+ () = 1 y lm () = 0.
Debido a que la funcion de potencia (26) es creciente, el test definido en (25) tambien
se puede usar para decidir, con un nivel de significacion , entre la hipotesis
H0 : 0

contra

H 1 : > 0 .

Ejemplo 4.3. Volvamos al problema presentado en el Ejemplo 4.1 pero supongamos que
esta vez estamos interesados en testear con nivel de significacion, = 0.05, la hipotesis
H0 : 8 contra la hipotesis alternativa H1 : > 8. (Recordar que disponemos de muestra
= 9.5)
aleatoria de volumen 5 de una poblacion normal N (, 4) cuyo promedio resulto ser X
En este caso, el test de hipotesis definido en (25) puede enunciarse de la siguiente
manera:
> 8 + 2 z0.95 = 9.4712 y aceptarla en otro caso.
Rechazar H0 cuando X
5

(27)

= 9.5, entonces debe rechazarse la hipotesis 8 a favor de la


Si se observo que X
alternativa > 9. La funcion de potencia correspondiente al test de hipotesis (27) es
!

5( 8)
(28)
() = 1.64 +
2
Si se quiere determinar la probabilidad de aceptar la hipotesis 8 cuando el valor
real enviado es = 10 basta poner = 10 en la expresion (28) y calculamos:


1 (10) = 1 1.64 + 5 = 0.27...
(29)
19

1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0

10

12

14

Figura 4: Grafico de la funcion de potencia (28) correspondiente al test definido en (27)


para decidir entre las hipotesis H0 : 8 contra H1 : > 8 con un nivel de significacion
del 5 % y basado en una muestra de volumen 5.

4.3.

Hip
otesis sobre media con varianza desconocida

Basados en una muestra aleatoria X = (X1 , . . . , Xn ) de una distribucion normal N (, 2 )


queremos construir un test de nivel de significacion para decidir entre las hipotesis
H0 : = 0

contra

H1 : 6= 0 ,

donde 0 es un alg
un valor determinado.
Test de hip
otesis
Para distribuciones normales sabemos que

n(X )

Q(X, ) =
tn1
S
= 1 Pn Xi y S 2 = 1 Pn (Xi X)
2.
es un pivote para basado en X
i=1
i=1
n
n1
Es facil ver que el pivote satisface las dos condiciones enunciadas al principio de la
Seccion 3. De acuerdo con los resultados expuestos en la seccion 3.1




n(X 0 )
n(X 0 )
(X) = 1
< tn1, /2 + 1
> tn1, 1/2 ,
(30)
S
S
es un test de nivel para decidir entre las hipotesis H0 : = 0 contra H1 : 6= 0 .

0)
0)
< tn1, /2 o n(X
> tn1, 1/2 y
Dicho en palabras, el test en rechazar H0 si n(X
S
S
aceptarla en otro caso.
20

Ejemplo
Ejemplo 4.4. En la siguiente tabla se muestran las mediciones, en segundos de grado,
obtenidas por James Short (1761), de la paralaje solar (angulo bajo el que se ve el radio
ecuatorial de la tierra desde el centro del sol) .
8.50
8.43
8.71
9.87
10.57
8.55

8.50
8.44
8.31
8.86
9.11
9.54

7.33
8.14
8.36
5.76
8.66
9.07

8.64 9.27 9.06 9.25 9.09


7.68 10.34 8.07 8.36 9.71
8.58 7.80 7.71 8.30 9.71
8.44 8.23 8.50 8.80 8.40
8.34 8.60 7.99 8.58 8.34

8.50
8.65
8.50
8.82
9.64

8.06
8.35
8.28
9.02
8.34

= 8.6162 y S = 0.749. En la Figura 5 se muestra un


Con esos datos tenemos que X
histograma de los datos.
0.7

0.6

0.5

0.4

0.3

0.2

0.1

10

11

12

Figura 5: Histograma de las mediciones obtenidas por James Short. Parece razonable
asumir que las mediciones de la paralaje solar tienen distribucion normal.
Asumiendo que las mediciones tienen distribucion N (, 2 ) queremos decidir, con un
nivel de significacion = 0.05, entre las hipotesis
H0 : = 8.798

contra

H1 : 6= 8.798

Como n = 53 y t52, 0.025 = t52, 0.975 = 2.0066, el test de hipotesis (30) adopta la forma
(
)
(
)
8.798)
8.798)
53(X
53(X
(X) = 1
< 2.0066 + 1
> 2.0066 .
S
S
21

Usando los datos de las mediciones tenemos que

8.798)
53(X
53(8.6162 8.798)
=
= 1.7667.
S
0.749
Por lo tanto, no hay evidencia suficiente para rechazar que la paralaje solar es = 8.798.

Usando como paralaje solar el valor = 8.798 y como radio ecuatorial de la tierra el
valor R = 6378 km., trigonometra mediante, se puede determinar la distancia D entre la
tierra y el sol:



6378
8.798

D = 1.4953 108 .
=
tan
3600
180
D

Lo que significa que la distancia entre la tierra y el sol es 149.53 millones de km.

5.

Test para probabilidad de


exito de distribuciones
Bernoulli

Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria con distribucion
Bernoulli(p), p (0, 1). Basados en la muestra aleatoria, X, queremos construir test para
decidir entre dos hipotesis sobre la probabilidad de exito p.
La cantidad de exitos en la muestra
N=

n
X

Xi

i=1

tiene distribucion Binomial(n, p) y resume toda la informacion relevante sobre el parametro


p contenida en la muestra aleatoria X. La media y la varianza de N son, respectivamente,
Ep [N ] = np y Vp (N ) = np(1 p).
Lema 5.1 (Dominacion estocastica). Sean 0 < p1 < p2 < 1 arbitrarios pero fijos. Si N1
Binomial(n, p1 ) y N2 Binomial(n, p2 ), entonces para cada x R vale que
P(N2 x) P(N1 x).
Demostraci
on Sean U1 , . . . , Un variables aleatorias independientes cada una con distribucion U(0, 1). Para cada i = 1, . . . , n construya las siguientes variables
X1,i := 1{Ui p1 },

X2,i := 1{Ui p2 }.

Por construccion valen las siguientes propiedades:


(a) las variables X1,1 , . . . , X1,n son iid Bernoulli(p1 );
(b) las variables X2,1 , . . . , X2,n son iid Bernoulli(p2 );
22

(c) para cada i vale que X2,i X1,i .


En consecuencia, las variables
1 :=
N

n
X
i=1

2 :=
N

X1,i Binomial(n, p1 ),

n
X
i=1

X2,i Binomial(n, p2 )

verifican que N1 N2 . Se deduce entonces que que {N2 x} {N1 x}, para cualquier
x R. Por lo tanto,




P(N2 x) = P N2 x P N1 x = P (N1 x) .
Corolario 5.2. Sea N una variable aleatoria con distribucion Binomial(n, p), p (0, 1).
Fijado un valor x R+ , la funcion polinomica de grado n, h : (0, 1) [0, 1], definida por
h(p) = Pp (N x) =

[x]  
X
n
k=0

pk (1 p)nk

es decreciente.

5.1.

Test para moneda honesta (de lo simple a lo complejo)

Se quiere decidir si una moneda es honesta o no lo es. Formalmente, se trata de construir


un test para decidir entre las hipotesis
H0 : p =

1
1
contra H1 : p 6= .
2
2

1.- Se quiere decidir tirando la moneda 6 veces. Que hacer? Observamos la cantidad N
de caras obtenidas en los 6 tiros. Para cada p tenemos que N Binomial(6, p). Cuando
la moneda es honesta, E1/2 [N ] = 3. Teniendo en cuenta la existencia de fluctuaciones
parece razonable aceptar que la moneda es honesta cuando observamos que 2 N 4.
Proponemos entonces el siguiente test
(X) = 1 1{2 N 4} = 1{N < 2} + 1{N > 4},
cuya funcion de potencia des
(p) = Pp (N 1) + Pp (N 5) = (1 p)6 + 6p(1 p)5 + 6p5 (1 p) + p6 .
Dada una moneda honesta, que riesgo se corre de rechazarla como falsa? Esta pregunta
se contesta calculando el nivel de significacion del test = (1/2) = 14
= 0.21875.
64
23

1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2

0.2

0.4

0.6

0.8

Figura 6: Grafico de la funcion de potencia del test (X) = 1{N < 2} + 1{N > 4}.
2.- Se propone el siguiente test: lanzar la moneda 100 veces y contar la cantidad de caras
observadas N . Si 40 N 60 se decide que la moneda es honesta. En caso contrario, se
decide que no lo es.
Definido el test lo u
nico que queda por hacer es evaluar los riesgos de decisiones erroneas.
Para ello calculamos la funcion de potencia
(p) = P(RechazarH0 | p) = Pp (N < 40) + Pp (N > 60).
Para cada p la cantidad de caras observadas en 100 lanzamientos se distribuye como una
Binomial: N Binomial(100, p). En consecuencia,
(p) =


39 
X
100
k=0

100k

p (1 p)


100 
X
100

k=61

pk (1 p)100k .

(31)

Sin una herramienta computacional a la mano es insensato calcular riesgos utilizando


la expresion obtenida en (31). Como el volumen de la muestra es 100 usando el teorema
central del lmite, N N (100p, 100p(1 p), podemos obtener una buena aproximacion
de la funcion de potencia, (al menos para valores de p contenidos en el intervalo abierto
(0.12, 0.88))
!
!
40 100p
60 100p
(p) p
+1 p
100p(1 p)
100p(1 p)
!
!
4 10p
10p 6
= p
+ p
(32)
p(1 p)
p(1 p)
24

1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0

0.2

0.4

0.6

0.8

Figura 7: Grafico de la funcion de potencia del test (X) = 1{N < 40} + 1{N > 60}. En
lnea quebrada aproximacion usando el TCL.
Es mas o menos claro que la funcion de potencia es simetrica respecto de p = 1/2. Esto es,
para cada q (0, 1/2)), vale que (1/2 q) = (1/2 + q).
Riesgos:
1. El nivel de significaci
on del test es = (1/2). Calculamos (1/2) utilizando la
aproximacion obtenida en (32)
!
!
45
56
(1/2) p
+ p
= (2) + (2) 0.0455
1/4
1/4

Esto significa que la probabilidad de rechazar que la moneda es honesta, cuando en


verdad lo es, sera 0.0455. En palabras: de cada 100 monedas honestas sometidas a
verificacion (en promedio) seran rechazadas como falsas 4 o 5 de ellas.

2. Que riesgo se corre de aceptar como honesta una moneda falsa, con carga 0.7 hacia
el lado de la cara? Para contestar esta pregunta tenemos que calcular el valor de
1 (0.7). Usando (32) obtenemos




76
47

0.0146.
1 (0.7) 1
0.21
0.21
Grosso modo el resultado se interpreta de la siguiente manera: de cada 100 monedas
cargadas con 0.7 para el lado de cara sometidas a verificacion (en promedio) seran
aceptadas como honestas 1 o 2 de ellas.
25

3.- Queremos un test de nivel de significacion = 0.05, basado en 64 lanzamientos de la


moneda. Parece razonable proponer un test de la forma
(X) = 1{N < 32 k} + 1{N > 32 + k}.
El problema consiste en determinar el valor de k. El nivel de significacion del test es
(1/2) = P1/2 (N < 32 k) + P1/2 (N > 32 + k)
Para p = 1/2, N Binomial(64, 1/2) y usando el teorema central de lmite obtenemos
que la distribucion de N es aproximadamente normal de media E1/2 [N ] = (1/2)64 = 32 y
varianza V1/2 (N ) = (1/2)(1/2)64 = 16.
(1/2) = P1/2 (N < 32 k) + P1/2 (N > 32 + k)




k
k
N 32
N 32
<
>
+ P1/2
P1/2
4
4
4
4






k
k
k
+
= 2
=
4
4
4
En consecuencia,


k
(1/2) = 0.05
4

= 0.025

k
= z0.025 = 1.96 k = 7.84.
4

Por lo tanto, el test adopta la forma


(X) = 1{N < 32 7.84} + 1{N > 32 + 7.84} = 1{N < 25} + 1{N > 39}.
En palabras, el test consiste en lo siguiente: lanzar la moneda 64 veces; si la cantidad de
caras observadas es menor que 25 o mayor que 39, se decide que la moneda esta cargada;
en caso contrario, se decide que la moneda es honesta.
Que riesgo se corre de aceptar como honesta una moneda con carga 0.7 hacia el lado
de la cara? La respuesta
se obtiene calculando 1 (0.7). Para p = 0.7 el TCL establece
p
que (N 0.7(64))/ (0.7)(0.3)64 N (0, 1), en consecuencia,
!
!
25 0.7(64)
0.7(64) 39
(0.7) p
+ p
(1.5821) = 0.94318.
(0.21)64
(0.21)64

Por lo tanto, 1 (0.7) = 0.0568...

4.- Queremos un test de nivel de significacion = 0.05, cuya potencia cuando la carga
difiere de 0.5 en mas de 0.1 sea como mnimo 0.90. Parece razonable proponer una regla
de la forma
(X) = 1{N < n(1/2) k} + 1{N > n(1/2) + k}.
26

1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0

0.2

0.4

0.6

0.8

Figura 8: Grafico de la funcion de potencia del test (X) = 1{N < 25} + 1{N > 39}. En
lnea quebrada aproximacion usando el TCL.
El problema consiste en determinar el volumen de la muestra, n, y el valor de k. Las
condiciones impuestas al test pueden expresarse de la siguiente manera
() 0.05

(0.6) 0.90,

(33)

donde () = (1/2) es en nivel del test y (0.6) es la potencia en p = 0.6.


Ambos problemas se resuelven caracterizando la funcion de potencia del test
(p) = Pp (N < n(1/2) n) + Pp (N > n(1/2) + n)
De acuerdo con el el TCL tenemos que para cada p
N np
Z=p
N (0, 1),
np(1 p)

en consecuencia,
(p) Pp
=

!
!
n(1/2 p) + n
n(1/2 p) n
Z< p
+ Pp Z > p
np(1 p)
np(1 p)
!
!

n(1/2 p )
n(p 1/2 )
p
p
+
p(1 p)
p(1 p)

Notar que para p > 1/2 el primer termino del lado derecho de la igualdad es despreciable
y entonces


n(0.1 )

(0.6)
0.24
27

Por otra parte,


(1/2) 2

!

n
p
= 2 2 n
1/4

En consecuencia, las desigualdades (33) son equivalentes a las siguientes:





n(0.1 )

0.90.
2 2 n 0.05
y

0.24
Por lo tanto, n y deben ser tales que

n(0.1 )

2 n z0.975
z0.90
(34)
y
0.24
Recurriendo a una tabla de la distribuci
on normal, usando una calculadora de almacenero
(que tenga una tecla con el smbolo ), y operando con las desigualdades (34) se pueden
obtener soluciones particulares. Por ejemplo, n = 259 y = 0.061.
Tomando n = 259 y = 0.061 obtenemos la siguiente regla de decision:
(X) = 1{N < 114} + 1{N > 145}.
En palabras, el test establece que hay que lanzar la moneda 259 veces y contar la cantidad
de caras observadas. Si la cantidad de caras observadas es menor que 114 o mayor que 145
se decide que la moneda esta cargada. En caso contrario, se decide que es honesta.
Una cuenta. Para obtener el resultado particular n = 259 y = 0.061 hay que hacer lo
siguiente: En primer lugar, hay que observar que

n(0.1 )

n(0.1 ) z0.90 0.24


z0.90
0.24

0.1 n z0.90 0.24 n





2 0.1 n z0.90 0.24 2 n


(35)
La u
ltima desigualdad de (35) combinada con la primera de (34) implican que n debe
satisfacer las desigualdades



0.2 n 2z0.90 0.24 z0.975


n 5 z0.975 + 2z0.90 0.24

2

n 25 z0.975 + 2z0.90 0.24

Tabla de la distribucion normal (z0.975 = 1.96, z0.90 = 1.28) y calculadora mediante, se


obtiene que n 259. Poniendo n = 259 en la tercera desigualdad de (35) se puede ver que
debe ser tal que

0.24
0.1 z0.90
0.061.
259
Podemos elegir = 0.061.
28

1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0

0.2

0.4

0.6

0.8

Figura 9: Grafico de la funcion de potencia del test (X) = 1{N < 114} + 1{N > 145}.
En lnea quebrada aproximacion usando el TCL.

5.2.

Hip
otesis fundamental simple

Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria con distribucion
Bernoulli(p), p (0, 1). Basados en la muestra aleatoria X queremos construir test para
decidir entre las hipotesis
H0 : p = p0

contra

H1 : p 6= p0 ,

donde p0 (0, 1) es un valor arbitrario pero fijo.


Primera fase: dise
nar un test de hip
otesis
Pn
Cuando la hipotesis H0 es verdadera,
la
cantidad
de

e
xitos
N
=
i=1 Xi tiene distribup
cion binomial de media np0 y desvo np0 (1 p0 ). Parece razonable construir reglas de
decision de la forma
(X) = 1 {N < np0 n} + 1 {N > np0 + n} ,

(36)

donde n N y > 0 son arbitrarios pero fijos.


En castellano, el test de hipotesis definido en (36) establece el siguiente procedimiento
de decision:
1. Examinar una muestra de tama
no n de la variableP
aleatoria Bernoulli, X = (X1 , . . . , Xn )
y contar la cantidad de exitos observados: N = ni=1 Xi .
29

2. Si la cantidad de exitos observados es menor que np0 n o mayor que np0 + n se


rechaza la hipotesis p = p0 y se decide que p 6= p0 . En caso contrario, se no se rechaza
la hipotesis p = p0 .
Segunda fase: caracterizar la funci
on de potencia
La segunda fase del programa consiste en calcular la funcion de potencia. Esta funcion
permite calcular los riesgos de tomar decisiones erroneas:
(p) = P (Rechazar H0 | p) = Pp ((X) = 1)
= Pp (N < np0 n) + Pp (N > np0 + n)
 
[np0 n]  
n
X
X
n k
n k
nk
p (1 p)nk .
p (1 p)
+
=
k
k
k=0

(37)

k=[np0 n]+1

Notar que la funcion de potencia resulto ser un complicado polinomio de grado n y no es


facil capturar a simple vista su comportamiento cualitativo.
Nivel de significaci
on. Debido a que la hipotesis fundamental es de la forma p = p0 ,
para cada n y , el nivel de significaci
on del test es
() = (p0 ) =

[np0 n] 

X
k=0


n k
p (1 p0 )nk +
k 0

n
X

k=[np0 n]+1

 
n k
p (1 p0 )nk .
k 0

(38)

Nota Bene 1. Notar que los test (36) contienen un juego de dos parametros, n y .
Estos parametros determinan la calidad de cada test y deben ajustarse de acuerdo con
las prescripciones impuestas al test sobre su nivel de significacion y su potencia en alguna
hipotesis alternativa.
Nota Bene 2. Notar que si la muestra tiene volumen prefijado n, por mas que se mueva
el valor de , el nivel de significacion del test () puede tomar a lo sumo n + 1 valores
distintos. Por lo tanto, si se prescribe que el nivel de significacion del test (X) debe ser
, casi seguramente la ecuacion () = no tendra solucion.
Aproximaci
on por TCL para muestras grandes
La funcion de potencia (37) se puede aproximar utilizando el teorema central del lmite.
Si la muestra es suficientemente grande, para cada valor de p, tenemos que
N np
Z=p
N (0, 1).
np(1 p)
30

Esto permite aproximar el valor de (p) de la siguiente manera


!
!
n(p0 p )
n(p0 p + )
(p) = Pp Z < p
+ Pp Z > p
np(1 p)
np(1 p)
!
!

n(p0 p )
n(p p0 )
p
p

+
.
p(1 p)
p(1 p)

(39)

Aunque la aproximacion (39) pueda resultar grosera y no sea lo suficientemente buena


para todos los posibles valores de p, permite capturar el comportamiento cualitativo de la
funcion de potencia.
Nivel de significaci
on. Poniendo p = p0 , la aproximacion (39) permite observar que
!

n
.
(40)
() = (p0 ) = 2 p
p0 (1 p0 )

Esto indica que basta tomar n suficientemente grande para que (p0 ) se ubique todo lo
cerca del 0 que uno quiera. En otras palabras, el test puede construirse para garantizar que
la probabilidad de rechazar la hipotesis p = p0 cuando ella es verdadera sea todo lo chica
que uno quiera.
La aproximacion (40) se puede utilizar para ajustar los valores de los parametros n
y para que valga la desigualdad () . Para ello basta observar que la desigualdad
aproximada
!

n
n
2 p
z/2 .
(41)
p
p0 (1 p0 )
p0 (1 p0 )

Por lo tanto, las soluciones de la desigualdad (41) seran todos los valores de n N y todos
los valores de > 0 que satisfagan

n
p
z1/2 .
(42)
p0 (1 p0 )

Fijada una solucion particular de (42), una alta dosis de paciencia permite calcular a mano
el valor exacto del nivel de significacion () obtenido en (38) y comprobar si efectivamente
satisface () .

Test de hip
otesis con nivel de significaci
on aproximado. Basados en los argumentos y razonamientos anteriores, podemos dise
nar test para decidir entre las hipotesis
H0 : p = p0 contra H1 : p 6= p0 con nivel de significacion aproximadamente . Usando el
dise
no (36) para valores de n y que verifiquen la desigualdad (42) obtenemos
o
n
o
n
p
p
(X) = 1 N < np0 z1/2 np0 (1 p0 ) + 1 N > np0 + z1/2 np0 (1 p0 ) . (43)
31

Potencia en una alternativa. El mismo problema se presenta cuando se prescribe una


potencia para una alternativa p1 . En esta situacion trataremos de resolver la desigualdad
(p1 ) . Nuevamente la aproximacion (39) permite resolver el problema:
Si p1 < p0 el segundo termino en (39) es despreciable respecto del primero y entonces
obtenemos la siguiente aproximacion:
!

n(p0 p1 )
p
(p1 )
.
(44)
p1 (1 p1 )
Si p1 > p0 el primer termino es despreciable respecto del segundo y entonces obtenemos la siguiente aproximacion:
!

n(p1 p0 )
p
(p1 )
.
(45)
p1 (1 p1 )

Para fijar ideas supongamos que p1 > p0 . Razonando del mismo modo que antes se
obtiene la siguiente solucion aproximada de la inecuacion (p1 ) :

n(p p0 )
p 1
z .
(46)
p1 (1 p1 )
El razonamiento anterior muestra que, prefijados dos valores y , se pueden dise
nar test
de hipotesis de la forma (36) con prescripciones del siguiente tipo: nivel de significacion
menor o igual que y/o potencia en una alternativa particular superior a .

5.3.

Hip
otesis fundamental compuesta

Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria con distribucion
Bernoulli(p), p (0, 1). Basados en la muestra aleatoria X queremos construir test para
decidir entre las hipotesis
H0 : p p0

contra

H1 : p > p0 ,

donde p0 (0, 1) es un valor arbitrario pero fijo.


Programa de actividades. Adaptaremos los argumentos y razonamientos desarrollados
en la seccion 5.2. La primera fase del programa consiste
en construir test de hipotesis
Pn
basados en la cantidad de exitos de la muestra N = i=1 Xi . La segunda fase del programa
consiste en evaluar los riesgos de tomar decisiones erroneas con los test construidas: se trata
de caracterizar analticamente la funcion de potencia y estudiar sus propiedades cualitativas
y cuantitativas: calculo del nivel de significacion y de la potencia en las hipotesis alternativas
simples.
32

Test de hip
otesis. En este caso resulta intuitivamente claro proponer test de forma
(X) = 1{N > np0 + n},

(47)

donde n y son parametros ajustables.


Funci
on de potencia. Fijados n y la funcion de potencia del test es
(p) = P (rechazarH0 | p) = Pp ((X) = 1) = Pp (N > np0 + n)
 
n
X
n k
p (1 p)nk .
=
k

(48)

k=[np0 +n]+1

De acuerdo con el Corolario 5.2 la funcion de potencia es creciente. Esto es intuitivamente


claro si se piensa que cuando aumenta la probabilidad de cada exito, la cantidad de exitos
debe aumentar.
Aproximaci
on por TCL. Si el volumen de muestra es suficientemente grande, usando
el teorema central del lmite podemos obtener la siguiente expresion aproximada de la
funcion de potencia
!
!

N np
np0 + n np
n(p p0 )
p
(p) = Pp p
> p

.
(49)
np(1 p)
np(1 p)
p(1 p)
Nivel de significaci
on. Como la funcion de potencia es creciente, el nivel de significacion
del test se obtiene de la siguiente manera
!
 

n
X
n
n k
. (50)
p0 (1 p0 )nk p
() = max (p) = (p0 ) =
pp0
k
p0 (1 p0 )
k=[np0 +n]+1

La aproximacion en (50) presupone que el volumen de muestra es suficientemente grande


(por ejemplo, np0 (1 p0 ) > 10).
Prefijados un volumen de muestra suficientemente grande y un nivel de significacion
para el test de hipotesis, la aproximacion (50) permite hallar el valor de
p

z1 p0 (1 p0 ) = n.
(51)

Test de hip
otesis con nivel de significaci
on aproximado. Usando el dise
no (47)
y el resultado obtenido en (51) se deduce que, para n suficientemente grande y fijo, la
forma del test de hipotesis de nivel de significacion para decidir entre H0 : p p0 contra
H1 : p > p0 es
n
o
p
(X) = 1 N > np0 + z1 np0 (1 p0 ) .
(52)
33

Potencia en una alternativa. El analisis de la potencia en las hipotesis alternativas


simples p = p1 , con p1 > p0 , se realiza siguiendo las mismas lneas desarrolladas en la
seccion anterior.
Ejemplo 5.3. Un productor de chips afirma que no mas del 2 % de los chips que produce
son defectuosos. Una compa
na electronica (impresionada por dicha afirmacion) le compra
una gran cantidad de chips. Para determinar si la afirmacion del productor se puede tomar
literalmente, la compa
na decide testear una muestra de 300 de esos chips. Si se encuentra
que 10 de los 300 chips son defectuosos, debera rechazarse la afirmacion del productor?
Soluci
on. Formalmente, el problema consiste en construir un test de hipotesis para decidir entre
H0 : p 0.02
contra
H1 : p > 0.02.
sobre la base de una muestra de volumen 300.
Fijado un nivel de significacion, por ejemplo = 0.05, el test de hipotesis (52) adopta
la forma
n
o
p
(X) = 1 N > 300(0.02) + z0.95 300(0.02)(0.98) = 1{N > 9.9886}
= 1{N 10}.

(53)

Dicho en palabras, al nivel del 5 % de significacion, un test para decidir entre las
hipotesis H0 : p 0.02 contra H1 : p > 0.02, basado en una muestra de volumen 300,
consiste en rechazar la hipotesis H0 siempre que se observen 10 o mas exitos.
Traducido al problema que estamos examinando, el criterio de decision puede enunciarse
de la siguiente manera: examinar 300 componentes. Si se observan 10 o mas defectuosos
debe rechazarse la afirmacion del productor de que produce con una calidad de a lo sumo
un 2 %, si se observan menos de 10 defectuosos no hay evidencia suficiente para rechazar
su afirmacion.
En conclusion, como en la muestra examinada se observaron 10 chips defectuosos, al
nivel del 5 % de significacion, la afirmacion del productor debe rechazarse.

6.

Test para varianza de normales

El objetivo de esta seccion es ilustrar como se pueden obtener test de hipotesis usando
intervalos de confianza.

6.1.

Hip
otesis sobre varianza con media conocida

Usando intervalos de confianza para la varianza de una distribucion normal N (, 2 )


con media conocida vamos a construir test de hipotesis de nivel de significacion para
decidir entre
H0 : 2 = 02
contra
H1 : 2 6= 02 ,
34

para alg
un valor 02 determinado.
Dada una muestra aleatoria X = (X1 , . . . , Xn ) de la distribucion normal N (, 2 ) con
media conocida, sabemos que
#
"
nb2 mv
nb2 mv
,
,
I(X) =
2n, (1+)/2 2n, (1)/2

P
donde nb2 mv = ni=1 (Xi )2 , es un intervalo de confianza para 2 de nivel . Poniendo
= 1 se obtiene el siguiente test de nivel para decidir entre las hipotesis H0 : 2 = 02
contra H1 : 2 6= 02
(X) = 1{I(X) 6 02 }
(
)
(
)
n
n
X
1 X
1
= 1
(Xi )2 < 2n, /2 + 1
(Xi )2 > 2n, 1/2 . (54)
02 i=1
02 i=1
Funci
on de potencia. Para calcular y analizar el comportamiento de la funcion de
potencia,
( 2 ) = P(RechazarH0 | 2 ),

debe recordarse que cuando el verdadero valor de la varianza es 2 , la variable aleatoria


Pn
02
1
2
2
(X
)
tiene
distribuci
o
n

=
(n/2,
1/2).
Multiplicando
por
en las desiguali
2
n
i=1

2
dades dentro de las llaves en la formula del test (54), y calculando las correspondientes
probabilidades, obtenemos la siguiente expresion
2

( ) =

a( 2 )

(1/2)n/2 (n/2)1 1 x
x
e 2 dx +
(n/2)

donde
a( 2 ) =

02 2

,
2 n, /2

b( 2 )

b( 2 ) =

(1/2)n/2 (n/2)1 1 x
x
e 2 dx,
(n/2)
02 2

.
2 n,1/2

Ejemplo 6.1. Dada una muestra aleatoria de volumen 10 de una poblacion normal de
media 0 se quiere construir un test de nivel = 0.05 para decidir entre las hipotesis
H0 : 2 = 1 contra H1 : 2 6= 1.
Soluci
on. Como 210, 0.025 = 3.247 y 210, 0.975 = 20.483, el test de hipotesis (54) adopta la
forma
)
)
( n
( n
X
X
Xi2 > 20.483 .
(55)
Xi2 < 3.247 + 1
(X) = 1
i=1

i=1

35

1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0

Figura 10: Grafico de la funcion de potencia del test (55).

6.2.

Hip
otesis sobre varianza con media desconocida

Usando intervalos de confianza para la varianza de una distribucion normal N (, 2 )


vamos a construir test de hipotesis de nivel de significacion para decidir entre
H0 : 2 = 02

contra

H1 : 2 6= 02 ,

para alg
un valor 02 determinado.
Dada una muestra aleatoria X = (X1 , . . . , Xn ) de la distribucion normal N (, 2 )
sabemos que
"
#
(n 1)S 2 (n 1)S 2
I(X) =
,
,
2n1, 1/2 2n1, /2
es un intervalo de confianza para 2 de nivel . Poniendo = 1 se obtiene el siguiente
test de nivel para decidir entre las hipotesis H0 : 2 = 02 contra H1 : 2 6= 02
(X) = 1{I(X) 6 02 }




(n 1)S 2
(n 1)S 2
2
2
= 1
< n1, /2 + 1
> n1, 1/2 .
02
02

(56)

Funci
on de potencia. Notar que el analisis de funcion de potencia de test (56) es
completamente analogo al desarrollado para el caso en que suponamos que la media es
conocida.
Nota Bene. Notar que los test de hipotesis definidas en (54) y (56) son inmediatamente
u
tiles para tomar decisiones.
36

Ejemplo 6.2. En la Seccion dedicada al estudio de intervalos de confianza mostramos


que cuando una muestra aleatoria X (de volumen 8) de una poblacion normal N (, 2 )
arroja los valores 9, 14, 10, 12, 7, 13, 11, 12, el intervalo I2 = [2.248, 21.304] es un intervalo
de confianza de nivel = 0.95 para la varianza 2 .
Si se quiere decidir al 5 % de significacion entre las hipotesis
H0 : 2 = 4

contra

H1 : 2 6= 4.

el test de hipotesis (56) conduce a no rechazar la hipotesis 2 = 4.

7.
7.1.

Comparaci
on de dos muestras
Test para medias de dos muestras normales.

Sean X = (X1 , . . . , Xm ) e Y = (Y1 , . . . , Yn ) dos muestras aleatorias independientes


2
de distribuciones normales N (X , X
) y N (Y , Y2 ), respectivamente. Sea = X Y .
Queremos un test para decidir entre las hipotesis
H0 : = 0
7.1.1.

contra

H1 : > 0.

Varianzas conocidas

2
Supongamos que las varianzas X
y Y2 son conocidas. Para construir el test de hipotesis
y Y . Puesto que
usaremos los estimadores de media: X


2
2

Y
X
Y N ,
+
X
m
n

el test de nivel decidir entre H0 : = 0 contra H1 : > 0 es

Y
(X, Y) = 1 q 2
>
z
1
X Y2

+
m
n
7.1.2.

Varianzas desconocidas pero iguales.

2
Supongamos las varianzas X
= Y2 = 2 . En tal caso, bajo la hipotesis = 0 tenemos
que
Y
X
Z= q
N (0, 1).
2 m1 + n1
2
Para estimar la varianza 2 ponderamos adecuadamente los estimadores de varianza SX
2
y SY ,
2
n1
(m 1)SX
+ (n 1)SY2
m1
2
2
2
S +
S =
.
SP :=
m+n2 X m+n2 Y
m+n2

37

Se puede mostrar que


2
(n + m 2) 2
(m 1)SX
+ (n 1)SY2
S
=
n+m2 .
P
2
2

U=

Debido a que las variables Z y U son independientes, tenemos que


Y
Z
X
T =p
=p q
U/(m + n 2)
SP2 m1 +

Por lo tanto,

Y
X
(X, Y) = 1 p q
S2 1 +
P
m

1
n

1
n

tm+n2

> tm+n2, 1

es un test de nivel de significacion para decidir entre las hipotesis H0 : = 0 contra


H1 : > 0.

7.2.

Test F para varianzas de normales.

Sean X = (X1 , . . . , Xm ) e Y = (Y1 , . . . , Yn ) dos muestras aleatorias independientes


2
2
de distribuciones normales N (X , X
) y N (Y , Y2 ), respectivamente. Sea R = X
/Y2 .
Queremos un test para decidir entre las hipotesis
H0 : R = 1

contra

H1 : R 6= 1.

2
2
Las varianzas X
y Y2 se pueden estimar mediante sus estimadores insesgados SX
y SY2 .
Las variables

U=

(m 1) 2
SX 2m1
2
X

V =

(n 1) 2
SY 2n1
2
Y

son independientes.
Test de hip
otesis. Bajo la hipotesis H0 : R = 1, vale que
F =

2
2
2
SX
/X
SX
=
Fm1, n1 .
SY2
SY2 /Y2

Por lo tanto,
(X, Y) = 1 {F
/ [1 , 2 ]} ,

(57)

donde 1 y 2 son tales que P(F < 1 ) = P(F > 2 ) = /2, es un test de nivel para
decidir entre las hipotesis H0 : R = 1 contra H1 : R =
6 1.
38

Ejemplo 7.1. Queremos construir un test de nivel = 0.05 para decidir entre H0 : R = 1
contra H1 : R 6= 1 usando muestras X y Y de volumen m = n = 10.
Proponemos un test de la forma (57). El problema se reduce determinar valores 1 y
2 tales que
P(F9, 9 > 2 ) = 0.025
y
P(F9, 9 < 1 ) = 0.025.
Usando las tablas de las distribuciones F resulta que 2 = 4.5362 y que 1 = 1/2 = 0.2204.
Finalmente, se obtiene el test
(X, Y) = {F
/ [0.2204, 4.5362]} .

7.3.

Planteo general

Supongamos que tenemos dos muestras aleatorias independientes X = (X1 , . . . , Xm ) e


Y = (Y1 , . . . , Yn ) con distribuciones dependientes de los parametros y , respectivamente.
Sea = .
Se quiere decidir entre la hipotesis fundamental
H0 : = 0
contra cualquiera de las hipotesis alternativas:
(a)
(b)
(c)

H1 : > 0 ;
H1 : < 0 ;
H1 : =
6 0 .

Sabemos que si dos estimadores para y , m y n , tienen la propiedad de normalidad


asintotica

m(m ) N (0, 2 )
cuando m ,

2
n(
n ) N (0, )
cuando n ,
donde 2 y 2 pueden depender de y , respectivamente y ninguna de las variables
esta sobre-representada (i.e., m y n son del mismo orden de magnitud), entonces
(m n ) ( )
q
N (0, 1)
2
2
+
m
n

39

(58)

Si 2 y 2 son conocidas, de (58) resulta que las regiones de rechazo:


(a)

(m n ) 0
q
> z1 ;
2
2
+ n
m

(m n ) 0
q
< z ;
2
2
+ n
m




(m n ) 0
> z1/2
(c) q

2
2

+ n
m

(b)

producen un test para H0 contra H1 de nivel asintotico , para cada uno de los casos
considerados, respectivamente.
Si 2 y 2 son desconocidas y b2 y b2 son estimadores consistentes para 2 y 2 , se puede
demostrar que las regiones de rechazo conservan su validez cuando 2 y 2 se reemplazan
por b2 y b2 , respectivamente y entonces el test con region de rechazo
(m n ) 0
q
> z1 ;
c2

c2
+
m
n
(m n ) 0
q
< z ;
(b)
c2
c2

+
m
n




(m n ) 0

> z1/2
(c) q

c
c
2
2



+
m
n
(a)

tambien tiene nivel asintotico .


Para mayores detalles se puede consultar el libro Lehmann, E. L. (1999) Elements of
Large-Sample Theory. Springer, New York.
Nota Bene. Notar que el argumento anterior proporciona un metodo general de naturaleza asintotica. En otras palabras, en la practica los resultados que se obtienen son
aproximados. Dependiendo de los casos particulares existen diversos refinamientos que
permiten mejorar esta primera aproximacion.

7.4.

Problema de dos muestras binomiales

Sean X = (X1 , . . . , Xm ) e Y = (Y1 , . . . , Yn ) dos muestras aleatorias independientes


de dos variables aleatorias X e Y con distribucion Bernoulli de parametros pX y pY ,
respectivamente. Sea = pX pY . Queremos un test para decidir entre las hipotesis
H0 : = 0

contra
40

H1 : > 0

Para construir el test usaremos los estimadores de maxima verosimilitud para las proba y pY = Y .
bilidades px y pY , pX = X
Vamos a suponer que los vol
umenes de las muestras, m y n, son suficientemente grandes
y que ninguna de las dos variables esta sobre representada.
y Y son estimadores consistentes para las probabilidades pX y pY , resulta
Puesto que X

X)
y Y 1 Y son consistentes de las varianzas pX (1 pX ) y
que los estimadores X(1
pY (1 pY ), respectivamente. Por lo tanto,

X Y
(X, Y) = 1 q

 > z1
1X
1X
+ 1 Y 1 Y
m

es un test, de nivel aproximado , para decidir entre las hipotesis H0 : = 0 contra


H1 : > 0.
Nota Bene. Observar que el nivel del test se calcula bajo la hipotesis pX = pY , en tal
Y es de la forma
caso la desviacion estandar de la diferencia X
r
r
pX (1 pX ) pY (1 pY ) p
1
1
+
= pX (1 pX )
+
m
n
m n
y podemos estimarla mediante
s
r
+ nY 
+ nY  1
mX
mX
1
1
+ .
m+n
m+n
m n

Lo que produce el test

(X, Y) = 1

Y
X
mn
r
 > z1


m
X+n
Y

(mX + nY ) 1
m+n

(59)

Ejemplo 7.2. Se toma una muestra aleatoria de 180 argentinos y resulta que 30 estan
desocupados. Se toma otra muestra aleatoria de 200 uruguayos y resulta que 25 estan
desocupados. Hay evidencia suficiente para afirmar que la tasa de desocupacion de la
poblacion Argentina es superior a la del Uruguay?
Soluci
on. La poblacion desocupada de la Argentina puede modelarse con una variable
aleatoria X Bernoulli(pX ) y la del Uruguay con una variable aleatoria Y Bernoulli(pY ).
Para resolver el problema utilizaremos un test de nivel de significacion = 0.05 para
decidir entre las hipotesis
H0 : pX = pY

contra
41

H 1 : p X > pY

basada en dos muestras aleatorias independientes X e Y de vol


umenes m = 180 y n = 200,
respectivamente.
El test de hipotesis dado en (59) adopta la forma

Y
X
36000
(X, Y) = 1 r
(60)
 > 1.64


180
X+200
Y

(180X + 200Y ) 1

380

= 30/180 y Y = 25/200:
De acuerdo con los datos observados X

30
25
36000
200
180
q
 = 1.152 . . .
55
55 1 380

Debido a que 1.152 . . . < 1.64, no hay evidencia suficiente para rechazar la hipotesis pX =
pY . Por lo tanto, con un 5 % de nivel de significacion, no hay evidencia suficiente para
afirmar que la tasa de desocupacion en la Argentina sea superior a la del Uruguay.

8.
8.1.

Test de la 2 para bondad de ajuste


Planteo del problema

Los test de bondad de ajuste tienen por objeto decidir si los datos observados se
ajustan a una determinada distribucion de probabilidades. Mas precisamente, se formula
una hipotesis, H, que afirma que los datos observados constituyen una muestra aleatoria
X = (X1 , . . . , Xn ) de una distribucion F . La distribucion F puede estar completamente
especificada (hipotesis simple) o puede pertenecer a una familia parametrica (hipotesis
compuesta).
Algunos ejemplos (para fijar ideas):
Ejemplo 8.1 (Moneda honesta). En una sucesion de 100 lanzamientos independientes de
una moneda se observaron 55 caras y 45 cecas Estos datos son compatibles con la hipotesis
de que la moneda es honesta?
Ejemplo 8.2 (Multinomial). Para identificar las obras de su serie titulada Los paisajes
binarios el artista digital Nelo las firma con una imagen aleatoria de 10 10 pixels: por
cada pixel lanza un dado equilibrado: si sale 1, 2 o 3 lo pinta de rojo; si sale 4 o 5 lo pinta de
verde y si sale 6 lo pinta de azul. Se somete a examen la firma de una obra digital titulada
Cordillera binaria y se obtienen los siguientes resultados: 46 pixels rojos, 37 verdes y 17
azules. La obra Cordillera binaria pertenece a la serie Los paisajes binarios?

42

Ejemplo 8.3 (N
umeros aleatorios). Se producen 10000 n
umeros con un generador de
n
umeros aleatorios. Para economizar espacio se registra la cantidad de n
umeros de la
forma 0. d..., donde d = 0, 1, . . . , 9. Se obtuvieron los resultados siguientes:
d
0
1
2
3
4
5
6
7
8
9
#{0. d...} 1008 1043 1014 1027 952 976 973 1021 998 988

(61)

Los datos se ajustan a una distribucion uniforme U[0, 1]?


Ejemplo 8.4 (Poisson). Una partcula de polen suspendida en agua es bombardeada por
moleculas en movimiento termico. Se la observa durante una hora y se registra la cantidad
de impactos que recibe por segundo. Sea X la variable aleatoria que cuenta la cantidad de
impactos por segundo recibidos por la partcula. Se obtuvieron los siguientes datos
0
1
2
3
4 5 6
X
# de s. con X impactos 1364 1296 642 225 55 15 3

(62)

Se quiere decidir si los datos provienen de una distribucion de Poisson.


Ejemplo 8.5 (Velocidad de la luz). En la siguiente tabla se muestran las mediciones de
la velocidad de la luz realizadas por el fsico Albert Michelson entre el 5 de junio y el 5 de
julio de 1879. Los valores dados + 299.000 son las mediciones de Michelson en km/s.
850
1000
960
830
880
880
890
910
890
870

740
980
940
790
880
910
810
920
840
870

900 1070 930 850 950 980 980 880


930 650 760 810 1000 1000 960 960
960 940 880 800 850 880 900 840
810 880 880 830 800 790 760 800
880 860 720 720 620 860 970 950
850 870 840 840 850 840 840 840
810 820 800 770 760 740 750 760
890 860 880 720 840 850 850 780
780 810 760 810 790 810 820 850
810 740 810 940 950 800 810 870

(63)

Las mediciones de la velocidad de la luz de Michelson, se ajustan a una distribucion


normal?

8.2.

Test de bondad de ajuste para hip


otesis simples

La hipotesis nula afirma que


H0 : FX = F,
donde F es una distribucion de probabilidades completamente determinada.
Si la hipotesis H0 es verdadera, la funcion de distribucion emprica, Fn de los n valores
observados debe ser parecida a la funcion de distribucion F . Lo que sugiere introducir
43

alguna medida de la discrepancia entre ambas distribuciones y basar el test de hipotesis en


las propiedades de la distribucion de dicha medida.
Hay varias formas de construir esas medidas. La que sigue fue introducida por Karl
Pearson.
Se divide el rango de la variable aleatoria X en una cantidad finita k de partes disjuntas
dos a dos, C1 , . . . , Ck , llamadas clases 5 tales que las probabilidades pi = P(X Ci |H0 ) > 0.
Las k clases, Ci , seran los k conjuntos en los que agruparemos los datos para tabularlos.
Se consideran n1 , . . . , nk las frecuencias de aparicion de las clases C1 , . . . , Cn en la muestra
aleatoria X = (X1 , . . . , Xn ),
ni =

n
X
j=1

1{Xj Ci }

k
X

ni = n.

i=1

Bajo la distribucion hipotetica la cantidad de valores muestrales ni pertenecientes a la


clase Ci se distribuye como una Binomial(n, pi ), y en consecuencia, para valores grandes
de n, las frecuencias relativas nni deben tener valores muy proximos a las probabilidades pi .
La dispersion entre las frecuencias relativas nni y las probabilidades pi se puede medir del
siguiente modo
k
k
n
2 X
X
(ni npi )2
i
2
D =
wi
pi =
,
(64)
wi
2
n
n
i=1
i=1

donde los coeficientes wi > 0 se pueden elegir de manera mas o menos arbitraria. Cuando
la hipotesis H0 es verdadera los valores de la medida de dispersion D2 deben ser peque
nos,
lo que sugiere dise
nar un test de hipotesis que decida rechazar la hip
otesis H0 cuando y
solo cuando se observa que D2 > M , donde M es una constante arbitraria pero fija.
Karl Pearson demostro que cuando n es grande y la hipotesis H0 es verdadera, poniendo
wi = pni en (64), la distribucion de la medida de dispersion
2

D =

k
X
(ni npi )2
i=1

npi

(65)

es aproximadamente igual a una chi cuadrado con k 1 grados de libertad. (Una demostracion de este resultado puede consultarse en: Cramer, H.: Metodos matematicos de
estadstica. Aguilar, Madrid. (1970).)
Test de bondad de ajuste 2 . Para decidir si la muestra aleatoria X = (X1 , . . . , Xn )
proviene de la distribucion F se puede adoptar el siguiente criterio:
(X) = 1{D2 > 2k1, 1 },

(66)

donde (0, 1). Dicho en palabras, rechazar que FX = F cuando y solo cuando la medida
de dispersi
on D2 definida en (65) supera al cuantil 1 de la distribucion chi cuadrado
con k 1 grados de libertad. En tal caso, la probabilidad de rechazar H0 cuando H0 es
verdadera es aproximadamente .
5

Los valores de la variable aleatoria X pertenecen a una y solo a una de las clases C1 , . . . , Ck .

44

8.3.

Ejemplos (1a parte)

El siguiente ejemplo tiene la virtud de mostrar, en un caso particular, una lnea de


demostracion del resultado de Pearson sobre la distribucion asintotica de D2 .
Ejemplo 8.6 (Bernoulli). Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una distribucion
Bernoulli con probabilidad de exito p. Queremos testear la hipotesis H0 : p = p0 contra
H1 : p 6= p0 , donde p0 (0, 1) es un valor determinado.
La medida de dispersion definida en (65) entre las frecuencias observadas
n1 =

n
X

Xi

n2 = n n1

i=1

y las frecuencias esperadas


np0

n(1 p0 )

tiene la siguiente expresion


D2 =

(n1 np0 )2 (n n1 n(1 p0 ))2


+
.
np0
n(1 p0 )

Observando que
(n1 np0 )2 (np0 n1 )2
(n1 np0 )2 (n n1 n(1 p0 ))2
+
=
+
np0
n(1 p0 )
np0
n(1 p0 )
(1 p0 )(n1 np0 )2 + p0 (n1 np0 )2
=
np0 (1 p0 )
2
(n1 np0 )
=
,
np0 (1 p0 )
se obtiene que
D2 =

n1 np0

p
np0 (1 p0 )

!2

(67)

Cuando la hipotesis H0 es verdadera, n1 Binomial (n, p0 ), y de acuerdo con el teorema


central del lmite la distribucion de la variable aleatoria
p

n1 np0

np0 (1 p0 )

es asintoticamente normal N (0, 1). Por lo tanto, para valores grandes de n, D2 tiene una
distribucion aproximadamente igual a 21 .

45

Ejemplo 8.1. (Continuaci


on) Se trata de un caso particular del esquema anterior,
donde p0 = 1/2 y n = 100. En consecuencia, la medida de dispersion (67) es

2
n1 50
2
D =
,
5
y para un nivel de significacion el test de hipotesis (66) adopta la forma
)
(
2
n1 50
> 21, 1 .
(X) = 1
5
1.8
1.6
1.4
1.2
1
0.8
0.6
0.4
0.2
0

0.5

1.5

2.5

3.5

Figura 11: La densidad 21 .


Consultado la tabla de cuantiles de la distribucion 21 vemos que 21, 0.95 = 3.841.
2
De acuerdo con los datos observados n1 = 55, de donde sigue que como D2 = 5550
=
5
2
1. En vista de que 1 < 1, 0.95 , a un nivel de significacion del 5 % el test no rechaza la
hipotesis de que se la moneda sea honesta.
Ejemplo 8.2. (Continuaci
on) El color en cada pixel se modela con una variable aleatoria X a valores {r, g, b} cuya distribucion esta completamente determinada por los valores
de las probabilidades P(X = r) = pr , P(X = g) = pg y P(X = b) = pb . Queremos decidir
si los datos obtenidos son compatibles (o no) con la hipotesis
H0 : pr = 3/6, pg = 2/6, pb = 1/6.
Para ello construimos un test de bondad de ajuste basado en una muestra aleatoria,
X = (X1 , . . . , Xn ) de volumen n = 10 10 = 100. Prescrito el nivel de significacion
y clasificando los datos de acuerdo con el color observado obtenemos un test de la forma
(X) = 1{D2 > 22, 1 },
46

donde

(nr 100(3/6))2 (ng 100(2/6))2 (nb 100(1/6))2


+
+
.
100(3/6)
100(2/6)
100(1/6)
Por ejemplo, si se prescribe un nivel de significacion del 1 % (i.e., = 0.01) tenemos que
22, 1 = 22, 0.99 = 9.2103 y el test adopta la forma


(nr 50)2 (ng 33.33...)2 (nb 16.66...)2
+
+
> 9.2103 ,
(X) = 1
50
33.33...
16.66...
D2 =

0.5
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0

10

12

Figura 12: La densidad 22 .


De acuerdo con los datos observados: nr = 46, ng = 37 y nb = 17 y la medida de
dispersion de Pearson vale
(46 50)2 (37 33.33...)2 (17 16.66...)2
+
+
= 0.73
50
33.33...
16.66...
Motivo por el cual, no hay evidencia que permita rechazar que la obra Cordillera binaria
pertenece a la serie Los paisajes binarios del artista Nelo.
Notar que para rechazar que la obra citada pertenece al artista se necesitaba un test de
la forma (X) = {D2 0.73}. Bajo la hipotesis H0 , D2 22 y p = P(D2 0.73) = 0.694...
y en ese caso, la probabilidad de equivocarse al rechazar que la obra pertenece a Nelo es
del orden del 69 %.
D2 =

on) En este caso las clases Ci son los intervalos de la forma


Ejemplo
 8.3. (Continuaci
i1 i
, i = 1, . . . , 10. Si la variable aleatoria X tuviese distribucion U[0, 1], pi = P(X
,
10 10
Ci ) = 1/10. El volumen de la muestra es n = 10000. Las frecuencias observadas, ni , son los
valores que se muestran en la tabla (61). Las frecuencias esperadas, npi , son todas iguales
y valen 1000. Por lo tanto, la medida de dispersion de Pearson vale

1
82 + 432 + 142 + 272 + 482 + 242 + 272 + 212 + 22 + 122 = 7.036
D2 =
1000
47

0.12

0.1

0.08

0.06

0.04

0.02

10

15

20

25

30

Figura 13: La densidad 29 . El area bajo la curva a la derecha del valor 7.036 es 0.6336....
Bajo la hipotesis X U[0, 1], la medida de dispersion D2 se distribuye como una chi
cuadrado con 9 grados de libertad. Si se observa la Figura 13 se puede ver que un valor de
7.036 para D2 no es inusual, lo que indica que no hay evidencia suficiente para rechazar
la hipotesis X U[0, 1]. Para rechazar dicha hipotesis se necesita un test de la forma
(X) = {D2 7.036}. Bajo la hipotesis X U[0, 1], p = P(D2 7.036) = 0.6336...
y en tal caso, la probabilidad de equivocarse al rechazar que los datos provienen de una
distribucion uniforme es del orden del 63 %.

8.4.

Comentarios sobre el m
etodo

En la seccion 8.2 presentamos el test de bondad de ajuste 2 de Pearson. En la seccion


8.3 ilustramos su implementacion en algunos ejemplos muy simples. Esos ejemplos comparten una caracterstica en com
un: las clases en que dividimos el rango de la variable X
estaban condicionadas por el modo en que estaban tabulados los datos observados.
Esos ejemplos podran oscurecer el siguiente hecho que no puede pasar desapercibido:
el procedimiento de construccion de las clases C1 , . . . , Ck en que se divide el rango de la
variable es (mas o menos) arbitrario. En la descripcion del metodo presentada en la seccion
8.2 no se indica cuantas clases deben considerarse ni se indica como deben ser esas clases.


Sobre la cantidad de clases (1).


Un lector desprevenido podra pensar que para
implementar el metodo basta dividir el rango de la variable en dos clases. Ese modo de
proceder no es recomendable. Usando las clases, C1 = [1, 0] y C2 = (0, 1], podran
distinguirse la distribucion uniforme sobre el [-1,1] de la distribucion triangular con el
mismo soporte? Evidentemente no. Sin embargo, en cuanto aumentamos la cantidad de
clases, a 4 por ejemplo, la diferencia se podra percibir.
Cuando agrupamos los datos en clases y conservamos solamente la frecuencia con que
48

se observa cada clase destruimos informacion sobre la variable muestreada. Si la cantidad


de partes es muy chica, se pierde mucha informacion y la resolucion del test es bastante
mala.


Sobre la cantidad y la forma de las clases (2).


Se podra pensar que al aumentar
la cantidad de clases en que se divide el rango de la variable mejora la resolucion del test,
esto es parcialmente correcto. Si nos excedemos en la cantidad de clases la distribucion de
la medida de dispersion D2 deja de parecerse a la 2 .
Debido a su naturaleza asintotica, el test de bondad de ajuste 2 funciona bien solamente cuando las frecuencias esperadas en todas las clases es relativamente grande. En la
Bibliografa consultada no se comenta ning
un metodo optimo para determinar la cantidad de clases en que debe dividirse el rango de la variable aleatoria. Aunque sobre este
asunto parece no existir acuerdo entre los especialistas, todos coinciden en que la cantidad
de clases esta limitada por una condicion del siguiente tipo:
npi 5 para i = 1, . . . , k (Fisher);
npi 10 para i = 1, . . . , k (Cramer);
npi 8 para i = 1, . . . , k (Borovkov).
DeGroot indica que la condicion de Fisher es suficiente para que la distribucion 2 sea una
buena aproximaci
on de la distribucion de D2 . Incluso afirma que, poniendo npi > 1.5 la
aproximacion continua siendo satisfactoria.
En todo lo que sigue adoptaremos la condicion de Cramer sobre la cantidad y forma de
las clases: npi 10 para i = 1, . . . , k. De este modo, si para alg
un i ocurriese que npi < 10
redefinimos la particion C1 , . . . , Ck del rango de la variable. Por ejemplo, uniendo Ci con
Ci+1 . Esta condicion implica que si el volumen de la muestra no es muy grande, la particion
del rango de la variable no puede ser muy fina.
Ejemplo 8.7 (Exponencial). Se dispone de los siguientes datos sobre la duracion en horas
de 100 bateras:
3.9662191
0.6048519
1.6993148
0.0422904
0.3548681
3.0542040
1.4903543
0.3598502
1.3348741
0.0215405
0.8608390
1.6087253

0.5819433
0.7259459
0.9884268
1.6384416
0.7775309
3.4097021
0.6062705
0.8901427
3.1158026
0.7115861
0.1999889
0.2149426

0.1842986
1.5896094
0.4281823
0.2214073
0.1052627
0.3577800
0.9444304
0.1282656
0.4525998
0.4859616
0.6616866
0.4833662
49

0.5977917
0.2411217
2.0079459
0.4350003
0.6497803
1.4532404
0.1119637
0.3331565
0.4554032
1.3781469
0.6960469
2.3159498

1.9781844
2.4502631
0.0022114
0.1934794
0.7227835
2.2825177
1.2789623
1.6096607
0.8698826
0.0979241
1.4041375
1.0346222

0.2056717
3.4983549
0.1840173
0.0772446
1.2448903
0.2197928
1.4791009
0.1215625

0.5228204
0.3543629
1.1453108
0.0421012
0.1030540
1.1234052
0.3132625
0.7677260

1.8704697
1.5233421
0.0161651
0.4814322
0.4572152
0.0936486
1.0092715
0.2124635

0.2166610
0.1877053
1.7702696
2.5107661
0.6299386
1.6546837
1.2217523
2.2532736

0.9409121
0.3911424
1.0397349
1.6500077
0.1021735
3.1267264
3.2381804
0.7156024

Puede afirmarse a un nivel del 1 % que la duracion de las bateras se ajusta a una distribucion exponencial de media 2 horas?
Soluci
on.
1. Construyendo una particion. Lo primero que tenemos que hacer es determinar la cantidad
y la forma de las clases en que agruparemos los datos.
Con la indicacion de Cramer (npi 10, para i = 1, . . . , k) la maxima cantidad de
clases que podemos elegir es 10. Para simplificar un poco las cuentas elegiremos una particion en 7 clases, C1 , . . . , C7 , que sean equiprobables bajo la distribucion hipotetica: X
Exponencial(1/2).6
Cuando la funcion de distribucion de una variable aleatoria es continua la construccion
de la particion en
h k clases equiprobables se resuelve utilizando los cuantiles. La clase Ci
sera el intervalo x i1 , x i , donde x i es el cuantil- ki de la distribucion hipotetica.
k

La funcion de distribucion de la exponencial de media 2 es F (x) = (1 ex/2 )1{x 0}


y su cuantil- es la u
nica solucion de la ecuacion F (x ) = . En consecuencia, x =
2 log(1 ). En consecuencia, para obtener 7 clases equiprobables basta poner





i1
i
Ci = 2 log 1
, 2 log 1
,
i = 1, . . . , 7,
7
7

lo que produce: C1 = [0, 0.3083), C2 = [0.3083, 0.6729), C3 = [0.6729, 1.1192), C4 =


[1.1192, 1.6946), C5 = [1.6946, 2.5055), C6 = [2.5055, 3.8918) y C7 = [3.8918, ).

2. Agrupando los datos. Determinadas las clases agrupamos los datos. En la siguiente tabla
se muestran las frecuencias observadas y la cantidad que aporta cada clase a la medida de
dispersion D2 :
ni
26
23
16
18
9
7
1
2
(ni npi ) /npi 9.60571 5.31571 0.20571 0.96571 1.95571 3.71571 12.35571
3. Decisi
on al 1 %. Finalmente comparamos el valor obtenido para D2 = 34.12 con el cuantil
0.99 de la distribucion 26,0.99 = 16.812. Como D2 > 26,0.99 concluimos que la duracion de
las pilas no se ajusta a la distribucion exponencial de media 2 horas.
6
Notar que al elegir el criterio de las clases equiprobables para construir la particion, garantizamos
de entrada que no habra partes sub o sobre dimensionadas y no vamos a encontrarnos con el problema de
tener que unir dos clases porque quedaron muy flacas.

50

Nota Bene. No siempre se puede dividir el rango de la variable en clases de igual probabilidad. Las variables discretas no lo permiten. En tal caso habra que conformarse con
algunas partes suficientemente gorditas como para que valga la condicion npi 10

8.5.

Test de bondad de ajuste para hip


otesis compuestas

La hipotesis nula afirma que


H0 : FX = F1 , ..., r ,
donde F1 , ..., r es una distribucion de probabilidades perteneciente a una familia parametrica completamente determinada y los valores de los parametros 1 , . . . , r son desconocidos.
En este caso los r parametros desconocidos se estiman usando el metodo de maxima
verosimilitud. Los valores de las r estimaciones se enchufan en la distribucion parametrica
como si fuesen los verdaderos valores de los parametros y se aplica el test 2 desarrollado en
la seccion 8.2. Solo que ahora se perdera un grado de libertad por cada parametro estimado.
Si para construir la medida de dispersion D2 se recurrio a una particion del rango de la
variable X en k clases, la distribucion de D2 sera aproximadamente una 2k1r .
Ejemplo 8.4. (Continuaci
on) La hipotesis H0 afirma que la cantidad de impactos por
segundo recibidos por la partcula de polen sigue una distribucion de Poisson, pero no
indica cual es su media (el parametro ).
El estimador de maxima verosimilitud para la media de una distribucion de Poisson es

Usando los datos que aparecen en la tabla (62) obtenemos


mv = X.
mv = 0(1364) + 1(1296) + 2(642) + 3(225) + 4(55) + 5(15) + 6(3) = 3568 = 0.9911 1.

3600
3600
Las clases Ci se pueden construir usando como criterio que 3600P(X Ci ) 10. Si
suponemos que X Poisson(1), su funcion de probabilidades sera P(X = n) = e1 /n!,
n = 0, 1, . . . .
Usaremos como particion las siguientes clases: C1 = {0}, C2 = {1}, C3 = {2}, C4 =
{3, 4, 5, . . . }, cuyas probabilidades son p1 = p2 = 0.3678, p3 = 0.1839 y p4 = 0.0805.
Obtenemos que
(1364 3600p1 )2 (1296 3600p2 )2 (642 3600p3 )2 (298 3600p4 )2
+
+
+
3600p1
3600p2
3600p3
3600p4
1593.6064 788.4864 401.6016 67.24
+
+
+
= 2.6376
=
1324.08
1324.08
662.04
289.8

D2 =

Si se observa la Figura 12 se puede ver que un valor de 2.6376 para D2 no es inusual para
una distribucion 22 , lo que indica que la cantidad de impactos recibidos por la partcula
de polen se puede considerar como una variable aleatoria con distribucion Poisson.

51

Ejemplo 8.5. (Continuaci


on) La hipotesis nula es de la forma H0 : X N (, 2 ).
Informalmente, se puede ver usando un histograma que los datos obedecen a una distribucion normal.
3

x 10

645 695 745 795 845 895 945 995 1045

Figura 14: Histograma de los mediciones de Michelson y grafico de la densidad de la


= 852.4 y varianza S 2 = 79.0105.
distribucion de media X
Usando los cuantiles de la distribucion normal de media 852.4 y varianza 79.0105,
construimos 9 clases equiprobables delimitadas por los valores: 756, 792, 818, 841, 863, 886,
913 y 949. Las frecuencias observadas en cada una de las 9 clases son, respectivamente,
9, 11, 15, 12, 11, 14, 7, 6 y 15. Con esos datos, la medida de dispersion resulta D2 = 7.82 <
26, 0.90 ...

9.

Bibliografa consultada
Para redactar estas notas se consultaron los siguientes libros:

1. Bolfarine, H., Sandoval, M. C.: Introducao `a Inferencia Estatstica. SBM, Rio de


Janeiro. (2001).
2. Borovkov, A. A.: Estadstica matematica. Mir, Mosc
u. (1984).
3. Cramer, H.: Metodos matematicos de estadstica. Aguilar, Madrid. (1970).
4. DeGroot, M. H.: Probability and Statistics. Addion-Wesley, Massachusetts. (1986).
5. Fisher, R. A.: Statistical methods for research workers. Hafner, New York (1954).
6. Hoel P. G.: Introduccion a la estadstica matematica. Ariel, Barcelona. (1980).
7. Lehmann, E. L.: Elements of Large-Sample Theory. Springer, New York. (1999)
52

8. Maronna R.: Probabilidad y Estadstica Elementales para Estudiantes de Ciencias.


Editorial Exacta, La Plata. (1995).
9. Meyer, P. L.: Introductory Probability and Statistical Applications. Addison-Wesley,
Massachusetts. (1972).
10. Rice, J. A.: Mathematical Statistics and Data Analysis. Duxbury Press, Belmont.
(1995).
11. Ross, S. M.: Introduction to Probability and Statistics for Engieneers and Scientists.
Elsevier Academic Press, San Diego. (2004)
12. Walpole, R. E.: Probabilidad y estadstica para ingenieros, 6a. ed., Prentice Hall,
Mexico. (1998)

53

Analisis Bayesiano
(Borradores, Curso 23)
Sebastian Grynberg
17-19 de junio de 2013

Aqu no valen Dotores,


Solo vale la esperiencia,
Aqu veran su inocencia
Esos que todo lo saben;
Por que esto tiene otra llave
Y el gaucho tiene su ciencia.
(Martn Fierro)

Indice
1. An
alisis Bayesiano
1.1. Distribuciones a priori y a posteriori . .
1.2. Distribuciones predictivas . . . . . . . .
1.3. Estimadores Bayesianos . . . . . . . . .
1.4. Estimaci
on por intervalo para par
ametro
1.5. Sobre la distribucion a priori uniforme. .

.
.
.
.
.

2
2
5
6
6
7

2. Ejemplos
2.1. Las distribuciones y el problema del control de calidad . . . . . . . . . .
2.2. Normales de varianza conocida y media normal . . . . . . . . . . . . . . . . .
2.3. Distribuciones Poisson con a priori Gamma . . . . . . . . . . . . . . . . . . .

8
8
13
16

3. Bibliografa consultada

19

1.

. . . . . .
. . . . . .
. . . . . .
continuo
. . . . . .

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

An
alisis Bayesiano

Si se lo compara con el modelado probabilstico, el prop


osito del an
alisis estadstico es fundamentalmente un prop
osito de inversi
on, ya que se propone inferir las causas (los par
ametros
del mecanismo aleatorio) a partir de los efectos (las observaciones). En otras palabras, cuando
observamos un fen
omeno aleatorio regulado por un par
ametro , los metodos estadsticos nos
permiten deducir de las observaciones una inferencia (esto es, un resumen, una caracterizacion) sobre , mientras que el modelado probabilstico caracteriza el comportamiento de las
observaciones futuras condicionales a . Este aspecto de la estadstica es obvio en la nocion
de funcion de verosimilitud, puesto que, formalmente, es la densidad conjunta de la muestra
reescrita en el orden propio
L(|x) = f (x|),

(1)

i.e., como una funcion de , que es desconocida, que depende de los valores observados x.
La regla de Bayes es una descripci
on general de la inversi
on de probabilidades: si A y E
son eventos de probabilidad positiva, P(A|E) y P(E |A) estan relacionados por
P(A|E) =

P(E |A)P(A)
P(E |A)P(A)
=
.
P(E)
P(E |A)P(A) + P(E |Ac )P(Ac )

En su versi
on continua, la regla de Bayes establece que dadas dos variables aleatorias X
e Y , con distribucion condicional fX|Y =y (x) y distribucion marginal fY (y), la distribucion
condicional de Y dado que X = x es

1.1.

fY |X=x (y) = R

fX|Y =y (x)fY (y)


.
fX|Y =y (x)fY (y)dy

Distribuciones a priori y a posteriori

Desde el punto de vista probabilstico el teorema de inversi


on es bastante natural. Bayes
y Laplace fueron m
as all
a y consideraron que la incerteza sobre el par
ametro desconocido de
2

un modelo parametrico puede modelarse mediante una distribucion de probabilidad sobre el


espacio parametrico.
La esencia del enfoque Bayesiano consiste en que el par
ametro desconocido, , se considera
como variable aleatoria con cierta funcion densidad de probabilidades
t .

(t),

La densidad (t) se llama densidad a priori, o sea, dada antes del experimento. El enfoque
Bayesiano supone que el par
ametro desconocido se ha escogido aleatoriamente de la distribuci
on cuya densidad es (t).
Definici
on 1.1. Un modelo estadstico Bayesiano esta hecho de un modelo parametrico
F = {f (x|t) : t } para las observaciones y una distribucion de probabilidad a priori (t)
sobre el espacio parametrico .
Nota Bene. En un modelo Bayesiano, la densidad muestral f (x|t), t , es la densidad condicional de la variable aleatoria X dado que = t.
Dado un modelo Bayesiano podemos construir varias distribuciones, a saber:
1. La distribucion conjunta del par
ametro y la muestra aleatoria X = (X1 , . . . , Xn ):
!
n
Y
f,X (t, x) = f (x|t) (t) =
f (xi |t) (t).
(2)
i=1

2. La distribucion marginal de la muestra aleatoria X = (X1 , . . . Xn ):


Z
Z
f (x|t) (t)dt.
f,X (t, x)dt =
fX (x) =

(3)

3. La distribucion a posteriori (o sea, despues del experimento) de la variable aleatoria ,


obtenida mediante la formula de Bayes:
f,X (t, x)
f (x|t) (t)
=R
.
f,X (t, x)dt
f (x|t) (t)dt

(t|x) = R

(4)

Nota Bene. Si el par


ametro es una variable aleatoria discreta, la densidad a priori
R
(t) debe interpretarse como la funcion deP
probabilidades y las expresiones del tipo dt
deben reemplazarse por expresiones del tipo t .

Ejemplo 1.2 (Bayes (1764)). Se echa a rodar una bola de billar B1 sobre una lnea de
longitud 1, con probabilidad uniforme de que se detenga en cualquier lugar. Se detiene en .
Una segunda bola B2 se echa a rodar 5 veces bajo las mismas condiciones que la primera y
X denota la cantidad de veces que la bola B2 se detuvo a la izquierda de donde lo hizo B1 .
Dado que X = x, que se puede inferir sobre ?
El problema consiste en hallar la distribucion a posteriori de dado que X = x, cuando
la distribucion a priori de es uniforme sobre (0, 1) y X Binomial(5, ). Puesto que
 
5 x
f (x|t) =
t (1 t)5x
y
(t) = 1{t (0, 1)},
x
3

la distribucion conjunta del par


ametro y la variable aleatoria X es
 
5 x
t (1 t)5x 1{t (0, 1)}
f,X (t, x) =
x
y la distribucion marginal de la variable X es
 
 Z 1
Z 1 
5 (x + 1)(6 x)
5
5 x
tx (1 t)5x dt =
t (1 t)5x dt =
fX (x) =
x
(7)
x
x
0
0
5!
x!(5 x!)
1
=
= ,
x = 0, 1, . . . , 5
x!(5 x)!
6!
6
(En palabras, los 6 posibles valores de X son igualmente probables.)
De lo anterior se deduce que la distribucion a posteriori de dado que X = x
 
5 x
t (1 t)5x 1{t (0, 1)},
(t|x) = 6
x
i.e., la distribucion de condicional a que X = x es la distribucion (x + 1, 6 x).
Ejemplo 1.3 (Laplace (1773)). En una urna hay 12 bolas blancas y negras. Si la primer bola
extrada es blanca, cu
al es la probabilidad de que la proporci
on de bolas blancas sea 2/3?
Asumiendo a priori que las cantidades 2 a 11 de bolas blancas son igualmente probables, i.e.,
que es equiprobable sobre {2/12, . . . , 11/12}. La distribucion a posteriori de se deduce
usando el teorema de Bayes:
(2/3)(1/10)
8
(2/3)
8
(2/3|datos) = P11/12
= .
= P11
=
(11 12)/2 1
65
n=2 n/12
p=2/12 p(1/10)
Principio de verosimilitud. La formula de Bayes (4) puede leerse del siguiente modo:
observado que la muestra aleatoria X arrojo los valores x, la distribucion a posteriori de es
proporcional a la funcion de verosimilitud L(t|x) = f (x|t) multiplicada por la distribucion a
priori de . En smbolos
(t|x) L(t|x) (t).
Esto significa que la informaci
on sobre la variable que viene en una muestra x esta completamente contenida en la funcion de verosimilitud L(t|x). M
as a
un, cuando x1 y x2 son dos
observaciones que dependen del mismo par
ametro y existe una constante c que satisface
L1 (t|x1 ) = cL2 (t|x2 )
para cada t , entonces x1 y x2 tienen la misma informaci
on sobre y deben conducir
a inferencias identicas. Esto es as porque el an
alisis Bayesiano se basa completamente en la
distribucion a posteriori (t|x) que depende de x solo a traves de L(t|x).
Ejemplo 1.4. Trabajando sobre el ranking de una serie televisiva un investigador encontro 9
espectadores que la miran y 3 que no la miran. Si no se dispone de m
as informaci
on sobre el
experimento, se pueden proponer al menos dos modelos. Si (0, 1) representa la proporci
on
de los espectadores que mira la serie:
4

(1) El investigador encuest


o a 12 personas y por lo tanto observ
o X Binomial(12, )
con X = 9.
(2) El investigador encuest
o Y personas hasta que encontro 3 que no miraban la serie y
por lo tanto observ
o Y Pascal(3, 1 ) con Y = 12.
El punto importante es que, en cualquiera de los dos modelos, la verosimilitud es proporcional a
3 (1 )9 .
Por lo tanto, el principio de verosimilitud implica que la inferencia sobre debe ser identica
para ambos modelos.

1.2.

Distribuciones predictivas

Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una distribucion indexada por . Se


observa que X = x y se quiere predecir una el comportamiento de una nueva observaci
on
Y g(y|), donde Y es una variable aleatoria que depende del mismo par
ametro . En el
contexto probabilstico predecir significa contestar preguntas del tipo: con que probabilidad
se observaran valores en un intervalo dado? En otras palabras cu
al sera la distribucion de la
nueva observaci
on Y ?
Este problema se puede resolver usando la formula de probabilidad total. Dado que se
observ
o X = x, la funci
on densidad predictiva (o incondicional) de la nueva observaci
on Y
sera
Z
g(y|x) = g(y|t)(t|x)dt.
(5)
El primer factor del integrando que aparece en (5) corresponde a las densidades de la variable
aleatoria Y condicionadas al conocimiento de que = t. El segundo factor corresponde a la
densidad a posteriori del par
ametro aleatorio .
Si tuviesemos la capacidad de observar que valor arrojo la variable y observ
aramos
que = t, la predicci
on de Y quedara determinada por la densidad condicional g(y|t).
Sin embargo, la hip
otesis fundamental de este enfoque es que el par
ametro no puede ser
observado y lo u
nico que podemos observar es la muestra aleatoria X. El calificativo de
incondicional que se le otorga a la densidad g(y|x) obtenida en (5) esta puesto para destacar
que su construcci
on no utiliza observaciones del par
ametro .
Ejemplo 1.5 (Bayes (1764) Continuaci
on.). Supongamos ahora que la bola B2 se detuvo
exactamente 3 veces a la izquierda de donde lo hizo la bola B1 , cu
al es la probabilidad p de
que al echar a rodar una tercera bola de billar B3 tambien se detenga a la izquierda de donde
se detuvo B1 ?
Sea Y Bernoulli() la variable aleatoria que vale 1 si la bola B3 se detiene a la izquierda
de donde se detuvo B1 y 0 en caso contrario. Para calcular p usamos la distribucion predictiva:
Z 1
Z 1
t(t|3) = E[|X = 3].
P(Y = 1|t)(t|3)dt =
p = P(Y = 1|X = 3) =
0

Como |X = 3 (4, 2), resulta que p = 4/6.

1.3.

Estimadores Bayesianos

1. Estimaci
on bayesiana por esperanza condicional. En el contexto Bayesiano es
una variable aleatoria. Entre todas las funciones (de la muestra aleatoria X) = (X)
la mejor estimacion para (desde el punto de vista de minimizar el error cuadratico
medio E[( (X))2 ]) es la esperanza condicional E[|X]:
Z

(X) = E[|X] = t(t|X)dt.


(6)
2. Estimaci
on bayesiana por m
aximo a posteriori. Otro estimador, de uso frecuente,
es el llamado m
aximo a posteriori (o moda) definido por
map (X) := arg m
ax (t|X).
t

(7)

Ejemplo 1.6 (Bayes (1764) Continuaci


on.). Supongamos ahora que la bola B2 se detuvo
exactamente 3 veces a la izquierda de donde lo hizo la bola B1 . En tal caso
= E[|X = 3] = 4
(3)
6
y
 
5 3

t (1 t)2 = arg m
ax t3 (1 t)2 .
map (3) = arg m
ax 6
3
t(0,1)
t(0,1)
Como el logaritmo es una funcion creciente, el argumento que maximiza a la funcion t3 (1 t)2
coincide con el argumento maximizador de la funcion (t) = log(t3 (1 t)2 ) = 3 log(t) +
2 log(1 t). Observando que
0=

d
3
2
3
(t) =
3(1 t) 2t = 0 t = ,
dt
t
1t
5

se puede deducir que

3
map (3) = .
5

1.4.

Estimaci
on por intervalo para par
ametro continuo

Dada la muestra aleatoria X se desea construir intervalos (acotados) que capturen casi
toda la variabilidad del par
ametro aleatorio . Si el intervalo [a, b] es tal que
P( [a, b]|X) = 1 ,

(8)

sera llamado intervalo estimador de nivel 1 . En la practica, los valores de son peque
nos:
0.1 o 0.05 o 0.01. En general, los valores de a y b dependeran de los valores de la muestra
aleatoria x. Dado que X = x, los intervalos estimadores de nivel 1 se obtienen resolviendo
la siguiente ecuaci
on de las variables a y b:
Z b
(t|x)dt = 1 .
(9)
a

De todas las soluciones posibles de la ecuaci


on (9) se prefieren aquellas que producen intervalos
de longitud lo m
as peque
na posible.
Una solucion particular de la ecuaci
on (9) puede obtenerse mediante el siguiente razonamiento: como la distribucion a posteriori del par
ametro esta centrada alrededor de su

esperanza, (x)
:= E[|X = x], y no puede desviarse demasiado de all, los intervalos que la
contengan deben ser relativamente peque
nos. Esto sugiere la siguiente construcci
on: dividir
a la mitad el nivel y tratar de capturar cada una de las mitades a izquierda y a derecha de

(x).
En otras palabras, se trata de resolver las siguientes ecuaciones:
Z (x)
Z b

1
1
(t|x)dt =
,
.
(10)
(t|x)dt =
2
2

a
(x)
Ejemplo 1.7. Se considera el siguiente modelo Bayesiano: X N (, 1) con distribucion a
priori N (0, 10). Sobre la base de una muestra de tama
no 1 de X se quiere determinar un
intervalo de nivel 1 para la variable .
Dado que X = x tenemos que



 !
(x t)2
t2
11
10x 2
(t|x) L(|x) (t) exp

exp
t
2
20
20
11

10
y por lo tanto |X = x N 10x
11 , 11 . Como la variable
Z=

(|X = x) (10x/11)
p
N (0, 1)
10/11


tenemos que P |Z| < z1/2 = 1 y de all se deduce dado que X = x el intervalo
"
r
r #
10x
10 10x
10
z1/2
,
+ z1/2
11
11 11
11
es un intervalo estimador de nivel 1 .

1.5.

Sobre la distribuci
on a priori uniforme.

1
Cuando el par
ametro tiene distribucion a priori U[a, b], esto es (t) = ba
1{t [a, b]}
el enfoque Bayesiano se simplifica abruptamente.
La formula de Bayes para la distribucion a posteriori (4) adopta la forma

(t|x) = R

1
1{t [a, b]}
L(t|x) ba

1
1{t [a, b]}dt
L(t|x) ba

L(t|x)1{t [a, b]}


.
Rb
L(t|x)dt
a

(11)

En palabras, si la distribucion a priori del par


ametro es uniforme, la densidad de su distribuci
on a posteriori es proporcional a la funcion de verosimilitud: (t|x) L(t|x).
Nota Bene. En cierto sentido, que puede precisarse, la distribucion U[a, b] es la menos
informativa entre todas las distribuciones continuas a valores en [a, b].
En teora de la informaci
on la indeterminaci
on de una variable aleatoria X se mide con
la entropa definida por H(X) := E[ log f (X)], donde f (x) es la densidad de probabilidades
de la variable aleatoria X. En otros terminos
Z
H(X) := f (x) log f (x)dx.
(12)
7

Teorema 1.8. Entre todas las variables aleatorias continuas a valores en [a, b] la que maximiza la entropa es la U[a, b].
Demostraci
on. No se pierde generalidad si se supone que [a, b] = [0, 1]. Si X U[0, 1],
entonces
Z 1
1 log(1)dx = 0.
H(X) =
0

El resultado se obtiene mostrando que si X es una variable aleatoria continua a valores en el


[0, 1], entonces H(X) 0.
Es facil ver que para todo x > 0 vale la desigualdad
log(x) x 1
Poniendo x = u1 , u > 0, en la desigualdad (13) se obtiene
 
1
1
log u = log
1
u
u

(13)

(14)

La desigualdad (14) se usa para obtener




Z 1
Z 1
Z 1
Z 1
1
f (x)dx = 0.
1dx
1 dx =
f (x)
f (x) log f (x)dx
H(X) =
f (x)
0
0
0
0

Comentario Bibliogr
afico. Una exposicion elemental de la nocion de entropa y de las
distribuciones menos informativas puede leerse en Pugachev, V.S., (1973). Introducci
on a la
Teora de Probabilidades, Mir, Moscu.
EnfoqueR Bayesiano generalizado. Si la funcion de verosimilitud L(t|x) es integrable,

i.e., 0 < L(t|x)dt < , la expresi


on
L(t|x)
L(t|x)dt

(t|x) := R

(15)

define una densidad de probabilidades en R. Por abuso del lenguaje, algunos autores suelen
llamarla la densidad a posteriori correspondiente a la distribucion a priori uniforme sobre la
recta1 No hay ning
un problema en utilizar este enfoque siempre que no se pierda de vista
que no existe ninguna distribucion uniforme sobre regiones de longitud infinita. El enfoque
que postula una densidad a posteriori de la forma (15) sera llamado Bayesiano generalizado.

2.

Ejemplos

2.1.

Las distribuciones y el problema del control de calidad

Control de calidad. La calidad de un proceso de producci


on puede medirse por el porcentaje, 100 %, de artculos defectuosos producidos. Cada artculo producido tiene asociada
1

Nota hist
orica: la denominaci
on para esta a priori impropia se debe a Laplace.

una variable aleatoria de Bernoulli, X Bernoulli(), cuyo par


ametro denota la probabilidad de que el artculo sea defectuoso.
El punto de partida del enfoque Bayesiano es la distribucion a priori del par
ametro.
Supongamos que, a priori, U(0, 1). Se observa una muestra aleatoria X = (X1 , . . . , Xn ) y
usando la formula de Bayes (4) se obtiene la densidad, (t|x), de la distribucion a posteriori
de dado que X = x. Cuando la densidad a priori es uniforme la densidad a posteriori es
proporcional a la verosimilitud. Por lo tanto,
(t|x) L(t|x) = tk(x) (1 t)nk(x) 1{t (0, 1)},

(16)

P
donde k(x) = ni=1 xi . De la identidad (16) se concluye que |X = x tiene una distribucion
beta de par
ametros k(x) + 1 y n k(x) + 1. En consecuencia la constante de proporcionalidad
sera


(n + 2)
(n + 1)!
n
=
= (n + 1)
.
(17)
(k(x) + 1)(n k(x) + 1)
k(x)!(n k(x))!
k(x)
Conclusi
on. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de volumen n correspondiente
a una variable aleatoria X Bernoulli(). Si la distribucion a priori del par
ametro es
uniforme sobre el intervalo (0, 1) y se observa que X = x, entonces la distribucion a posteriori
(del par
ametro ) es una (k + 1, n k + 1), donde k es la cantidad de exitos observados. En
otras palabras, la densidad de |X = x es
 
n k
(t|x) = (n + 1)
t (1 t)nk 1{t (0, 1)},
(18)
k
P
donde k = ni=1 xi .

Funci
on de probabilidad marginal. Cual es la probabilidad de que en una muestra
de volumen n se observen
exactamente k artculos defectuosos. La cantidad de artculos
P
defectuosos sera N = ni=1 Xi . Dado que = t, las variables X1 , . . . , Xn seran independientes,
cada una con distribucion de Bernoulli(t) y en tal caso N Binomial(n, t)
 
n k
P(N = k|t) =
t (1 t)nk ,
k = 0, 1, . . . , n
(19)
k

Por lo tanto, condicionando sobre = t y usando la formula de probabilidad total, obtenemos


que
Z 1
Z 1 
n k
P(N = k) =
P(N = k|t) (t)dt =
t (1 t)nk dt
k
0
0
 Z 1
 
n
n k!(n k)!
k
nk
=
t (1 t)
dt =
k
k (n + 1)!
0
1
k = 0, 1, . . . , n
(20)
=
n+1
En otras palabras, los n + 1 valores posibles de N son igualmente probables.

Funci
on de probabilidad predictiva Supongamos ahora que en una muestra de volumen
n se observaron exactamente k artculos defectuosos. Cual es la probabilidad p de que un nuevo
artculo resulte defectuoso?
Para calcular p usamos la funcion de probabilidad predictiva obtenida en (5):
p = f (1|x) =

f (1|t)(t|x)dt =

t(t|x)dx = E[|X = x] =

k+1
.
n+2

(21)

Esto es, si los primeros n artculos resultaron en k defectuosos, entonces el proximo artculo
sera defectuoso con probabilidad (k + 1)/(n + 2).
De la ecuaci
on (21) resulta una descripci
on alternativa del proceso de producci
on examinado: Hay una urna que inicialmente contiene una bola blanca y una bola negra. En cada
paso se extrae al azar una bola de la urna y se la repone junto con otra del mismo color.
Despues de cada extraccion la cantidad de bolas del color extrado aumenta una unidad y la
cantidad de bolas del color opuesto se mantiene constante. Si de las primeras n bolas elegidas, k fueron blancas, entonces en la urna al momento de la n + 1-esima extraccion hay k + 1
blancas y n k + 1 negras, y por lo tanto la siguiente bola sera blanca con probabilidad
(k + 1)/(n + 2). Identificando la extraccion de una bola blanca con un artculo defectuoso,
tenemos una descripci
on alternativa del modelo original. Este u
ltimo se llama modelo de urna
de Polya.
Estimadores Bayesianos
1. Utilizando la esperanza condicional de |X = x obtenemos la siguiente estimacion
!
n
X
1

(22)
xi .
1+
(x)
= E[|X = x] =
n+2
i=1

2. El estimador m
aximo a posteriori se obtiene observando que
 
n k
t (1 t)nk = arg m
ax tk (1 t)nk
map (x) = arg m
ax (n + 1)
k
t(0,1)
t(0,1)

= arg m
ax log tk (1 t)nk = arg m
ax (k log t + (n k) log(1 t))
t(0,1)

=
donde k =

Nota Bene.

Pn

i=1 xi .

Por lo tanto,

1
n

map (x) = x
.

Notar que

(x)
=

donde x
=

t(0,1)

k
,
n

n
1
n
2
x
+
=
x
+
E[U(0, 1)],
n+2
n+2
n+2
n+2

Pn

i=1 xi .

10

(23)

Estimaci
on por intervalo Se quiere construir un intervalo estimador (de nivel 1 ) para
sabiendo que en una muestra de volumen n se observaron k artculos defectuosos.
En este caso la ecuaci
on (9) adopta la forma
1=

b
a

(n + 1)! k
t (1 t)nk dt.
k!(n k)!

(24)

El problema equivale a encontrar las races de un polinomio de grado n + 1 en las variables


a y b y no hay metodos generales para encontrarlas. El problema se puede resolver mediante
alguna tecnica de calculo numerico para aproximar races de polinomios implementada en un
computador. Para 3 n + 1 4 pueden utilizarse las formulas de Tartaglia para resolver
ecuaciones de tercer y cuarto grado. Estas formulas pueden consultarse en el Tomo 1 del
An
alisis matem
atico de Rey Pastor.
Cuando k = 0 o k = n la ecuaci
on (24) se puede resolver a mano: si k = 0 la ecuaci
on
(24) adopta la forma
!
Z b
n+1 b
(1

t)

1 =
(n + 1)(1 t)n dt = (n + 1)
n + 1 a
a


(1 a)n+1 (1 b)n+1
= (n + 1)

n+1
n+1
= (1 a)n+1 (1 b)n+1 .

Fijado un valor razonable de a se puede despejar el valor de b


p
b = 1 n+1 (1 a)n+1 (1 ),
0a1

n+1

(25)

Hemos visto que, para k = 0 el m


aximo a posteriori es 0, poniendo a = 0 se obtiene b =

1 n+1 . Por lo tanto, el intervalo




0, 1 n+1

es un intervalo estimador de nivel 1 .

Ejemplo 2.1. Sea X una variable aleatoria Bernoulli de par


ametro . A priori se supone
que la distribucion de es uniforme sobre el intervalo [0, 1]. Supongamos que una muestra
aleatoria de volumen n = 20 arroja los siguientes resultados:
x = (0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1, 0, 1)

Distribuci
on a posteriori. Como la cantidad de exitos observados es k = 11, tenemos
que |X = x (12, 10). En otras palabras, la densidad a posteriori es de la forma
(t|x) =

21! 11
t (1 t)9 1{t [0, 1]}.
11!9!

(26)

En la Figura 1 se muestran los gr


aficos de la distribucion a priori de y de la distribucion a
posteriori de vista la muestra.

11

4
3.5
3
2.5
2
1.5
1
0.5
0

0.2

0.4

0.6

0.8

Figura 1: Gr
aficos de las densidades a priori y a posteriori: en verde el gr
afico de la densidad
de la distribucion U[0, 1] y en azul el de la distribucion (12, 10).
Predicci
on. Cual es la probabilidad de que en una nueva muestra de volumen 5 resulten
exactamente 2 exitos?
En primer lugar hay que observar que dado que = t la cantidad de exitos N en una
muestra de volumen 5 tiene distribucion Binomial(5, t). Por lo tanto,
 
5 2
t (1 t)3 = 10t2 (1 t)3 .
P(N = 2|t) =
2
Como la densidad a posteriori de resulto ser
(t|x) =

21! 11
t (1 t)9 1{t [0, 1]},
11!9!

de la formula de probabilidad total se deduce que


Z 1
Z 1
21! 11
10t2 (1 t)3
t (1 t)9 dt
P(N = 2|t)f (t|x)dt =
P(N = 2|x) =
11!9!
0
0
Z 1
21! 13!12!
6
21!
t13 (1 t)12 dt = 10
=
= 0.26 . . .
= 10
11!9! 0
11!9! 26!
23
Estimadores Bayesianos
1. Esperanza condicional:
12
6
= E[|X = x] =
=
= 0.5454 . . . .
22
11
2. M
aximo a posteriori:

11
= 0.55.
map = x
=
20
12

Estimaci
on por intervalo Para construir un intervalo [a, b], de nivel 0.95, para podemos
resolver las siguientes ecuaciones
Z a
Z b
21! 11
21! 11
t (1 t)9 dt = 0.025,
t (1 t)9 dt = 0.975.
11!9!
11!9!
0
0
Utilizando una herramienta de calculo obtenemos que a = 0.3402 y b = 0.7429.

2.2.

Normales de varianza conocida y media normal

Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una familia normal N (, 2 ), con 2


conocido. Supongamos que la distribucion a priori del par
ametro es una normal N (, 2 )
Distribuci
on a posteriori. Por definicion, ver (4), la densidad a posteriori de , dado que
X = x, queda caracterizada por la relaci
on de proporcionalidad (t|x) L(t|x) (t), donde
L(t|x) es la funcion de verosimilitud y (t) la densidad a priori de .
Primero calculamos la funcion de verosimilitud. De las igualdades


n
n
Y
Y
1
(xi )2

f (xi |, 2 ) =
L(, 2 |x) =
exp
2 2
2
i=1
i=1
!

n
n
1
1 X

=
exp 2
(xi )2
2
2
i=1



 Pn
n

(xi x
)2
n(
x )2
1

exp
,
(27)
exp i=1 2
=
2
2 2
2
P
donde x
= n1 ni=1 xi ,2 se deduce que


n(
x t)2
L(t|x) exp
.
(28)
2 2
Por hip
otesis, N (, 2 ). En consecuencia,


(t )2
(t) exp
22
De (28) y (29), la densidad a posteriori satisface
 

n(
x t)2 (t )2
(t|x) exp
+
.
2 2
22
Completando cuadrados respecto de t se obtiene

2
n2 x
+ 2
n2 + 2
n(
x t)2 (t )2
t
+ otras cosas
+
=
2 2
22
2 2 2
n2 + 2
2

La u
ltima igualdad de (27) se obtiene observando que
n
n
X
X
(xi )2 =
(xi x
)2 + n(
x )2 .
i=1

i=1

13

(29)

(30)

(31)

donde otras cosas son expresiones que no dependen de t. En consecuencia,



2 !
n2 + 2
n2 x
+ 2
(t|x) exp
t
.
2 2 2
n2 + 2
Por lo tanto, la distribucion a posteriori de dado que X = x es una normal

 2
2 2
n x
+ 2
.
,
N
n2 + 2 n2 + 2

(32)

(33)

Funci
on densidad predictiva. Comenzamos calculando el producto de la densidad condicional de X dado que = t por la densidad a posteriori de dado que X = x:




1
1
(x t)2
(t )2

f (x|t)(t|x) =
exp
exp
2 2
22
2
2

 
1
1
(x t)2 (t )2

=
,
(34)
+
exp
2 2
22
2 2
donde y 2 son la media y la varianza de la distribucion a posteriori de dado que X = x
=

n2 x
+ 2
n2 + 2

2 =

2 2
n2 + 2

(35)

Con un poco de paciencia, puede verse que


(x t)2 (t )2
+
2 2
22

2 + 2
2 2 2


2
2 x + 2
(x )2
t
+
2 + 2
2(2 + 2 )

(36)

En consecuencia,
f (x|t)(t|x)
#!
"

2
2 x + 2
(x )2
1
1
2 + 2

t
+
=
exp
2 2 2
2 + 2
2(2 + 2 )
2 2
!
(x )2
1
exp
=p
2(2 + 2 )
2(2 + 2 )

2 !
2 + 2
1
2 x + 2
exp
.
q
t
2 2
2 2 2
2 + 2
2 2+
2

(37)

Integrando respecto de t, ambos lados de identidad (37), obtenemos la expresi


on de la densidad
predictiva
!
Z
(x )2
1
exp
f (x|x) =
f (x|t)(t|x)dt = p
.
(38)
2(2 + 2 )
2(2 + 2 )

En otras palabras, la distribucion de la variable aleatoria X dado que X = x, es una normal de media y varianza 2 + 2 . El resultado obtenido nos permite calcular todas las
probabilidades de la forma P(X A|X = x).
14

Estimadores Bayesianos. En este caso, como el m


aximo de la normal se alcanza en la
media ambos estimadores coinciden:
=
Nota Bene.
=

n2 x
+ 2
.
n2 + 2

(39)

Note que
n2
2
n2
2
x

=
x

+
E[N (, 2 )]
n2 + 2
n2 + 2
n2 + 2
n2 + 2

(40)

Estimaci
on por intervalo. En lo que sigue construiremos un intervalo estimador de nivel
1 para sabiendo que X = x. Sabemos que |X = x se distribuye como una normal de
media y varianza 2 . Proponiendo un intervalo centrado en la media de la forma
[ , + ]

(41)

y usando la simetra de la normal con respecto a su media, el problema se reduce a encontrar


el valor de que resuelve la ecuaci
on siguiente


 




1 = P ( + |X = x) = P
X = x =
.
(42)
2

En consecuencia,

= 1 1


2



2 2



1
1
p
=

n2 + 2
2
2
n2 + 2

Por lo tanto, el intervalo


#
"
 n2 x



2

n2 x
+ 2

p
+p
,
1 1
1 1
n2 + 2
2
n2 + 2
2
n2 + 2
n2 + 2

(43)

(44)

es un intervalo estimador de nivel 1 para sabiendo que X = x. Note que la longitud del
intervalo no depende los valores arrojados por la muestra y es del orden de 1n .
Curva peligrosa. Para una muestra de una N (, 2 ) con distribucion a priori para de la
forma N (, 2 ) obtuvimos que la distribucion a posteriori satisface

2 !
n2 + 2
n2 x
+ 2
f (t|x) exp
.
(45)
t
2 2 2
n2 + 2
A medida que aumentamos el valor de 2 la informaci
on contenida en la distribucion a priori
se va destruyendo y la densidad a posteriori se va aproximando a la densidad de una normal
de media x
y varianza 2 /n:
!
n (t x
)2
Lt (x).
(46)
lm f (t|x) exp
2 2
2
15

En palabras informales y poco rigurosas, si se destruye la informaci


on contenida en la distribu2
2
ci
on a priori N (, ) mediante el procedimiento de hacer se obtiene una densidad
de probabilidades proporcional a la verosimilitud. Vale decir, en el caso lmite se obtiene el
enfoque Bayesiano generalizado. Desde esta perspectiva, el enfoque Bayesiano generalizado
puede interpretarse como una metodologa orientada a destruir toda la informaci
on contenida
en las distribuciones a priori del par
ametro.
Ejemplo 2.2. Se tiene la siguiente muestra aleatoria de volumen n = 10 de una poblacion
N (, 1)
2.0135
0.3781

0.9233
-1.9313

0.0935
-0.8401

0.0907
3.4864

0.3909
-0.6258

Si, a priori, suponemos que N (0, 1), entonces la distribucion a posteriori de es una
x 1
normal, ver (33), N 10
= 0.3979. Por lo tanto,
11 , 11 . Observando la muestra se obtiene que x
1
la distribucion a posteriori del par
ametro es una normal N ( 3.979
,
).
11
11
1.4

1.2

0.8

0.6

0.4

0.2

0
3

Figura 2: Gr
aficos de las densidades a priori (en verde) y a posteriori (en azul).
Como la moda y la media de la distribucion normal coinciden, el estimador puntual
Bayesiano resulta ser = 3.979/11 = 0.3617 . . . .
Utilizando la tabla de la normal estandar puede verse que I = [0.22920.9527] es un
intervalo de nivel 0.95.
Etcetera...

2.3.

Distribuciones Poisson con a priori Gamma

Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una distribucion Poisson de par


ametro ,
> 0. Supongamos que la distribucion a priori del par
ametro es una Gamma de par
ametros
y . Esto es, la densidad a priori del par
ametro es de la forma
(t) t1 et 1{t > 0}
.
16

(47)

Distribuci
on a posteriori. La densidad a posteriori de , dado que X = x, queda caracterizada por la relaci
on de proporcionalidad (t|x) L(t|x) (t), donde L(t|x) es la funcion
de verosimilitud y (t) es la densidad a priori de . En este caso la funcion de verosimilitud
es de la forma
L(t|x) ent t

Pn

i=1

xi

(48)

De (47) y (48) se deduce que la densidad a posteriori de dado que X = x satisface


(t|x) ent t

Pn

i=1

xi 1 t

1{t > 0} = t

Pn

i=1

xi +1 (n+)t

1{t > 0}.

(49)

Por lo tanto, la distribucion a posteriori de dado que X = x es una Gamma


!
n
X

xi + , n + .
i=1

Estimadores Bayesianos.
1. Utilizando la esperanza condicional de |X = x obtenemos la siguiente estimacion.
Pn
xi +
= E[|X = x] = i=1
(50)
n+
2. La estimacion por m
aximo a posteriori se obtiene observando que
arg m
ax ta ebt = arg m
ax log ta ebt = arg m
ax(a log t bt) =
t>0

t>0

t>0

b
.
a

Por lo tanto,
map =
Nota Bene.

Pn

+1
.
n+

i=1 xi

(51)

Notar que
=
=

 Pn

+
n
 
i=1 xi
=
+
n+
n+
n
n+
n

x
+
E[(, )].
n+
n+

Pn

i=1 xi

(52)

Funci
on de probabilidad predictiva. El producto de la probabilidad condicional de X
dado que = t por la densidad a posteriori de dado que X = x:
f (x|t)(t|x) = et
=

tx (n + )(x) (x)1 (n+)t


t
e
1{t > 0}
x! ((x))

(n + )(x) (x)+x1 (n++1)t


t
e
1{t > 0},
x!((x))

17

(53)

P
donde (x) = ni=1 xi + . Integrando respecto de t ambos lados de la identidad (53), obtenemos la expresi
on de la funcion de probabilidad incondicional (o predictiva)
f (x|x) =
=
=
=

(n + )(x)
x!((x))

t(x)+x1 e(n++1)t dt

(n + )(x) ((x) + x)
x!((x)) (n + + 1)(x)+x
((x) + x)
(n + )(x)
((x))x! (n + + 1)(x)+x

x 
(x)
1
n+
((x) + x)
.
((x))x!
n++1
n++1

(54)

Una expresi
on que con un poco de paciencia (o una computadora a la mano) se puede calcular
para cada valor de x.
Caso N. En este caso la expresi
on para la funcion de probabilidad incondicional (54)
adopta la forma

x 
(x)
1
n+
((x) + x 1)!
f (x|x) =
((x) 1)!x!
n++1
n++1


x 
(x)
(x) + x 1
1
n+
=
.
(x) 1
n++1
n++1

(55)

La expresi
on (55) para la funcion de probabilidad condicional f (x|x) admite la siguiente
interpretaci
on probabilstica: Dado que X = x, la probabilidad incondicional de que la variable
Poisson asuma el valor x es igual a la probabilidad de que en una sucesi
on de ensayos Bernoulli
n+
independientes de par
ametro n++1 el (x)-esimo exito ocurra en el ((x) + x)-esimo ensayo.
Estimaci
on por intervalo. Dado que X = x, podemos construir un intervalo estimador
de nivel 1 para observando que


2(x) 1
,
.
2(n + )
2
2
Si adem
as N, entonces

2(n + ) 22(x) .

En tal caso,

h
i
P 2(n + ) 22(x),/2 , 22(x),1/2 = 1 .

Por lo tanto, si N y sabiendo que X = x el intervalo


" 2
#
2(x),/2 22(x),1/2
,
,
2(n + )
2(n + )
donde (x) =

Pn

i=1 xi

+ , es un intervalo estimador de nivel 1 para .

18

Ejemplo 2.3. La cantidad de errores de tipeo por hoja que comete una secretaria profesional
puede modelarse con una distribucion de Poisson de par
ametro (Por que?). A priori, se
supone que el par
ametro sigue una distribucion exponencial de intensidad 1 (Esta hip
otesis
sobre la distribucion de es la menos informativa si se supone que la media de la distribucion
es 1). Se analizan 10 hojas tipeadas por la mencionada secretaria y resulta que la cantidad
de errores por pagina es
1

Si la secretaria tipea una nueva hoja, cu


al es la probabilidad de que cometa como m
aximo un
error?
Soluci
on. Para resolver este problema utilizaremos la funcion de probabilidad predictiva.
De acuerdo con (54), como la distribucion a priori de es una Exp(1) = (1, 1), dicha funcion
es de la forma


  x  30
x 
(x) 
1
(x) + x 1
1
29 + x
n+
11
f (x|x) =
=
,
(x) 1
29
n++1
n++1
12
12
P
debido a que n = 10, (x) = ni=1 xi + 1 = 30 y = 1. Por lo tanto, la probabilidad de que
la secretaria cometa como m
aximo un error al tipear una nueva hoja sera
   0  30    1  30
1
29
1
30
11
11
f (0|x) + f (1|x) =
+
29
29
12
12
12
12
 30 
   30  
11
1
11
7
=
1 + 30
=
= 0.257 . . .
12
12
12
2

3.

Bibliografa consultada
Para redactar estas notas se consultaron los siguientes libros:
1. Bolfarine, H., Sandoval, M. C.: Introducao `a Inferencia Estatstica. SBM, Rio de Janeiro.
(2001)
2. Borovkov, A. A.: Estadstica matem
atica. Mir, Mosc
u. (1984)
3. Hoel P. G.: Introducci
on a la estadstica matem
atica. Ariel, Barcelona. (1980)
4. Pugachev, V. S.: Introducci
on a la Teora de Probabilidades. Mir, Moscu. (1973)
5. Robert, C. P.: The Bayesian Choice. Springer, New York. (2007)
6. Ross, S. M.: Introduction to Probability and Statistics for Engieneers and Scientists.
Elsevier Academic Press, San Diego. (2004)

19

Potrebbero piacerti anche