Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Indice
1. Teora general
1.1. Los axiomas de Kolmogorov . . . . . .
1.2. Relaci
on con los datos experimentales
1.3. Corolarios inmediatos de los axiomas .
1.4. Sobre el axioma de continuidad . . . .
1.5. -
algebras y teorema de extensi
on . .
.
.
.
.
.
3
3
5
7
7
10
.
.
.
.
.
2. Simulaci
on de experimentos aleatorios
2.1. N
umeros aleatorios. . . . . . . . . . .
2.2. Simulacion de experimentos aleatorios
2.3. Estimaci
on de probabilidades . . . . .
finito
. . . . . . . .
. . . . . . . .
. . . . . . . .
11
11
12
13
.
.
.
.
.
.
.
.
.
.
.
.
.
.
17
17
18
21
23
24
25
27
4. Mec
anica Estadstica
4.1. Algunas distribuciones relacionadas con la estadstica de Maxwell-Boltzmann
4.1.1. Cantidad de partculas por celda: la distribucion binomial . . . . . . .
4.1.2. Forma lmite: la distribucion de Poisson . . . . . . . . . . . . . . . . .
4.2. Algunas distribuciones relacionadas con la estadstica de Bose-Einstein . . . .
4.2.1. Cantidad de partculas por celda . . . . . . . . . . . . . . . . . . . . .
4.2.2. Forma lmite: la distribucion de Geometrica . . . . . . . . . . . . . . .
4.3. Tiempos de espera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
31
31
32
33
33
34
35
5. Bibliografa consultada
36
.
.
.
.
.
.
.
.
.
.
3. Elementos de An
alisis Combinatorio
3.1. Regla del Producto . . . . . . . . . . . . . .
3.2. Muestras ordenadas . . . . . . . . . . . . .
3.3. Subpoblaciones . . . . . . . . . . . . . . . .
3.4. Particiones . . . . . . . . . . . . . . . . . .
3.5. Distribucion Hipergeometrica . . . . . . . .
3.5.1. Control de calidad. . . . . . . . . . .
3.5.2. Estimaci
on por captura y recaptura.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1.
Teora general
1.1.
n=1
vale que
(1)
An =
lm P(An ) = 0.
Definici
on 1.3. Un espacio de probabilidad es una terna (, A, P) formada por un conjunto
no vaco , llamado el espacio muestral ; un algebra A de subconjuntos de ; llamados los
eventos aleatorios; y una medida de probabilidad P definida sobre los eventos aleatorios.
1
1. Escribiremos Ac := { :
/ A} para designar al evento que no ocurre A. El evento Ac se llama el
complemento de A.
2. Escribiremos A B := { : A o B} para designar al evento que ocurre al menos uno de
los eventos A o B. El evento A B se llama la uni
on de A y B.
3. Escribiremos A B := { : A y B} para designar al evento ocurren ambos A y B. El
evento A B se llama la intersecci
on de A y B.
A veces escribiremos A \ B en lugar de A B c , esto es, el evento que A ocurre, pero B no lo hace. Cuando
dos eventos A y B no tienen elementos en com
un, esto es A B = , diremos que A y B son disjuntos. Una
colecci
on de eventos A1 , A2 , . . . se dice disjunta dos a dos, si Ai Aj = para todo i 6= j.
Ejemplo 1.4 (Lanzar una moneda equilibrada). Se lanza una moneda. Los resultados posibles
son cara o ceca y pueden representarse mediante las letras H (head ) y T (tail ). Adoptando
esa representaci
on el espacio muestral correspondiente es
= {H, T }.
Decir que una moneda es equilibrada significa que la funcion de probabilidad asigna igual
probabilidad a los dos resultados posibles:
p(H) = p(T ) = 1/2.
Equiprobabilidad: f
ormula de Laplace. Sea un espacio muestral finito. Cuando todos
los eventos elementales tienen la misma probabilidad, esto es, cuando para todo vale
que p() = ||1 , se dice que el espacio es equiprobable. En ese caso las probabilidades de los
eventos A se calculan usando la f
ormula de Laplace:
P(A) =
|A|
.
||
1.2.
Relaci
on con los datos experimentales
nk (A)
nk
P(T ) = 1 p,
P(H) = p,
P() = 1,
donde p es un n
umero real fijo perteneciente al intervalo [0, 1].
Si en 10 series, de 1000 lanzamientos cada una, se obtienen las siguientes frecuencias
relativas de ocurrencia del evento A = {H}
0.753; 0.757; 0.756; 0.750; 0.746; 0.758; 0.751; 0.748; 0.749; 0.746,
parece razonable asignarle a p el valor 0.75.
Nota Bene 2. Si cada una de dos afirmaciones diferentes es practicamente segura, entonces
podemos decir que simult
aneamente son ambas seguras, aunque el grado de seguridad haya
disminuido un poco. Si, en cambio, el n
umero de tales afirmaciones es muy grande, de la
seguridad practica de cada una, no podemos deducir nada sobre la validez simult
anea de
todos ellas. En consecuencia, del principio enunciado en (a) no se deduce que en una cantidad
muy grande de series de n experimentos cada una, en cada uno de ellos la proporci
on n(A)/n
diferir
a s
olo un poco de P(A).
En los casos m
as tpicos de la teora de probabilidades, la situacion es tal que en una larga
serie de pruebas es posible obtener uno de los dos valores extremos para la frecuencia
n
n(A)
= =1
n
n
n(A)
0
= = 0.
n
n
Por ejemplo, si el evento A es sacar un seis tirando un dado equilibrado, entonces en n tiradas
del dado la probabilidad de obtener un seis en todas ellas es (1/6)n > 0; en otras palabras,
con probabilidad (1/6)n tendremos una frecuencia relativa igual a uno de sacar un seis en
todas las tiradas ; y con probabilidad (5/6)n no saldra ning
un seis, es decir, la frecuencia
relativa de sacar seis sera igual a cero.
Nota Bene 3. De acuerdo con nuestros axiomas a un evento imposible (un conjunto vaco)
le corresponde la probabilidad P() = 0, pero la recproca no es cierta: P(A) = 0 no implica la
imposibilidad de A. Cuando P(A) = 0, del principio (b) todo lo que podemos asegurar es que
cuando se realicen las condiciones S una sola vez, el evento A sera practicamente imposible.
Sin embargo, esto no asegura de ning
un modo que en una sucesion suficientemente grande de
experimentos el evento A no ocurrira. Por otra parte, del principio (a) solamente se puede
deducir que cuando P(A) = 0 y n es muy grande, la proporci
on n(A)/n debe ser muy peque
na
(por ejemplo, 1/n).
6
1.3.
i=1
Ejercicios adicionales
1. Sean A y B dos eventos. Mostrar que
(a) Si A B, entonces P(A) P(B). M
as precisamente: P(B) = P(A) + P(B \ A).
Sugerencia. Expresar el evento B como la uni
on disjunta de los eventos A y B \ A y usar
el axioma III.
(b) La probabilidad de que ocurra al menos uno de los eventos A o B es
P(A B) = P(A) + P(B) P(A B).
Sugerencia. La uni
on A B de dos eventos puede expresarse como la uni
on de dos eventos
disjuntos: A (B \ (A B)).
2. Mostrar que para eventos A, B y C vale que
P(A B C) = P(A) + P(B) + P(C) P(A B) P(A C) P(B C)
+P(A B C).
i<j
i<j<k
+(1)n P(A1 A2 An ).
1.4.
T
An = y lm P(An ) = P() = 0. Por lo tanto, todos
con Ak . Tenemos que Ak = Ak+m =
n
n=1
Nota Bene 2. Se puede probar que para espacios muestrales infinitos, el axioma de continuidad IV es independiente de los axiomas I-III. Este axioma es esencial solamente para
espacios de probabilidad infinitos y es casi imposible elucidar su significado emprico en la
forma en que lo hicimos con los axiomas I-III.
Ejemplo 1.7. Sean = Q [0, 1] = {r1 , r2 , r3 , . . . } y A0 la familia de los subconjuntos de
de la forma [a, b], [a, b), (a, b] o (a, b). La familia, A de todas las uniones finitas de conjuntos
disjuntos de A0 es un
algebra de eventos. La medida de probabilidad definida por
P(A) := b a,
P(A) :=
si A A0 ,
Pk
i=1 P(Ai )
si A =
k
[
i=1
Ai , para Ai A0 y Ai Aj = ,
T
An = , sin embargo lm P(An ) = 1, debido a que P(An ) = 1
n N, son decrecientes y
para todo n 1.
n=1
Teorema 1.8.
(a) Si A1 A2 y A =
(b) Si A1 A2 y A =
n=1
n=1
Demostraci
on.
T
(a) Considerar la sucesion Bn = An \ A. Observar que B1 B2 y
Bn = . Por
n=1
Bn = Ac . Por el
n=1
inciso (a) se obtiene lm P(Bn ) = P(Ac ) = 1 P(A). Como P(Bn ) = 1 P(An ) se deduce
n
que
lm P(An ) = P(A).
n
Ejemplo 1.9 (N
umeros aleatorios). Teoricamente, los n
umeros aleatorios son realizaciones
independientes del experimento conceptual que consiste en elegir al azar un n
umero U
del intervalo (0, 1]. Aqu la expresi
on elegir al azar significa que el n
umero U tiene la
distribucion uniforme sobre el intervalo (0, 1], i.e., la probabilidad del evento U (a, b] es
igual a b a, para cualquier pareja de n
umeros reales a y b tales que 0 < a < b 1.
\
A=
An ,
n=1
S
An A, entonces
(i.e., Ai Aj = para todos los pares i, j tales que i 6= j) y
n=1
An
n=1
P(An )
Demostraci
on. La sucesion de eventos Rn :=
m>n
n=1
lm P(Rn ) = 0
X
[
P(Ak ) + P(Rn ).
An =
P
n=1
(2)
n=1
k=1
(3)
(4)
S
An A y B A, entonces
que A =
n=1
P(B)
P(An ).
n=1
Demostraci
on. Una cuenta. Descomponemos B en una uni
on disjunta de eventos
!!
!
n1
[
[
[
(An Ak )
B An \
An =
B=B
n=1
n=1
k=1
n=1
P B
An \
n1
[
k=1
!!
(An Ak )
P(An ).
n=1
Ejercicios adicionales
4. Sean un conjunto no vaco y A un algebra de eventos. Sea P : A R una funcion tal
que
I. Para cada A A, P(A) 0,
II. P() = 1.
III. Si los eventos A y B no tienen elementos en com
un, entonces P(A B) = P(A) + P(B).
S
An A, entonces
IV. Si (An )n1 es una sucesion de eventos disjuntos dos a dos y
n=1
An
n=1
P(An ).
n=1
1.5.
-
algebras y teorema de extensi
on
n=1
An =
n=1
An \
n1
[
k=1
10
(An Ak )
n=1
An de conjuntos A1 , A2 ,
se deduce que la -
algebra tambien contiene todas las uniones numerables de conjuntos
A1 , A2 , A. De la identidad
n=1
An = \
Acn
n=1
donde el nfimo se toma respecto a todos los cubrimientos del conjunto A por colecciones
finitas o numerables de conjuntos An pertenecientes a A. De acuerdo con el Teorema de
cubrimiento P (A) coincide con P(A) para todo conjunto A A.
La funcion P es no negativa y -aditiva sobre (A). La unicidad de la extensi
on se deduce
de la propiedad minimal de (A).
2.
2.1.
Simulaci
on de experimentos aleatorios con espacio muestral
finito
N
umeros aleatorios.
(5)
2.2.
Simulaci
on de experimentos aleatorios
m
X
k=1
k1 {Lk1 < U Lk } ,
donde
L0 := 0 y Lk :=
k
X
pi ,
i=1
(1 k m)
12
(6)
6
X
k=1
k1
k1
k
<U
6
6
(7)
2.3.
Estimaci
on de probabilidades
13
nk (A)
nk
(8)
P(N = 3) 0.3120,
P(N = 1) 0.1581,
P(N = 4) 0.1564,
P(N = 2) 0.3121,
P(N = 5) 0.0306.
Para finalizar este ejemplo, presentamos un programa en Octave que simula diez mil veces
el lanzamiento de cinco monedas equilibradas, contando en cada una la cantidad de caras
observadas y que al final provee una tabla como la representada en (8)
n = 10000;
N = zeros(1,n);
for i=1:n
U=rand(1,5);
X=[U<=(1/2)];
N(i)=sum(X);
end
for j=1:6
T(j)=sum([N==j-1]);
end
T
14
P(N = 1) = 0.15625,
P(N = 2) = 0.31250,
P(N = 3) = 0.31250,
P(N = 4) = 0.15625,
P(N = 5) = 0.03125.
2. La construcci
on (7) permite simular 24 tiros de dos dados usando 48 n
umeros aleatorios
independientes U1 , U2 , . . . , U47 , U48 .
La cantidad de veces que se obtiene un doble as en los 24 tiros de dos dados es la suma
24
P
1{0 < U2i1 1/6, 0 < U2i 1/6}. El evento A2 = obtener al menos un doble as
S =
i=1
16
3.
Elementos de An
alisis Combinatorio
3.1.
a1
a2
..
.
b1
(a1 , b1 )
(a2 , b1 )
..
.
b2
(a1 , b2 )
(a2 , b2 )
..
.
...
...
...
bn
(a1 , bn )
(a2 , bn )
..
.
am
(am , b1 )
(am , b2 )
...
(am , bn )
Cuadro 1: Esquema rectangular del tipo tabla de multiplicar con m filas y n columnas: en la
interseccion de fila i y la columna j se encuentra el par (ai , bj ). Cada par aparece una y s
olo
una vez.
En palabras, con m elementos a1 , . . . , am y n elementos b1 , . . . , bn es posible formar m n
pares (ai , bj ) que contienen un elemento de cada grupo.
Teorema 3.1 (Regla del producto). Sean A1 , A2 , . . . , An , n conjuntos cualesquiera. El producto cartesiano de los n conjuntos A1 , A2 , . . . , An se define por
A1 A2 An = {(x1 , x2 , . . . , xn ) : xi Ai , 1 i n}.
Si los conjuntos A1 , A2 , . . . , An son finitos, entonces
|A1 A2 An | =
n
Y
i=1
|Ai |.
Demostraci
on. Si n = 2 ya lo demostramos. Si n = 3, tomamos los pares (x1 , x2 ) como
elementos de un nuevo tipo. Hay |A1 | |A2 | elementos de ese tipo y |A3 | elementos x3 . Cada
terna (x1 , x2 , x3 ) es un par formado por un elemento (x1 , x2 ) y un elemento x3 ; por lo tanto,
la cantidad de ternas es |A1 | |A2 | |A3 |. Etcetera.
Nota Bene. Muchas aplicaciones se basan en la siguiente reformulacion de la regla del
producto: r decisiones sucesivas con exactamente nk elecciones posibles en el k-esimo paso
pueden producir un total de n1 n2 nr resultados diferentes.
17
Ejemplo 3.2 (Ubicar r bolas en n urnas). Los resultados posibles del experimento se pueden
representar mediante el conjunto
= {1, 2, . . . , n}r = {(x1 , x2 , . . . , xr ) : xi {1, 2, . . . , n}, 1 i r},
donde xi = j representa el resultado la bola i se ubic
o en la urna j. Cada bola puede
ubicarse en una de las n urnas posibles. Con r bolas tenemos r elecciones sucesivas con
exactamente n elecciones posibles en cada paso. En consecuencia, r bolas pueden ubicarse en
n urnas de nr formas distintas.
Usamos el lenguaje figurado de bolas y urnas, pero el mismo espacio muestral admite
muchas interpretaciones distintas. Para ilustrar el asunto listaremos una cantidad de situaciones en las cuales aunque el contenido intuitivo vara son todas abstractamente equivalentes
al esquema de ubicar r bolas en n urnas, en el sentido de que los resultados difieren solamente
en su descripci
on verbal.
1. Nacimientos. Las configuraciones posibles de los nacimientos de r personas corresponde
a los diferentes arreglos de r bolas en n = 365 urnas (suponiendo que el a
no tiene 365
das).
2. Accidentes. Clasificar r accidentes de acuerdo con el da de la semana en que ocurrieron
es equivalente a poner r bolas en n = 7 urnas.
3. Muestreo. Un grupo de personas se clasifica de acuerdo con, digamos, edad o profesi
on.
Las clases juegan el rol de las urnas y las personas el de las bolas.
4. Dados. Los posibles resultados de una tirada de r dados corresponde a poner r bolas en
n = 6 urnas. Si en lugar de dados se lanzan monedas tenemos solamente n = 2 urnas.
5. Dgitos aleatorios. Los posibles ordenamientos de una sucesion de r dgitos corresponden
a las distribuciones de r bolas (= lugares) en diez urnas llamadas 0, 1, . . . , 9.
6. Coleccionando figuritas. Los diferentes tipos de figuritas representan las urnas, las figuritas coleccionadas representan las bolas.
3.2.
Muestras ordenadas
Se considera una poblacion de n elementos a1 , a2 , . . . , an . Cualquier secuencia ordenada aj1 , aj2 , . . . , ajk de k smbolos se llama una muestra ordenada de tama
no k tomada de la
poblacion. (Intuitivamente los elementos se pueden elegir uno por uno). Hay dos procedimientos posibles.
(a) Muestreo con reposici
on. Cada elecci
on se hace entre toda la poblacion, por lo que
cada elemento se puede elegir m
as de una vez. Cada uno de los k elementos se puede elegir
en n formas: la cantidad de muestras posibles es, por lo tanto, nk , lo que resulta de la regla
del producto con n1 = n2 = = nk = n.
18
(9)
elecciones posibles.
Teorema 3.3. Para una poblaci
on de n elementos y un tama
no de muestra prefijado k,
k
existen n diferentes muestras con reposici
on y (n)k muestras sin reposici
on.
Ejemplo 3.4. Consideramos una urna con 8 bolas numeradas 1, 2, . . . , 8
(a) Extracci
on con reposici
on. Extraemos 3 bolas con reposici
on: despues de extraer
una bola, anotamos su n
umero y la ponemos de nuevo en la urna. El espacio muestral
1 correspondiente a este experimento consiste de todas las secuencias de longitud 3
que pueden formarse con los smbolos 1, 2, . . . 8. De acuerdo con el Teorema 3.3, 1
tiene 83 = 512 elementos. Bajo la hip
otesis de que todos los elementos tienen la misma
probabilidad, la probabilidad de observar la secuencia (3, 7, 1) es 1/512.
(b) Extracci
on de una colecci
on ordenada sin reposici
on. Extraemos 3 bolas sin
reposici
on: cada bola elegida no se vuelve a poner en la urna. Anotamos los n
umeros
de las bolas en el orden en que fueron extradas de la urna. El espacio muestral 2
correspondiente a este experimento es el conjunto de todas las secuencias de longitud
3 que pueden formarse con los smbolos 1, 2 . . . , 8 donde cada smbolo puede aparecer
a los sumo una vez. De acuerdo con el Teorema 3.3, 2 tiene (8)3 = 8 7 6 = 336
elementos. Bajo la hip
otesis que todos los elementos tienen la misma probabilidad, la
probabilidad de observar la secuencia (3, 7, 1) (en ese orden) es 1/336.
Ejemplo 3.5. Una urna contiene 6 bolas rojas y 4 bolas negras. Se extraen 2 bolas con
reposicion. Para fijar ideas supongamos que las bolas estan numeradas de la siguiente manera:
las primeras 6 son las rojas y las u
ltimas 4 son las negras. El espacio muestral asociado es
= {1, . . . , 10}2 y su cantidad de elementos || = 102 .
(a) Cu
al es la probabilidad de que las dos sean rojas? Sea R el evento las dos son rojas,
R = {1, . . . , 6}2 y |R| = 62 . Por lo tanto, P(R) = 62 /102 = 0.36.
(b) Cu
al es la probabilidad de que las dos sean del mismo color? Sea N el evento las dos
son negras, N = {7, . . . , 10}2 y |N | = 42 , entonces P(N ) = 42 /102 = 0.16. Por lo tanto,
P(R N ) = P(R) + P(N ) = 0.52.
(c) Cu
al es la probabilidad de que al menos una de las dos sea roja? El evento al menos
una de las dos es roja es el complemento de las dos son negras. Por lo tanto, P(N c ) =
1 P(N ) = 0.84.
Si se consideran extracciones sin reposicion, deben reemplazarse las cantidades (10)2 , 62 y 42
por las correspondientes (10)2 , (6)2 y (4)2 .
19
(10)
Observaci
on 3.7. Las muestras ordenadas de tama
no k, sin reposicion, de una poblacion de
n elementos, se llaman variaciones de n elementos tomados de a k. Su n
umero total (n)k se
puede calcular del siguiente modo
(n)k =
n!
(n k)!
(11)
Ejemplos
Consideramos muestras aleatorias de volumen k (con reposici
on) tomadas de una poblacion
de n elementos a1 , . . . , an . Nos interesa el evento que en una muestra no se repita ning
un elk
emento. En total existen n muestras diferentes, de las cuales (n)k satisfacen la condici
on
estipulada. Por lo tanto, la probabilidad de ninguna repetici
on en nuestra muestra es
p=
(n)k
n(n 1) (n k + 1)
=
nk
nk
(12)
20
(a) Para n = 7, p = 0.00612.... Esto significa que si en una ciudad ocurren 7 accidentes por
semana, entonces (suponiendo que todas las ubicaciones posibles son igualmente probables) pr
acticamente todas las semanas contienen das con dos o m
as accidentes, y en
promedio solo una semana de 164 mostrar
a una distribuci
on uniforme de un accidente
por da.
(b) Para n = 6 la probabilidad p es igual a 0.01543... Esto muestra lo extremadamente
improbable que en seis tiradas de un dado perfecto aparezcan todas las caras.
Cumplea
nos. Los cumplea
nos de k personas constituyen una muestra de tama
no k de la
poblacion formada por todos los das del a
no.
De acuerdo con la ecuaci
on (12) la probabilidad, pk , de que todos los k cumplea
nos sean
diferentes es
(365)k
2
k1
1
pk =
1
1
.
= 1
365k
365
365
365
Una formula aparentemente abominable. Si k = 23 tenemos pk < 1/2. En palabras, para 23
personas la probabilidad que al menos dos personas tengan un cumplea
nos com
un excede 1/2.
Aproximaciones numericas de pk . Si k es chico, tomando logaritmos y usando que para x
peque
no y positivo log(1 x) x, se obtiene
log pk
k(k 1)
1 + 2 + + (k 1)
=
.
365
730
Ejercicios adicionales
5. Hallar la probabilidad pk de que en una muestra de k dgitos aleatorios no haya dos iguales.
1
Estimar el valor numerico de p10 usando la f
ormula de Stirling (1730): n! en nn+ 2 2.
6. Considerar los primeros 10000 decimales del n
umero . Hay 2000 grupos de cinco dgitos.
Contar la cantidad de grupos en los que los 5 dgitos son diferentes e indicar la frecuencia
relativa del evento considerado. Comparar el resultado obtenido con la probabilidad de que
en una muestra de 5 dgitos aleatorios no haya dos iguales.
3.3.
Subpoblaciones
(n)k
n!
=
.
k!
k!(n k)!
(13)
Los n
umeros definidos en (13) se llaman
coeficientes binomiales o n
umeros combinatorios y
la notaci
on cl
asica para ellos es nk .
Teorema 3.8. Una poblaci
on de n elementos tiene
n!
n
=
k
k!(n k)!
(14)
(16)
(17)
determinan completamente los n
umeros combinatorios nk , 0 k n, n = 0, 1, . . . . Usando
dichas relaciones se construye el famoso tri
angulo de Pascal, que muestra todos los n
umeros
combinatorios en la forma de un tri
angulo
1
1
1
1
1
1
1
...
3
4
1
2
1
3
6
10
1
4
10
1
5
6
15
20
15
6
...
...
...
...
1
...
La n-esima fila de este tri
angulo contiene los coeficientes n0 , n1 , . . . , nn . Las condiciones de
borde (17) indican que el primero y el u
ltimo de esos n
umeros son 1. Los n
umeros restantes
se determinan por la ecuaci
on en diferencias (16). Vale decir, para cada 0 < k < n, el k-esimo
coeficiente de la n-esima fila del triangulo de Pascal se obtiene sumando
los dos coeficientes
5
inmediatamente superiores a izquierda y derecha. Por ejemplo, 2 = 4 + 6 = 10.
Control de calidad. Una planta de ensamblaje recibe una partida de 50 piezas de precisi
on
que incluye 4 defectuosas. La divisi
on de control de calidad elige 10 piezas al azar para
controlarlas y rechaza la partida si encuentra 1 o m
as defectuosas. Cual es la probabilidad
formas
de elegir la muestra para controlar y
de que la partida pase la inspecci
on? Hay 50
10
46
10 de elegir todas las piezas sin defectos. Por lo tanto, la probabilidad es
1
46 50
46! 10!40!
40 39 38 37
=
=
= 0, 3968....
10 10
10!36! 50!
50 49 48 47
3.4.
Particiones
(18)
El n
umero de formas en que una poblaci
on de n elementos se puede dividir en k partes
ordenadas (particionarse en k subpoblaciones) tales que la primera contenga r1 elementos, la
23
segunda r2 , etc, es
n!
.
r1 !r2 ! rk !
(19)
Los n
umeros (19) se llaman coeficientes multinomiales.
Demostraci
on. Un uso repetido de (14) muestra que el n
umero (19) se puede reescribir en
la forma
n
n r1
n r1 r2
n r1 rk2
(20)
r1
r2
r3
rk1
Por otro lado, para efectuar la particion deseada, tenemos primero que seleccionar r1 elementos
de los n; de los restantes n r1 elementos seleccionamos un segundo grupo de tama
no r2 ,
etc. Despues de formar el grupo (k 1) quedan n r1 r2 rk1 = rk elementos, y
esos forman el u
ltimo grupo. Concluimos que (20) representa el n
umero de formas en que se
puede realizar la particion.
Ejemplo 3.11 (Accidentes). En una semana ocurrieron 7 accidentes. Cual es la probabilidad
de que en dos das de esa semana hayan ocurrido dos accidentes cada da y de que en otros
tres das hayan ocurrido un accidente cada da?
Primero particionamos los 7 das en 3 subpoblaciones: dos das con dos accidentes en cada
uno, tres das con un accidente en cada uno y dos das sin accidentes.. Esa particion en tres
grupos de tama
nos 2, 3, 2 se puede hacer de 7!/(2!3!2!) formas distintas y por cada una de
ellas hay 7!/(2!2!1!1!1!0!0!) = 7!/(2!2!) formas diferentes de ubicar los 7 accidentes en los 7
das. Por lo tanto, el valor de la probabilidad requerido es igual a
7!
7! 1
= 0.3212...
2!3!2! 2!2! 77
Ejercicios adicionales
8. Cuantas palabras distintas pueden formarse permutando las letras de la palabra manzana y cu
antas permutando las letras de la palabra aiaiiaiiiaiiii?
9. Se ubicar
an 6 bolas distinguibles en 8 urnas numeradas 1, 2, . . . , 8. Suponiendo que todas
las configuraciones distintas son equiprobables calcular la probabilidad de que resulten tres
urnas ocupadas con una bola cada una y que otra urna contenga las tres bolas restantes.
3.5.
Distribuci
on Hipergeom
etrica
Para calcular pk , observamosque el grupo elegido debe contener k bolas rojas y rk negras.
n2
Las rojas pueden elegirse de nk1 formas distintas y la negras de rk
formas distintas. Como
cada elecci
on de las k bolas rojas debe combinarse con cada elecci
on de las r k negras, se
obtiene
n1
n2
n1 + n2 1
pk =
(21)
k
rk
r
El sistema de probabilidades obtenido se llama la distribuci
on hipergeometrica.
3.5.1.
Control de calidad.
100 k
10
1
k
100
100 k
k
100 1
+
.
0
10
9
1
10
p(k)
es menor que 1.
Una cuenta sencilla muestra que para todo k = 1, . . . , 90 el cociente p(k1)
Esto significa que a medida que aumenta la cantidad de piezas defectuosas en la partida, la
probabilidad de aceptarla disminuye.
25
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
10
20
30
40
50
60
Figura 1: Gr
afico de funcion p(k).
Cual es la m
axima probabilidad de aceptar una partida de 100 que contenga m
as de
20 piezas defectuosas? Debido a que la funcion p(k) es decreciente, dicha probabilidad es
p(20) 0.3630.
Ejemplo 3.14. Una planta de ensamblaje recibe un lote de n = 100 piezas de precisi
on, de
las cuales una cantidad desconocida n1 son defectuosas. Para controlar el lote se elige una
muestra (sin reposicion) de r = 10 piezas. Examinadas estas, resultan k = 2 defectuosas.
Que se puede decir sobre la cantidad de piezas defectuosas en el lote?
Sabemos que de 10 piezas examinadas 2 son defectuosas y 8 no lo son. Por lo tanto,
2 n1 92. Esto es todo lo que podemos decir con absoluta certeza. Podra suponerse que
el lote contiene 92 piezas defectuosas. Partiendo de esa hip
otesis, llegamos a la conclusi
on de
que ha ocurrido un evento de probabilidad
8 92 100 1
= O(1010 ).
8
2
10
En el otro extremo, podra suponerse que el lote contiene exactamente 2 piezas defectuosas,
en ese caso llegamos a la conclusi
on de que ha ocurrido un evento de probabilidad
1
98 2 100 1
.
=
110
10
2
8
Las consideraciones anteriores conducen a buscar el valor de n1 que maximice la probabilidad
1
100 n1
n1
100
p(n1 ) :=
,
8
2
10
26
n1 (93 n1 )
>1
(n1 2)(101 n1 )
n1 (93 n1 ) > (n1 2)(101 n1 )
Esto significa que cuando n1 crece la sucesion p(n1 ) primero crece y despues decrece; alcanza
su m
aximo cuando n1 = 20. Suponiendo que n1 = 20, la probabilidad de que en una muestra
de 10 piezas extradas de un lote de 100 se observen 2 defectuosas es:
1
80 20 100
0.318.
p(20) =
10
2
8
Aunque el verdadero valor de n1 puede ser mayor o menor que 20, si se supone que n1 = 20 se
obtiene un resultado consistente con el sentido com
un que indicara que los eventos observables
deben tener alta probabilidad.
0.35
0.3
0.25
0.2
0.15
0.1
0.05
20
40
60
80
100
Figura 2: Gr
afico de funcion p(n1 ). Observar que arg m
ax{p(n1 ) : 2 n1 92} = 20.
3.5.2.
Estimaci
on por captura y recaptura.
1
n
n n1
n1
.
r
rk
k
(22)
28
encontrar n
mv consideramos la proporci
on
pk (n)
pk (n 1)
(n n1 )(n r)
>1
(n n1 r + k)n
(n n1 )(n r) > (n n1 r + k)n
Esto significa que cuando n crece la sucesion pk (n) primero crece y despues decrece; alcanza
mv es aproximadamente
su m
aximo cuando n es el mayor entero menor que nk1 r , as que n
n1 r
igual a k . En nuestro ejemplo particular el estimador de m
axima verosimilitud del n
umero
de peces en el lago es n
mv = 10000.
El verdadero valor de n puede ser mayor o menor, y podemos preguntar por los lmites
entre los que resulta razonable esperar que se encuentre n. Para esto testeamos la hip
otesis
que n sea menos que 8500. Sustituimos en (22) n = 8500, n1 = r = 1000, y calculamos la
probabilidad que la segunda muestra contenga 100 o menos peces rojos. Esta probabilidad es
p = p0 + p1 + + p100 . Usando una computadora encontramos que p 0.04. Similarmente,
si n = 12.000, la probabilidad que la segunda muestra contenga 100 o m
as peces rojos esta
cerca de 0.03. Esos resultados justificaran la apuesta de que el verdadero n
umero n de peces
se encuentra en alg
un lugar entre 8500 y 12.000.
Ejercicios adicionales
10. Un estudiante de ecologa va a una laguna y captura 60 escarabajos de agua, marca cada
uno con un punto de pintura y los deja en libertad. A los pocos das vuelve y captura otra
muestra de 50, encontrando 12 escarabajos marcados. Cual sera su mejor apuesta sobre el
tama
no de la poblacion de escarabajos de agua en la laguna?
4.
Mec
anica Estadstica
5 4 53
1
1
=
=
= 0.025.
105
5 23
40
Ejemplo 4.2. Calcular para cada una de las tres estadsticas mencionadas, la probabilidad
de que una celda determinada (p.ej., la n
umero 1) no contenga partcula.
En cada uno de los tres casos la cantidad de eventos elementales favorables es igual a
la cantidad de ubicaciones de las partculas en n 1 celdas. Por lo tanto, designando por
pM B , pBE , pF D las probabilidades del evento especificado para cada una de las estadsticas
(siguiendo el orden de exposicion), tenemos que
(n 1)r
1 r
pM B =
= 1
,
nr
n
r + n 2 r + n 1 1
n1
,
pBE =
=
N +n1
n2
n1
n 1 n 1
r
pF D =
=1 .
r
r
n
Si r/n = y n , entonces
pM B = e ,
pBE =
1
,
1+
pF D = 1 .
Si es peque
no, esas probabilidades coinciden hasta O(2 ). El n
umero caracteriza la densidad promedio de las partculas.
Ejercicios adicionales
11. Utilizando la estadstica de Maxwell-Boltzmann construir un mecanismo aleatorio para
estimar el n
umero e.
4.1.
31
Cantidad de partculas m
as probable en una celda especfica. La cantidad m
as
probable de partculas en una celda especfica es el entero tal que
(r + 1)
(r n + 1)
<
.
n
n
(24)
Para ser m
as precisos:
pM B (0) < pM B (1) < < pM B ( 1) pM B () > pM B ( + 1) > > pM B (r).
Demostraci
on. (Ejercicio.)
4.1.2.
p(k) := e
k
,
k!
k = 0, 1, 2, . . .
Demostraci
on. Primero observamos que:
k
k
1
r
1 rk
1 rk
1
r!
1
1
=
k
n
n
k!(r k)! n
n
k
k
1 1
n1
r!
1 r
=
1
k! n
n
(r k)!
n
r
1
1
1
r!
1
=
.
k! (n 1)k (r k)!
n
(25)
(26)
1
(n)!
1 n
1
1
k! (n 1)k (n k)!
n
n
1
(n)!
1
1
=
1
n
k! (n 1)k (n k)!
(n)!
1
1
.
e
k! (n 1)k (n k)!
32
(27)
Para estimar el u
ltimo factor del lado derecho de (27) utilizamos la formula de Stirling n!
n+ 21 n
e :
2 n
1
1
(n)!
2 (n)n+ 2 en
1
(n 1)k (n k)!
(n 1)k 2 (n k)(nk)+ 21 e(nk)
1
(n)n+ 2 ek
1
(n 1)k (n k)(nk)+ 21
n+ 1
2
n k k
n
=
ek
n1
n k
"
1 #1
k n+ 2
k k
e
1
n
=
k .
(28)
4.2.
(29)
r+n1
n1
configu-
Cantidad de partculas en una celda especfica. Para calcular la probabilidad, pBE (k),
de que una celda especfica contenga exactamente k partculas (k = 0, 1, . . . , r) fijamos k de
los r ceros y 1 de los n 1 unos para representar que hay k partculas en la urna especfica.
La cantidad de configuraciones
distintas que pueden formarse con los restantes r k ceros y
n 2 unos es rk+n2
.
Resulta
que
n2
r k + n 2 r + n 1 1
pBE (k) =
.
n1
n2
(30)
Cantidad de partculas m
as probable en una celda especfica. Cuando n > 2 la
cantidad m
as probable de partculas en una celda especfica es 0 o m
as precisamente pBE (0) >
pBE (1) > .
Demostraci
on. (Ejercicio.)
33
4.2.2.
k
.
(1 + )k+1
(r k + n 2)! (n 1)!r!
(n 2)!(r k)! (r + n 1)!
(n 1)! r! (r k + n 2)!
.
(n 2)! (r k)! (r + n 1)!
(31)
(32)
Para estimar los factores que intervienen en (32) utilizamos la formula de Stirling n!
1
2 nn+ 2 en :
"
n1 #1
1
1
(n 1)n1+ 2 en+1
(n 2)e1
1
n2+ 21 n+2
n1
e
(n 2)
n 2 n,
(33)
"
#1
1
n
(n)n+ 2 en
k
1
(n k)k ek
nk+ 21 n+k
n
e
(n k)
nk+n2+ 21
(n k + n 2)
n+n1+ 21
(n + n 1)
en+kn+2
enn+1
(n k)k k nk ,
(34)
(n k + n 2)k1 ek+1
1
k+1
n + n 1
n+n1
(n k + n 2)k1
1
.
(1 + )k+1 nk+1
De (31), (32), (33), (34) y (35) resulta que
r k + n 2 r + n 1 1
k
.
n2
n1
(1 + )k
34
(35)
(36)
Ejercicios adicionales
12. Considerando la estadstica de Maxwell-Boltzmann para la distribucion aleatoria de r
partculas en n celdas demostrar que la cantidad de de partculas m
as probable en una celda
determinada es la parte entera de r+1
.
n
13. Considerando la estadstica de Bose-Einstein para la distribucion aleatoria de r partculas
(indistinguibles) en n > 2 celdas demostrar que la cantidad de de partculas m
as probable en
una celda determinada es 0.
4.3.
Tiempos de espera
(n)r1 (r 1)
.
nr
(37)
Situaci
on (ii). Usamos smbolos de la forma (j1 , j2 , . . . , jr ) para indicar que la primera, la
segunda,... y la r-esima partcula estan ubicadas en las celdas j1 , j2 , . . . , jr y que el proceso
culmina en el paso r. Las r-uplas (j1 , j2 , . . . , jr ) estan sujetas a la condici
on de que los n
umeros
j1 , j2 , . . . , jr1 son diferentes de un n
umero prescrito a n, y jr = a.
Para un r fijo el conjunto de todos los puntos muestrales (j1 , j2 , . . . , jr ) representa el
evento que el proceso termina en el r-esimo paso. Los n
umeros j1 , j2 , . . . , jr1 pueden elegirse
de (n 1)r1 formas diferentes; jr debe ser a. Por lo tanto la probabilidad de que el proceso
termine en el r-esimo paso es
pr =
(n 1)r1
.
nr
35
(38)
5.
Bibliografa consultada
Para redactar estas notas se consultaron los siguientes libros:
1. Bertsekas, D. P., Tsitsiklis, J. N.: Introduction to Probability. M.I.T. Lecture Notes.
(2000)
2. Bremaud, P.: An Introduction to Probabilistic Modeling. Springer, New York. (1997)
3. Durrett, R. Elementary Probability for Applications. Cambridge University Press, New
York. (2009)
4. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. John
Wiley & Sons, New York. (1957)
5. Ferrari, P.: Passeios aleat
orios e redes eletricas. Instituto de Matem
atica Pura e Aplicada. Rio de Janeiro. (1987)
6. Grinstead, C. M. & Snell, J. L. Introduction to Probability. American Mathematical
Society. (1997)
7. Kolmogorov, A. N.: Foundations of the Theory of Probability. Chelsea Publishing Co.,
New York. (1956)
8. Kolmogorov, A. N.: The Theory of Probability. Mathematics. Its Content, Methods,
and Meaning. Vol 2. The M.I.T. Press, Massachusetts. (1963) pp. 229-264.
9. Meester, R.: A Natural Introduction to Probability Theory. Birkhauser, Berlin. (2008)
36
Indice
1. Probabilidad Condicional
1.1. Probabilidad Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2. Formula de probabilidad total . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3. Regla de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
3
4
7
2. Independencia estoc
astica
10
3. Modelos discretos
11
4. Modelos continuos
4.1. Puntos al azar sobre un segmento. La distribucion uniforme
4.2. Geometra y probabilidad . . . . . . . . . . . . . . . . . . .
4.3. Paradoja de Bertrand . . . . . . . . . . . . . . . . . . . . .
4.4. De las masas puntuales a la masa continua . . . . . . . . .
5. Bibliografa consultada
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
14
14
15
17
18
20
1.
Probabilidad Condicional
1.1.
Probabilidad Condicional
P(B A)
.
P(A)
(1)
n=1 Bn
= vale que
Comparando las propiedades 1-4 con los axiomas I-IV, se concluye que la funcion P(|A) :
A R es una medida de probabilidad sobre los eventos aleatorios. Por lo tanto, todos los
resultados generales referidos a la propiedades de P() tambien valen para la probabilidad
condicional P(|A).
Ejemplo 1.2. Se lanza un dado equilibrado. Sabiendo que el resultado del dado no supero al
4, cu
al es la probabilidad condicional de haber obtenido un 3? Denotando mediante A al
evento el resultado no supera al 4 y mediante B el evento el resultado es 3. Tenemos que
P(A) = 4/6, P(B) = 1/6 y P(A B) = P(A) = 1/6. As
P(B|A) =
P(B A)
1/6
1
=
= ,
P(A)
4/6
4
(2)
ni=1 Ai
A1 A2 A3
P(A1 )
A1
P(A2 |A1 )
A2
P(A3 |A2 A1 )
A3
An1
n1
Ai )
P(An | i=1
An
nica
Figura 1: Ilustraci
on de la regla del producto. El evento ni=1 Ai tiene asociada una u
trayectoria sobre un
arbol que describe la historia de un experimento aleatorio realizado por
etapas sucesivas. Las aristas de esta trayectoria corresponden a la ocurrencia sucesiva de los
eventos A1 , A2 , . . . , An y sobre ellas registramos la correspondiente probabilidad condicional.
El nodo final de la trayectoria corresponde al evento ni=1 Ai y su probabilidad se obtiene multiplicando las probabilidades condicionales registradas a lo largo de las aristas de la trayectoria:
n1
Ai ). Notar que cada nodo intermedio
P(ni=1 Ai ) = P(A1 )P(A2 |A1 )P(A3 |A2 A1 ) P(An |i=1
a lo largo de la trayectoria tambien corresponde a un evento interseccion y su probabilidad se
obtiene multiplicando las probabilidades condicionales registradas desde el inicio de la trayectoria hasta llegar al nodo. Por ejemplo, el evento A1 A2 A3 corresponde al nodo indicado
en la figura y su probabilidad es P(A1 A2 A3 ) = P(A1 )P(A2 |A1 )P(A3 |A1 A2 ).
Teorema 1.3 (Regla del producto). Suponiendo que todos los eventos condicionantes tienen
probabilidad positiva, tenemos que
n1
(3)
P (ni=1 Ai ) = P An i=1
Ai P (A3 |A1 A2 ) P(A2 |A1 )P(A1 ).
Ejemplo 1.4. Una urna contiene 5 bolas rojas y 10 bolas negras. Se extraen dos bolas al
azar sin reposicion. Cual es la probabilidad que ambas bolas sean negras?
Sean N1 y N2 los eventos definidos por la primer bola extrada es negra y la segunda
bola extrada es negra, respectivamente. Claramente P(N1 ) = 10/15. Para calcular P(N2 |N1 )
observamos que si ocurrio N1 , entonces solo 9 de las 14 bolas restantes en la urna son negras.
As P(N2 |N1 ) = 9/14 y
P(N2 N1 ) = P(N2 |N1 )P(N1 ) =
1.2.
10 9
3
= .
15 14
7
F
ormula de probabilidad total
Teorema 1.5 (F
ormula de
S probabilidad total). Sea A1 , A2 , . . . una sucesion de eventos disAn = . Para cada B A vale la siguiente formula
juntos dos a dos tal que
n1
P(B) =
P(B|An )P(An ),
(4)
n1
denominada f
ormula de probabilidad total 1 .
1
Rigurosamente, P(B|An ) est
a definida cuando P(An ) > 0, por lo cual en la f
ormula (4) interpretaremos
que P(B|An )P(An ) = 0 cuando P(An ) = 0.
P(B|A)
P(B c |A)
Bc
AB
P(A)
A Bc
P(B|Ac )
P(B c |Ac )
Bc
Ac B
P(A )
Ac
Ac B c
Figura 2: Ilustraci
on de la f
ormula de probabilidad total. Un experimento de dos
etapas binarias y su correspondiente diagrama de a
rbol. La primera ramificacion (de izquierda
a derecha) se basa en el resultado de la primer etapa del experimento (A o Ac ) y la segunda
en su resultado final (B o B c ). Multiplicando las probabilidades registradas a lo largo de
cada trayectoria se obtiene la probabilidad del evento interseccion representado por el nodo
final. Sumando las probabilidades de las trayectorias que corresponden al evento B se obtiene:
P(B) = P(A B) + P(Ac B) = P(B|A)P(A) + P(B|Ac )P(Ac ).
Demostraci
on de la f
ormula de probabilidad total. De la identidad de conjuntos
[
[
B =B=B
An =
(B An )
n1
n1
n=1
P(B An ).
1/3
4/14
1 , 4/42
10/14
2 , 10/42
5/14
2/3
3 , 10/42
9/14
4 , 18/42
Figura 3: Observando el
arbol se deduce que la probabilidad de que la segunda bola sea negra
2
9
2
1 10
es: 3 14 + 3 14 = 3 .
Formalmente, el problema se resuelve mediante la formula de probabilidad total. Sean Ni
y Ri los eventos definidos por la i-esima bola extrada es negra y la i-esima bola extrada
es roja, respectivamente (i = 1, 2). Vale que
P(N1 ) =
10
,
15
P(R1 ) =
5
,
15
P(N2 |R1 ) =
10
,
14
P(N2 |N1 ) =
9
.
14
1.3.
Regla de Bayes
Primera versi
on de la regla de Bayes. Sean A y B dos eventos de probabilidad positiva.
De la regla del producto (2) y su an
aloga P(A B) = P(A|B)P(B) se obtiene la siguiente
formula importante
P(A|B) =
P(B|A)P(A)
,
P(B)
(5)
P(Ac ) = 0.995,
P(B|A) = 0.95,
P(B|Ac ) = 0.01,
P(A B)
.
P(B)
P(A B)
P(B|A)P(A)
95
=
=
0.323.
c
c
P(B)
P(B|A)P(A) + P(B|A )P(A )
294
En otras palabras, s
olo el 32 % de aquellas personas cuyo test resulto positivo realmente tienen
la enfermedad.
S
An = .
Teorema 1.9 (Bayes). Sean A1 , A2 , . . . , eventos disjuntos dos a dos y tales que
n1
P(B|An )P(An )
,
k1 P(B|Ak )P(Ak )
P(An |B) = P
n 1.
(6)
Si los eventos A1 , A2 , . . . se llaman hipotesis, la formula (6) se considera como la probabilidad de ocurrencia de la hip
otesis An sabiendo que ocurrio el evento B. En tal caso, P(An )
es la probabilidad a priori de la hip
otesis An y la formula (6) para P(An |B) se llama la regla
de Bayes para la probabilidad a posteriori de la hip
otesis An .
7
Nota Bene. Advertimos al lector que no trate de memorizar la formula (6). Matem
aticamente, solo se trata de una forma especial de escribir la formula (5) y de nada m
as.
Ejemplo 1.10 (Canal de comunicaci
on binario). Un canal de comunicaci
on binario simple
transporta mensajes usando solo dos se
nales: 0 y 1. Supongamos que en un canal de comunicaci
on binario dado el 40 % de las veces se transmite un 1; que si se transmiti
o un 0 la
probabilidad de recibirlo correctamente es 0.90; y que si se transmiti
o un 1 la probabilidad
de recibirlo correctamente es 0.95. Queremos determinar
(a) la probabilidad de recibir un 1;
(b) dado que se recibi
o un 1, la probabilidad de que haya sido transmitido un 1;
Soluci
on. Consideramos los eventos A=se transmiti
o un 1 y B=se recibi
o un 1. La
informaci
on dada en el enunciado del problema significa que P(A) = 0.4, P(Ac ) = 0.6,
P(B|A) = 0.95, P(B|Ac ) = 0.1, P(B c |A) = 0.05, P (B c |Ac ) = 0.90 y se puede representar
en la forma de un diagrama de
arbol tal como se indic
o en la secci
on 1.2.
0.95
0.05
Bc
P(A B) = (0.4)(0.95)
0.4
P(A B c ) = (0.4)(0.05)
0.1
0.9
Bc
P(Ac B) = (0.6)(0.1)
0.6
Ac
P(Ac B c ) = (0.6)(0.9)
Figura 4: Observando el
arbol se deduce que la probabilidad de recibir un 1 es P(B) =
(0.4)(0.95) + (0.6)(0.1) = 0.44. Tambien se deduce que la probabilidad de que haya sido
transmitido un 1 dado que se recibi
o un 1 es P(A|B) = P(B|A)P(A)
= (0.4)(0.95)
= 0.863...
0.44
P(B)
Ejercicios adicionales
1. Los dados de Efron. Se trata de cuatro dados A, B, C, D como los que se muestran en
la Figura 5.
8
3
4
2.
Independencia estoc
astica
Definici
on 2.1 (Independencia estocastica). Los eventos A1 , A2 , . . . , An son mutuamente
independientes si satisfacen las siguientes 2n n 1 ecuaciones:
P(Ai1 Ai2 Aim ) = P(Ai1 )P(Ai2 ) P(Aim ),
(7)
(8)
Ejemplo 2.2.
(a) Se extrae un naipe al azar de un mazo de naipes de poker. Por razones de simetra
esperamos que los eventos coraz
on y As sean independientes. En todo caso, sus probabilidades son 1/4 y 1/13, respectivamente y la probabilidad de su realizacion simult
anea es
1/52.
(b) Se arrojan dos dados. Los eventos as en el primer dado y par en el segundo son
independientes pues la probabilidad de su realizacion simult
anea, 3/36 = 1/12, es el producto
de sus probabilidades respectivas: 1/6 y 1/2.
(c) En una permutaci
on aleatoria de las cuatro letras a, b, c, d los eventos a precede a b
y c precede a d son independientes. Esto es intuitivamente claro y facil de verificar.
Nota Bene 2. Para n > 2, los eventos A1 , A2 , . . . , An pueden ser independientes de a pares:
P(Ai Aj ) = P(Ai )P(Aj ), 1 i < j n, pero no ser mutuamente independientes.
Ejemplo 2.3. Sea un conjunto formado por cuatro elementos: 1 , 2 , 3 , 4 ; las correspondientes probabilidades elementales son todas iguales a 1/4. Consideramos tres eventos:
A1 = {1 , 2 },
A2 = {1 , 3 },
A3 = {1 , 4 }.
Es facil ver que los eventos A1 , A2 , A3 son independientes de a pares, pero no son mutuamente
independientes:
P(A1 ) = P(A2 ) = P(A3 ) = 1/2,
P(A1 A2 ) = P(A1 A3 ) = P(A2 A3 ) = 1/4 = (1/2)2 ,
P(A1 A2 A3 ) = 1/4 6= (1/2)3 .
Independencia y probabilidades condicionales. Para introducir el concepto de independencia no utilizamos probabilidades condicionales. Sin embargo, sus aplicaciones dependen
generalmente de las propiedades de ciertas probabilidades condicionales.
Para fijar ideas, supongamos que n = 2 y que las probabilidades de los eventos A1 y A2
son positivas. En tal caso, los eventos A1 y A2 son independientes si y solamente si
P(A2 |A1 ) = P(A2 )
Teorema 2.4. Sean A1 , A2 , . . . An eventos tales que todas las probabilidades P(Ai ) son
positivas. Una condici
on necesaria y suficiente para la mutua independencia de los eventos
A1 , A2 , . . . , An es la satisfacci
on de las ecuaciones
P(Ai |Ai1 Ai2 Aik ) = P(Ai )
(9)
Ejercicios adicionales
2. Se tira una moneda honesta n veces. Sea A el evento que se obtenga al menos una cara y sea
B el evento que se obtengan al menos una cara y al menos una ceca. Analizar la independencia
de los eventos A y B.
3. Andres, Francisco, Jemina e Ignacio fueron amigos en la escuela primaria. Se reencontraron en el curso 23 (PyE 61.09) de la FIUBA y se reunieron de a parejas a charlar. Como
resultado de esas charlas, cada pareja renovo su amistad con probabilidad 1/2 y no lo hizo
con probabilidad 1/2, independientemente de las demas. Posteriormente, Andres recibio un
rumor y lo transmiti
o a todas sus amistades. Suponiendo que cada uno de los que reciba
un rumor lo transmitir
a a todas sus amistades, cu
al es la probabilidad de que Ignacio haya
recibido el rumor transmitido por Andres?.
3.
Modelos discretos
2. Para cada evento A A definimos P(A) como la suma de las probabilidades de los
eventos elementales contenidos en A:
X
P(A) :=
p().
(10)
A
11
X
[
P(An ).
An =
P
n=1
n=1
Nota Bene 2. No se excluye la posibilidad de que un punto tenga probabilidad cero. Esta
convencion parece artificial pero es necesaria para evitar complicaciones. En espacios discretos
probabilidad cero se interpreta como imposibilidad y cualquier punto muestral del que se sabe
que tiene probabilidad cero puede suprimirse impunemente del espacio muestral. Sin embargo,
frecuentemente los valores numericos de las probabilidades no se conocen de antemano, y se
requieren complicadas consideraciones para decidir si un determinado punto muestral tiene o
no probabilidad positiva.
Distribuci
on geom
etrica
Ejemplo 3.2 (Probabilidad geometrica). Sea p un n
umero real tal que 0 < p < 1. Observando
que
X
1
(1 p)n1 = ,
p
n=1
p(n) := (1 p)n1 p,
n = 1, 2, . . .
P(T H) = qp;
P(T T H) = qqp;
P(T T T H) = qqqp.
Puede verse que para cada n N la secuencia formada por n 1 letras T seguida de la letra
H debe tener probabilidad q n1 p = (1 p)n1 p.
El argumento anterior sugiere la siguiente asignaci
on de probabilidades sobre : para cada
n N, p(n), la probabilidad de que la primera vez que se obtiene cara ocurra en el n-esimo
lanzamiento de la moneda esta dada por
p(n) = (1 p)n1 p.
Como las probabilidades geometricas suman 1 (ver el ejemplo 3.2) al resultado ceca en todos
los tiros se le debe asignar probabilidad p() = 0. Como el espacio muestral es discreto no
hay problema en suprimir el punto .
Consideremos el evento A = se necesitan una cantidad par de tiros para obtener la primer
cara. Entonces,
A = {2, 4, 6, 8, . . . },
y
P(A) =
p() =
X
k=1
p(2k) =
2k1
p = pq
k=1
q
1p
pq
=
=
.
(1 q)(1 + q)
1+q
2p
2k
= pq
k=0
1
1 q2
Ejemplo 3.4. Lucas y Monk juegan a la moneda. Lanzan una moneda equilibrada al aire,
si sale cara, Lucas le gana un peso a Monk; si sale ceca, Monk le gana un peso a Lucas. El
juego termina cuando alguno gana dos veces seguidas.
El espacio muestral asociado a este experimento aleatorio es
= {HH, T T, HT T, T HH, HT HH, T HT T, . . . }.
Como podemos tener secuencias de cualquier longitud de caras y cecas alternadas, el espacio
muestral es necesariamente infinito.
El evento A1 =la moneda fue lanzada como m
aximo tres veces esta dado por todos los
elementos de que tienen longitud menor o igual que tres:
A1 = {HH, T T, HT T, T HH}
y su probabilidad es
P(A1 ) = P(HH) + P(T T ) + P(HT T ) + P(T HH) =
13
1 1 1 1
3
+ + + = .
4 4 8 8
4
El evento A2 =ceca en el primer lanzamiento esta dado por todos los elementos de que
comienzan con T :
A2 = {T T, T HH, T HT T, T HT HH, . . . },
y su probabilidad es
P(A2 ) = P(T T ) + P(T HH) + P(T HT T ) + P(T HT HH) +
1
1
1
1
1
=
+ 3 + 4 + 5 + = .
2
2
2
2
2
2
Cual es la probabilidad de que el juego termine alguna vez? Si definimos los eventos An :=el
juego termina en la n-esima jugada, n 2, tendremos que el evento el juego termina alguna
vez es la uni
on disjunta de los eventos A1 , A2 , . . . , y por lo tanto su probabilidad es la suma
de las probabilidades de los eventos An . Para cada n 2 la probabilidad de An es
P(An ) =
2
1
= n1
n
2
2
n2
1
2n1
X 1
= 1.
2n
n1
Distribuci
on de Poisson
Ejemplo 3.5 (Probabilidad de Poisson). Sea un n
umero real positivo. Observando que
e =
X
n
n=0
n!
n
,
n!
n = 0, 1, 2, . . .
4.
4.1.
Modelos continuos
Puntos al azar sobre un segmento. La distribuci
on uniforme
Elegir un punto al azar dentro de un segmento de recta de longitud finita es un experimento conceptual intuitivamente claro. Desde el punto de vista te
orico el experimento debe
describirse mediante un espacio de probabilidad (, A, P).
No se pierde generalidad, si se supone que la longitud del segmento es la unidad y se lo
identifica con el intervalo = [0, 1]. La -
algebra de eventos A y la medida de probabilidad
P : A R se construyen por etapas.
14
1. Definimos A0 como la familia de los intervalos contenidos en de la forma [a, b], [a, b),
(a, b] o (a, b), a b (notar que A0 no es un algebra) y definimos P0 : A0 R de la
siguiente manera:
P0 (A) := longitud(A) = b a, si los extremos del intervalo A son a y b.
2. La familia A1 de todas las uniones finitas de conjuntos disjuntos de A0 es un algebra
de eventos y la funcion P1 : A1 R definida por
P1 (A) :=
k
X
P0 (Ai ), si A =
k
[
Ai ,
i=1
i=1
4.2.
Geometra y probabilidad
Una construcci
on completamente an
aloga a la de la secci
on anterior permite describir
te
oricamente el experimento conceptual, intuitivamente claro, que consiste en elegir un punto
al azar dentro de una regi
on plana, R2 , de a
rea finita y no nula. Para fijar ideas, se puede
imaginar que la regi
on plana es un blanco sobre el que se arroja un dardo.
Ejemplo 4.1 (Dardos). El juego de dardos consiste en tirar un dardo contra un blanco
circular. Supongamos que disparamos un dardo (que acertamos al blanco) y observamos donde
se clavo. Naturalmente, los resultados posibles de este experimento son todos los puntos del
blanco. No se pierde generalidad si se supone que el centro del blanco es el origen de R2 y
que su radio es 1. En tal caso el espacio muestral de este experimento es
= {(x, y) R2 : x2 + y 2 1}.
Intuitivamente, la probabilidad de acertarle a un punto predeterminado (arbitrario) debera
ser cero. Sin embargo, la probabilidad de que el dardo se clave en cualquier subconjunto
(gordo) A del blanco debera ser proporcional a su area y determinarse por la fraccion del
area del blanco contenida en A. En consecuencia, definimos
P(A) :=
rea de A
a
area de A
=
.
area del blanco
15
area(A)
.
area()
(11)
0000000000000000
0000000000000000000000000000000
1111111111111111111111111111111
1111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
000000000000000000000000000000010
L1111111111111111111111111111111
0000000000000000000000000000000
21111111111111111111111111111111
1010
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
1010
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
1010
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
00000000000000000000000000000001010
1111111111111111111111111111111
L
2
Figura 6: La regi
on sombreada corresponde al evento A=la longitud del segmento limitado
por los puntos x1 y x2 resulte menor que L/2.
El espacio muestral de este experimento es un cuadrado de lado L que puede representarse
en la forma = {(x1 , x2 ) : 0 x1 L, 0 x1 L}.
El evento A=la longitud del segmento limitado por los puntos x1 y x2 resulte menor que
L/2 puede ocurrir de dos maneras distintas:
(1) si x1 x2 , se debe cumplir la desigualdad x2 x1 < L/2;
(2) si x2 < x1 , debe cumplirse la desigualdad x1 x2 < L/2.
16
Observando la Figura 6 esta claro que el area del evento A se obtiene restando al area del
cuadrado de lado L el
area del cuadrado de lado L/2:
area de A = L2
L2
3
= L2 .
4
4
Como el area total del espacio muestral es L2 , resulta que P(A) = 3/4.
Ejemplo 4.3 (Las agujas de Buffon). Una aguja de longitud 2l se arroja sobre un plano
dividido por rectas paralelas. La distancia entre rectas es 2a. Suponiendo que l < a, cu
al es
la probabilidad de que la aguja intersecte alguna de las rectas?
Localizamos la aguja mediante la distancia de su centro a la recta m
as cercana y el
angulo agudo entre la recta y la aguja: 0 a y 0 /2. El rectangulo determinado
por esas desigualdades es el espacio muestral . El evento A = la aguja interesecta la recta
ocurre si l sen . La probabilidad de A es el cociente del area de la figura determinada
por las tres desigualdades 0 a, 0 /2 y l sen y el area del rectangulo a/2.
R /2
El area de la figura es 0 l sen()d = l. Por lo tanto, la probabilidad de interseccion es
2l
.
(12)
a
La formula (12) indica un metodo aleatorio para estimar : arrojar la aguja n veces sobre el
plano y contar n(A) la cantidad de veces que la aguja interesect
o alguna recta:
P(A) =
= 2(l/a)(n/n(A)).
4.3.
Paradoja de Bertrand
area(A)
area(A)
=
.
area()
1
() 3 longitud(0) .
2
Por lo tanto,
3
/4
= .
P1 (() 3) =
4
17
longitud(A)
longitud(A)
=
.
longitud())
2
3) =
2/3
1
= .
2
3
() 3 [1/2, 1].
Por lo tanto, la tercer respuesta es 1/2.
Nota Bene. Obtuvimos 3 respuestas diferentes: 1/4, 1/3 y 1/2. Sin embargo, no hay porque
sorprenderse debido a que los modelos probabilsticos correspondientes a cada respuesta son
diferentes. Cual de los tres es el bueno es otro problema. El modelo correcto depende
del mecanismo usado para dibujar la cuerda al azar. Los tres mecanismos anteriores son
puramente intelectuales, y muy probablemente, no corresponden a ning
un mecanismo fsico.
Para discriminar entre modelos probabilsticos en competencia se debe recurrir al an
alisis
estadstico que esencialmente se basa en dos resultados de la Teora de Probabilidad: la ley
fuerte de los grandes n
umeros y el teorema central del lmite.
4.4.
p(xi ) = 1
i=1
y para cada A Rn definimos P(A) como la suma de las masas puntuales, p(xi ), de los
puntos xi contenidos en A:
X
P(A) :=
p(xi ).
xi A
18
Nota Bene.
El metodo de las masas puntuales
puede generalizarse de la siguiente forma:
R
P
la suma xi se reemplaza por la integral dx y las masas puntuales p(xi ) por una funcion
(x) denominada densidad de probabilidades. Esta metodologa es de uso com
un en mecanica:
primero se consideran sistemas con masas puntuales discretas donde cada punto tiene masa
finita y despues se pasa a la noci
on de distribucion de masa continua, donde cada punto tiene
masa cero. En el primer caso, la masa total del sistema se obtiene simplemente sumando
las masas de los puntos individuales; en el segundo caso, las masas se calculan mediante
integracion sobre densidades de masa. Salvo por las herramientas tecnicas requeridas, no hay
diferencias esenciales entre ambos casos.
Definici
on 4.4. Una densidad de probabilidades sobre Rn es una funcion (m
as o menos
razonable) no negativa : Rn R+ tal que
Z
(x) dx = 1.
Rn
= 2.
Nota Bene.
2
ex /2 dx = 2.
R
1
2
(x) = ex /2
2
(13)
5.
Bibliografa consultada
Para redactar estas notas se consultaron los siguientes libros:
1. Bertsekas, D. P., Tsitsiklis, J. N.: Introduction to Probability. M.I.T. Lecture Notes.
(2000)
2. Bremaud, P.: An Introduction to Probabilistic Modeling. Springer, New York. (1997)
3. Durrett, R. Elementary Probability for Applications. Cambridge University Press, New
York. (2009)
4. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. John
Wiley & Sons, New York. (1957)
5. Grinstead, C. M. & Snell, J. L. Introduction to Probability. American Mathematical
Society. (1997)
6. Meester, R.: A Natural Introduction to Probability Theory. Birkhauser, Berlin. (2008)
7. Meyer, P. L.: Introductory Probability and Statistical Applications. Addison-Wesley,
Massachusetts. (1972)
8. Ross, S. M: Introduction to Probability and Statistics foe Engineers and Scientists.
Elsevier Academic Press, San Diego. (2004)
9. Skorokhod, A. V.: Basic Principles and Applications of Probability Theory. SpringerVerlag, Berlin. (2005)
10. Soong, T. T.: Fundamentals of Probability and Statistics for Engineers. John Wiley &
Sons Ltd. (2004)
20
... el u
nico heroe v
alido es el heroe en grupo,
nunca el heroe individual, el heroe solo.
(Hector G. Oesterheld)
Indice
1. Variables aleatorias
1.1. Propiedades de la funcion de distribucion . . .
1.2. Clasificaci
on de variables aleatorias . . . . . . .
1.3. Cuantiles . . . . . . . . . . . . . . . . . . . . .
1.4. Construccion de variables aleatorias . . . . . .
1.5. Funcion de distribucion emprica e histogramas
.
.
.
.
.
3
6
7
11
13
17
2. Variables truncadas
2.1. Perdida de memoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2. Caracterizacion cualitativa de la distribucion exponencial . . . . . . . . . . .
2.3. Dividir y conquistar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
22
23
23
3. Bibliografa consultada
24
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1.
Variables aleatorias
(1)
Ejemplos
Ejemplo 1.1 (Dado equilibrado). Sea X el resultado del lanzamiento de un dado equilibrado.
Los posibles valores de X son 1, 2, 3, 4, 5, 6. Para cada k {1, 2, 3, 4, 5, 6} la probabilidad de
que X tome el valor k es 1/6.
Sea x R. Si x < 1 es evidente que P(X x) = 0. Si k x < k + 1 para alg
un
k {1, 2, 3, 4, 5} la probabilidad del evento {X x} es la probabilidad de observar un valor
menor o igual que k y en consecuencia, P(X x) = k/6. Finalmente, si x 6 es evidente
que P(X x) = 1.
1
5/6
4/6
3/6
2/6
1/6
Figura 1: Gr
afico de la funcion de distribucion del resultado de lanzar un dado equilibrado.
Por lo tanto, la funcion de distribucion de X se puede expresar del siguiente modo
FX (x) =
6
X
1
k=1
1{k x}.
1
Basta observar que {X a} {X b} y usar las propiedades de la probabilidad. De la igualdad
{a < X b} = {X b} \ {X a} se deduce que P(a < X b) = P(X b) P(X a) = FX (b) FX (a).
(2)
(3)
(4)
(5)
Sustituyendo las expresiones (3)-(5) en la formula (2) obtenemos, despues de dividir ambos
miembros por dt, una ecuaci
on diferencial de primer orden para FT (t)
FT (t) = (t)(1 FT (t)).
(6)
FT (t)
d
= (t)
log(1 FT (t)) = (t)
1 FT (t)
dt
Z
Z t
log(1 FT (t)) =
(s)ds + C FT (t) = 1 exp
0
t
0
(s)ds + C .
Nota Bene. El desarrollo anterior presupone que la funcion Rintensidad de fallas (t) verifica
las siguientes condiciones: (1) (t) 0 para todo t > 0 y (2) 0 (t)dt = +.
t
exp 0 0 (t)dt
t0
Figura 2: Gr
afico de la funcion de distribucion de la variable aleatoria S.
Por lo tanto,
Z
FS (s) = exp
t0 s
Ejercicios adicionales
1. Sea X una variable aleatoria con funcion de distribucion FX (x). Mostrar que para cada
pareja de n
umeros reales a < b vale que:
P(a X b) = FX (b) FX (a) + P(X = a)
(8)
(9)
(10)
Notar que las formulas (8)-(10), junto con (1), muestran como calcular la probabilidad de
que la variable aleatoria X tome valores en un intervalo de extremos a y b y contienen una
advertencia sobre la acumulacion de masa positiva en alguno de los dos extremos.
1.1.
Propiedades de la funci
on de distribuci
on
(F3)
lm FX (x) = 0 y lm FX (x) = 1.
x
Demostraci
on.
La propiedad (F1) se deduce de la formula (1).
La propiedad (F2) es consecuencia del axioma de continuidad de la medida de probabilidad
P. Se considera una sucesion decreciente de n
umeros positivos que converge a 0, 1 > 2 >
. . . > 0, arbitraria,Tpero fija y se definen eventos An = {x0 < X x0 + n }. Se observa que
An = :
A1 A2 y
nN
0 =
Por lo tanto,
F (x0 ) = lm F (x0 + n ).
n
entonces FX (x
0 ) = P(X < x0 ). Por lo tanto, P(X = x0 ) = FX (x0 ) FX (x0 ). En particular,
si FX (x) es continua en x0 , entonces P(X = x0 ) = 0. Si P(X = x0 ) > 0, entonces FX (x) es
discontinua en x0 y su discontinuidad es un salto de altura P(X = x0 ) > 0.
Ejercicios adicionales
2. Sea (, A, P) un espacio de probabilidad y X : R una variable aleatoria con funcion
de distribucion FX (x).
(a) Mostrar que
lm FX (x) = 0
lm FX (x) = 1.
xx0
1.2.
Clasificaci
on de variables aleatorias
En todo lo que sigue, X designa una variable aleatoria definida sobre un espacio de
probabilidad (, A, P) y FX (x) := P(X x) su funcion de distribucion.
Nota Bene. Al observar el gr
afico de una funcion de distribucion lo primero que llama la
atencion son sus saltos y sus escalones.
Atomos.
Diremos que a R es un a
tomo de FX (x) si su peso es positivo: P(X = a) =
FX (a) FX (a) > 0.
El conjunto de todos los
atomos de FX (x): A = {a R : FX (a) FX (a) > 0}, coincide
con el conjunto de todos los puntos de discontinuidad de FX (x). El peso de cada atomo
coincide con la longitud del salto dado por la funcion de distribucion en dicho atomo. En
consecuencia, existen a lo sumo un atomo de probabilidad > 12 , a lo sumo dos atomos de
probabilidad > 31 , etcetera. Por lo tanto, es posible reordenar los atomos en una sucesion
a1 , a2 , . . . tal que P(X = a1 ) P(X = a2 ) . En otras palabras, existen a lo sumo
numerables a
tomos.
La propiedad de -aditividad de la medida
P de probabilidad P implica que el peso total
del conjunto A no puede exceder la unidad: aA P(X = a) 1.
Definici
on 1.6 (Variables discretas). Diremos que X es una variable aleatoria discreta si
X
P(X = a) = 1.
aA
Definici
on 1.7 (Variables continuas). Diremos que X es una variable aleatoria continua si
su funcion de distribucion es continua.
Definici
on 1.8 (Variables mixtas). Diremos que X es una variable aleatoria mixta si no es
continua ni discreta.
Definici
on 1.9 (Variables absolutamente continuas). Diremos que X es absolutamente continua si existe una funcion (medible) fX : R R+ , llamada densidad de X, tal que cualesquiera sean a < b < vale que
Z b
fX (x) dx.
(11)
P(a < X b) =
a
fX (t) dt.
(12)
Aplicando en (12) el teorema Fundamental del Calculo Integral, se obtiene que si X es absolutamente continua, FX (x) es una funcion continua para todo x, y su derivada es fX (x) en
todos los x donde fX es continua.
Como la expresi
on absolutamente continua es demasiado larga, se suele hablar simplemente de distribuciones continuas. Sin embargo, hay que tener en cuenta que el hecho de
que FX sea una funci
on continua, no implica que la distribucion de X sea absolutamente continua: hay funciones monotonas y continuas, que sin embargo no son la primitiva de ninguna
funcion. (Para m
as detalles consultar el ejemplo sobre distribuciones tipo Cantor que esta en
Feller Vol II, p.35-36).
Interpretaci
on intuitiva de la densidad de probabilidad. Sea X una variable aleatoria
absolutamente continua con funcion densidad fX (x) continua. Para cada > 0 peque
no y
para x R vale que
Z x+/2
fX (t) dt fX (x).
P (x /2 < X x + /2) =
x/2
Ejemplos
Ejemplo 1.10. El resultado, X, del lanzamiento de un dado equilibrado (ver Ejemplo 1.1) es
una variable aleatoria discreta. Esto resulta evidente de observar que el gr
afico de la funcion
de distribucion de X (ver Figura 1) que tiene la forma de una escalera con saltos de altura
1/6 en los puntos 1, 2, 3, 4, 5, 6. Dicho en otras palabras, toda la masa de la variable aleatoria
X esta concentrada en el conjunto de los atomos de FX , A = {1, 2, 3, 4, 5, 6}.
8
Ejemplo 1.11 (N
umeros al azar). El resultado de sortear un n
umero al azar sobre el
intervalo (0, 1) es una variable aleatoria absolutamente continua. La probabilidad del evento
U u es igual a la longitud del intervalo (, u] (0, 1).
Notar que cuando u 0 el intervalo (, u] (0, 1) se reduce al conjunto vaco que por
definicion tiene longitud 0. Por otra parte, para cualquier u (0, 1) se tiene que (, u]
(0, 1) = (0, u) y en consecuencia P(U u) = u; mientras que si u 1, (, u] (0, 1) = (0, 1)
de donde sigue que P(U u) = 1. Por lo tanto, la funcion de distribucion de U es
FU (u) = u1{0 u < 1} + 1{u 1}.
1
0
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
11
00
Figura 3: Gr
afico de la funcion de distribucion del resultado de sortear un n
umero al azar.
Derivando, respecto de u, la funcion de distribucion FU (u) se obtiene una funcion densidad
para U :
fU (u) = 1{0 < u < 1}.
1
1{x (a, b)}.
ba
(14)
.
Weibull de par
ametros c y . Se obtiene poniendo (t) = c
c > 0 y > 0. En este caso, la densidad (13) adopta la forma
c
fT (t) =
t c1
1{t
c1
c
t
t
.
exp
0}, donde
(15)
1.6
1.4
1.2
1
0.8
0.6
0.4
0.2
0
0.5
1.5
2.5
3.5
Figura 4: Gr
aficos de las densidades Weibull de par
ametro de escala = 1 y par
ametro de
forma: c = 1, 2, 4: en lnea s
olida c = 1; en lnea quebrada c = 2 y en lnea punteada c = 4.
Notar que la exponencial de intensidad es un caso especial de la Weibull puesto que (14) se
obtiene de (15) poniendo c = 1 y = 1 .
Ejemplo 1.13. La variable aleatoria, S, considerada en el Ejemplo 1.3 es una variable aleatoria mixta (ver
Figura 2) porque
nico atomo en s = 0 y
no es discreta ni continua. Tiene un u
R t0
su peso es exp 0 (x)dx .
10
1.3.
Cuantiles
Definici
on 1.14. Sea (0, 1). Un cuantil- de X es cualquier n
umero x R tal que
P(X < x )
P(X x ).
(16)
Observaci
on 1.15. Notar que las desigualdades que caracterizan a los cuantiles- se pueden
reescribir de la siguiente manera
FX (x ) P(X = x )
FX (x ).
(17)
(18)
Interpretaci
on geom
etrica del cuantil-. Si X es una variable aleatoria absolutamente continua con funcion de densidad fX (x) el cuantil- de X es la u
nica solucion de la
ecuaci
on
Z x
fX (x)dx = .
).
lm FX (xn ) = FX lm xn = FX (nf RX
n
RX
= [nf RX
, +) = [mn RX
, +) .
) = o (b) F (m
) > .
Hay dos casos posibles: (a) FX (mn RX
n RX
X
) = , entonces P(X < m
) = P(X = m
) .
(a) Si FX (mn RX
n RX
n RX
11
) > , entonces
(b) Si FX (mn RX
x < mn RX
(19)
porque sino existe un x < mn Rx tal que P(X < x) FX (x) y por lo tanto,
lo que constituye un absurdo.
x RX
)=
De (19) se deduce que P(X < mn RX
lm
xmn RX
FX (x) .
(20)
es un cuantil-.
Nota Bene. Si FX es discontinua, (18) no tiene siempre solucion; y por eso es mejor tomar
(16) como definicion. Si FX es estrictamente creciente, los cuantiles son u
nicos. Pero si no,
los valores que satisfacen (18) forman un intervalo.
Cuartiles y mediana. Los cuantiles correspondientes a = 0.25, 0.50 y 0.75 son respectivamente el primer, el segundo y tercer cuartil. El segundo cuartil es la mediana.
Ejemplos
Ejemplo 1.16. En el Ejemplo 1.1 hemos visto que la funcion de distribucion del resultado
del lanzamiento de un dado equilibrado es una escalera con saltos de altura 1/6 en los puntos
1, 2, 3, 4, 5, 6:
5
X
i
1 {i x < i + 1} + 1{6 x}.
FX (x) =
6
i=1
Como la imagen de FX es el conjunto {0, 1/6, 2/6, 3/6, 4/6, 5/6, 1} la ecuaci
on (18) solo tiene
solucion para {1/6, 2/6, 3/6, 4/6, 5/6}. M
as a
un, para cada i = 1, . . . , 5
i
x [i, i + 1).
6
En otras palabras, para cada i = 1, . . . , 5 los cuantiles-i/6 de X son el intervalo [i, i + 1). En
particular, la mediana de
X es cualquier punto del intervalo [3, 4).
i
,
Para cada i1
6
6 , i = 1, . . . , 6, el cuantil de X es x = i.
FX (x) =
Ejemplo 1.17. Sea T el tiempo de funcionamiento hasta la aparicion de la primera falla para
un sistema con funcion intensidad de fallas (t) = 2t1{t 0} (ver Ejemplo 1.2). La funcion
de distribucion de T es
Z t
2sds
1{t > 0} = 1 exp t2 1{t > 0}.
(21)
FT (t) = 1 exp
0
Como FT (t) es continua los cuantiles-, (0, 1), se obtienen resolviendo la ecuaci
on (18):
p
FT (t) = 1 exp t2 = t = log(1 ).
Por lo tanto, para cada (0, 1) el cuantil- de T es
p
t = log(1 ).
p
En particular, la mediana de T es t0.5 = log(1 0.5) 0.8325.
12
(22)
Ejemplo 1.18. Se considera un sistema con funcion intensidad de fallas (t) = 2t1{t 0}.
El sistema debe prestar servicios durante 1 hora. Si durante ese perodo el sistema falla, se lo
repara y se lo vuelve a utiliza hasta que cumpla con el el plazo estipulado. Sea S el tiempo
de funcionamiento (medido en horas) del sistema despues de la primera reparacion.
En el Ejemplo 1.3 vimos que la funcion de distribucion de S es
Z 1s
2tdt 1{0 s < 1} + 1{s 1}
FS (s) = exp
0
= exp (1 s)2 1{0 s < 1} + 1{s 1},
1.4.
Construcci
on de variables aleatorias
Teorema 1.19 (Simulacion). Sea F : R [0, 1] una funcion con las siguientes propiedades
(F1) es no decreciente: si x1 x2 , entonces F (x1 ) F (x2 );
(F2) es continua a derecha: para todo x0 R vale que lm F (x) = F (x0 );
xx0
(F3)
lm F (x) = 0 y lm F (x) = 1.
x
u (0, 1).
2o ) Definir X mediante
X := F 1 (U ),
1p
Figura 5: Gr
afico de la funcion F (x) = (1 p)1{0 x < 1} + 1{x 1}.
La demostraci
on del Teorema 1.19 indica que para construir la variable aleatoria X lo
primero que hay que hacer es determinar la expresi
on de la inversa generalizada de F (x).
Para ello usaremos el metodo gr
afico.
En la Figura 5 se puede ver que para cada 0 < u 1 p el conjunto {x R : u F (x)}
es la semi-recta [0, ) y el punto que la cierra por izquierda es x = 0. En consecuencia
F 1 (u) = 0 para todo 0 < u 1 p. Del mismo modo se puede ver que F 1 (u) = 1 para
todo 1 p < u < 1. Por lo tanto, F 1 (u) = 1{1 p < u < 1}.
Definiendo X := 1{1 p < U < 1}, donde U U(0, 1) se obtiene la variable aleatoria
deseada.
Ejemplo 1.22 (Moneda cargada). Simular diez lanzamientos de una moneda cargada con
probabilidad 0.6 de salir cara en cada lanzamiento.
De acuerdo con el resultado obtenido en el Ejemplo 1.21, para simular el lanzamiento
de una moneda cargada con probabilidad 0.6 de salir cara se construye la variable aleatoria
X := 1{0.4 < U < 1}, donde U U(0, 1).
14
La ventaja de la construcci
on es que puede implementarse casi de inmediato en una computadora. Por ejemplo, una rutina en Octave para simular T es la siguiente
U=rand;
T=sqrt(-log(1-rand))
Sobre la base de esa rutina podemos simular valores de T . Por ejemplo, en diez simulaciones
de T obtuvimos los valores siguientes: 0.3577, 1.7233, 1.1623, 0.3988, 1.4417, 0.3052, 1.1532,
0.3875, 0.8493, 0.9888.
t
0
Figura 6: Simulacion de los tiempos de ocurrencia de las fallas de un sistema electronico con
funcion intensidad de fallas de la forma (t) = 2t1{t 0}. Las fallas ocurren los instantes
0.3577, 2.0811, 3.2434, 3.6422, 5.0839, 5.3892, 6.5423, 6.9298, 7.7791, 8.7679.
La rutina puede utilizarse para simular cien mil realizaciones del experimento que consiste
en observar la cantidad de fallas durante la primer unidad de tiempo
de funcionamiento
P
del sistema electr
onico bajo consideraci
on: N [0, 1] := mn {n 1 : ni=1 Ti > 1} 1, donde
T1 , T2 , . . . son realizaciones independientes de los tiempos de funcionamiento del sistema hasta
la ocurrencia de una falla.
Por ejemplo, repitiendo la simulacion 100000 veces obtuvimos la siguiente tabla que contiene la cantidad de veces que fue simulado cada valor de la variable N [0, 1]:
valor simulado
0
1
2
3
4
frecuencia
36995 51792 10438 743 32
15
(25)
). La funcion
X
1
F (x) =
1{x rn },
2n
(26)
n=1
16
1.5.
Funci
on de distribuci
on emprica e histogramas
Distribuci
on emprica
La funci
on de distribuci
on emprica Fn (x) de n puntos sobre la recta x1 , . . . , xn es la
funcion escalera con saltos de altura 1/n en los puntos x1 , . . . , xn . En otras palabras, nFn (x)
es igual a la cantidad de puntos xk en (, x] y Fn (x) es una funcion de distribucion:
n
1
1X
Fn (x) = |{i = 1, . . . , n : xi x}| =
1{xi x}.
n
n
(27)
i=1
Nota Bene. En la practica, disponemos de conjuntos de observaciones (muestras) correspondientes a un experimento considerado aleatorio y queremos extraer de ellas conclusiones
sobre los modelos que podran cumplir. Dada una muestra x1 , . . . , xn , la funcion de distribuci
on emprica Fn (x) coincide con la funcion de distribucion de una variable aleatoria discreta
que concentra toda la masa en los valores x1 , . . . , xn , dando a cada uno probabilidad 1/n.
Observaci
on 1.25. Sea Fn (x) la funcion de distribucion emprica correspondiente a una
muestra de n valores x1 , . . . , xn . Sean a y b dos n
umeros reales tales que a < b. Notar que
n
Fn (b) Fn (a) =
1X
1
1{xi (a, b]} = |{i = 1, . . . , n : xi (a, b]}|.
n
n
i=1
=
.
ba
ba
ba
(29)
Cuando X es una variable aleatoria absolutamente continua con funcion densidad continua
fX (x) la aproximacion (28) adopta la forma
1
Fn (b) Fn (a)
ba
ba
fX (x)dx = fX (x),
a
donde x es alg
un punto perteneciente al intervalo (a, b).
17
(30)
Histogramas
Un histograma de una muestra x1 , . . . , xn se obtiene eligiendo una particion en m intervalos
de extremos a0 < < am , con longitudes Lj = aj aj1 ; calculando las frecuencias relativas
n
pj =
1X
1{aj1 < xi < aj }
n
i=1
m
X
pj
1{x (aj1 , aj ]}.
Lj
(31)
j=1
Ejercicios adicionales
4. Lucas filma vdeos de tama
nos aleatorios. En una muestra aleatoria de 5 vdeos filmados
por Lucas se obtuvieron los siguiente tama
nos (en MB):
17, 21.3, 18.7, 21, 18.7
Hallar y graficar la funcion de distribucion emprica asociada a esta muestra. Estimar, usando
la funcion de distribucion emprica asociada a esta muestra, la probabilidad de que un vdeo
ocupe menos de 19.5 MB.
5. Los siguientes datos corresponden a los tiempos de funcionamiento (en a
nos) hasta que
ocurre la primer falla de una muestra de 12 m
aquinas industriales:
2.0087, 1.9067, 2.0195, 1.9242, 1.8885, 1.8098,
1.9611, 2.0404, 2.1133, 2.0844, 2.1695, 1.9695.
Usando los intervalos con extremos 1.7, 1.9, 2.1, 2.3, hallar la funcion histograma basada en
la muestra observada e integrarla para estimar la probabilidad de que una m
aquina industrial
del mismo tipo funcione sin fallas durante menos de dos a
nos.
Ejemplo 1.26. Sea T una variable aleatoria con distribucion exponencial de intensidad 1
(ver (14)). Esto es, T es una variable aleatoria absolutamente continua con funcion densidad
de probabilidad
fT (t) = et 1{t > 0}
y funcion de distribucion
FT (t) = 1 et 1{t 0}.
18
(32)
La funcion de distribucion emprica de la muestra observada, F10 (t), es una funcion escalera
con saltos de altura 1/10 en los siguientes puntos del eje t:
0.0613, 0.1515, 0.2535, 0.2957, 0.3390, 0.3797, 0.5682, 0.8946, 1.9753, 2.1703.
Para construir un histograma usaremos la particion que se obtiene dividiendo en dos
intervalos de igual longitud el intervalo comprendido entre los valores mnimos y m
aximos
observados: 0.0613, 1.1158, 2.1703. La longitud L de cada intervalo es 1.0545. La frecuencia
relativa de la muestra sobre el primer intervalo es p1 = 8/10 y sobre el segundo p2 = 2/10 y
la correspondiente altura de cada rectangulo es p1 /L = 0.75865 y p2 /L = 0.18966.
1
1
Emprica
Terica
0.9
0.8
0.8
0.7
0.7
0.6
0.6
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
Hitograma
Densidad
0.9
(a)
(b)
Figura 7: (a) Gr
aficos de la funcion de distribucion emprica F10 (t) correspondiente a la
muestra dada en (32) y de la funcion de distribucion de T . (b) Histograma correspondiente a
la misma muestra y gr
afico de la densidad de T .
19
0.9
0.9
0.8
0.8
0.7
0.7
0.6
0.6
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0
0.1
Emprica
Terica
0
Hitograma
Densidad
(a)
(b)
Figura 8: (a) Gr
aficos de la funcion de distribucion emprica F100 (t) correspondiente a una
muestra de tama
no 100 de una variable T con distribucion exponencial de intensidad 1 y de
la funcion de distribucion de T . (b) Histograma correspondiente a la misma muestra y gr
afico
de la densidad de T .
20
2.
Variables truncadas
Sea X una variable aleatoria definida sobre un espacio de probabilidad (, A, P). Sea
B R un conjunto tal que X 1 (B) = { : X() B} A y tal que P(X B) > 0.
Truncar la variable aleatoria X al conjunto B significa condicionarla a tomar valores en
el conjunto B.
Mediante X|X B designaremos la variable aleatoria obtenida por truncar X al conjunto
B. Por definicion, la funcion de distribucion de X|X B es
FX|XB (x) = P(X x| X B) =
P(X x, X B)
.
P(X B)
(33)
fX (x)
1{x B}.
P(X B)
(35)
Nota Bene. La densidad condicional fX|XB (x) es cero fuera del conjunto condicionante
B. Dentro del conjunto condicionante la densidad condicional tiene exactamente la misma
forma que la densidad incondicional, salvo que esta escalada por el factor de normalizacion
1/P(X B) que asegura que fX|B (x) integra 1.
Ejemplo 2.1 (Exponencial truncada a la derecha). Sea T una variable aleatoria con distribuci
on exponencial de intensidad > 0 y sea t0 > 0. Seg
un la formula (35) la variable aleatoria
T truncada a la semi-recta (t, +), T | T > t0 , tiene la siguiente densidad de probabilidades
fT | T >t0 (t) =
et
1{t > t0 } = e(tt0 ) 1{t t0 > 0} = fT (t t0 ).
et0
P(X = x)
1{x B}.
P(X B)
(36)
Ejemplo 2.2 (Dado equilibrado). Sea X el resultado del tiro de un dado equilibrado y sea
B = {2, 4, 6}. El evento el resultado del tiro es un n
umero par es X B. Aplicando la
formula anterior obtenemos
pX|XB (x) =
1/6
1
1{x {2, 4, 6}} = 1{x {2, 4, 6}}.
1/2
3
21
(37)
2.1.
Perdida de memoria
Ejemplo 2.3. Lucas camina hacia la parada del colectivo. El tiempo, T , entre llegadas
de colectivos tiene distribucion exponencial de intensidad . Supongamos que Lucas llega t
minutos despues de la llegada de un colectivo. Sea X el tiempo que Lucas tendr
a que esperar
hasta que llegue el proximo colectivo. Cual es la distribucion del tiempo de espera X?
Designamos mediante A = {T > t} el evento Lucas lleg
o t minutos despues de la llegada
de un colectivo. Tenemos que
P(X > x|A) = P(T > t + x|T > t) =
=
P(T > t + x)
e(t+x)
=
= ex .
P(T > t)
et
Definici
on 2.4. Se dice que una variable aleatoria T no tiene memoria, o pierde memoria, si
P(T > s + t|T > t) = P(T > s)
para todo
s, t 0.
(38)
La condici
on de perdida de memoria es equivalente a la siguiente
P(T > s + t) = P(T > s)P(T > t).
(39)
En efecto, basta observar que P(T > s + t, T > t) = P(T > s + t) y usar la definicion de
probabilidad condicional.
Nota Bene. Si se piensa que T es el tiempo para completar cierta operacion, la ecuaci
on
(38) establece que si a tiempo t la operacion no ha sido completada, la probabilidad de que
la operacion no se complete a tiempo s + t es la misma que la probabilidad inicial de que la
operacion no haya sido completada a tiempo s.
Lema 2.5. La variable exponencial no tiene memoria.
Demostraci
on Si T Exp(), entonces
P(T > t) = et
para todo t 0.
(40)
2.2.
Caracterizaci
on cualitativa de la distribuci
on exponencial
(41)
La u
nica funcion continua a derecha que satisface la ecuaci
on funcional (41) es
G(t) = G(1)t .
m
m
2
= G
1
n
(42)
+ n1 =
(43)
(44)
(45)
Ahora bien, debido a que G(1) = P(T > 1) (0, 1), existe > 0 tal que G(1) = e
t
( = log G(1)). Reemplazando en (42) se obtiene G(t) = e = et .
2.3.
Dividir y conquistar
Teorema 2.8. Sea X una variable aleatoria absolutamente continua con densidad de probabilidades fX (x). Sea (Bi )i1 una familia de subconjuntos disjuntos dos a dos de la recta real
tales que {X Bi } A y P(X Bi ) > 0 para todo i 1. Si = i1 {X Bi }, entonces
X
(46)
fX (x) =
fX|XBi (x)P(X Bi ).
i1
23
Demostraci
on. Inmediata de la formula (35) y de observar que
i1 1{X
Bi } = 1.
3.
Bibliografa consultada
Para redactar estas notas se consultaron los siguientes libros:
1. Bertsekas, D. P., Tsitsiklis, J. N.: Introduction to Probability. M.I.T. Lecture Notes.
(2000)
2. Chung, K. L.: A Course in Probability Theory. Academic Press, San Diego. (2001)
3. Durrett R.:Probability.Theory and Examples. Duxbury Press, Belmont. (1996)
4. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. John
Wiley & Sons, New York. (1968)
5. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 2. John
Wiley & Sons, New York. (1971)
6. Grimmett, G. R., Stirzaker, D. R.: Probability and Random Processes. Oxford University Press, New York. (2001)
7. Johnson, N. L., Kotz, S., Balakrishnan, N.: Continuous Univariate Distributions. Vol.
1. John Wiley & Sons, New York. (1995)
8. Kolmogorov, A. N.: Foundations of the Theory of Probability. Chelsea Publishing Co.,
New York. (1956)
9. Maronna R.: Probabilidad y Estadstica Elementales para Estudiantes de Ciencias. Editorial Exacta, La Plata. (1995).
24
Indice
1. Vectores aleatorios
1.1. Distribucion conjunta . . . . . . . .
1.2. Distribuciones marginales . . . . . .
1.2.1. Marginales discretas . . . . .
1.2.2. Marginales continuas . . . . .
1.3. Independencia . . . . . . . . . . . . .
1.3.1. Caso bidimensional discreto .
1.3.2. Caso bidimensional continuo
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2. Bibliografa consultada
1.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
2
5
5
6
8
9
11
12
Vectores aleatorios
Notaci
on. Para simplificar la escritura usaremos las siguientes notaciones. Los puntos del
espacio n-dimensional Rn , n 2, se denotan en negrita, x = (x1 , . . . , xn ). La desigualdad
y x significa que yi xi para todo i = 1, . . . , n y se puede interpretar diciendo que y
esta al sudoeste de x. El conjunto de todos los puntos al sudoeste de x sera denotado
mediante Sx := {y Rn : y x}. Finalmente, cualquiera sea el subconjunto de ndices
J = {i1 , . . . , im } {1, . . . , n} denotaremos mediante xJ Rm al punto m-dimensional que
se obtiene de x quitandole todas las coordenadas que tengan ndices fuera de J. Por ejemplo,
si J = {1, 2}, entonces xJ = (x1 , x2 ).
Definici
on 1.1. Un vector aleatorio sobre un espacio de probabilidad (, A, P) es una funcion
X = (X1 , . . . , Xn ) : Rn tal que para todo x Rn
{X Sx } = { : X() x} A.
1.1.
por
Distribuci
on conjunta
(1)
C
alculo de probabilidades. La funcion de distribucion conjunta resume toda la informacion relevante sobre el comportamiento de las variables aleatorias X1 , . . . , Xn . Para fijar
ideas, consideremos el caso m
as simple: n = 2. Si a1 < b1 y a2 < b2 vale que1
P(a1 < X1 b1 , a2 < X2 b2 ) = F (b1 , b2 ) F (a1 , b2 ) F (b1 , a2 ) + F (a1 , a2 ).
(2)
Ver la Figura 1.
111111111111111111111111
000000000000000000000000
+
000000000000000000000000
111111111111111111111111
000000000000000000000000
111111111111111111111111
000000000000000000000000
111111111111111111111111
000000000000000000000000
111111111111111111111111
000000000000000000000000
111111111111111111111111
000000000000000000000000
111111111111111111111111
000000000000000000000000
111111111111111111111111
000000000000000000000000
111111111111111111111111
000000000000000000000000
111111111111111111111111
000000000000000000000000
111111111111111111111111
000000000000000000000000
111111111111111111111111
000000000000000000000000 +
111111111111111111111111
000000000000000000000000
111111111111111111111111
a 1111111111111111111111111111111111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
0000000000000
1111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000
1111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000
1111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000
1111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000
1111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000
1111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000
1111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000
1111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000
1111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000
1111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000
1111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
000000000000000000000000
111111111111111111111111
0000000000000000000000000000000000000000000
1111111111111111111111111111111111111111111
0000000000000
1111111111111
000000000000000000000000a
111111111111111111111111
b
b2
(3)
se llama la funci
on de probabilidad conjunta de X. Su relaci
on con la funcion de distribuci
on conjunta es la siguiente
X
FX (x) =
pX (y).
ySx
C
alculo de probabilidades Dependiendo del caso, la funcion de probabilidad conjunta
pX (x), o la densidad conjunta fX (x), resume toda la informaci
on relevante sobre el comportamiento del vector aleatorio X. M
as precisamente, para todo conjunto A Rn suficientemente regular, vale que
P
en el caso discreto,
xA pX (x)
P(X A) =
R
en el caso continuo.
A fX (x)dx
Ejemplo 1.2. Sea (X, Y ) un vector aleatorio continuo con densidad conjunta fX,Y (x, y). Si
a < b y c < d, entonces
Z bZ d
P(a < X b, c < Y d) =
fX,Y (x, y)dxdy.
(4)
a
1
1{(x, y) },
||
(5)
diremos que (X, Y ) esta uniformemente distribuido sobre y escribiremos (X, Y ) U().
Sea B una sub-regi
on de de area |B|. La probabilidad de que (X, Y ) B se calcula
del siguiente modo
P((X, Y ) B) =
x 1
|B|
dxdy =
.
||
||
(6)
(7)
1 dxdy =
1 1
+ log
2 2
1
1
2
1
1
2x
1 dy dx =
1
1
= (1 log 2) 01534....
2
2
1
2
1
1
1
2x
dx
1.2.
Distribuciones marginales
(8)
Marginales discretas
Caso bidimensional. Sea (X, Y ) un vector aleatorio discreto definido sobre un espacio
de probabilidad (, A, P) con funcion de probabilidad conjunta pX,Y (x, y). Los n
umeros
pX,Y (x, y), (x, y) X() Y () = {(X(), Y ()) : }, se pueden representar en
la forma de una matriz con las siguientes propiedades
X X
pX,Y (x, y) 0,
y
pX,Y (x, y) = 1.
(9)
xX() yY ()
yY ()
xX()
En otras palabras, sumando las probabilidades por filas obtenemos la funcion de probabilidad
marginal de la variable aleatoria X y sumando las probabilidades por columnas obtenemos
la funcion de probabilidad marginal de la variable aleatoria Y . El adjetivo marginal que
reciben las funciones de probabilidad pX (x) y pY (y) refiere a la apariencia externa que adoptan
(10) y (11) en una tabla de doble entrada.
Ejemplo 1.5. En una urna hay 6 bolas rojas, 5 azules y 4 verdes. Se extraen dos. Sean X la
cantidad de bolas
rojas extradas e Y la cantidad de azules.
Existen 15
2 = 105 resultados posibles. La cantidad de resultados con x rojas, y azules y
2 (x + y) verdes es
6
5
4
x y
2 (x + y)
x\y 0
1
2
pX
0
6q 20q 10q 36q
1
24q 30q 0 54q
15q 0
0 15q
2
pY
45q 50q 10q
Figura 2: Distribucion conjunta de (X, Y ). En el margen derecho de la tabla se encuentra la
distribucion marginal de X y en el margen inferior, la marginal de Y .
Caso general. Para cada i = 1, . . . , n, la funcion de probabilidad marginal de Xi , pXi (xi ),
se puede obtener fijando la variable xi y sumando la funcion de probabilidad conjunta pX (x)
respecto de las demas variables
X
pX (x).
pXi (xi ) =
x{i}c
1.2.2.
Marginales continuas
Sea (X, Y ) un vector aleatorio continuo con funcion densidad conjunta fX,Y (x, y).
Las funciones de distribucion marginales de las variables individuales X e Y se obtienen
de la distribucion conjunta haciendo lo siguiente
Z
Z y Z
(12)
(13)
Aplicando en (12) y en (13) el Teorema Fundamental del Calculo Integral se obtiene que
las funciones de distribucion marginales FX (x) y FY (y) son derivables (salvo quizas en un
conjunto despreciable de puntos) y vale que
fX (x) =
fY (y) =
Z
d
f (x, y) dy,
FX (x) =
dx
Z
d
f (x, y) dx.
FY (y) =
dy
(14)
(15)
1 x2
x
1
2 1 x2
1 x2
2 1 x2
fX (x) =
1{x [1, 1]},
Caso general. Para cada i = 1, . . . , n, la densidad marginal de Xi , fXi (xi ), se puede obtener
fijando la variable xi e integrando la densidad conjunta fX (x) respecto de las demas variables
Z
fX (x)dx{i}c .
fXi (xi ) =
Rn1
1.3.
Independencia
i=1
i=1
n
Y
i=1
n
Y
pXi (xi )
en el caso discreto,
fXi (xi )
en el caso continuo.
i=1
Ejemplo 1.10 (N
umeros al azar). Se elige al azar un n
umero U del intervalo [0, 1). Sea U =
0.X1 X2 X3 el desarrollo decimal de U . Mostraremos que los dgitos de U son independientes
entre s y que cada uno de ellos se distribuye uniformemente sobre el conjunto {0, 1, . . . , 9}.
El problema se reduce a mostrar que para cada n 2 las variables aleatorias X1 , X2 , . . . , Xn
son independientes entre s y que para cada k 1 y todo xk {0, 1, . . . , 9}, P(Xk = xk ) =
1/10.
Primero observamos que para cada n 1 y para todo (x1 , . . . , xn ) {0, 1, . . . , 9}n vale
que
" n
!
n
n
\
X xi X
xi
1
{Xi = xi } U
,
+
.
10i
10i 10n
i=1
i=1
i=1
En consecuencia,
P
n
\
i=1
{Xi = xi }
1
.
10n
(17)
Para calcular las marginales de los dgitos observamos que para cada xk {0, 1, . . . , 9} vale
que
" k1
!
#
\
[
{Xi = xi } {Xk = xk } .
{Xk = xk } =
i=1
De acuerdo con (17) cada uno de los 10k1 eventos que aparecen en la uni
on del lado derecho
k
de la igualdad tiene probabilidad 1/10 y como son disjuntos dos a dos obtenemos que
P(Xk = xk ) = 10k1
1
1
= .
k
10
10
(18)
De (17) y (18) se deduce que para todo (x1 , . . . , xn ) {0, 1, . . . , 9}n vale que
!
n
n
Y
\
P
P(Xi = xi ).
{Xi = xi } =
i=1
i=1
Por lo tanto, las variables aleatorias X1 , X2 , . . . , Xn son independientes entre s y cada una
de ellas se distribuye uniformemente sobre el conjunto {0, 1, . . . , 9} .
1.3.1.
Sea (X, Y ) un vector aleatorio discreto con funcion de probabilidad conjunta pX,Y (x, y)
y marginales pX (x) y pY (y). Las variables X, Y son independientes si para cada pareja de
valores x X(), y Y () vale que
pX,Y (x, y) = pX (x) pY (y)
(19)
En otras palabras, la matriz pX,Y (x, y) es la tabla de multiplicar de las marginales pX (x) y
pY (y).
Ejemplo 1.11. Se arrojan dos dados equilibrados y se observan las variables aleatorias X e
Y definidas por X =el resultado del primer dado e Y =el mayor de los dos resultados.
El espacio de muestral asociado al experimento se puede representar en la forma =
{1, 2, . . . , 6}2 , cada punto (i, j) indica que el resultado del primer dado es i y el resultado
del segundo es j. Para reflejar que arrojamos dos dados equilibrados, todos los puntos de
seran equiprobables, i.e., para cada (i, j) se tiene P(i, j) = 1/36. Formalmente las
variables aleatorias X e Y estan definidas por
X(i, j) := i,
Y (i, j) := m
ax{i, j}.
(20)
Distribuci
on conjunta y distribuciones marginales de X e Y . En primer lugar vamos
a representar el espacio muestral en la forma de una matriz para poder observar m
as
claramente los resultados posibles
(1, 1)
(2, 1)
(3, 1)
(4, 1)
(5, 1)
(6, 1)
(1, 2)
(2, 2)
(3, 2)
(4, 2)
(5, 2)
(6, 2)
(1, 3)
(2, 3)
(3, 3)
(4, 3)
(5, 3)
(6, 3)
(1, 4)
(2, 4)
(3, 4)
(4, 4)
(5, 4)
(6, 4)
(1, 5)
(2, 5)
(3, 5)
(4, 5)
(5, 5)
(6, 5)
(1, 6)
(2, 6)
(3, 6)
(4, 6)
(5, 6)
(6, 6)
Figura 4: Resultados posibles del experimento aleatorio que consiste en arrojar dos dados.
Debido a que Y X, tenemos que pX,Y (x, y) = 0 para todo 1 y < x 6. En los otros
casos, i.e., 1 x y 6, para calcular el valor de pX,Y (x, y) hay que contar la cantidad
de elementos de la fila x, de la matriz representada en la Figura 4, que contengan alguna
1
coordenada igual a y. Multiplicando por q = 36
la cantidad encontrada se obtiene pX,Y (x, y).
En la figura 5 representamos la distribucion conjunta pX,Y (x, y) y las distribuciones marginales
pX y pY .
x\y
1
2
3
4
5
6
pY
1 2 3 4 5
6 pX
q q q q q
q
6q
0 2q q q q
q
6q
0 0 3q q q
q
6q
0 0 0 4q q
q
6q
0 0 0 0 5q q
6q
0 0 0 0 0 6q 6q
q 3q 5q 7q 9q 11q
Debido a que no se trata de una tabla de multiplicar las variables X e Y no son independientes.
Lo que, por otra parte, constituye una obviedad.
Criterio para detectar dependencia. Cuando en la tabla de la distribucion conjunta
de dos variables hay un 0 ubicado en la interseccion de una fila y una columna de sumas
positivas, las variables no pueden ser independientes. (Las variables del Ejemplo 1.5 no son
independientes.)
1.3.2.
Sean X e Y variables aleatorias con densidad conjunta fX,Y (x, y) y marginales fX (x) y
fY (y). Las variables aleatorias X e Y son independientes si y solo si
fX,Y (x, y) = fX (x)fY (y).
(21)
(22)
Vamos a distinguir dos casos: el caso en que X Y y el caso en que Y < X. En el primer
caso, X Y , tenemos que L1 = X, L2 = Y X y L3 = LY y las desigualdades triangulares
(22) son equivalentes a las siguientes
Y > L/2, X + L/2 > Y
y L/2 > X.
(23)
(24)
Por lo tanto, las tres piezas se pueden usar para construir un tri
angulo si y solamente si
(X, Y ) B, donde
B = {(x, y) (0, L) (0, L) : 0 < x < L/2, L/2 < y < x + L/2}
{(x, y) (0, L) (0, L) : L/2 < x < L, x L/2 < y < L/2}.
(25)
L/2
L/2
Figura 6: La regi
on sombreada representa al conjunto B que es la uni
on de dos tri
angulos
2
disjuntos cada uno de
area L /8.
La hip
otesis de que X e Y son independientes con distribucion uniforme sobre el intervalo
(0, L) significa que (X, Y ) U(), donde es el cuadrado de lado (0, L)
1
1
1
1{0 < x < L}
1{0 < y < L} = 2 1{(x, y) }.
fX,Y (x, y) = fX (x)fY (y) =
L
L
L
De (6) se deduce que
P((X, Y ) B) =
2.
|B|
(2/8)L2
1
=
= .
2
||
L
4
(26)
Bibliografa consultada
Para redactar estas notas se consultaron los siguientes libros:
1. Bertsekas, D. P., Tsitsiklis, J. N.: Introduction to Probability. M.I.T. Lecture Notes.
(2000)
2. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. John
Wiley & Sons, New York. (1968)
3. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 2. John
Wiley & Sons, New York. (1971)
4. Ross, S.: Introduction to Probability Models. Academic Press, San Diego. (2007)
12
Indice
1. Esperanza
1.1. Definicion . . . . . .
1.2. C
alculo . . . . . . .
1.3. Propiedades . . . . .
1.4. Dividir y conquistar
.
.
.
.
2
3
8
10
11
2. Varianza
2.1. Definicion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2. C
alculo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
12
13
14
3. Covarianza
3.1. Definicion . . . . .
3.2. C
alculo . . . . . .
3.3. Propiedades . . . .
3.4. Varianza de sumas
.
.
.
.
14
14
14
16
16
4. Algunas desigualdades
4.1. Cauchy-Schwartz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2. Chebyshev . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
17
18
5. La ley d
ebil de los grandes n
umeros
20
6. Distribuciones particulares
22
7. Bibliografa consultada
28
1.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Esperanza
La informaci
on relevante sobre el comportamiento de una variable aleatoria esta contenida
en su funcion de distribucion. Sin embargo, en la practica, es u
til disponer de algunos n
umeros
representativos de la variable aleatoria que resuman esa informaci
on.
Motivaci
on Se gira una rueda de la fortuna varias veces. En cada giro se puede obtener
alguno de los siguiente n
umeros x1 , x2 , . . . , xk -que representan la cantidad de dinero que se
obtiene en el giro- con probabilidades p(x1 ), p(x2 ), . . . , p(xk ), respectivamente. Cuanto dinero
se espera obtener como recompensa por cada giro? Los terminos espera y por cada
giro son un tanto ambiguos, pero se pueden interpretar de la siguiente manera.
Si la rueda se gira P
n veces y n(xi ) es la cantidad de veces que se obtieneP
xi , la cantidad total
de dinero recibida es ki=1 n(xi )xi y la cantidad media por giro es = n1 ki=1 n(xi )xi . Interpretando las probabilidades como frecuencias relativas obtenemos que para n suficientemente
grande la cantidad de dinero que se espera recibir por cada giro es
=
i=1
i=1
i=1
X n(xi ) X
1X
xi
xi p(xi ).
xi n(xi ) =
n
n
2
1.1.
Definici
on
Definici
on 1.1 (Esperanza de una variable discreta). Sea X una variable aleatoria discreta.
La esperanza de X, denotada por E[X], es el promedio ponderado
X
E[X] :=
xP(X = x),
(1)
xA
(2)
(xi c) p(xi ) = 0 c =
k
X
xi p(xi )
i=1
resulta que el centro de gravedad del sistema coincide con la esperanza de una variable aleatoria X a valores en {x1 , . . . , xn } tal que P(X = xi ) = p(xi ).
c
10
Figura 1: Interpretaci
on de la esperanza como centro de gravedad. Se considera un sistema de cuatro partculas de pesos pi proporcionales a las areas de los crculos de radio
1/3, 2/3, 3/3, 4/3 centrados en los puntos xi = 1, 3, 6, 10, respectivamente. No se pierde generalidad si se supone que el peso total
P del sistema es la unidad. El centro de gravedad del
sistema se encuentra en el punto c = 4i=1 xi pi = 227/30 = 7.56 . . .
1
1{x {x1 , . . . , xn }}.
n
n
X
i=1
1X
xi P(X = xi ) =
xi .
n
(3)
i=1
Dicho en palabras: la esperanza de una variable aleatoria uniformemente distribuida sobre los
valores x1 , x2 , . . . , xn coincide con el promedio de dichos valores.
Ejemplo 1.3 (Dado equilibrado). Sea X el resultado del lanzamiento de un dado equilibrado.
De acuerdo con (3) la esperanza de X es
6
1X
21
7
E[X] =
x=
= .
6
6
2
x=1
Ejemplo 1.4 (Uniforme sobre el intervalo {1, 2, . . . , n}). La variable aleatoria del Ejemplo
1.3 es un caso particular de una variable aleatoria discreta X uniformemente distribuida sobre
el intervalo de n
umeros enteros {1, 2, . . . , n}. De acuerdo con (3) la esperanza de X es
n
E[X] =
1
1X
x=
n
n
x=1
n(n + 1)
2
1+n
.
2
Ejemplo 1.5 (Moneda equilibrada). Sea N la cantidad de veces que debe lanzarse una moneda equilibrada hasta que salga cara. N es una variable aleatoria discreta a valores 1, 2, . . . tal
que P(N = n) = (1/2)n , n = 1, 2, . . . . De acuerdo con la definicion 1.1, la esperanza de N es
E[N ] =
n=1
n
X
1
n
nP(N = n) =
.
2
n=1
P
n
Derivando
lados de la igualdad
x)1 , que vale para |x| < 1, se deduce
n=0 x = (1 P
P ambos
n1
2
n
2
que n=0 nx
= (1 x) y de all resulta que
n=1 nx = x(1 x) . Evaluando en
x = 1/2 se obtiene que
n 2
X
1
1
1
=
= 2.
n
E[N ] =
2
2
2
n=1
La noci
on de esperanza se extiende a variables aleatorias absolutamente continuas cambiando en (1) la suma por la integral y la funcion de probabilidades P (X = x), x A, por la
densidad de probabilidades de la variable X.
4
Definici
on 1.6 (Esperanza de una variable absolutamente continua). Sea X una variable
aleatoria absolutamente continua con densidad de probabilidades fX (x). La esperanza de X,
denotada por E[X], se define por
Z
xfX (x)dx.
(4)
E[X] :=
Ejemplo 1.7 (Fiabilidad). Sea T el tiempo de espera hasta que ocurre la primer falla en un
sistema electr
onico con funcion intensidad de fallas
de la forma (t) = 2t1{t > 0}. La funcion
2
de distribucion de T es FT (t) = 1 exp t
1{t > 0}. En consecuencia, T es una
variable
aleatoria absolutamente continua con densidad de probabilidad fT (t) = 2t exp t2 1{t > 0}.
De acuerdo con la definicion 1.6, la esperanza de T es
Z
Z
Z
2
2
exp(t )dt =
t2t exp(t )dt =
tfT (t)dt =
E[T ] =
.
2
0
0
R on por partes
2
2
v = 2t exp(t ) y la cuarta se deduce de la identidad 0 exp(x /2)dx = 2/2 mediante
el cambio de variables t = x/ 2.
Extendiendo la noci
on a variables mixtas. La noci
on de esperanza para variables
mixtas se obtiene combinando las nociones anteriores.
Definici
on 1.8 (Esperanza de una variable mixta). Sea X una variable aleatoria mixta con
funcion de distribucion FX (x). La esperanza de X, denotada por E[X], se define de la siguiente
manera:
Z
X
xFX (x)dx,
(5)
xP(X = x) +
E[X] :=
xA
FX (x)dx = + +
E[X] = 1 P(X = 1) + 1 P(X = 1) +
dx = .
8 8
4
1
1 8
Nota Bene. En todas las definiciones anteriores, se presupone que las series y/o integrales
involucradas son absolutamente convergentes.
Ejemplo 1.10 (Distribucion de Cauchy). Sea X una variable aleatoria con distribuci
on de
Cauchy. Esto es, X es absolutamente continua y admite una densidad de probabilidades de
la forma
1
.
f (x) =
(1 + x2 )
5
Debido a que
Z
X no tiene esperanza.
|x|f (x)dx =
|x|
dx = ,
(1 + x2 )
Teorema 1.11. Sea X una variable aleatoria no negativa (i.e., FX (x) = P(X x) = 0 para
todo x < 0). Vale que
Z
[1 FX (x)] dx.
(6)
E[X] =
0
Demostraci
on. El argumento principal esta contenido en la Figura 2. El caso general se
deduce usando tecnicas de paso al lmite.
111111111111111111111111111
000000000000000000000000000
000000000000000000000000000
111111111111111111111111111
p
000000000000000000000000000
111111111111111111111111111
000000000000000000000000000
111111111111111111111111111
000000000000000000000000000
111111111111111111111111111
000000000000000000000000000
111111111111111111111111111
1111111111111111111
0000000000000000000
p
000000000000000000000000000
111111111111111111111111111
111111111111111
000000000000000
000000000000000000000000000
111111111111111111111111111
000000000000000000000000000
111111111111111111111111111
000000000000000000000000000
111111111111111111111111111
p
000000000000000000000000000
111111111111111111111111111
000000000000000000000000000
111111111111111111111111111
000000000000000000000000000
111111111111111111111111111
1111111111
0000000000
000000000000000000000000000
111111111111111111111111111
000000000000000000000000000
111111111111111111111111111
p
000000000000000000000000000
111111111111111111111111111
1111
0000
000000000000000000000000000
111111111111111111111111111
p
000000000000000000000000000
111111111111111111111111111
000000000000000000000000000
111111111111111111111111111
x
x
x
x
x
k1
k1
Figura 2: Argumento geometrico que muestra la validez de la identidad (6) en el caso en que
X es no negativa, discreta y a valores 0 x1 < x2 < < xk . Si pi = P(X = xi ), el area
de la regi
on sombreada es la suma x1 p1 + + xk pk = E[X] de las areas de los rectangulos
horizontales y coincide con la integral de la altura P(X > x).
Corolario 1.12. Sea X una variable aleatoria con funcion de distribucion FX (x). Vale que
E[X] =
[1 FX (x)] dx
Demostraci
on. Ejercicio.
FX (x)dx.
(7)
Nota Bene. Las identidades (6) y (7) son interesantes porque muestran que para calcular
la esperanza de una variable aleatoria basta conocer su funcion de distribucion. De hecho, la
identidad (7) ofrece una definicion alternativa y unificada de la nocion de esperanza.
Ejemplo 1.13. Una m
aquina fue dise
nada para prestar servicios en una instalaci
on productiva. La m
aquina se enciende al iniciar la jornada laboral y se apaga al finalizar la misma. Si
durante ese perodo la m
aquina falla, se la repara y en esa tarea se consume el resto de la
jornada.
Suponiendo que la funcion intensidad de fallas de la m
aquina es una constante > 0 (y
que el tiempo se mide en jornadas laborales), hallar el m
aximo valor de que permita asegurar
con una probabilidad mayor o igual que 2/3 que la m
aquina prestara servicios durante una
jornada laboral completa. Para ese valor de , hallar (y graficar) la funcion de distribucion
del tiempo, T , de funcionamiento de la m
aquina durante una jornada laboral y calcular el
tiempo medio de funcionamiento, E[T ].
Soluci
on. Si T1 es el tiempo que transcurre desde que se enciende la m
aquina hasta que
ocurre la primer falla, el evento la m
aquina funciona durante una jornada laboral completa
se describe mediante {T1 > 1}. Queremos hallar el m
aximo > 0 tal que P(T1 > 1) 2/3.
Debido a que la funcion intensidad de fallas es una constante se tiene que P(T1 > t) = et .
En consecuencia, P(T1 > 1) 2/3 e 2/3 log(2/3). Por lo tanto,
= log(2/3). En tal caso, P(T > 1) = 2/3.
1
1/3
Figura 3: Gr
afico de la funcion de distribucion de T .
El tiempo de funcionamiento de la m
aquina por jornada laboral es T = mn{T1 , 1}. Para
t > 0 vale que
FT (t) = P(T t) = 1 P(T > t) = 1 P(mn{T1 , 1} > t)
= 1 P(T1 > t)1{1 > t} = 1 elog(2/3)t 1{t < 1}
=
1 elog(2/3)t 1{0 t < 1} + 1{t 1}.
7
1.2.
1/3
0.822...
log(2/3)
C
alculo
Sea X una variable aleatoria cuya funcion de distribucion conocemos. Queremos calcular
la esperanza de alguna funcion de X, digamos, g(X). Como se puede efectuar ese calculo?
Una manera es la siguiente: (1) Hallamos la funcion de distribucion de la variable aleatoria
Y = g(X) a partir del conocimiento que tenemos sobre la distribuci
on de X:
FY (y) := P(Y y) = P(g(X) y) = P X g 1 (, y] .
Ejemplo 1.14. Sea X una variable aleatoria discreta tal que P(X = 0) = 0.2, P(X = 1) = 0.5
y P(X = 2) = 0.3. Queremos calcular E[X 2 ]. Poniendo Y = X 2 obtenemos una variable
aleatoria a valores en {02 , 12 , 22 } tal que P(Y = 0) = 0.2 P(Y = 1) = 0.5 y P(Y = 4) = 0.3.
Por definicion, E[X 2 ] = E[Y ] = 0(0.2) + 1(0.5) + 4(0.3) = 1.7.
Ejemplo 1.15. Sea X una variable aleatoria con distribucion uniforme sobre el intervalo
(0, 1). Queremos calcular E[X 3 ]. Ponemos Y = X 3 y calculamos su funcion de distribucion:
para cada 0 < y < 1 vale que FY (y) = P(Y y) = P(X 3 y) = P(X y 1/3 ) = y 1/3 .
Derivando FY (y) obtenemos la densidad de probabilidad de Y : fY (y) = 31 y 2/3 1{0 < y < 1}.
Por definicion,
Z
Z 1
Z
1 3 4/3 1 1
1 1 1/3
1 2/3
3
y dy =
dy =
y = .
y y
yfY (y)dy =
E[X ] = E[Y ] =
3
3 0
34
4
0
0
Nota Bene. Existe una manera mucho m
as simple para calcular la esperanza de Y = g(X)
que no recurre al procedimiento de determinar primero la distribucion de Y para luego calcular
su esperanza por definicion. El Teorema siguiente muestra como hacerlo.
Teorema 1.16. Sea X una variable aleatoria y sea g : R R una funcion tal que g(X)
tambien es una variable aleatoria.
(a) Si X es discreta con
atomos en el conjunto A, entonces
X
g(x)P(X = x).
(8)
E[g(X)] =
xA
(c) Si X es mixta,
E[g(X)] =
g(x)P(X = x) +
xA
g(x)FX (x)dx,
(10)
donde A es el conjunto de todos los atomos de FX (x) y FX (x) es un funcion que coincide
con la derivada de FX (x) en todos los puntos donde esa funcion es derivable y vale cero en
otro lado.
Demostraci
on. Para simplificar la demostraci
on supondremos que g 0.
(a) Por el Teorema 1.11 tenemos que
E[g(X)] =
=
X Z
xA
xA
X
g(x)P(X = x).
1{g(x) > y}dy P(X = x) =
xA
Z
Z
g(x)
dy f (x)dx =
f (x)dx dy
{x: g(x)>y}
g(x)f (x)dx.
Ejemplo 1.18. Aplicando la parte (b) del Teorema 1.16 al Ejemplo 1.15 se obtiene
Z 1
1
3
x3 dx = .
E[X ] =
4
0
Teorema 1.19 (Calculo de Esperanzas). Sea X un vector aleatorio y sea g : Rn R una
funcion tal que g(X) es una variable aleatoria. Si la variable aleatoria g(X) tiene esperanza
finita, entonces
P
en el caso discreto,
x g(x)pX (x)
E[g(X)] =
R
en el caso continuo,
Rn g(x)fX (x) dx
donde, seg
un sea el caso, pX (x) y fX (x) son la funcion de probabilidad y la densidad conjunta
del vector X, respectivamente.
9
Demostraci
on. Enteramente an
aloga a la que hicimos en dimension 1.
Sobre el c
alculo de esperanzas. El Teorema 1.19 es una herramienta practica para
calcular esperanzas. Su resultado establece que si queremos calcular la esperanza de una
transformacion unidimensional del vector X, g(X), no necesitamos calcular la distribucion
de g(X). La esperanza E[g(X)] puede calcularse directamente a partir del conocimiento de la
distribucion conjunta de X.
Corolario 1.20 (Esperanza de las marginales). Sea X = (X1 , . . . , Xn ) un vector aleatorio.
Si la variable Xi tiene esperanza finita, entonces
P
en el caso discreto,
x xi pX (x)
E[Xi ] =
R
en el caso continuo.
Rn xi fX (x) dx
1.3.
Propiedades
k=0
i=1
(e) Regla del producto independiente. Si las variables aleatorias X1 , . . . , Xn tienen esperanza finita y son independientes, entonces el producto tiene esperanza finita y coincide con
el producto de las esperanzas:
" n
#
n
Y
Y
E
Xi =
E[Xi ].
(13)
i=1
i=1
Demostraci
on. (a) es consecuencia inmediata de la Definicion 1.1 porque P(X = 1) = 1.
(b) es consecuencia del Teorema 1.11 y de que para todo x R vale que FX1 (x) FX2 (x).
(c) es consecuencia inmediata del Teorema 1.16. (d) es consecuencia inmediata del Teorema
1.19. (e) es consecuencia del Teorema 1.19 y de la factorizacion de la distribucion conjunta
como producto de las distribuciones marginales.
10
1.4.
Dividir y conquistar
1
E[X1{X A}].
P(X A)
(14)
Demostraci
on. Para simplificar la exposicion vamos a suponer que la variable aleatoria X
es discreta. Por la Definicion 1.1 tenemos que
E[X|X A] =
=
xpX|XA (x) =
xX()
1
P(X A)
xX()
xX()
P(X = x)
1{x A}
P(X A)
x1{x A}P(X = x) =
1
E[X1{X A}].
P(X A)
La u
ltima igualdad es consecuencia del Teorema 1.16.
Ejemplo 1.22. Sea X el resultado del tiro de un dado equilibrado y sea A = {2, 4, 6}. De
acuerdo con (14) la esperanza de X|X A es
1
1
2 4 6
E[X|X A] =
E[X1{X A}] =
+ +
= 4.
P(X A)
1/2 6 6 6
Resultado que por otra parte es intuitivamente evidente.
Teorema 1.23 (F
ormula de probabilidad total). Sea X una variable aleatoria. Si A1 , . . . , An
es una particion medible de R tal que P(X Ai ) > 0, i = 1, . . . , n. Entonces,
E[X] =
n
X
i=1
E[X|X Ai ]P(X Ai ).
(15)
Demostraci
on. Descomponemos
la variable X como una suma de variables (dependientes
Pn
de la particion) X = i=1 X1{X Ai }. Como la esperanza es un operador lineal tenemos
que
E[X] =
n
X
i=1
E[X1{X Ai }] =
n
X
i=1
E[X|X Ai ]P(X Ai ).
La u
ltima igualdad se obtiene de (14).
Nota Bene. Sea g : R R una funcion tal que g(X) es una variable aleatoria. Bajo las
hip
otesis del Teorema 1.23 tambien vale que
E[g(X)] =
n
X
i=1
E[g(X)|X Ai ]P(X Ai ).
(16)
2.
2.1.
Varianza
Definici
on
Nota Bene: Grandes valores de V(X) significan grandes variaciones de los valores de X
alrededor de la media. Al contrario, peque
nos valores de V(X) implican una pronunciada
concentraci
on de la masa de la distribucion de probabilidades en un entorno de la media. En
el caso extremo, cuando la varianza es 0, la masa total de la distribucion de probabilidades se
concentra en la media. Estas afirmaciones pueden hacerse m
as precisas y seran desarrolladas
en la secci
on 4.
12
2.2.
C
alculo
(19)
(20)
Ejemplo 2.4 (Dado equilibrado). Sea X el resultado del lanzamiento de un dado equilibrado.
Por el Ejemplo 1.3 sabemos que E[X] = 7/2. Por otra parte
2
E[X ] =
6
X
x=1
91
1 X 2 1 + 4 + 9 + 16 + 25 + 36
= .
x =
x P(X = x) =
6
6
6
2
x=1
= .
=
6
2
12
3
Ejemplo 2.5 (Fiabilidad). Sea T el tiempo de espera hasta que ocurre la primer falla en
un sistema electr
onico con funcion intensidad de fallas de la forma (t) = 2t1{t > 0}. Por el
V(T ) = 1
=1 .
2
4
13
2.3.
Propiedades
Proposici
on 2.6. Para todo a, b R
V(aX + b) = a2 V(X).
(21)
Demostraci
on. Por definicion,
V(aX + b) = E[(aX + b E[aX + b])2 ] = E[a2 (X E[X])2 ] = a2 V(X).
Para obtener la segunda igualdad usamos que E[aX + b] = aE[X] + b.
Error cuadr
atico medio. Una manera de representar la variable aleatoria X mediante
un valor fijo c R es hallar el valor c que minimice el llamado error cuadr
atico medio,
E[(X c)2 ].
Teorema 2.7 (Pit
agoras). Sea X una variable aleatoria con esperanza y varianza finitas.
Para toda constante c R vale que
E[(X c)2 ] = V(X)2 + (E[X] c)2 .
En particular, el valor de c que minimiza el error cuadratico medio es la esperanza de X,
E[X].
Demostraci
on. Escribiendo Xc en la forma XE[X]+E[X]c y desarrollando cuadrados
se obtiene (X c)2 = (X E[X])2 +(E[X]c)2 +2(X E[X])(E[X]c). El resultado se obtiene
tomando esperanza en ambos lados de la igualdad y observando que E[X E[X]] = 0.
3.
3.1.
Covarianza
Definici
on
Definici
on 3.1 (Covarianza). Sean X e Y dos variables aleatorias de varianzas finitas
definidas sobre el mismo espacio de probabilidad (, A, P). La covarianza de X e Y se define
por
Cov(X, Y ) := E[(X E[X]) (Y E[Y ])].
3.2.
(22)
C
alculo
Proposici
on 3.2. Sean X e Y dos variables aleatorias definidas sobre el mismo espacio de
probabilidad (, A, P). Si los segundos momentos de las variables aleatorias X e Y son finitos,
se tiene que
Cov(X, Y ) = E[XY ] E[X]E[Y ].
14
(23)
Demostraci
on. La esperanza del producto E[XY ] es finita porque las esperanzas E[X 2 ] y
E[Y 2 ] son finitas y vale que |xy| 12 (x2 + y 2 ). Usando la propiedad distributiva del producto
y la linealidad de la esperanza tenemos que
E[(X E[X]) (Y E[Y ])] = E[XY E[Y ]X E[X]Y + E[X]E[Y ]]
= E[XY ] E[X]E[Y ].
i = 1, 2,
y definimos las variables aleatorias X1 y X2 como las funciones indicadoras de los eventos
A1 y A2 respectivamente. De acuerdo con el Ejemplo anterior es intuitivamente claro que
Cov(X1 , X2 ) < 0. (Por que? )
Cov(X1 , X2 ) = P(X1 = 1, X2 = 1) P(X1 = 1)P(X2 = 1) = P(A1 A2 ) P(A1 )P(A2 )
6
5
6 5
6
6
4
2
=
+
= = 0.02666....
10 9 10 9 10 9 10
75
Nota Bene. Se puede mostrar que Cov(X, Y ) > 0 es una indicacion de que Y tiende a
crecer cuando X lo hace, mientras que Cov(X, Y ) < 0 es una indicacion de que Y decrece
cuando X crece.
15
3.3.
Propiedades
Lema 3.5 (Propiedades). Para variables aleatorias X, Y, Z y constantes a, valen las siguientes
propiedades
1. Cov(X, X) = V(X),
2. Cov(X, Y ) = Cov(Y, X),
3. Cov(aX, Y ) = aCov(X, Y ),
4. Cov(X, Y + Z) = Cov(X, Y ) + Cov(X, Z).
Demostraci
on. Ejercicio.
Sobre la esperanza del producto. Si se conoce la covarianza y la esperanza de las
marginales, la identidad (23) puede ser u
til para calcular la esperanza del producto:
E[XY ] = E[X]E[Y ] + Cov(X, Y ).
Nota Bene. Si X e Y son independientes, Cov(X, Y ) = 0 porque E[XY ] = E[X]E[Y ]. Pero
la recproca no es cierta.
Ejemplo 3.6 (Dos bolas en dos urnas). El experimento aleatorio consiste en ubicar dos
bolas distinguibles en dos urnas. Sean N la cantidad de urnas ocupadas y Xi la cantidad
de bolas en la urna i. El espacio muestral se puede representar de la siguiente manera =
{(1, 1); (1, 2); (2, 1); (2, 2)}. La funcion de probabilidad conjunta de N y X1 se muestra en el
Cuadro 1
N \ X1
1
2
p X1
0
1/4
0
1/4
1
0
1/2
1/2
2
1/4
0
1/4
pN
1/2
1/2
Es facil ver que E[N ] = 3/2 y E[X1 ] = 1. Por lo tanto, Cov(N, X1 ) = 0. Sin embargo, las
variables N y X1 no son independientes.
3.4.
Varianza de sumas
Usando las propiedades de la covarianza enunciadas en Lema 3.5 se puede demostrar que
m
m
n X
n
X
X
X
Cov
Cov(Xi , Yj )
(24)
Yj =
Xi ,
i=1
j=1
i=1 j=1
16
!
n
n
n
n
n X
X
X
X
X
X
V
Xi = Cov
Xi ,
Xj =
V(Xi ) + 2
Cov(Xi , Yj ).
i=1
i=1
j=1
i=1
i=1 j<i
4.
4.1.
(25)
(26)
i=1
Algunas desigualdades
Cauchy-Schwartz
(27)
Demostraci
on. Observar que para todo t R:
0 E[(t|X| + |Y |)2 ] = t2 E[X 2 ] + 2tE[|XY |] + E[Y 2 ].
Como la funcion cuadratica en t que aparece en el lado derecho de la igualdad tiene a lo sumo
una raz real se deduce que
4E[|XY |]2 4E[X 2 ]E[Y 2 ] 0.
Por lo tanto,
E[|XY |]2 E[X 2 ]E[Y 2 ].
Corolario 4.2. Sea X una variable aleatoria tal que E[X 2 ] < . Si a < E[X], entonces
P(X > a)
(E[X] a)2
.
E[X 2 ]
Demostraci
on. De la desigualdad X1{X > a} |X1{X > a}| y de la propiedad de
monotona de la esperanza se deduce que
E[X1{X > a}] E[|X1{X > a}|].
(28)
(29)
y en consecuencia,
E[X] a E[X1{X > a}].
(30)
4.2.
Chebyshev
(31)
Demostraci
on. La definicion de iA y el hecho de que 0 implican que
iA 1{X A} (X)1{X A} (X)
El resultado se obtiene tomando esperanza.
En lo que sigue enunciaremos algunos corolarios que se obtienen como casos particulares
del Teorema 4.3.
Corolario 4.4 (Desigualdad de Markov). Sea X una variable aleatoria a valores no negativos.
Para cada a > 0 vale que
P(X a)
E[X]
.
a
(32)
Demostraci
on. Aplicar la desigualdad de Chebyshev usando la funcion (x) = x restringida a la semi-recta no negativa [0, ) y el conjunto A = [a, ) para obtener
aP(X a) E[(X)] = E[X].
y despejar.
Corolario 4.5. Sea a > 0. Vale que
P(X > a)
1
E[X 2 ].
a2
(33)
Demostraci
on. Aplicar la desigualdad de Chebyshev usando la funcion (x) = x2 y el
conjunto A = (a, ) para obtener
a2 P(X > a) E[X 2 ]
y despejar.
Corolario 4.6 (Peque
na desigualdad de Chebyshev). Sea X una variable aleatoria de varianza finita. Para cada a > 0 vale que
P(|X E[X]| a)
18
V(X)
.
a2
(34)
Demostraci
on. Debido a que (X E[X])2 es una variable aleatoria no negativa podemos
aplicar la desigualdad de Markov (poniendo a2 en lugar de a) y obtenemos
E[(X E[X])2 ]
V(X)
P (X E[X])2 a2
=
.
2
a
a2
V(X)
.
a2
1
.
2
(35)
E[X]
500
1
=
= .
1000
1000
2
2
1
=
.
2
(100)
100
99
1
= 100
, la probabilidad de que la producci
on
Por lo tanto, P (|X 500| < 100) 1 100
semanal se encuentre entre 400 y 600 artculos es al menos 0.99.
El que mucho abarca poco aprieta. Las desigualdades de Markov y Chebyshev son importantes porque nos permiten deducir cotas sobre las probabilidades cuando solo se conocen
la media o la media y la varianza de la distribucion de probabilidades. Sin embargo, debe
tenerse en cuenta que las desigualdades de Markov y de Chebyshev producen cotas universales
que no dependen de las distribuciones de las variables aleatorias (dependen pura y exclusivamente de los valores de la esperanza y de la varianza). Por este motivo su comportamiento
sera bastante heterogeneo: en algunos casos produciran cotas extremadamente finas, pero en
otros casos solamente cotas groseras.
19
5.
La ley d
ebil de los grandes n
umeros
Demostraci
on. Se obtiene aplicando la desigualdad de Chebyshev a la variable aleatoria
Sn /n. Usando que la esperanza es un operador lineal se obtiene que
" n
#
n
X
1X
1
Xi =
E[Xi ] = E[X1 ].
E [Sn /n] = E
n
n
i=1
i=1
i=1
(36)
Por lo tanto, la probabilidad de que la frecuencia relativa del evento A se desve de su probabilidad P(A) en m
as de una cantidad prefijada , puede hacerse todo lo chica que se quiera,
siempre que la cantidad de ensayos n sea suficientemente grande.
Antes de resolver este problema, debemos reflexionar sobre la definicion de error. Habitualmente, cuando se habla de error, se trata de un n
umero real que expresa la (in)capacidad
de una cierta cantidad de representar a otra. En los problemas de estimacion estadstica,
debido a que una de las cantidades es una variable aleatoria y la otra no lo es, no es posible
interpretar de un modo tan sencillo el significado de la palabra error.
Toda medida muestral tiene asociada una incerteza (o un riesgo) expresada por un modelo
probabilstico. En este problema consideramos que el voto de cada elector se comporta como
una variable aleatoria X tal que P(X = 1) = p y P(X = 0) = 1 p, donde X = 1 significa que
el elector vota por el candidato considerado. Por lo tanto, cuando se habla de que queremos
encontrar un tama
no muestral suficiente para un determinado error m
aximo, por ejemplo
0.02, tenemos que hacerlo
con
una
medida
de
certeza
asociada.
Matem
a
ticamente,
queremos
S
n
encontrar n tal que P n p 0.02 0.9999 o, equivalentemente, queremos encontrar n
tal que
Sn
P
p > 0.02 0.0001.
n
Usando la estimacion (37) se deduce que
Sn
p(1 p)
P
p > 0.02
.
n
n(0.02)2
Como m
aximo estamos dispuestos a correr un riesgo de 0.0001 y en el peor caso tenemos acotada la m
axima incerteza por (4n(0.02)2 )1 . El problema se reduce a resolver la desigualdad
2
(4n(0.02) )1 0.0001. Por lo tanto,
2 1
n ((0.0001)4(0.02)
) = 6250000.
21
6.
Distribuciones particulares
Discretas
No.
Nombre
Probabilidad
Soporte
Esperanza
Varianza
1.
Uniforme
1
ba+1
axb
(a + b)/2
(b a)(b a 2)/12
2.
Bernoulli
px (1 p)1x
x {0, 1}
p(1 p)
3.
Binomial
0xn
np
np(1 p)
4.
Geometrica
(1 p)x1 p
xN
1/p
(1 p)/p2
5.
Poisson
x
x! e
x N0
n
x
x
p (1 p)nx
Continuas
No.
Nombre
Densidad
Soporte
Esperanza
Varianza
1.
Uniforme
1
ba
x [a, b]
(a + b)/2
(b a)2 /12
2.
Exponencial
ex
x>0
1/
1/2
3.
Gamma
1 x
e
() x
x>0
/2
4.
Beta
x (0, 1)
1
1 +2
1 2
(1 +2 )2 (1 +2 +1)
5.
Normal
xR
(1 +2 ) 1 1
(1
(1 )(2 ) x
x)2 1
2
2
1 e(x) /2
2
22
1 + (b a + 1)
a+b
+a1=
.
2
2
Para calcular la varianza de X, consideramos primero el caso m
as simple donde a = 1 y b = n.
Por induccion en n se puede ver que
E[X] = E[X ] + a 1 =
E[X 2 ] =
1 X 2 (n + 1)(2n + 1)
k =
.
n
6
k=1
6
4
(n + 1)[2(2n + 1) 3(n + 1)]
n2 1
=
=
.
12
12
Para el caso general, notamos que la variable aleatoria uniformemente distribuida sobre [a, b]
tiene la misma varianza que la variable aleatoria uniformemente distribuida sobre [1, ba+1],
puesto que esas dos variables difieren en la constante a 1. Por lo tanto, la varianza buscada
se obtiene de la formula anterior sustituyendo n = b a + 1
V(X) = E[X 2 ] E[X]2 =
V(X) =
(b a + 1)2 1
(b a)(b a + 2)
=
.
12
12
2. Distribuci
on Bernoulli.
Sea p (0, 1). Se dice que la variable aleatoria X tiene distribucion Bernoulli de par
ametro
p, y se denota X Bernoulli(p), si X es discreta y tal que
P(X = x) = px (1 p)1x , donde x = 0, 1.
Por definicion,
E[X] = 0 P(X = 0) + 1 P(X = 1) = 0 (1 p) + 1 p = p.
Por otra parte,
E[X 2 ] = 02 P(X = 0) + 12 P(X = 1) = p.
Por lo tanto,
V(X) = E[X 2 ] E[X]2 = p p2 = p(1 p).
23
3. Distribuci
on Binomial.
Sean p (0, 1) y n N. Se dice que la variable aleatoria X tiene distribucion Binomial
de par
ametros n y p, y se denota X Binomial (n, p), si X es discreta y tal que
n x
P(X = x) =
p (1 p)nx , donde x = 0, 1, . . . , n.
x
Por definicion,
n
X
E[X] =
x=0
n
X
n
n
X
X
n x
xn!
x
p (1 p)nx =
xP(X = x) =
px (1 p)nx
x
(n x)!x!
x=1
x=0
n
X
(n 1)!
n!
px (1 p)nx = np
px1 (1 p)nx
(n x)!(x 1)!
(n x)!(x 1)!
x=1
x=1
n1
X n1
py (1 p)n1y = np(p + (1 p))n1 = np.
= np
y
y=0
An
alogamente se puede ver que
E[X 2 ] = np((n 1)p + 1).
Por lo tanto,
V(X) = E[X 2 ] E[X]2 = np((n 1)p + 1) (np)2
= np((n 1)p + 1 np) = np(1 p).
4. Distribuci
on Geom
etrica.
Sea p (0, 1). Se dice que la variable aleatoria X tiene distribucion Geometrica de
par
ametro p, y se denota X Geometrica(p), si X es discreta y tal que
P(X = x) = (1 p)x1 p1{x N}.
Por definicion,
E[X] =
xP(X = x) =
X
x=1
x=1
x(1 p)x1 p = p
X
x=1
x(1 p)x1 .
d
La serie se calcula observando que x(1 p)x1 = dp
(1 p)x y recordando que las series de
potencias se pueden derivar termino a termino:
X
x=1
x1
x(1 p)
d X
d 1
=
(1 p)x =
p 1 = p2 .
dp
dp
x=1
Para calcular
V(X) usaremos la misma tecnica: derivamos dos veces ambos lados de la
P
igualdad x=1 (1 p)x1 = p1 y obtenemos
2p
X
d2 1
d2 X
x1
(x 1)(x 2)(1 p)x3
(1 p)
=
p = 2
dp2
dp
x=1
x=1
X
x=1
x1
(x + 1)x(1 p)
X
x=1
x1
x (1 p)
X
x=1
x(1 p)x1 .
Multiplicando por p los miembros de las igualdades obtenemos, 2p2 = E[X 2 ] + E[X] =
E[X 2 ] + p1 . En consecuencia, E[X 2 ] = 2p2 p1 . Por lo tanto,
V(X) = E[X 2 ] E[X]2 = 2p2 p1 p2 = p2 p1 = p2 (1 p).
5. Distribuci
on de Poisson.
Sea > 0. Se dice que la variable aleatoria X tiene distribucion de Poisson de intensidad
, y se denota X Poisson(), si X es discreta y tal que
P(X = x) =
x
e 1{x N0 }.
x!
Por definicion,
E[X] =
X
x=0
= .
X
X
X
x
x1
x1
x e = e
x
xP(X = x) =
= e
= e e
x!
x!
(x 1)!
x=0
x=1
x=1
x2 P(X = x) =
x2
x=0
x=0
x=1
x=1
X x1
X xx1
x
e = e
= e
x2
x!
x!
(x 1)!
d
d X x
e = e e + e = + 2 .
= e
= e
d
(x 1)!
d
x=1
Por lo tanto,
V(X) = E[X 2 ] E[X] = + 2 2 = .
Por definicion,
Z
Z
E[X] =
xf (x)dx =
1
1
x
1{x [a, b]} dx =
ba
b a
a+b
.
2
1
x f (x)dx =
ba
b
a
1
x dx =
ba
2
b3 a3
3
1
x dx =
ba
b2 a2
2
a2 + ab + b2
.
3
Finalmente,
a2 + ab + b2
a+b
2
2
(b a)2
a2 2ab + b2
=
.
12
12
2. Distribuci
on exponencial.
Sea > 0. Se dice que la variable aleatoria X tiene distribucion exponencial de intensidad , y se denota X Exp(), si X es absolutamente continua con funcion densidad de
probabilidades
f (x) = ex 1{x 0}.
El calculo de E[X] y V(X) se reduce al caso X Exp(1). Basta observar que Y Exp()
si y solo si Y = 1 X, donde X Exp(1) y usar las identidades E[1 X] = 1 E[X] y
V(1 X) = 2 V(X). En lo que sigue suponemos que X Exp(1).
Integrando por partes se obtiene,
Z
Z
Z
Z
x
x
x
ex dx
xe dx = xe +
xe 1{x 0} =
xf (x)dx =
E[X] =
0
= 1.
x2 f (x)dx =
x2 ex dx = x2 ex 0 +
2xex dx = 2.
t > 0.
Integrando por partes puede verse que (t) = (t 1)(t 1) para todo t > 0. De aqu se
deduce que la funcion gamma interpola a los n
umeros factoriales en el sentido de que
(n + 1) = n!
para
26
n = 0, 1, . . .
Sean > 0 y > 0. Se dice que la variable aleatoria X tiene distribucion gamma de par
ametros
, , , y se denota X (, ), si X es absolutamente continua con funcion densidad de
probabilidades
1 x
f (x) =
x e
1{x > 0}.
()
El calculo de E[X] y V(X) se reduce al caso X (, 1). Para ello, basta observar que Y
(, ) si y solo si Y = 1 X, donde X (, 1) y usar las identidades E[1 X] = 1 E[X]
y V(1 X) = 2 V(X). En lo que sigue suponemos que X (, 1)
E[X] =
xf (x) dx =
1 x
1
x e dx =
( + 1) = .
()
()
Del mismo modo se puede ver que E[X 2 ] = ( + 1) = 2 + . Por lo tanto, V(X) =
E[X 2 ] E[X]2 = .
4. Distribuci
on beta
Sean 1 > 0 y 2 > 0. Se dice que la variable aleatoria X tiene distribucion beta de
par
ametros 1 , 2 , y se denota X (1 , 2 ), si X es absolutamente continua con funcion
densidad de probabilidades
(1 + 2 ) 1 1
x
(1 x)2 1 1{x (0, 1}.
(1 )(2 )
f (x) =
Por definicion,
Z
E[X] =
xf (x)dx =
(1 + 2 )
(1 )(2 )
(1 + 2 ) 1 1
x
(1 x)2 1 1{x (0, 1} dx
(1 )(2 )
x1 (1 x)2 1 dx =
(1 + 2 ) (1 + 1)(2 )
1
=
(1 )(2 ) (1 + 2 + 1)
1 + 2
E[X ] =
=
Z
(1 + 2 ) 1 1 +1
x f (x)dx =
x
(1 x)2 1 dx
(1 )(2 ) 0
1 (1 + 1)
(1 + 2 ) (1 + 2)(2 )
=
(1 )(2 ) (1 + 2 + 2)
(1 + 2 )(1 + 2 + 1)
Finalmente,
1 (1 + 1)
V(X) = E[X ] E[X] =
(1 + 2 )(1 + 2 + 1)
1 2
=
.
(1 + 2 )2 (1 + 2 + 1)
2
27
1
1 + 2
2
5. Distribuci
on normal.
Sean R y > 0. Se dice que la variable aleatoria X tiene distribucion normal de
par
ametros , 2 , y se denota X N (, 2 ), si X es absolutamente continua con funcion
densidad de probabilidades
1
2
2
f (x) =
e(x) /2 .
2
El calculo de E[X] y V(X) se reduce al caso X N (0, 1). Para ello, basta observar que
Y N (, 2 ) si y solo si Y = X + , donde X N (0, 1) y usar las identidades E[X + ] =
E[X] + y V(X + ) = 2 V(X). En lo que sigue suponemos que X N (0, 1) y denotamos
su densidad mediante
1
2
(x) = ex /2
2
Es evidente que E[X] = 0. En consecuencia,
2
V(X) = E[X ] =
x2 (x)dx
7.
Bibliografa consultada
Para redactar estas notas se consultaron los siguientes libros:
1. Bertsekas, D. P., Tsitsiklis, J. N.: Introduction to Probability. M.I.T. Lecture Notes.
(2000)
2. Billingsley, P.: Probability and Measure. John Wiley & Sons, New York. (1986)
3. Durrett, R. Elementary Probability for Applications. Cambridge University Press, New
York. (2009)
4. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. John
Wiley & Sons, New York. (1957)
5. Kolmogorov, A. N.: The Theory of Probability. Mathematics. Its Content, Methods,
and Meaning. Vol 2. The M.I.T. Press, Massachusetts. (1963) pp. 229-264.
6. Ross, S.: Introduction to Probability and Statistics for Engineers and Scientists. Academic Press, San Diego. (2004)
7. Ross, S.: Introduction to Probability Models. Academic Press, San Diego. (2007)
8. Soong, T. T.: Fundamentals of Probability and Statistics for Engineers. John Wiley &
Sons Ltd. (2004)
28
Indice
1. Funciones de variables aleatorias
1.1. Metodo basico: eventos equivalentes . .
1.2. Funciones a trozos: dividir y conquistar
1.3. Funciones inyectivas suaves . . . . . . .
1.4. Funciones suaves . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
2
5
6
7
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7
7
9
10
10
15
.
.
.
.
.
.
.
.
.
.
3. Mnimo y m
aximo de dos exponenciales independientes
18
19
5. Bibliografa consultada
20
1.
Sea X una variable aleatoria definida sobre un espacio de probabilidad (, A, P). Sea
g : D R R una funcion cuyo dominio D contiene al rango de X: X() := {x() : }.
Entonces Y = g(X) esta bien definida y sera una variable aleatoria si y s
olo si
{ : g(X) y} A
para todo y R.
(1)
1.1.
M
etodo b
asico: eventos equivalentes
(2)
Figura 1: Pendulo.
Si el angulo es una variable aleatoria uniformemente distribuida sobre el intervalo ( 2 , 2 ),
cu
al es la distribucion de X?
Primero observamos que para cada (/2, /2) tenemos que
P( ) =
De all se deduce que
+ /2
1
(/2)
=
= + .
/2 (/2)
1 1
+ arctan x,
2
1
.
(1 + x2 )
<1e <1 .
X=1
2
El siguiente ejemplo puede considerarse un prototipo que ilustra como tratar con las
funciones de variables aleatorias cuando no son inyectivas.
Ejemplo 1.5 (Prototipo). Sea X una variable aleatoria cualquiera y sea Y = X 2 . Queremos
determinar la distribucion de Y .
1. C
alculo explcito de la funci
on de distribuci
on. La funcion
calcula observando que g(x) = x2 y utilizando la formula: FY (y) = P
este caso, el conjunto g 1 ((, y]) adopta la forma
[ y, y] si y
1
2
g ((, y]) = x R : x y =
si y
de distribucion de Y se
X g 1 ((, y]) . En
0,
< 0.
Por lo tanto,
(3)
FY (y) = fX ( y) fX ( y)
1{y > 0}
fY (y) =
dy
2 y
2 y
1
=
(5)
(fX ( y) + fX ( y)) 1{y > 0}.
2 y
Ejemplo 1.6 (De continua a discreta). Sea U U(0, 1]. Hacemos Y = [10 U ], donde [x]
representa la parte entera de x R. Queremos determinar la funcion de probabilidad de Y .
En primer lugar observamos que la variable aleatoria Y es el primer dgito del desarrollo
decimal de un n
umero elegido al azar sobre el intervalo (0, 1). Los posibles valores de Y son
0, 1, . . . , 9. Para cada y {0, 1, . . . , 9} vale que
y
y+1
1
P(Y = y) = P
<U
= .
10
10
10
En otras palabras, Y U{0, 1, . . . , 9}.
Ejemplo 1.8 (Variables discretas). Sea X una variable aleatoria discreta a valores (xi )i1 .
De la relaci
on Y = g(X) se deduce que los posibles valores de Y son yi = g(xi ), i 1. Si la
funcion de probabilidad de X esta dada por pX (xi ) = pi , i 1, la funcion de probabilidad de
Y se determina por
X
pY (yi ) = P(Y = yi ) = P(X g 1 (yi )) =
px .
xg 1 (yi )
Ejercicios adicionales
1. Sea X una variable aleatoria discreta tal que P (X = 1) = 1/2, P(X = 0) = 1/4 y
P(X = 1) = P(X = 2) = 1/8. Hallar la funcion de probabilidad de Y para Y = 2X + 1 y para
Y = 2X 2 + 1.
1.2.
Sea X una variable y sea A1 , A2 , . . . una particion de R tal que P(X Ai ) > 0 para todo
i 1. Consideramos una funcion a trozos definida por
X
g(x) =
gi (x)1{x Ai },
i1
donde, para cada i 1, gi : R R, es una funcion tal que gi (X) es una variable aleatoria. Si
se quiere hallar la distribucion de
X
Y = g(X) =
gi (X)1{X Ai }
i1
se puede hacer lo siguiente: considerar las variables truncadas Xi = X|X Ai , hallar las
distribuciones de las variables Yi = gi (Xi ) y luego ponderarlas con los pesos P(X Ai ):
X
FY (y) =
FYi (y)P(X Ai ).
(6)
i1
X
X
X
FY (y) = P
gj (X)1{X Aj } y =
P
gj (X)1{X Aj } y, X Ai
j1
X
i
i1
P (gi (X) y, X Ai ) =
X
i1
j1
P X gi1 (, y] Ai .
P(X g 1 (, y] Ai )
.
P(X Ai )
P (X g 1 (, y] Ai ) = FYi (y)P(X Ai ).
Combinando (7) y (8) se obtiene (6).
5
(7)
(8)
1.3.
Teorema 1.9 (Cambio de variables). Sea X una variable aleatoria absolutamente continua
con densidad de probabilidades fX (x). Sea Y = g(X), donde g es una funcion monotona
con derivada no nula. Entonces Y es absolutamente continua y admite una densidad de
probabilidades de la forma
fX (x)
fY (y) =
.
(9)
|g (x)| 1
x=g
(y)
Demostraci
on.
1. La funcion g es creciente: g(x1 ) g(x2 ) para x1 x2 . En tal caso la funcion inversa
g 1 tambien es creciente. En consecuencia,
FY (y) = P(Y y) = P(g(X) y) = P X g 1 (y) = FX g 1 (y) .
(10)
La funcion FY (y) es derivable porque es una composicion de funciones derivables. Derivando
con respecto a y y usando la regla de la cadena se obtiene
d
d
fX (g 1 (y))
FY (y) =
FX (g 1 (y)) = 1
.
dy
dy
g (g (y))
g 1
fX (g 1 (y))
d
d
1 FX (g 1 (y)) = 1
FY (y) =
.
dy
dy
g (g (y))
Corolario 1.10 (Cambio lineal). Dados a > 0 y b R, la densidad de probabilidades de
Y = aX + b adopta la forma
1
yb
fY (y) = fX
.
(12)
a
a
En palabras, desde el punto de vista de la densidad de probabilidades, el cambio lineal
y = ax + b efect
ua una traslaci
on en b seguida de un cambio de escala de 1 en a sobre la
densidad original. Cuando el par
ametro a se achica, los valores de Y tienden a estar m
as
concentrados (alrededor del valor medio) y cuando a se agranda, tienden a dispersarse.
Ejemplo 1.11 (Variables exponenciales). Se dice que la variable aleatoria Y tiene distribuci
on
1
exponencial de intensidad > 0, y se denota Y Exp(), si Y = X, donde X es una
variable aleatoria absolutamente continua que admite una densidad de probabilidades de la
forma fX (x) = ex 1{x 0}. De (12) se deduce que Y admite una densidad de probabilidades
de la forma fY (y) = ey 1{y 0}.
Ejemplo 1.12 (Variables Normales). Sean R y > 0. Se dice que la variable aleatoria
Y tiene distribucion normal de par
ametros , 2 , y se denota Y N (, 2 ), si Y = X + ,
donde X es una variable aleatoria absolutamente continua con densidad de probabilidades
2
(x) = 12 ex /2 . De (12) se deduce que Y admite una densidad de probabilidades de la
(y)2
1
1.4.
Funciones suaves
Nota Bene. Las formulas (10) y (11) permiten calcular explcitamente la funcion de distribuci
on, FY , para transformaciones monotonas (continuas) Y = g(X), independientemente
de la clase de variable que sea X. Que hacer cuando la transformacion g es suave pero no es
inyectiva?
Ejemplo 1.13. Sea X N (0, 1). Seg
un la formula (5) la densidad de probabilidades de
2
1
2
Y = X es fY (y) = 2y ( y) + ( y) 1{y > 0}, donde (x) = 12 ex /2 . Por lo tanto,
1
fY (y) = y 1/2 ey/2 1{y > 0}.
2
xg 1 (y)
fX (x)
.
|g (x)|
Ejercicios adicionales
2. [James p.98] Si X tiene densidad fX (x), cu
al es la densidad de Y = cos X?
2.
2.1.
(13)
Caso bidimensional continuo. Sea (X, Y ) un vector aleatorio con densidad conjunta
fX,Y (x, y). Cualquier funcion continua a valores reales g : R2 R define una nueva variable
aleatoria Z := g(X, Y ). La funcion de distribucion de Z, FZ (z) = P(Z z), se puede obtener
a partir de la densidad conjunta de X e Y de la siguiente forma:
1. Para cada z R se determina el conjunto Bz R2 de todos los puntos (x, y) tales que
g(x, y) z.
2. Integrando la densidad conjunta fX,Y (x, y) sobre el conjunto Bz se obtiene la funcion
de distribucion de Z:
x
FZ (z) =
fX,Y (x, y)dxdy.
(14)
Bz
y =x+z
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000 y = x z
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
11111111111111111010
000000000000000000000000000000000000000000000000000000000
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
1010
111111111111111111111111111111111111111111
1
00000000000000000000000000000000000000000
x
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
1010
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
1010
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
1010
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
1010
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
1
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
111111111111111110
0000000000000000
2z
Figura 2: La regi
on sombreada representa los puntos del cuadrado [1, 1] [1, 1] tales que
|x y| z, 0 z 2 y su
area es 4 (2 z)2 = 4z z 2 .
Debido a que las variables aleatorias X e Y son independientes y uniformemente distribuidas obre el intervalo [1, 1], tenemos que P((X, Y ) B) = area(B)/4, para cualquier
regi
on B contenida en el cuadrado [1, 1] [1, 1] para la que tenga sentido la nocion
de area. En consecuencia, FZ (z) = P (|X Y | z) = (4z z 2 )/4 para todo z [0, 2].
Derivando esta
ltima expresi
on respecto de z se obtiene la densidad de Z = |X Y |:
u
fZ (z) = 2z
1{z
(0,
2)}.
2
8
Caso bidimensional discreto. Sea (X, Y ) un vector aleatorio discreto sobre un espacio
de probabilidad (, A, P), con funcion de probabilidad conjunta pX,Y (x, y). Sea g : R2
R una funcion cualquiera, Z := g(X, Y ) es una nueva variable aleatoria, cuya funcion de
probabilidad, pZ (z), se obtiene de la siguiente manera:
X
pX,Y (x, y),
(15)
pZ (z) = P(Z = z) = P(g(X, Y ) = z) =
(x,y)Bz
Suma de variables
Ejemplo 2.2 (Suma). Sean X, Y dos variables aleatorias con densidad conjunta fX,Y (x, y)
y sea Z = X + Y . Para cada z R, Bz = {(x, y) R2 : y z x}. Usando la formula (14)
se obtiene la funcion de distribucion de Z
Z Z zx
fX,Y (x, y)dy dx.
(16)
FZ (z) =
(17)
Ejemplo 2.3 (Suma de variables independientes). Sean X, Y dos variables aleatorias continuas e independientes con densidad conjunta fX,Y (x, y) = fX (x)fY (y). Seg
un la formula (17)
la densidad de probabilidades de la suma Z = X + Y es
Z
Z
fX (x)fY (z x)dx
(18)
fX,Y (x, z x)dx =
fZ (z) =
2.1.2.
Mnimo
Queremos caracterizar la funcion de distribucion del mnimo entre dos variables aleatorias
X e Y , U := mn{X, Y }. En primer lugar observamos que para cada u R vale que
FU (u) = P(U u) = P(mn{X, Y } u) = 1 P(mn{X, Y } > u)
= 1 P(X > u, Y > u).
Si (X, Y ) es continuo con funcion de densidad conjunta fX,Y (x, y) tenemos que
Z Z
fX,Y (x, y)dxdy.
FU (u) = 1
u
(21)
(22)
Si (X, Y ) es discreto con funcion de probabilidad conjunta pX,Y (x, y) tenemos que
XX
FU (u) = 1
pX,Y (x, y).
(23)
x>u y>u
(24)
Etcetera...
Ejemplo 2.5 (Mnimo de exponenciales independientes). Sean X1 e X2 variables aleatorias
exponenciales independientes de intensidades 1 y 2 respectivamente. De acuerdo con la
identidad (24) tenemos que la funcion de distribucion del mnimo U = mn{X1 , X2 } es
FU (u) = (1 e1 u e2 u )1{u 0} = (1 e(1 +2 )u )1{u 0}.
(25)
2.2.
El m
etodo del Jacobiano
f (x)dx =
A
f (h(y))|Jh (y)|dy,
h1 (A)
10
hi (y)
yj
!
i,j
(26)
Demostraci
on. Cualquiera sea el conjunto abierto B G0 tenemos
Z
1
fX (x)dx.
P (Y B) = P (g(X) B) = P(X g (B)) =
g 1 (B)
g 1 (B)
En consecuencia,
P (Y B) =
fX (g 1 (y))|Jg1 (y)|dy.
Por lo tanto, el vector aleatorio Y tiene funcion densidad de probabilidad de la forma fY (y) =
fX (g 1 (y))|Jg1 (y)|.
Nota Bene. Operativamente, la formula (26) para hallar la densidad conjunta de Y = g(X)
involucra los siguientes pasos: 1. Invertir las variables (i.e., despejar las xs en funcion de las
ys). 2. Calcular el Jacobiano de la inversa de g (i.e., calcular el determinante de la matriz
formada por las derivadas parciales de las xi respecto de las yj ). 3. Substituir los resultados
obtenidos en los pasos 1. y 2. en la formula (26). Aunque mec
anico, el m
etodo del
jacobiano es un m
etodo de naturaleza analtica muy poderoso.
Nota Bene. Con frecuencia es m
as facil obtener el jacobiano de y en relaci
on a x, pues Y
es una funcion de X. Hay que recordar que los dos jacobianos son recprocos y que Jg1 (y) se
puede obtener a partir de Jg (x), invirtiendo este u
ltimo y substituyendo x por g 1 (y). Esta
regla es an
aloga a la regla para la derivada de una funcion inversa en el caso unidimensional:
1
dg 1 (y)
1
= 1
=
.
dy
g (x) x=g1 (y) g (g (y))
Ejemplo 2.8 (Transformaciones lineales). Si (X1 , X2 ) = (aY1 + bY2 , cY1 + dY2 ). Entonces,
fY1 ,Y2 (y1 , y2 ) = |ad bc|fX1 ,X2 (ay1 + by2 , cy1 + dy2 ).
En general, si X = AY, donde A Rnn es una matriz inversible, se obtiene
fY (y) = | det(A)|fX (Ay).
11
(27)
Ejemplo 2.9 (Suma y resta de normales independientes). Sean X1 y X2 dos variables aleatorias independientes con distribuciones normales N (1 , 2 ) y N (2 , 2 ), respectivamente. Su
densidad conjunta es
1
1
2
2
fX1 ,X2 (x1 , x2 ) =
(x
)
+
(x
)
exp
(28)
1
1
2
2
2 2
2 2
Consideramos el cambio de variables (y1 , y2 ) = g(x1 , x2 ) = (x1 + x2 , x1 x2 ) cuya inversa es
(x1 , x2 ) = g 1 (y1 , y2 ) = 21 (y1 + y2 , y1 y2 ). De acuerdo con la formula (27) tenemos que
2
2 !!
y1 y2
1
y1 + y2
1
exp 2
1 +
2
fY1 ,Y2 (y1 , y2 ) =
4 2
2
2
2
1
1
2
2
exp 2 y1 2(1 + 2 )y1 exp 2 y2 2(1 2 )y2
4
4
2
(y1 (1 + 2 ))
(y2 (1 2 ))2
exp
exp
.
(29)
2(2 2 )
2(2 2 )
De la identidad (29) podemos concluir que las variables Y1 e Y2 son independientes y que
se distribuyen de la siguiente manera: Y1 N (1 + 2 , 2 2 ), Y2 N (1 2 , 2 2 ). En
otras palabras, si X1 y X2 son dos variables aleatorias independientes con distribuciones
normales N (1 , 2 ) y N (2 , 2 ), entonces X1 +X2 y X1 X2 son independientes y X1 +X2
N (1 + 2 , 2 2 ) y X1 X2 N (1 2 , 2 2 )
Nota Bene. Sean X1 y X2 dos variables aleatorias independientes con distribuciones normales N (1 , 12 ) y N (2 , 22 ), respectivamente. Calculos similares permiten deducir que X1 +
X2 N (1 + 2 , 12 + 22 ) y X1 X2 N (1 2 , 12 + 22 ). M
as a
un, X1 + X2 y X1 X2
2
2
son independientes si y solo si 1 = 2 .
Ejemplo 2.10 (Persistencia de la mala suerte). Sean X1 y X2 variables aleatorias independientes con distribucion com
un exponencial de intensidad . Vamos a hallar la densidad
conjunta de (Y1 , Y2 ) donde
(Y1 , Y2 ) = (X1 + X2 , X1 /X2 ).
Para ello consideramos la transformacion
g(x1 , x2 ) = (x1 + x2 , x1 /x2 ) = (y1 , y2 ).
La transformacion inversa de g es
x1 =
y1 y2
,
1 + y2
x2 =
y1
1 + y2
(30)
x1 =
x1 /x2 = y2
x1 = y2 x2
x1 = y2 x2
xi
El Jacobiano de la transformacion inversa Jg1 (y1 , y2 ) = det
es
yj
y1
1+y2
y1 y2
1+y2
i,j
Jg1 (y1 , y2 ) =
=
y1
y2
y1
x1 x2 x1 x2
=
2
y1 y2
y2 y1
1 + y2
(1 + y2 )
(1 + y2 )2
y1 y2
y1
y1 (1 + y2 )
y1
=
=
.
3
3
3
(1 + y2 )
(1 + y2 )
(1 + y2 )
(1 + y2 )2
12
1
1 + y2
(31)
(32)
Por hip
otesis,
fX1 ,X2 (x1 , x2 ) = ex1 1{x1 > 0}ex2 1{x2 > 0} = 2 e(x1 +x2 ) 1{x1 > 0, x2 > 0}. (33)
De (32) y (33) se obtiene
y1
1{y1 > 0, y2 > 0}
(1 + y2 )2
1
2
y1
1{y2 > 0} .
=
y1 e
1{y1 > 0}
(1 + y2 )2
(34)
1
1{y2 > 0}.
(1 + y2 )2
(35)
1
,
1 + y2
y2 0
En particular, la probabilidad de que tengamos que esperar por lo menos el triple del tiempo
que hubiesemos esperado en la otra fila es 1/4. Aunque de acuerdo con este modelo, en
promedio, la mitad de las veces esperamos menos tiempo que en la otra fila, en la practica, el
fen
omeno de la mala suerte se ve sobredimensionado porque no le prestamos atencion a los
tiempos cortos de espera.
1
Basta elegir una fila en las m
ultiples cajas de un supermercado para sufrir este fen
omeno y observar que
en la fila elegida el tiempo de espera es el doble o el triple que el tiempo de espera en las otras filas.
13
Para percibir que significa el resultado E[X1 /X2 ] = + basta simular algunos valores de
la variable X1 /X2 . Por ejemplo, en 10 simulaciones obtuvimos la siguiente muestra:
1.2562, 0.8942, 0.9534, 0.3596, 29.3658, 1.2641, 3.3443, 0.3452, 13.5228, 7.1701.
El lector puede extraer sus propias conclusiones.
Ejemplo 2.11 (Gammas y Betas). Sean X1 y X2 variables aleatorias independientes con
distribuciones (1 , ) y (2 , ). Vamos a hallar la densidad conjunta de (Y1 , Y2 ) donde
Y1 = X1 + X2 ,
Y2 =
x1
x1 + x2
X1
.
X1 + X2
= (y1 , y2 ).
La transformacion inversa de g es
x1 = y1 y2 ,
x2 = y1 (1 y2 ).
= y2 (y1 ) y1 (1 y2 ) = y1
Jg1 (y1 , y2 ) =
y1 y2
y2 y1
(36)
(37)
(38)
Por hip
otesis,
fX1 ,X2 (x1 , x2 ) = =
=
1 x11 1 ex1
2 x22 1 ex2
1{x1 > 0}
1{x2 > 0}
(1 )
(2 )
(39)
1 +2
y 1 +2 1 ey1 1{y1 > 0},
(1 + 2 ) 1
(1 + 2 ) 1 1
y
(1 y2 )2 1 1{0 < y2 < 1}.
(1 )(2 ) 2
14
Nota Bene. Algunos autores utilizan (y promueven!) el metodo del Jacobiano como una
herramienta para obtener la densidad de variables aleatorias de la forma Y1 = g1 (X1 , X2 ).
Hacen lo siguiente: 1. Introducen una variable auxiliar de la forma Y2 = g2 (X1 , X2 ) para
obtener un cambio de variables (g1 , g2 ) : R2 R2 . 2. Utilizan la formula del Jacobiano (26)
para obtener la densidad conjunta de (Y1 , Y2 ) a partir de la densidad conjunta de (X1 , X2 ).
3. Obtienen la densidad de Y1 marginando (i.e., integrando la densidad conjunta de (Y1 , Y2 )
con respecto de y2 ). Por ejemplo,
Suma: (X1 , X2 ) (X1 + X2 , X2 ) =: (Y1 , Y2 ). En tal caso, (x1 , x2 ) = (y1 y2 , y2 ) y el
x1 x2
1 x2
Jacobiano tiene la forma J(y1 , y2 ) = x
y1 y2 y2 y1 = 1. De donde se obtiene
Z
fX1 ,X2 (y1 y2 , y2 )dy2 .
fY1 (y1 ) =
R
Ejercicios adicionales
3. [James p.97] Si X, Y, Z tienen densidad conjunta
fX,Y,Z (x, y, z) =
6
1{x > 0, y > 0, z > 0}.
(1 + x + y + z)4
2.3.
Funciones k a 1
Supongamos adem
as que la restriccion de g a G , g|G , es una correspondencia 1 a 1 entre
G y G, para todo = 1, . . . , k y que la funcion inversa de g|G , denotada por h() , satisface
todas las condiciones de la funcion h del Teorema 2.6.
15
k
X
=1
(41)
Demostraci
on. Sea B G,
P(Y B) = P(g(X) B) =
=
k Z
X
()
=1 h (B)
k Z
X
=1
k
X
=1
P(g(X) B, X G ) =
k
X
=1
fX (h (y))|Jh() (y)|dy =
k
X
()
=1
Ejemplo 2.13. Sean X e Y dos variables aleatorias independientes con distribucion com
un
2
2
N (0, 1). Mostrar que Z = X +Y y W = X/Y son independientes y hallar sus distribuciones.
Soluci
on. La funcion g : R2 R2 , definida por g(x, y) = (x2 + y 2 , x/y) = (z, w), es 2 a 1.
Sean G = {(z, w) : z > 0}, G1 = {(x, y) : y > 0}, G2 = {(x, y) : y < 0}. Entonces,
las restricciones g|G1 y g|G2 son correspondencias 1 a 1 entre las regiones abiertas Gi y G,
i = 1, 2, y P((X, Y ) G1 G2 ) = 1.
Tenemos que calcular los jacobianos de las funciones inversas h(1) y h(2) en G. Para
ello calculamos los jacobianos de las restricciones g|G1 y g|G2 , que son los recprocos de los
jacobianos de las inversas, y substituimos el valor (x, y) por el valor h(1) (z, w) o h(2) (z, w).
Tenemos
1
2
2x 2y 1
1
x
J1 (z, w) = 1
+1
=
= 2
x
2
2 + 1)
y
2(w
2
y
y
y
J2 (z, w) =
1
.
2(w2 + 1)
f (x, y) =
1
1{(z, w) G}.
2(w2 + 1)
tenemos
fZ,W (z, w) = 2
1 z/2
e
2
1
1{z > 0, w R} =
2(w2 + 1)
1 z/2
1
e
1{z > 0}
.
2
(w2 + 1)
Ejercicios adicionales
4. La distribucion de (X, Y ) es uniforme sobre el recinto sombreado
1
1
0
V = m
ax Xi
1in
es
fU,V (u, v) = n(n 1)[F (v) F (u)]n2 f (u)f (v)1{u < v}.
(Sugerencia. Primero hallar P(u < U, V v). Despues, calcular las derivadas parciales
cruzadas de la distribucion conjunta.)
6. [James p.99] Sean X1 , . . . , Xn variables aleatorias independientes e identicamente distribuidas, con distribucion uniforme sobre el intervalo [0, 1]. Sean
U = mn Xi
1in
y
17
V = m
ax Xi
1in
3.
Mnimo y m
aximo de dos exponenciales independientes
Teorema 3.1. Sean X1 y X2 dos variables aleatorias independientes con distribuciones exponenciales de intensidades 1 y 2 respectivamente. Si U = mn(X1 , X2 ), V = m
ax(X1 , X2 ),
W = V U y J = 1{U = X1 } + 21{U = X2 }, entonces
(a) U Exp (1 + 2 ).
(b) P(J = i) = i (1 + 2 )1 , i = 1, 2.
(c) U y J son independientes.
(d) fW (w) = P(J = 1)fX2 (w) + P(J = 2)fX1 (w).
(e) U y W son independientes.
Demostraci
on. Primero observamos que para cada u > 0 el evento {J = 1, U > u} equivale
al evento {X2 X1 > u}. En consecuencia,
Z
Z
Z
x1
2 x2
1 ex1 e2 x1 dx1
1 e
2 e
dx2 dx1 =
P(J = 1, U > u) =
u
u
Z x1
1
(1 + 2 )e(1 +2 )x1 dx1
=
1 + 2 u
1
=
e(1 +2 )u .
(42)
1 + 2
De (42) se deducen (a), (b) y (c).
Si g : {(u, v) : 0 < u < v} {(u, w) : u > 0, w > 0} es la funcion definida por
g(u, v) = (u, v u), tenemos que (U, W ) = g(U, V ). La funcion g es biyectiva y su inversa
h(u, w) = (u, u + w) tiene jacobiano identicamente igual a 1. Aplicar el metodo del jacobiano
del Corolario 2.7 obtenemos:
fU,W (u, w) = fU,V (u, u + w).
Por el Ejemplo 2.14 sabemos que la densidad conjunta de U y V es
fU,V (u, v) = 1 2 e(1 u+2 v) + e(1 v+2 u) 1{0 < u < v}.
18
(43)
(44)
2 e
+
1 e
1{w > 0}.
1 + 2
1 + 2
(45)
Ejercicios adicionales
7. Un avi
on tiene dos motores cada uno de los cuales funciona durante un tiempo exponencial de media 10 horas independientemente del otro. El avi
on se mantiene volando mientras
funcione alguno de sus motores. Calcular la probabilidad de que el avion se mantenga volando
durante m
as de cinco horas despues de que dej
o de funcionar un motor.
8. Una cueva sera iluminada por dos l
amparas L1 y L2 cuyas duraciones (en horas) son independientes y tienen distribuciones exponenciales de medias 8 y 10, respectivamente. Sabiendo
que desde que se apago una l
ampara la cueva se mantuvo iluminada durante m
as de una hora
calcular la probabilidad de que se haya apagado primero la l
ampara L2 .
4.
Definici
on 4.1. Una funci
on g se dice regular si existen n
umeros < a1 < a0 < a1 < ,
con ai y ai , tales que g es continua y mon
otona sobre cada intervalo (ai , ai+1 ).
Ejemplo 4.2. La funcion sen x es regular; todos los polinomios son funciones regulares. Un
ejemplo de una funcion que no es regular es 1{x Q}.
Teorema 4.3. Sean X1 , . . . , Xn variables aleatorias independientes. Si g1 , . . . , gn son funciones regulares, entonces g1 (X1 ), . . . , gn (Xn ) son variables aleatorias independientes.
Demostraci
on. Para simplificar la prueba supondremos que n = 2. De la regularidad de
las funciones g1 y g2 se deduce que para todo y R podemos escribir
A1 (y) := {x : g1 (x) y} = i A1,i (y)
XX
i
X
i
X
j
5.
Bibliografa consultada
Para redactar estas notas se consultaron los siguientes libros:
1. Durrett R.:Probability. Theory and Examples. Duxbury Press, Belmont. (1996).
2. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 2. John
Wiley & Sons, New York. (1971).
3. James, B. R.: probabilidade: um curso em nvel intermediario. IMPA, Rio de Janeiro.
(2002).
4. Meester, R.: A Natural Introduction to Probability Theory. Birkhauser, Berlin. (2008).
5. Meyer, P. L.: Introductory Probability and Statistical Applications. Addison-Wesley,
Massachusetts. (1972).
6. Ross, S.: Introduction to Probability Models. Academic Press, San Diego. (2007)
7. Soong, T. T.: Fundamentals of Probability and Statistics for Engineers. John Wiley &
Sons Ltd. (2004).
20
Condicionales
(Borradores, Curso 23)
Sebastian Grynberg
8-10 de abril 2013
Si no se espera,
no se encontrar
a lo inesperado,
pues el sendero que a ello conduce
es inaccesible
(Heraclito.)
Indice
1. Condicionales
1.1. Caso discreto . . . . . .
1.2. Mezclas . . . . . . . . .
1.3. Sobre la regla de Bayes
1.4. Caso continuo . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
2
4
5
7
2. Predicci
on y Esperanza condicional
2.1. Ejemplos . . . . . . . . . . . . . . . . . . . . . .
2.1.1. Caso continuo . . . . . . . . . . . . . . . .
2.1.2. Regla de Bayes para mezclas . . . . . . .
2.1.3. Caso discreto . . . . . . . . . . . . . . . .
2.2. Propiedades . . . . . . . . . . . . . . . . . . . . .
2.3. Ejemplo: sumas aleatorias de variables aleatorias
2.4. Ejemplo: esperanza y varianza de una mezcla. . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
10
12
12
12
13
14
16
17
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3. Predicci
on lineal y coeficiente de correlaci
on
18
4. Bibliografa consultada
20
1.
1.1.
Condicionales
Caso discreto
Sean X e Y dos variables aleatorias discretas definidas sobre un mismo espacio de probabilidad (, A, P). Fijemos un valor x R tal que pX (x) > 0. Usando la nocion de probabilidad
condicional podemos definir la funci
on de probabilidad condicional de Y dado que X = x,
mediante
pY |X=x (y) := P(Y = y|X = x) =
pX,Y (x, y)
P(X = x, Y = y)
=
.
P(X = x)
pX (x)
(1)
Funci
on de distribuci
on condicional de Y dado que X = x. La funci
on de distribuci
on
condicional de Y dado que X = x se define por
X
X
FY |X=x (y) := P(Y y|X = x) =
P(Y = z|X = x) =
pY |X=x (z).
(2)
zy
zy
0
0
3/15
3/15
6/15
1
2/15
6/15
0
8/15
2
1/15
0
0
1/15
pX
3/15
9/15
3/15
0
0
1/3
1
1
2/3
2/3
0
2
1/3
0
0
Notar que la funcion de probabilidad condicional obtenida es diferente de la correspondiente a la marginal de Y , pY (y). Del Cuadro 2 y la definicion (3) se deduce que
4
2
E[Y |X = x] = 1{x = 0} + 1{x = 1}.
3
3
(4)
Nota Bene. Observar que en general la funcion de probabilidad condicional pY |X=x (y) es
diferente de la funcion de probabilidad pY (y). Esto indica que se pueden hacer inferencias
sobre los valores posibles de Y a partir de los valores observados de X y viceversa; las dos
variables son (estocasticamente) dependientes. M
as adelante veremos algunas maneras de
hacer este tipo de inferencias.
1.2.
Mezclas
Definici
on 1.2 (Mezcla). Sea (, A, P) un espacio de probabilidad. Sea M : R una
variable aleatoria discreta tal que M () = M y pM (m) = P(M = m) > 0 para todo m M.
Sea (Xm : m M) una familia de variables aleatorias definidas sobre el mismo espacio de
probabilidad (, A, P) e independiente de M . En tal caso, la variable aleatoria X := XM
esta bien definida y se llama la mezcla de las variables Xm obtenida mediante la variable
mezcladora M .
Nota Bene. La distribucion de probabilidades de M indica la proporci
on en que deben
mezclarse las variables Xm : para cada m M, la probabilidad pM (m) representa la proporci
on con que la variable Xm participa de la mezcla XM .
C
alculo de la funci
on de distribuci
on. La funcion de distribucion de la mezcla X se
obtiene utilizando la formula de probabilidad total:
X
FX (x) = P(XM x) =
P(XM x|M = m)P(M = m)
mM
mM
mM
(5)
mM
Ejemplo 1.3. Para simular los valores de una variable aleatoria X se recurre al siguiente algoritmo: se simula el valor de un variable aleatoria M con distribucion Bernoulli de par
ametro
p = 1/5. Si M = 0, se simula el valor de una variable aleatoria X0 con distribucion uniforme
sobre el intervalo (0, 4). Si M = 1, se simula el valor de una variable aleatoria X1 con distribuci
on uniforme sobre el intervalo (2, 6). Se quiere hallar la densidad de probabilidades de
la variable X as simulada.
La variable X es una mezcla. La variable mezcladora es M y las variables aleatorias que
componen la mezcla son X0 y X1 1. Por hip
otesis, la variable mezcladora M se distribuye de
acuerdo con la funcion de probabilidad pM (0) = 4/5, pM (1) = 1/5 y las distribuciones de las
variables componentes son X0 U(0, 4) y X1 U(2, 6). En otras palabras, las densidades de
las variables componente son fX0 (x) = 14 1{0 < x < 4} y fX1 (x) = 41 1{2 < x < 6}. Usando la
formula de probabilidad total (7) se obtiene la densidad de la mezcla X
4 1
1 1
fX (x) = pM (0)fX0 (x) + pM (1)fX1 (x) =
1{0 < x < 4} +
1{2 < x < 6}
5 4
5 4
5
1
4
1{0 < x 2} + 1{2 < x < 4} + 1{4 x < 6}.
(8)
=
20
20
20
1.3.
P(X = x, M = m)
0
= .
P(X = x)
0
x+h
xh
(h) Bh (x).
(9)
y la probabilidad condicional del evento {M = m}, dado que ocurrio el evento {X Bh (x)}
esta bien definida y vale
P(M = m|X Bh (x)) =
Por otra parte,
P(M = m, X Bh (x))
.
P(X Bh (x))
para alg
un m (h) Bh (x). De (9) y (10) se deduce que
P (M = m|X Bh (x)) =
pM (m)fXm (m (h))
fX ((h))
(11)
h0
lm
h0
pM (m)fXm (m (h))
pM (m)fXm (x)
=
.
fX ((h))
fX (x)
(12)
Finalmente, para cada x R tal que fX (x) > 0 definimos P(M = m|X = x) mediante la
formula
P(M = m|X = x) :=
pM (m)fXm (x)
.
fX (x)
(13)
1
2
fX1 (x) = e(z1) /2 .
2
ex
e(x1) /2
pY (1)fX1 (x)
=
= (x1)2 /2
.
P(Y = 1|X = x) =
2
fX (x)
ex + ex
e
+ e(x+1) /2
(14)
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
4
Figura 1: Gr
afico de la probabilidad condicional P(Y = 1|X = ) : R R vista como funcion
de x.
1.4.
Caso continuo
x+h
xh
1 (h) Bh (x).
x+h Z y
xh
Z
fX,Y (s, t)dt ds = 2h
h0
Ry
fX (x)
(15)
(16)
fY |X=x (y) :=
(17)
F
ormula de probabilidad total.
convexa de las condicionales:
fY (y) =
Inmediato de la relaci
on conjunta = marginal condicional. Integrando respecto de y se
obtiene que la funcion de distribucion de Y es una combinacion convexa de las condicionales:
Z y Z
Z y
fY |X=x (t)fX (x)dx dt
fY (t)dt =
FY (y) =
Z Z y
Z
=
fY |X=x (t)dt fX (x)dx =
FY |X=x (y)fX (x)dx.
Varianza condicional
En cualquier caso, definidas las esperanzas condicionales de Y y de Y 2 dado que X = x,
la varianza condicional de Y dado que X = x se define mediante
h
i
V(Y |X = x) := E (Y E[Y |X = x])2 |X = x
(19)
Desarrollando el termino derecho se obtiene
(20)
1 x2
1 x2
h
i
La densidad conjunta de X e Y es fX,Y (x, y) = 1 1{x2 +y 2 1}. Por definicion, para cada
x [1, 1], la densidad condicional de Y dado que X = x es el cociente entre la densidad
conjunta fX,Y (x, y) y la densidad marginal de X
2 1 x2
fX (x) =
1{x [1, 1]}.
Por lo tanto,
p
p
1
1{ 1 x2 y 1 x2 }.
fY |X=x (y) =
2 1 x2
(21)
2.
p
V(Y |X = x) = (2 1 x2 )2 /12 = (1 x2 )/3.
Predicci
on y Esperanza condicional
10
(22)
Esperanza condicional
Sean X e Y dos variables aleatorias definidas sobre un mismo espacio de probabilidad
(, A, P). Supongamos que E[|Y |] < . Definimos la esperanza condicional de Y dada X,
E[Y |X], como cualquier variable aleatoria de la forma (X), donde : R R es una funcion
(medible), que solucione la ecuaci
on funcional (22).
Existencia. La existencia de la esperanza condicional depende de teoremas profundos de
Teora de la medida y no sera discutida en estas notas. El lector interesado puede consultar
Billingsley(1986) y/o Durrett(1996).
Unicidad. Supongamos que (X) y (X) son dos soluciones de la ecuaci
on funcional (22).
Entonces, (X) = (X) cas seguramente (i.e., P((X) 6= (X)) = 0).
Demostraci
on. Por cuestiones de simetra, la prueba se reduce a mostrar que para cada
> 0, P(A ) = 0, donde A := {(X) (X) }. Observar que, por hip
otesis, para
toda funcion medible y acotada h : R R vale que E[(X)h(X)] = E[(X)h(X)] o lo
que es equivalente E[((X) (X))h(X)] = 0. Poniendo h(X) = 1{X A } tenemos que
0 = E[((X) (X))1{X A }] E[1{X A }] = P(A ). Por lo tanto, P(A ) = 0.
Lema 2.2 (Tecnico). La esperanza condicional satisface E[|E[Y |X]|] E[|Y |].
Demostraci
on. La variable aleatoria (X) satisface la ecuaci
on (22). Poniendo h(X) =
1{(X) > 0} y usando (22) se obtiene
E[(X)1{(X) > 0}] = E[Y 1{(X) > 0}] E[|Y |].
An
alogamente se puede ver que E[(X)1{(X) 0}] = E[Y 1{(X) 0}] E[|Y |]. Por
lo tanto,
E[|(X)|] = E[(X)1{(X) > 0} (X)1{(X) 0}]
(23)
(24)
Demostraci
on. La formula de probabilidad total se deduce de la ecuaci
on (22) poniendo
h(X) 1. La identidad (24) se obtiene observando que g(X)E[Y |X] es una funcion de X que
soluciona la ecuaci
on E[g(X)E[Y |X]h(X)] = E[(g(X)Y )h(X)]. Si X e Y son independientes
E[Y h(X)] = E[Y ]E[h(X)] = E[E[Y ]h(X)].
2.1.
2.1.1.
Ejemplos
Caso continuo
Sean X e Y dos variables aleatorias continuas definidas sobre un mismo espacio de probabilidad (, A, P) con densidad de probabilidades conjunta fX,Y (x, y) y E[|Y |] < . La
esperanza condicional de Y dada X es E[Y |X] = (X), donde : R R es la funcion de
regresion de Y sobre X definida por
Z
yfY |X=x (y)dy.
(25)
(x) := E[Y |X = x] =
Demostraci
on. Basta ver (X) verifica la ecuaci
on funcional (22) para cualquier funci
on
h medible y acotada.
Z
Z
E[Y |X = x]h(x)fX (x)dx
(x)h(x)fX (x)dx =
E[(X)h(X)] =
Z Z
yfY |X=x (y)dy h(x)fX (x)dx
=
Z Z
yh(x)fY |X=x (y)fX (x)dxdy
=
Z Z
yh(x)fX,Y (x, y)dxdy = E[Y h(X)].
=
2.1.2.
Volvamos el Ejemplo 2.1 la pregunta es Que puede hacer el receptor para reconstruir la
se
nal original, Y , a partir de la se
nal corrompida X? Lo mejor que puede hacer es estimar
Y mediante la esperanza condicional E[Y |X]. El receptor recibe la mezcla de dos variables
aleatorias X|Y = 1 N (1, 2 ) e X|Y = 1 N (1, 2 ), mezcladas en igual proporci
on:
pY (1) = pY (1) = 1/2. Las densidades de las componentes de la mezcla son
fX|Y =1 (x) =
1
2
2
e(x+1) /2
2
fX|Y =1 (x) =
1
2
2
e(x1) /2 .
2
e
e
+
.
=
2
2
2
2
12
(26)
Para construir la esperanza condicional E[Y |X] el receptor debe calcular la funcion de regresion (x) = E[Y |X = x] = 1P(Y = 1|X = x) 1P(Y = 1|X = x). Que de acuerdo con la
regla de Bayes para mezclas adopta la forma
2
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
0.2
0.2
0.4
0.4
0.6
0.6
0.8
0.8
1
4
1
2
1.5
0.5
(a)
0.5
1.5
(27)
(b)
Caso discreto
Sean X e Y dos variables aleatorias discretas definidas sobre un mismo espacio de probabilidad (, A, P),con funcion de probabilidad conjunta pX,Y (x, y) y E[|Y |] < . Para simplificar
la exposicion supongamos que Sop(pX ) = X(). En tal caso, la esperanza condicional de Y
dada X es E[Y |X] = (X), donde : R R es la funcion de regresion de Y sobre X definida
por
X
ypY |X=x (y)
(28)
(x) := E[Y |X = x] =
yY ()
Demostraci
on. Basta ver (X) verifica la ecuaci
on funcional (22) para cualquier funci
on
h medible y acotada.
X
X
E[(X)h(X)] =
(x)h(x)pX (x) =
E[Y |X = x]h(x)pX (x)
x
X X
x
XX
x
XX
13
Ejemplo 2.3 (F
ormula de probabilidad total). Una rata esta atrapada en un laberinto.
Inicialmente puede elegir una de tres direcciones. Si elige la primera se perdera en el laberinto
y luego de 4 minutos volvera a su posicion inicial; si elige la segunda volvera a su posicion inicial
luego de 7 minutos; si elige la tercera saldra del laberinto luego de 3 minutos. Suponiendo que
en cada intento, la rata elige con igual probabilidad cualquiera de las tres direcciones, cu
al es
la esperanza del tiempo que demora en salir del laberinto?
Sean Y la cantidad de tiempo que demora la rata en salir del laberinto y sea X la direccion
que elige inicialmente. Usando la formula de probabilidad total puede verse que
E[Y ] = E[E[Y |X]] =
3
X
x=1
E[Y |X = x]P(X = x) =
1X
E[Y |X = x]
3
x=1
1
1
(4 + E[Y ] + 7 + E[Y ] + 3) = (2E[Y ] + 14) .
3
3
2.2.
Propiedades
Monotona.
Desigualdad de Jensen.
entonces
(29)
(30)
Definici
on 2.4 (Varianza condicional). Sean X e Y dos variables aleatorias definidas sobre
el mismo espacio de probabilidad (, A, P). Si E[Y 2 ] < , la varianza condicional de Y dada
X, V(Y |X), se define por
V(Y |X) := E[Y 2 |X] E[Y |X]2
14
(31)
Predicci
on
Existen diversas maneras en las que dos variables pueden
p considerarse cercanas entre s.
Una manera es trabajar con la norma dada por kXk := E[X 2 ] y definir la distancia entre
dos variables aleatorias X e Y , d(X, Y ) mediante
p
d(X, Y ) := kY Xk = E[(Y X)2 ].
(32)
.
Definici
on 2.5 (Predictor). Sean X e Y variables aleatorias definidas sobre el mismo espacio
de probabilidad (, A, P), tales que E[Y 2 ] < . El predictor de error cuadratico medio mnimo
(o mejor predictor ) de Y dada X es la funcion Y = h(X) de X que minimiza la distancia
d(Y , Y ) definida en (32).
El mejor predictor de Y dada X es una variable aleatoria Y perteneciente al espacio
vectorial H = {h(X) : h : R R, E[h(X)2 ] < } tal que E[(Y Y )2 ] E[(Y Z)2 ] para
toda Z H.
Interpretaci
on geom
etrica. Sea L2 (, A, P) el conjunto de todas la variables aleatorias
definidas sobre (, A, P) que tienen varianza finita. H es un subespacio de L2 (, A, P). Si
Y
/ H entonces el camino m
as corto desde Y hasta H es por la recta ortogonal al subespacio
H que pasa por Y . Por lo tanto, Y debe ser la proyecci
on ortogonal de Y sobre H. En tal caso
Y Y es ortogonal a cualquier vector de H. En otras palabras, hY Y , Zi = 0 para todo
Z H, donde hX, Y i es el producto interno en L2 (, A, P) definido por hX, Y i := E[XY ].
La esperanza condicional E[Y |X] es el mejor predictor de Y basado en X
1) La condici
on E[Y 2 ] < implica que E[Y |X] H:
E[E[Y |X]2 ] E[E[Y 2 |X]] = E[Y 2 ] < .
2) La ecuaci
on funcional (22) significa que Y E[Y |X] H:
hY E[Y |X], h(X)i = 0
Por lo tanto, la esperanza condicional, E[Y |X], satisface las dos condiciones que caracterizan
a la proyecci
on ortogonal sobre el subespacio H y en consecuencia es el predictor de Y basado
en X de menor error cuadratico:
E[Y |X] = arg mn E[(Y h(X))2 ].
h(X)H
La u
ltima igualdad se obtiene desarrollando el cuadrado (Y E[Y |X])2 y usando las
propiedades de la esperanza condicional. (Ejercicio)
15
p
0
E[Y 2 ]
p
V(Y )
E[V(Y |X)]
E[Y ]2
E[Y ]
E[Y |X]
V(E[Y |X])
= kY E[Y |X]k2 + kE[Y |X] E[Y ]k2 = E[V(Y |X)] + V(E[Y |X]).
(33)
2.3.
16
C
alculo de la esperanza por condicionales.
"N
#
" n
#
X
X
E [S|N = n] = E
Xi N = n = E
Xi N = n
= E
"
i=1
n
X
= n.
i=1
Xi
i=1
N
X
i=1
n
X
Xi N = n
Xi
i=1
=V
n
X
i=1
Xi N = n
por la independencia de Xi y N
= n 2 .
2.4.
C
alculo de la esperanza por condicionales. En primer lugar hay que observar que
X|M = m Xm por lo tanto,
X
X
E[X] = E[E[X|M ]] =
E [X|M = m] P(M = m) =
E[Xm ]pM (m).
mM
mM
17
C
alculo de la varianza por condicionales.
X
X
E[V(X|M )] =
V(X|M = m)P(M = m) =
V(Xm )pM (m).
mM
mM
mM
mM
Finalmente,
V(X) =
mM
Nota Bene.
3.
mM
Predicci
on lineal y coeficiente de correlaci
on
Definici
on 3.1 (Predictor lineal). Sean X e Y dos variables aleatorias definidas sobre un
mismo espacio de probabilidad (, A, P), tales que E[X 2 ] < y E[Y 2 ] < . La recta de
regresi
on de Y basada en X es la funcion lineal Y = aX + b que minimiza la distancia
q
d(Y , Y ) = E[(Y Y )2 ].
C
alculo explcito de la recta de regresi
on. El problema consiste en hallar los valores
de a y b que minimizan la siguiente funcion de dos variables
g(a, b) := E[(Y (aX + b))2 ].
Usando tecnicas de calculo diferencial en varias variables el problema se reduce a resolver el
sistema de ecuaciones g = 0. Desarrollando cuadrados se puede ver que
g(a, b)
a
g(a, b)
b
Cov(X, Y )
.
V(X)
Cov(X, Y )
E[X].
V(X)
=
=
Cov(X, Y )
Cov(X, Y )
X + E[Y ]
E[X]
V(X)
V(X)
Cov(X, Y )
(X E[X]) + E[Y ].
V(X)
(34)
Adem
as el error cuadr
atico medio es igual a
donde
E[(Y Y )2 ] = V(Y ) 1 (X, Y )2 ,
(X, Y ) :=
Cov(X, Y )
(X)(Y )
(35)
(36)
Coeficiente de correlaci
on
El coeficiente de correlaci
on definido en (36) es la covarianza de las variables normalizadas
X :=
X E[X]
,
(X)
Y :=
Y E[Y ]
.
(Y )
(37)
Este coeficiente es independiente de los orgenes y unidades de medida, esto es, para constantes
a1 , a2 , b1 , b2 con a1 > 0, a2 > 0, tenemos (a1 X + b1 , a2 Y + b2 ) = (X, Y ).
Desafortunadamente, el termino correlaci
on sugiere implicaciones que no le son inherentes.
Si X e Y son independientes, (X, Y ) = 0. Sin embargo la recproca no es cierta. De hecho,
el coeficiente de correlaci
on (X, Y ) puede anularse incluso cuando Y es funci
on de X.
Ejemplo 3.2.
1. Sea X una variable aleatoria que toma valores 1, 2 cada uno con probabilidad
sea Y = X 2 . La distribucion conjunta esta dada por
1
4
4.
Bibliografa consultada
Para redactar estas notas se consultaron los siguientes libros:
1. Billingsley, P.: Probability and measure. John Wiley & Sons, New York. (1986)
2. Bertsekas, D. P., Tsitsiklis, J. N.: Introduction to Probability. M.I.T. Lecture Notes.
(2000)
3. Durrett R.:Probability.Theory and Examples. Duxbury Press, Belmont. (1996)
4. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. John
Wiley & Sons, New York. (1957)
5. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 2. John
Wiley & Sons, New York. (1971)
6. Maronna R.: Probabilidad y Estadstica Elementales para Estudiantes de Ciencias. Editorial Exacta, La Plata. (1995)
7. Ross, S.: Introduction to Probability Models. Academic Press, San Diego. (2007)
20
En la buena te encontre
y en la mala te perd ...
(Enrique Cadcamo)
Indice
1. Ensayos Bernoulli
1.1. La distribucion binomial: cantidad de exitos en n ensayos . . . . .
1.2. Termino central . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3. La distribucion geometrica: tiempo de espera hasta el primer exito
1.4. La distribucion Pascal: tiempo de espera hasta el k-esimo exito . .
1.5. La distribucion multinomial . . . . . . . . . . . . . . . . . . . . . .
1.6. j Miscelanea de ejemplos . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
3
4
6
6
8
9
10
2. La distribuci
on de Poisson
2.1. Motivaci
on: Aproximacion de Poisson de la distribucion binomial . . . . . . .
2.2. La distribucion Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
12
14
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
16
20
20
21
21
22
24
1.
Ensayos Bernoulli
Ejemplo 1.1. Si repetimos en forma independiente un experimento aleatorio y estamos interesados en la ocurrencia del evento A al que consideramos exito, tenemos ensayos Bernoulli
con p = P(A).
Modelando ensayos Bernoulli. Los ensayos Bernoulli (con probabilidad de exito p) se
describen mediante una sucesion de variables aleatorias independientes e identicamente distribuidas (Xi : i N) cada una con distribucion Bernoulli(p),
P(Xi = xi ) = pxi (1 p)1xi ,
xi {0, 1}.
(1)
n
X
i=1
Xi .
(2)
(3)
(4)
1.1.
La distribuci
on binomial: cantidad de
exitos en n ensayos
La cantidad de exitos puede ser 0, 1, . . . , n. El primer problema es determinar las correspondientes probabilidades. El evento en n ensayos resultaron k exitos y n k fracasos
(
)
n
X
(X1 , . . . , Xn ) = (x1 , . . . , xn ) :
xi = k
i=1
i=1
= p (1 p)nk .
Por lo tanto,
P(Sn = k) =
n k
p (1 p)nk
k
0 k n.
(5)
1.2.
T
ermino central
=
=
n
k
n
k1
k
p (1 p)nk
(k 1)!(n k + 1)!p
=
k1
nk+1
k!(n k)!(1 p)
p (1 p)
(n + 1)p k
(n k + 1)p
=1+
.
k(1 p)
k(1 p)
(6)
De (6) se deduce que P(Sn = k) crece cuando k < (n + 1)p y decrece cuando k > (n + 1)p. Si
(n + 1)p es un n
umero entero, entonces P(Sn = (n + 1)p) = P(Sn = (n + 1)p 1). En otras
palabras, la cantidad m
as probable de exitos en n ensayos es m := [(n + 1)p]. Salvo en el caso
en que m = (n + 1)p, donde tambien lo es m 1.
Cuando p = 12 el resultado anterior se puede observar directamente en el tri
angulo de
Pascal: en el centro de las filas pares esta el m
aximo. En la regi
on central de las filas impares
hay dos m
aximos.
Ejemplo 1.6. Se tira un dado equilibrado n veces y en cada tiro se apuesta al 6. Cual es la
cantidad m
as probable de exitos cuando n = 12? y cuando n = 11?
La cantidad de exitos tiene distribucion Binomial (n, p), donde p = 1/6. Cuando n = 12,
(n + 1)p = 13/6 = 2.16... y entonces la cantidad m
as probable de exitos es m = 2. Cuando
n = 11, (n + 1)p = 2 y entonces la cantidad m
as probable de exitos es m = 1 o m = 2.
1.3.
La distribuci
on geom
etrica: tiempo de espera hasta el primer
exito
El tiempo que hay que esperar para observar el primer exito en una sucesion de ensayos
Bernoulli puede ser n = 1, 2, . . . . El evento T1 = 1 significa que se obtuvo exito en el primer
ensayo y tiene probabilidad p. Para cada n 2, el evento T1 = n significa que en los primeros
n 1 ensayos se obtuvieron fracasos y que en el n-esimo se obtuvo exito, lo que tiene probabilidad (1 p)n1 p. Por lo tanto, la distribucion de T1 es
P(T1 = n) = (1 p)n1 p,
n N.
(7)
El evento T1 > n significa que los primeros n ensayos de la sucesion resultaron fracaso. Por
lo tanto,
P(T1 > n) = (1 p)n ,
n 1.
(8)
{TA > n}
n1
\
P(TA = ) = P {TA > n} = lm P(TA > n) = lm (1 p)n = 0.
n
n1
n, m N
(9)
(10)
De (10) sigue que G(2) = G(1)G(1) = G(1)2 , G(3) = G(2)G(1) = G(1)3 y en general
G(n) = G(1)n cualquiera sea n N. En otros terminos, la distribucion de T es tal que
P(T > n) = G(1)n .
Por lo tanto,
P(T = n) = P(T > n 1) P(T > n) = G(1)n1 G(1)n = G(1)n1 (1 G(1)).
1.4.
La distribuci
on Pascal: tiempo de espera hasta el k-
esimo
exito
Basta ver que para cada i = 1, . . . , k las diferencias Ti Ti1 son independientes y todas se
distribuyen como T1 Geometrica(p). De acuerdo con la regla del producto
P ki=1 {Ti Ti1 = mi }
= P(T1 = m1 )
n1
Y
i=2
P Ti Ti1 = mi | i1
{T
T
=
m
}
. (12)
j
j1
j
j=1
k
Y
P ki=1 {Ti Ti1 = mi } =
(1 p)mi 1 p.
(14)
i=1
De la factorizaci
on (14) se deduce que T1 , T2 T1 , . . . , Tk Tk1 son independientes y que
cada una tiene distribucion geometrica de par
ametro p.
Ejemplo 1.10. Lucas y Monk disputan la final de un campeonato de ajedrez. El primero
que gane 6 partidas (no hay tablas) resulta ganador. La probabilidad de que Lucas gane
cada partida es 3/4. Cual es la probabilidad de que Lucas gane el campeonato en la novena
partida? La cantidad de partidas que deben jugarse hasta que Lucas gane el campeonato tiene
distribucion Pascal(6, 3/4). Por lo tanto, la probabilidad requerida es
6 3
3
8
1
= 0.1557 . . .
5
4
4
Ejemplo 1.11. En una calle hay tres parqumetros desocupados. Se estima que en los proximos 10 minutos pasaran 6 coches por esa calle y, en media, el 80 % tendr
a que estacionarse
en alguno de ellos. Calcular la probabilidad de que los tres parqumetros sean ocupados en
los proximos 10 minutos.
La probabilidad requerida es la probabilidad de que la cantidad, N , de ensayos hasta el
tercer exito sea menor o igual que 6. Como N tiene distribucion Pascal(3, 0.8) resulta que
6
X
n1
P(N = n) =
(0.8)3 (0.2)n3
P(N 6) =
2
n=3
n=3
2
3
4
5
3
0
1
2
3
= (0.8)
(0.2) +
(0.2) +
(0.2) +
(0.2)
2
2
2
2
= (0.8)3 1 + 3(0.2) + 6(0.2)2 + 10(0.2)3
6
X
= 0.983 . . .
Notar que una forma alternativa de obtener el mismo resultado es sumar las probabilidades
de observar 3, 4, 5, 6 exitos en 6 ensayos Bernoulli.
Relaci
on entre las distribuciones Binomial y Pascal.
Tk Pascal(k, p). Vale que
Sean Sn Binomial(n, p) y
(15)
En efecto, decir que en n ensayos Bernoulli ocurren por lo menos k exitos es lo mismo que
decir que el tiempo de espera hasta observar el k-esimo exito no supera a n.
1.5.
La distribuci
on multinomial
n!
r
pm1 pm2 pm
r ,
m1 !m2 ! mr ! 1 2
(16)
1.6.
j Miscel
anea de ejemplos
Observaci
on 1.12 (Desarrollo de Taylor). Para todo x (0, 1) vale que
X n + k
1
xn .
=
k
(1 x)k+1
(17)
n0
Ejemplo 1.13 (Variable compuesta). Sean N1 ; X1 , X2 , . . . una sucesion de variables aleatorias independientes. Supongamos que N1 Geometrica(p1 ) y que Xi Bernoulli(p2 ), i 1.
Entonces,
N2 =
NX
1 1
Xi Geometrica
i=1
p1
p1 + p2 (1 p1 )
1.
(18)
X n 1
pk2 (1 p2 )n1k (1 p1 )n1 p1
=
k
nk+1
X m + k
=
pk2 (1 p2 )m (1 p1 )m+k p1
k
m0
X n + k
k
= (p2 (1 p1 )) p1
[(1 p1 )(1 p2 )]m .
k
(19)
m0
1
(1 (1 p1 )(1 p2 ))k+1
1
.
(p1 + p2 (1 p1 ))k+1
(20)
p2 (1 p1 )
p1 + p2 (1 p1 )
k
p1
p1 + p2 (1 p1 )
(21)
una variable aleatoria auxiliar N que cuenta la cantidad de ensayos que deben realizarse hasta
obtener por primera vez un fracaso y usaremos la identidad E[Ym ] = E[E[Ym |N ]].
Observando que
n + Ym si n m,
Ym |N = n
m
si n > m,
obtenemos la expresi
on de la funcion de regresion
n + E[Ym ] si n m,
(n) = E[Ym |N = n] =
m
si n > m.
En consecuencia, E[Ym |N ] = N 1{N m} + E[Ym ]1{N m} + m1{N > m}, de donde se
deduce que E[Ym ] = E[N 1{N m}] + E[Ym ]P(N m) + mP(N > m). Equivalentemente,
E[Ym ] =
(22)
Debido a que N 1{N m} = N N 1{N > m} el primer termino del lado derecho de la
igualdad (22) se puede expresar de siguiente forma
E[N 1{N m}]
P(N > m)
=
=
(23)
La u
ltima igualdad se deduce de la propiedad de perdida de memoria de la distribucion
Geometrica. De N |N > m m + N , resulta que E[N |N > m] = m + E[N ].
Combinando (22) y (23) obtenemos
E[Ym ] =
E[N ]
E[N ]P(N m)
1 pm
E[N ] =
=
.
P(N > m)
P(N > m)
(1 p)pm
(24)
Ejemplo 1.15 (Coleccionista I). Sea M una variable aleatoria a valores 1, 2, . . . , m. Sea
(Mn : n N) una sucesion de variables aleatorias independientes tal que Mn M para
todo n N. Sea K = mn{n m : {M1 , . . . , Mn } = {1, 2, . . . , m}} el tama
no de muestra
mnimo que se necesita para coleccionar todos los valores 1, 2, . . . , m. En lo que sigue vamos
a calcular E[K] mediante condicionales. Introducimos un elemento aleatorio C que indica el
orden en que se obtuvieron los valores 1, 2, . . . , m y usamos la identidad E[K] = E[E[K|C]].
Sea S(m) al conjunto de todas las permutaciones de los n
umeros 1, 2, . . . , m. Para cada
permutaci
on = (1 , 2 , . . . , m ) S(m) vale que:
P(C = ) =
m1
Y
k=1
P(M = k )
Pm
.
i=k P(M = i )
m1
X
N (i : 1 1 k),
k=1
11
Pm
donde N (i : 1 i k) Geometrica
i=k+1 P(M = i ) . Por lo tanto,
X
E[K] =
E[K|C = ]P(C = )
S(m)
1+
m1
X
k=1
S(m)
1
Pm
i=k+1 P(M = i )
! m1
Y
k=1
P(M = k )
Pm
.
i=k P(M = i )
(25)
En el caso particular en que P(M = i) = 1/m para todo i {1, 2, . . . , m} tenemos que
! m1
m1
X
X
Y
1
1/m
Pm
Pm
1+
E[K] =
i=k+1 1/m
i=k 1/m
k=1
k=1
S(m)
!
m1
m
m1
X
X
X
1
1
1
1
Pm
Pm
= m! 1 +
=m
=
.
(26)
m!
i
i=k+1 1/m
i=k+1 1/m
k=1
i=1
k=0
Ejemplo 1.16 (Coleccionista II). Sea X1 , X2 , . . . una sucesion de variables aleatorias independientes e identicamente distribuidas aPvalores 1, 2, . . . , r. Sea Nr = mn{n 1 : Xn = r}.
Nr 1
Para cada i = 1, . . . , r 1 sea Mi =
on de
n=1 1{Xn = i}. Queremos hallar la funci
probabilidad de Mi .
Por definicion Nr Geometrica(pr ) y Mi |Nr = n Binomial n 1, pi (1 pr )1 . De
acuerdo con el Ejemplo 1.13 tenemos que
pr
pr
Mi Geometrica
1.
1 = Geometrica
pr + pi (1 pr )1 (1 pr )
pr + pi
En particular, E[Mi ] = pi /pr y V(Mi ) = pi (pr + pi )/p2r .
2.
2.1.
La distribuci
on de Poisson
Motivaci
on: Aproximaci
on de Poisson de la distribuci
on binomial
En diversas aplicaciones tenemos que tratar con ensayos Bernoulli donde, para decirlo
de alg
un modo, n es grande y p es peque
no, mientras que el producto = np es moderado. En tales casos conviene usar una aproximacion de las probabilidades P(Sn = k), donde
Sn Binomial(n, p) y p = /n. Para k = 0 tenemos
n
n
.
(27)
P(Sn = 0) = (1 p) = 1
n
Tomando logaritmos y usando el desarrollo de Taylor,
1
1
1
log(1 t) = t t2 t3 t4 ,
2
3
4
se obtiene
2
2n
(28)
(29)
donde el signo se usa para indicar una igualdad aproximada (en este caso de orden de
magnitud 1/n). M
as a
un, usando la identidad (6) se puede ver que para cada k fijo y n
suficientemente grande
P(Sn = k)
(n k + 1)p
=
.
P(Sn = k 1)
k(1 p)
k
(30)
2
P(Sn = 2)
P(Sn = 1)
e ,
2
2
y en general
P(Sn = k)
k
e .
k!
(31)
0.3
0.25
0.2
0.15
0.1
0.05
10
Figura 1: Comparaci
on. Funciones de probabilidad de las distribuciones Binomial(10, 1/5)
(bolita negra) y Poisson(2) (cuadradillo vaco).
P(Sn = k) =
(1 p)nk
e .
k
k! 1 p
k!
13
Ejemplo 2.1 (Artculos defectuosos). Una industria produce tornillos. Supongamos que la
probabilidad de que un tornillo resulte defectuoso sea p = 0.015, entonces la probabilidad de
que una caja de 100 tornillos no contenga ninguno defectuoso es (0.985)100 = 0.2206... La
aproximacion de Poisson es e1.5 = 0.2231... y es suficientemente proxima para la mayora de
los prop
ositos practicos. Si se pregunta: Cuantos tornillos debera contener la caja para que la
probabilidad de encontrar al menos 100 tornillos sin defectos sea 0.8 o mejor? Si 100 + x es el
n
umero buscado, entonces x es un n
umero peque
no. Para aplicar la aproximacion de Poisson
para n = 100 + x ensayos debemos poner = np, pero np es aproximadamente 100p = 1.5.
Buscamos el menor entero x para el cual
1.5
(1.5)x
1.5
e
1+
+
0.8
(32)
1
x!
Para x = 1 el valor del lado izquierdo de la inecuacion (32) es aproximadamente 0.558, para
x = 2 es aproximadamente 0.809. Por lo tanto, la aproximacion de Poisson permite concluir
que se necesitan 102 tornillos. En realidad la probabilidad de encontrar al menos 100 tornillos
sin defectos en una caja de 102 es 0.8022 . . . .
2.2.
La distribuci
on Poisson
Sea > 0. Una variable aleatoria N tiene distribucion Poisson() si sus posibles valores
son los enteros no negativos y si
P(N = n) = e
n
,
n!
n = 0, 1, . . .
(33)
xn
n=0 n!
El rasgo m
as importante de la distribucion Poisson es su aditividad.
n
X
m=0
n
X
m=0
P(N1 = m, N2 = n m) =
m
1 1 2
m!
2nm
=
(n m)!
(1 + 2
= e(1 +2 )
n!
)n
14
n
X
P(N1 = m)P(N2 = n m)
m=0
(
e 1 +2 )
n!
n
X
n m nm
m 1 2
m=0
Nota Bene. El resultado del Teorema 2.2 se extiende por induccion a la suma de una
cantidad finita de variables aleatorias independientes con distribucion Poisson.
Teorema 2.3 (Competencia). Sean N1 , N2 , . . . , Nm variables aleatorias independientes, cada
Nj con distribuci
on Poisson de media j , respectivamente. Sea S = N1 + + Nm . Entonces,
para cada n 1 vale que
1 2
m
(N1 , N2 , . . . , Nm )|S = n M ultinomial n, , , . . . ,
,
P
donde = j j . En particular,
P(Nj = 1|S = 1) =
j
.
Demostraci
on. La suma S = N1 + +Nm tiene distribucion Poisson de media =
y entonces siempre que n1 + + nm = n,
P(N1 = n1 , . . . , Nm = nm |S = n) =
=
=
j ;
P(N1 = n1 , . . . , Nm = nm )
P(S = n)
nj !,
n
Y
j j
e
e
nj !
n!
j
Y j nj
n!
.
n1 !n2 ! nm !
Nota Bene. En el caso particular n = 2, el resultado del Teorema 2.3 se reduce a que,
si N1 y N2 son variables aleatorias independientes con distribucion Poisson de medias 1 y
2 , respectivamente, entonces, dado que N1 + N2 = n, la distribucion condicional de N1 es
1
Binomial(n, p), donde p = 1+
.
2
Teorema 2.4 (Adelgazamiento). Sea N una variable aleatoria Poisson de media . Sea M
una variable aleatoria tal que
M |N = n Binomial(n, p).
Entonces, M y N M son variables aleatorias independientes con distribuci
on Poisson de
medias p y (1 p), respectivamente.
Demostraci
on. Sean m, k 0
P(M = m, N M = k) = P(M = m, N M = k|N = m + k)P(N = m + k)
= P(M = m|N = m + k)P(N = m + k)
m+k m
m+k
k
=
p (1 p) e
(m + k)!
m
m
k
p (p)
(1p) ((1 p))
=
e
e
.
m!
k!
15
Ejercicios adicionales
1. Sea N una variable aleatoria con distribucion Poisson de media . Mostrar que
P(N = n) =
P(N = n 1),
n
n = 1, 2, . . .
Usar ese resultado para encontrar el valor de n para el cual P(N = n) es maximal.
2.
Se lanza una moneda una cantidad aleatoria N de veces, donde N tiene distribucion
Poisson. Sean N1 y N2 la cantidad de total de caras y de cecas observadas, respectivamente.
Mostrar que las variables aleatorias N1 y N2 son independientes y que tienen distribucion
Poisson.
3. Sea X1 , X2 , . . . una sucesion de variables aleatorias
Pnindependientes, cada una con distribuci
on Bernoulli(p). Para cada n 1 se define Sn := i=1 Xi . Por convencion, S0 := 0. Sea N
una variable aleatoria con distribucion Poisson(). Mostrar que SN Poisson(p).
2.3.
e La aproximaci
on Poisson. (T
ecnica de acoplamiento)
En lo que sigue mostraremos que cuando se consideran una gran cantidad de eventos independientes y cada uno de ellos tiene una probabilidad muy peque
na de ocurrir, la cantidad de
tales eventos que realmente ocurre tiene una distribucion cercana a la distribucion Poisson.
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0.5
1.5
2.5
Figura 2: Comparaci
on de las funciones de probabilidad de las distribuciones Bernoulli(1/4)
(bolita negra) y Poisson(1/4) (cuadradillo vaco)
16
Construcci
on conjunta de variables Bernoulli y Poisson (Acoplamiento).
Para cada p [0, 1] dividimos el intervalo [0, 1) en dos intervalos
I0 (p) = [0, 1 p),
I1 (p) = [1 p, 1)
(34)
y en la sucesion de intervalos
k1
k
k
k
X
X
p
p
Jk (p) =
ep ,
ep ,
k!
k!
J0 (p) = [0, ep ),
j=0
k = 1, 2, . . . .
(35)
j=0
Consideramos una variable aleatoria U con distribucion U[0, 1) y construimos dos variables
aleatorias V y W con distribuciones Bernoulli(p) y Poisson(p), respectivamente:
V := 1{U I1 (p)},
W :=
k1{U Jk (p)}.
(36)
k=0
(37)
P(V 6= W ) = p ep p = p(1 ep ) p2 .
(38)
y en consecuencia,
(39)
k0
17
(40)
n
X
p2i ,
(41)
i=1
Pn
i=1 pi .
Demostraci
on. Sean U1 , . . . , Un variables aleatorias independientes con distribucion com
un
U[0, 1). Construimos variables aleatorias acopladas Vi Bernoulli(pi ) y Wi Poisson(pi ),
i = 1, . . . , n:
Vi := 1{Ui I1 (pi )},
Wi :=
k=0
y las sumamos
S =
n
X
Vi ,
N=
n
X
Wi .
i=1
i=1
Por construcci
on, las variables V1 , . . . , Vn son independientes y con distribucion Bernoulli(pi ),
respectivamente, y entonces, la variable S tiene la misma distribucion que S; las variables
W1 , . . . , Wn son independientes y tienen distribucion Poisson(p
i ), respectivamente, y entonces,
Pn
la variable N tiene distribucion Poisson de media = i=1 pi .
Observando que cada k
|P(S = k) P(N = k)| P(S = k, N 6= k) + P(N = k, S 6= k).
se obtiene que
X
n
X
P(Vi 6= Wi )
i=1
n
X
p2i .
i=1
18
Demostraci
on. Sean U1 , . . . , Un variables aleatorias independientes con distribucion com
un
U[0, 1). Para cada i = 1, . . . , n definimos parejas de variables aleatorias (Vi , Wi ) independientes
Vi := 1{Ui I1 (p)},
Wi :=
k1{Ui Jk (p)}.
k=0
Por construcci
on, Vi Bernoulli(p) y Wi Poisson(p), en consecuencia las sumas
S=
n
X
Vi ,
N=
n
X
Wi
i=1
i=1
1
0.
e = |P(S = k) P(N = k)| 2np2 = 2
k
n
n
k!
n
Teorema 2.7. Supongamos que para cada n, Xn,1 , . . . , Xn,rn son variables aleatorias independientes con distribuci
on Bernoulli(pn,k ). Si
rn
X
pn,k 0,
m
ax pn,k 0,
1krn
k=1
(42)
entonces
P
rn
X
k=1
Xn,k = i
i
,
i!
i = 0, 1, 2, . . . .
(43)
Ahora definimos
Wn,k :=
i
.
i!
i1{Uk Ji (pn,k )}
i=0
19
(44)
Wn,k tiene distribucion Poisson de media pn,k . PuestoPque las Wn,k son independientes, Wn =
P
rn
n
pn,k . De la desigualdad 1p ep ,
on Poisson de media n = rk=1
k=1 Wn.k tiene distribuci
se obtiene como consecuencia que
P(Vn,k 6= Wn,k ) = P(Vn.k = 1 6= Wn,k ) = P(Uk I1 (pn,k ) J1 (pn,k ))
= pn,k epn,k pn,k p2n,k ,
y por (42)
P(Vn 6= Wn )
rn
X
p2n,k n m
ax pn,k 0.
1krn
k=1
3.
3.1.
in
n
e .
n!
n!
(45)
Este modelo considera el tiempo de espera como una variable aleatoria discreta distribuida
geometricamente y (45) dice que en el lmite se obtiene una distribucion exponencial.
20
Si no discretizamos el tiempo tenemos que tratar con variables aleatorias continuas. El rol
de la distribucion geometrica para los tiempos de espera lo ocupa la distribuci
on exponencial.
Es la u
nica variable continua dotada de una completa falta de memoria. En otras palabras, la
probabilidad de que una conversacion que llego hasta el tiempo t contin
ue m
as all
a del tiempo
t + s es independiente de la duraci
on pasada de la conversacion si, y solo si, la probabilidad
que la conversacion dure por lo menos t unidades de tiempo esta dada por una exponencial
et .
Nota Bene Si en un momento arbitrario t la lnea esta ocupada, entonces la probabilidad
de un cambio de estado durante el proximo segundo depende de cuan larga ha sido la conversacion. En otras palabras, el pasado influye sobre el futuro. Esta circunstancia es la fuente
de muchas dificultades en problemas m
as complicados.
3.2.
Distribuci
on exponencial
(47)
3.3.
Teorema 3.1. Sean T1 , T2 , . . . , Tn variables aleatorias independientes, identicamente distribuidas, con distribucion exponencial de intensidad > 0. La suma Sn = T1 + + Tn
admite una densidad de probabilidades de la forma
fSn (t) = et
(t)n1
1{t > 0}
(n 1)!
(48)
y su funcion de distribucion es
FSn (t) =
1 et
n1
X
i=0
(t)i
i!
1{t 0}.
(49)
En otras palabras, la suma de n variables aleatorias independientes exponenciales de intensidad > 0 tiene distribucion Gamma de par
ametros n y : (n, ).
21
Demostraci
on. Por induccion. Para n = 1 no hay nada que probar: S1 = T1 Exp().
Supongamos ahora que la suma Sn = T1 + + Tn admite una densidad de la forma (48).
Debido a que las variables aleatorias Sn y Tn+1 son independientes, la densidad de Sn+1 =
Sn + Tn+1 se obtiene convolucionando las densidades de Sn y Tn+1 :
Z t
fSn (t x)fTn+1 (x)dx
fSn+1 (t) = (fSn fTn+1 )(t) =
0
Z t
((t x))n1 x
e(tx)
=
e
dx
(n 1)!
0
Z t
n tn
n
t
(t x)n1 dx = et
= e
(n 1)! 0
(n 1)! n
n
(t)
= et
.
n!
Las funciones de distribucion (49) se obtienen integrando las densidades (48). Sea t 0,
integrando por partes puede verse que
Z t
Z t
(s)n1 s
fSn (s)ds =
FSn (t) =
e ds
0 (n 1)!
0
t Z t
(s)n2 t
(s)n1 s
=
e +
e ds
(n 1)!
(n 2)!
0
(t)n1 t
=
e
+ FSn1 (t).
(n 1)!
(50)
3.4.
Mnimos
Lema 3.2. Sean T1 y T2 dos variables aleatorias independientes y exponenciales de intensidades 1 y 2 , respectivamente. Vale que
P(T1 < T2 ) =
1
.
1 + 2
Demostraci
on. La probabilidad P(T1 < T2 ) puede calcularse condicionando sobre T1 :
Z
Z
P(t < T2 )1 e1 t dt
P(T1 < T2 |T1 = t)fT1 (t)dt =
P(T1 < T2 ) =
0
0
Z
Z
1
2 t 1 t
e(1 +2 )t dt =
e
e
dt = 1
= 1
.
1 + 2
0
0
22
(51)
Teorema 3.3. Sean T1 , T2 , . . . , Tn variables aleatorias exponenciales independientes de intensidades 1 , 2 , . . . , n , respectivamente. Sean T y J las variables aleatorias definidas por
T := mn Ti ,
i
j
.
1 + + n
M
as a
un, las variables T y J son independientes.
Demostraci
on. En primer lugar, hay que observar que T > t si y solo si Ti > t para
todo i = 1, . . . , n. Como las variables T1 , T2 , . . . , Tn son exponenciales independientes de
intensidades 1 , 2 , . . . n tenemos que
P(T > t) =
n
Y
P(Ti > t) =
i=1
n
Y
ei t = e(1 ++n )t .
i=1
i6=j
j
.
1 + + n
La u
ltima igualdad se obtiene utilizando el Lema 3.2P
pues las variables Tj y mni6=j Ti son
independientes y exponenciales con intensidades j y i6=j i , respectivamente.
Finalmente, si para cada j definimos Uj = mni6=j Ti , tenemos que
P(J = j, T t) = P(t Tj < Uj )
Z
P(Tj < Uj |Tj = s)j ej s ds
=
t
Z
Z
P
j s
e( i6=j i )s ej s ds
P(Uj > s)e
ds = j
= j
t
t
Z
j
=
(1 + + n )e(1 ++n )s ds
1 + + n t
j
=
e(1 ++n )t .
1 + + n
Lo que completa la demostraci
on.
Ejercicios adicionales
4. Sean T1 y T2 variables aleatorias independientes exponenciales de intensidad 2. Sean
T(1) = mn(T1 , T2 ) y T(2) = m
ax(T1 , T2 ). Hallar la esperanza y la varianza de T(1) y de T(2) .
23
4.
Bibliografa consultada
Para redactar estas notas se consultaron los siguientes libros:
1. Billingsley, P.: Probability and measure. John Wiley & Sons, New York. (1986)
2. Durrett R.:Probability. Theory and Examples. Duxbury Press, Belmont. (1996)
3. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. John
Wiley & Sons, New York. (1957)
4. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 2. John
Wiley & Sons, New York. (1971)
5. Grimmett, G. R., Stirzaker, D. R.: Probability and Random Processes. Oxford University Press, New York. (2001)
6. Meester, R.: A Natural Introduction to Probability Theory. Birkhauser, Berlin. (2008).
7. Meyer, P. L.: Introductory Probability and Statistical Applications. Addison-Wesley,
Massachusetts. (1972)
8. Ross, S. M: Introduction to Probability and Statistics for Engineers and Scientists.
Elsevier Academic Press, San Diego. (2004)
9. Soong, T. T.: Fundamentals of Probability and Statistics for Engineers. John Wiley &
Sons Ltd. (2004)
24
Procesos de Poisson
(Borradores, Curso 23)
Sebastian Grynberg
22 de abril de 2013
ollin tonatiuh
el tiempo s
olo es tardanza
de lo que est
a por venir
(Martn Fierro)
Indice
1. Proceso puntual de Poisson
1.1. Procesos puntuales . . . . . . . . . . . . . . . . . . .
1.2. Procesos de Poisson . . . . . . . . . . . . . . . . . .
1.3. Construccion . . . . . . . . . . . . . . . . . . . . . .
1.4. Distribucion condicional de los tiempos de llegada .
1.5. Coloraci
on y adelgazamiento de procesos de Poisson
1.6. Superposicion de Procesos de Poisson: competencia .
1.7. Procesos de Poisson compuestos . . . . . . . . . . . .
2. Bibliografa consultada
1.
1.1.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
2
4
5
10
11
13
15
17
Informalmente, un proceso puntual aleatorio es un conjunto enumerable de puntos aleatorios ubicados sobre la recta real. En la mayora de las aplicaciones un punto de un proceso
puntual es el instante en que ocurre alg
un evento, motivo por el cual los puntos tambien se
llaman eventos o arribos. Por ejemplo, los tiempos de arribo de clientes a la caja de un supermercado o de los trabajos al procesador central de una computadora son procesos puntuales.
En teora fiabilidad, un evento podra ser el instante en que ocurre una falla. El ejemplo basico
de este tipo de procesos es el proceso de Poisson.
Definici
on 1.1 (Proceso puntual aleatorio). Un proceso puntual aleatorio sobre la semirecta positiva es una sucesi
on {Sn : n 0} de variables aleatorias no negativas tales que, casi
seguramente,
(a) S0 0,
(b) 0 < S1 < S2 < ,
(c) lmn Sn = +.
La condici
on (b) significa que no hay arribos simult
aneos. La condici
on (c) significa que
no hay explosiones, esto es, no hay una acumulacion de arribos en tiempos finitos.
La sucesion de variables aleatorias {Tn : n 1} definida por
Tn := Sn Sn1
(1)
se llama la sucesi
on de tiempos de espera entre arribos.
Introducimos una familia de nuevas variables aleatorias N (t), t 0, de la siguiente manera:
para cada t 0 definimos N (t) como la cantidad de arribos ocurridos durante el intervalo de
tiempo (0, t],
X
1{Sn t}
(2)
N (t) :=
n1
m
ax{n 0 : Sn t}.
2
(3)
N (t)
5
4
3
2
1
S1
T1
S2
T2
S3
T3
S4
T4
S5
T5
Figura 1: Realizaci
on tpica de un proceso puntual aleatorio sobre la semi-recta positiva.
Observaci
on 1.2. Notar que N (t) es una funci
on de t y de las variables aleatorias T1 , T2 , . . .
a valores enteros no negativos. Indicaremos esa relaci
on de la siguiente manera
N (t) = (t; T1 , T2 , . . . ),
(4)
donde es la relaci
on definida en (2).
La cantidad de arribos ocurridos durante el intervalo de tiempo (s, t] R+ , N (s, t], es el
incremento N (t) N (s)
X
N (s, t] := N (t) N (s) =
1{s < Sn t}.
(5)
n1
(6)
(7)
Proceso de conteo. La familia de variables aleatorias {N (t) : t 0} es un proceso estocastico denominado el proceso de conteo de la sucesion de arribos {Sn : n 0}. Debido a que
la sucesion de arribos se puede reconstruir a partir de N , N tambien recibe la denominacion
proceso puntual .
Propiedades. Por definicion, el proceso de conteo satisface las siguientes propiedades:
(i) Para cada t 0, la variable aleatoria N (t) tiene valores enteros no negativos.
(ii) N (0) = 0 y lmt N (t) = .
3
1.2.
Procesos de Poisson
((t s))n
,
n!
n = 0, 1, . . . , 0 s < t.
(8)
par
ametro. Esto
u
ltimo es consistente con la condici
on sobre la distribucion que tienen los
incrementos individuales (8).
1
Elegimos la Definici
on 1.3 porque tiene la virtud de que se puede extender a Rd sin ninguna dificultad:
un subconjunto aleatorio (numerable) de Rd se llama un proceso de Poisson de intensidad si, para todo
A B(Rd ), las variables aleatorias N (A) = | A| satisfacen (a) N (A) tiene la distribuci
on Poisson de
par
ametro |A|, y (b) Si A1 , A2 , . . . , An B(Rd ) son conjuntos disjuntos, entonces N (A1 ), N (A2 ), . . . N (An )
son variables aleatorias independientes.
En efecto, de la relaci
on basica (6) se deduce que si {Sn : n 0} es un proceso de Poisson
de intensidad , entonces las variables Sn tienen distribucion (n, ):
P(Sn > t) = P(N (t) < n) =
n1
X
P(N (t) = k) =
et
k=0
k=0
1.3.
n1
X
(t)k
.
k!
Construcci
on
En lo que sigue mostraremos una forma de construir un proceso puntual de Poisson {Sn :
n 0} de intensidad . Los arribos, Sn , se construyen utilizando una sucesion de variables
aleatorias a valores positivos {Tn : n 1}:
S0 := 0,
Sn :=
n
X
Ti ,
n = 1, 2, . . . .
(9)
i=1
X (t)k
X
(t)k
t
t
FSn (t) = P(Sn t) = 1 e
1{t 0} = e
1{t 0}.
k!
k!
k=0
k=n
(10)
k=0
Por lo tanto, para cada t > 0 fijo, el incremento N (t) tiene una distribucion Poisson de media
t:
N (t) P oisson(t).
3. P
erdida de memoria. Fijamos t > 0 y consideramos los arribos posteriores al instante t.
Por (3) tenemos que SN (t) t < SN (t)+1 . El tiempo de espera desde t hasta el primer arribo
posterior a t es SN (t)+1 t; el tiempo de espera entre el primer y el segundo arribo posteriores
a t es TN (t)+2 ; y as siguiendo. De este modo
(t)
T1 := SN (t)+1 t,
(t)
T2 := TN (t)+2 ,
5
(t)
T3 := TN (t)+3 , . . .
(11)
(t)
(T1 , T2 , . . . ) (T1 , T2 , . . . ).
(12)
(t)
P(N (t) = n, T1 > t1 , . . . , Tm
> tm ) = P(N (t) = n)et1 etm .
(13)
(t)
P(N (t) = n, T1 > t1 , . . . , Tm
> tm )
(t)
N (t + s) N (t) = m
ax{m : T1 + + Tm
s}.
(14)
Comparando (14) y (3) se puede ver que para t fijo las variables aleatorias N (t + s) N (t)
para s 0 se definen en terminos de la sucesion (11) exactamente de la misma manera en
que las N (s) se definen en terminos de la sucesion original de tiempos de espera. En otras
palabras,
(t)
(t)
N (t + s) N (t) = (s; T1 , T2 , . . . ),
6
(15)
(16)
(17)
n
Y
(18)
k=1
De (18) y (10) se obtienen las dos condiciones que definen a un proceso de Poisson.
En lo que sigue mostraremos que vale la recproca. Esto es, los tiempos de espera entre
arribos de un proceso de Poisson de intensidad son variables aleatorias independientes cada
una con distribucion exponencial de intensidad .
Teorema 1.5. Sea {Sn : n 0} un proceso puntual de Poisson de intensidad sobre la semirecta positiva. Los tiempos de espera entre arribos Tn , n 1, definidos en (1), constituyen
una sucesi
on de variables aleatorias independientes cada una con distribuci
on exponencial de
intensidad .
7
Demostraci
on. La densidad conjunta de T = (T1 , T2 . . . , Tn ) se obtendr
a a partir de la
densidad conjunta de las variables S = (S1 , S2 , . . . , Sn ) usando el metodo del Jacobiano. Por
definicion,
(T1 , T2 , . . . , Tn ) = g(S1 , S2 , . . . , Sn ),
donde g : G0 G es la transformacion lineal biyectiva entre los conjuntos abiertos G0 =
{(s1 , . . . , sn ) Rn : 0 < s1 < s2 < < sn } y G = {(t1 , . . . , tn ) : t1 > 0, . . . , tn > 0} definida
por
g(s1 , s2 , . . . , sn ) = (s1 , s2 s1 , . . . , sn sn1 ).
La funcion inversa h = g 1 es de la forma
h(t1 , . . . , tn ) = (t1 , t1 + t2 , . . . , t1 + + tn )
y sus derivadas parciales
P
ik=1 tk
si
=
= 1{j i},
tj
tj
1 i, j n
debido a que se trata de una matriz triangular inferior con 1s en la diagonal. Bajo esas
condiciones tenemos que
fT (t) = fS (h(t))1{t G}.
La densidad conjunta de las variables (S1 , . . . , S2 ) queda unvocamente determinada por la
relaci
on
Z
fS (s)ds,
A = (a1 , b1 ] (an , bn ] G0 .
P(S A) =
A
Supongamos
n < bn y calculemos laTprobabilidad
T que 0 = b0 a1 < b1 < a2 < b2 < < aT
n1
del evento ni=1 {ai < Si bi }. Para ello observamos que ni=1 {ai < Si bi } = i=1
{N (ai )
N (bi1 ) = 0, N (bi ) N (ai ) = 1} {N (an ) N (bn1 ) = 0, N (bn ) N (an ) 1} y usamos las
propiedades de independencia y homogeneidad temporal que caracterizan a los incrementos
de un proceso de Poisson de intensidad :
!
n
\
P
{ai < Si bi }
i=1
n1
Y
(ai bi1 )
i=1
n1
Y
=
=
=
i=1
n1
Y
(bi ai )e
i=1
b1
ds1
a1
b1
a1
(bi ai )
bn1
an1
bn1
dsn1
an1
Z bn
bn
esn dsn
an
an
(19)
(20)
i=1
La identidad (20) significa que los tiempos de espera entre arribos son independientes cada
uno con distribucion exponencial de intensidad .
Ejemplo 1.6. Suponga que el flujo de inmigracion de personas hacia un territorio es un
proceso de Poisson de tasa = 1 por da.
(a) Cual es el tiempo esperado hasta que se produce el arribo del decimo inmigrante?
(b) Cual es la probabilidad de que el tiempo de espera entre el decimo y el undecimo arribo
supere los dos das?
Soluci
on:
(a) E[S10 ] =
10
= 10 das.
Ejercicios adicionales
1. En un sistema electr
onico se producen fallas de acuerdo con un proceso de Poisson de tasa
2.5 por mes. Por motivos de seguridad se ha decidido cambiarlo cuando ocurran 196 fallas.
Hallar la media y la varianza del tiempo de uso del sistema.
2. Sean T una variable aleatoria con distribucion exponencial de media 2 y {N (t), t 0} un
proceso de Poisson de tasa 10 (independiente de T ). Hallar Cov(T, N (T )).
3.
h Sea A(t) = t SN (t) el tiempo reverso al evento mas reciente en un proceso de
Poisson y sea B(t) = SN (t)+1 t el tiempo directo hasta el proximo evento. Mostrar que
(a) A(t) y B(t) son independientes,
(b) B(t) se distribuye como T1 (exponencial de intensidad ) ,
(c) A(t) se distribuye como mn(T1 , t):
P(A(t) x) = (1 ex )1{0 x < t} + 1{x t}.
4.
h Sea L(t) = A(t) + B(t) = SN (t)+1 SN (t) la longitud del intervalo de tiempo entre
arribos que contiene a t.
(a) Mostrar que L(t) tiene densidad
dt (x) = 2 xex 1{0 < x < t} + (1 + t)ex 1{x t}.
(b) Mostrar que E[L(t)] converge a 2E[T1 ] cuando t . Esto parece una paradoja debido
a que L(t) es uno de los Tn . Dar una resoluci
on intuitiva de esta paradoja.
1.4.
Distribuci
on condicional de los tiempos de llegada
10
Por una parte la distribucion condicional de las posiciones de los n arribos queda completamente caracterizada por esta funcion de A1 , . . . , Ak .
Por otra parte la distribucion multinomial (21) es la distribucion conjunta de n puntos
independientes elegidos al azar de acuerdo con la distribucion uniforme sobre el intervalo [0, t].
En efecto, basta observar que si U1 , . . . , Un son variables
aleatorias independientes con
P
distribucion uniforme sobre un conjunto A, y M (B) = i 1{Ui B}, entonces
k
Y
n!
P(M (Bi ) = ni , i = 1, . . . , k) =
n1 ! nk !
i=1
|Bi |
|Ai |
ni
Se infiere que la distribucion conjunta de los puntos en [0, t] condicional a que hay
exactamente n de ellos, es la misma que la de n puntos independientes elegidos al azar con
la distribucion uniforme sobre el intervalo [0, t].
Nota Bene. La propiedad condicional permite probar la existencia de procesos de Poisson
mediante simulacion. Sea > 0 y sea A1 , A2 , . . . una particion de Rd en conjuntos borelianos
de medida de Lebesgue finita. Para cada i, simulamos una variable aleatoria Ni con distribuci
on Poisson de par
ametro |Ai |. Luego muestreamos n puntos elegidos independientemente
sobre Ai , cada uno con distribucion uniforme sobre Ai . La uni
on sobre i de tales conjuntos de
puntos es un proceso de Poisson de intensidad . (Para m
as detalles ver el Chap 7 de Ferrari,
Galves (2001))
Ejemplo 1.8 (Insectos en un asado). Todo tipo de insectos aterrizan en la mesa de un asado
a la manera de un proceso de Poisson de tasa 3 por minuto. Si entre las 13:30 y las 13:35
aterrizaron 8 insectos, cu
al es la probabilidad de que exactamente 3 de ellos hayan aterrizado
durante el primer minuto?
Soluci
on: Dado que aterrizaron 8 insectos durante 5 minutos, la distribucion de cada aterrizaje se distribuye, independientemente de los demas, como una variable uniforme sobre el
intervalo [0, 5]. En consecuencia, la probabilidad de que cada insecto hubiese aterrizado durante el primer minuto es 1/5. Por lo tanto, la probabilidad de que exactamente 3 insectos
hayan aterrizado durante el primer minuto es
3 5
4
45
8
1
= 56 8 = 0.1468 . . .
5
5
5
3
1.5.
Coloraci
on y adelgazamiento de procesos de Poisson
11
Demostraci
on. Sea t > 0 fijo. Por la propiedad condicional, si N (t) = n, esos puntos tienen
la misma distribucion que n puntos independientes elegidos al azar sobre el intervalo [0, t] de
acuerdo con la distribucion uniforme. Por tanto, podemos considerar n puntos elegidos al azar
de esa manera. Por la independencia de los puntos, sus colores son independientes unos de los
otros. Como la probabilidad de que un punto dado sea pintado de rojo es p y la probabilidad
de sea pintado de negro es 1 p se deduce que, condicional a N (t) = n, las cantidades N1 (t)
y N2 (t) de puntos rojos y negros en [0, t] tienen, conjuntamente, la distribucion binomial
P(N1 (t) = n1 , N2 (t) = n2 |N (t) = n) =
n! n1
p (1 p)n2 , donde n1 + n2 = n.
n1 !n2 !
i=0
12
31
X
(2 2)i
i=0
i!
= e4 (1 + 4 + 8) = 0.2381 . . .
Ejercicios adicionales
5. A un banco llegan clientes de acuerdo con un proceso de Poisson de intensidad 20 por
hora. En forma independiente de los demas, cada cliente realiza un dep
osito con probabilidad
1/4 o una extraccion con probabilidad 3/4.
(a) Si el banco abre sus puertas a las 10:00, cu
al es la probabilidad de que el segundo dep
osito
se efectue pasadas las 10:30?
(b) Cada dep
osito (en pesos) se distribuye como una variable U[100, 900] y cada extraccion
como una variable U[100, 500]. Si un cliente realiza una operacion bancaria de 200 pesos, cu
al
es la probabilidad de que se trate de un dep
osito?
1.6.
Superposici
on de Procesos de Poisson: competencia
Demostraci
on. Sean N1 (t) = |1 [0, t]| y N2 (t) = |2 [0, t]|. Entonces N1 (t) y N2 (t)
son variables aleatorias independientes con distribucion Poisson de par
ametros 1 t y 2 t.
Se infiere que la suma N (t) = N1 (t) + N2 (t) tiene la distribucion de Poisson de par
ametro
1 t + 2 t = (1 + 2 )t. M
as a
un, si A1 , A2 , . . . , son intervalos disjuntos las variables aleatorias
N (A1 ), N (A2 ), . . . son independientes. Falta mostrar que, casi seguramente, N (t) = |[0, t]|
para todo t > 0, que es lo mismo que decir que 1 y P12 no tienen puntos en com
un. Este es
un paso tecnico (ver el Lema 1.12) y la prueba puede omitirse en una primera lectura.
Lema 1.12. Dos procesos de Poisson 1 = {Sn1 : n 0} y 2 = {Sn2 : n 0} independientes
y de tasas 1 y 2 , respectivamente, no tienen puntos en com
un.
Demostraci
on. Basta probar que P(D(t)) = 0 para todo t, donde D(t) es el evento definido
por
D(t) := {existen puntos en com
un en el intervalo (0, t]}
Para simplificar la notaci
on lo demostraremos para D = D(1).
Sean {N1 (t), t 0} y {N2 (t), t 0} los procesos de conteo de los procesos de Poisson
{Sn1 : n 0} y {Sn2 : n 0}. El evento
i i+1
i i+1
n
Dn := N1
+ N2
2 para alg
un i [0, 2 1]
,
,
2n 2n
2n 2n
decrece a D cuando n tiende a infinito, y por lo tanto, por la continuidad de la probabilidad
para sucesiones monotonas de eventos,
P(D) = lm P(Dn ) = 1 lm P(Dnc ).
n
Pero
n 1
2\
!
i
i
+
1
i
+
1
i
+ N2
1
N1
,
,
P(Dnc ) = P
2n 2n
2n 2n
i=1
n 1
2Y
i i+1
i i+1
+
N
1
.
P N1
=
,
,
2
2n 2n
2n 2n
i=1
Debido a que los procesos son temporalmente homogeneos, para cada i vale que
i i+1
i i+1
P N1
= P N1 2n + N2 2n 1
, n + N2
, n 1
n
n
2
2
2
2
n
1 + (1 + 2 )2n .
P N1 2n + N2 2n 1 = e(1 +2 )2
14
(22)
Por lo tanto,
P(Dnc ) = e(1 +2 ) 1 + (1 + 2 )2n
2n
(23)
La u
ltima cantidad tiende a 1 cuando n , y se concluye que P(D) = 0.
Teorema 1.13 (Competencia). En la situaci
on del Teorema 1.11, sea T el primer arribo del
proceso N = N1 + N2 y J el ndice del proceso de Poisson responsable por dicho arribo; en
particular T es el primer arribo de NJ . Entonces
P(J = j, T t) = P(J = j)P(T t) =
En particular, J y T son independientes, P(J = j) =
de intensidad 1 + 2 .
j
e(1 +2 )t .
1 + 2
j
1 +2
y T tiene distribuci
on exponencial
Demostraci
on. Ver la demostraci
on del Teorema que caracteriza la distribucion del mnimo
de dos exponenciales independientes.
Ejemplo 1.14 (Insectos en un asado). Moscas y abejas aterrizan en la mesa de un asado a la
manera de dos procesos de Poisson independientes de tasas 2 y 1 por minuto, respectivamente.
Cual es la probabilidad de que el primer insecto en aterrizar en la mesa sea una mosca? Rta.
2/3.
1.7.
donde {N (t), t 0} es un proceso de Poisson, y las variables {Yi , i 1} son iid e independientes de N .
Lema 1.15. Sea X(t) un proceso de Poisson compuesto. Si {N (t), t 0} tiene intensidad
y las variables Y tienen esperanza finita, entonces
E[X(t)] = tE[Y1 ].
M
as a
un, si las variables Y tienen varianza finita, entonces,
V(X(t)) = tE[Y12 ].
Demostraci
on. Para calcular la esperanza de X(t) condicionamos sobre N (t):
E [X(t)] = E [E [X(t) |N (t)]]
15
Ahora bien,
N (t)
E [X(t) | N (t) = n] = E
= E
"
= E
"
Yi | N (t) = n
i=1
n
X
Yi | N (t) = n
i=1
n
X
Yi
i=1
= nE[Y1 ].
Esto implica que
E [X(t) | N (t)] = N (t)E[Y1 ]
y por lo tanto,
E [X(t)] = E [N (t)E[Y1 ]] = E[N (t)]E[Y1 ] = tE[Y1 ].
Aunque podemos obtener E[X(t)2 ] condicionando sobre N (t), usaremos la formula de la
varianza condicional
V(X(t)) = E[V(X(t)|N (t))] + V(E[X(t)|N (t)]).
Ahora bien,
V [X(t) | N (t) = n] = V
= V
= V
N (t)
X
i=1
n
X
i=1
n
X
i=1
Yi | N (t) = n
Yi | N (t) = n
Yi
= nV[Y1 ].
Esto implica que
V (X(t) | N (t)) = N (t)V(Y1 )
y por lo tanto,
V (X(t)) = E [N (t)V(Y1 )] + V(N (t)E[Y1 ])
= V(Y1 )E[N (t)] + E[Y1 ]2 V(N (t))
= V(Y1 )t + E[Y1 ]2 t
= tE[Y12 ].
16
Ejemplo 1.16. Supongamos que la cantidad de accidentes en una fabrica industrial se rige por
un proceso de Poisson de intensidad 4 por mes y que la cantidad de trabajadores damnificados
en cada accidente son variables aleatorias independientes con distribucion uniforme sobre
{1, 2, 3}. Supongamos tambien que la cantidad de trabajadores damnificados en cada accidente
es independiente de la cantidad de accidentes ocurridos. Se quiere hallar la media y la varianza
de la cantidad anual de trabajadores damnificados en dicha f
abrica.
Soluci
on: Sean N (t) la cantidad de accidentes en t meses e Yi el n
umero de trabajadores
damnificados en el i-esimo accidente, i = 1, 2, . . . . El n
umero total de trabajadores damnifiPN (12)
cados en un a
no puede expresarse en la forma X(12) = i=1 Yi .
Utilizando los resultados del Lema 1.15 tenemos que
E[X(12)] = (4 12)E[Y1 ] = 48E[Y1 ] = 48 2 = 96
14
V(X(12)) = (4 12)E[Y12 ] = 48
= 224.
3
Ejercicios adicionales
6. Una partcula suspendida en agua es bombardeada por moleculas en movimiento termico
de acuerdo con un proceso de Poisson de intensidad 10 impactos por segundo. Cuando recibe
un impacto la partcula se mueve un milmetro hacia la derecha con probabilidad 3/4 o un
milmetro hacia la izquierda con probabilidad 1/4. Transcurrido un minuto, cu
al es la posicion
media de la partcula?
7. Un servidor recibe clientes de acuerdo con un proceso de Poisson de intensidad 4 clientes
por hora. El tiempo de trabajo (en minutos) consumido en cada servicio es una variable
aleatoria U[1, 9]. Al cabo de 8 horas, cu
al es el tiempo medio de trabajo consumido por todos
los servicios?
2.
Bibliografa consultada
Para redactar estas notas se consultaron los siguientes libros:
1. Bremaud, P.: Markov Chains: Gibbs Fields, Monte Carlo Simulation, and Queues.
Springer, New York. (1999)
2. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 2. John
Wiley & Sons, New York. (1971)
3. Ferrari, P. A., Galves, A.: Construction of Stochastic Procecesses, Coupling and Regeneration. (2001)
4. Grimmett, G. R., Stirzaker, D. R.: Probability and Random Processes. Oxford University Press, New York. (2001)
17
5. Kingman, J. F. K.: Poisson Processes. Oxford University Press. New York. (2002)
6. Meester, R.: A Natural Introduction to Probability Theory. Birkhauser, Berlin. (2008)
7. Ross, S.: Introduction to Probability Models. Academic Press, San Diego. (2007)
18
d
onde es m
as u
til aplicar la fuerza de la propia voluntad:
en el desarrollo de la cantidad o en el de la calidad?
Cu
al de los dos aspectos es m
as fiscalizable?
Cu
al m
as f
acilmente mensurable?
Sobre cu
al se pueden hacer previsiones, construir planes de trabajo?
Indice
1. La distribuci
on normal
1.1. Presentaci
on . . . . . . . . . . .
1.2. Cuentas con normales . . . . . .
1.3. Ejemplos . . . . . . . . . . . . .
1.4. Suma de normales independientes
.
.
.
.
2
2
5
6
7
. . . . . . . . . . . . . . . . . . . . .
8
8
14
15
19
19
21
21
.
.
.
.
.
.
.
.
.
.
.
.
2. G
enesis de la distribuci
on normal
2.1. Teorema lmite de De Moivre - Laplace
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1.1.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Normal
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
5. Bibliografa consultada
1.
.
.
.
.
23
La distribuci
on normal
Presentaci
on
Definici
on 1.1. La funci
on definida por
1
2
(x) = ex /2
2
se llama la funcion densidad normal; su integral
Z x
1
2
et /2 dt
(x) =
2
(1)
(2)
Folclore. Se sabe que la funcion ex no admite una primitiva que pueda expresarse mediante un n
umero finito de funciones elementales: x , sen(x), cos(x), ax , etc.... (Ver Piskunov,
N., (1983). c
alculo diferencial e integral, tomo I, Mir, Mosc
u). Sin
R embargo, usando tecnicas
de cambio de variables bidimensionales se puede demostrar que (x)dx = 1.
La funcion (x) crece desde 0 hasta 1. Su gr
afico es una curva con forma de S con
(x) = 1 (x).
(3)
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
4
(a)
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
4
(b)
2
1 ex /2 ;
2
(4)
x
(x)
1.28
0.8997
1.64
0.9495
1.96
0.975
2.33
0.9901
2.58
0.9951
3.09
0.9990
1
2
3.29
0.9995
Rx
t2 /2 dt.
e
d
Demostraci
on. Usando que dx
(x) = x(x) es facil ver que las derivadas de los miembros
de las desigualdades (4) satisfacen:
d
3
1
1
= (x) 1 4 .
(x)
dx
x x3
x
d
[1 (x)] = (x).
dx
d
1
1
(x)
= (x) 1 + 2 .
dx
x
x
Por lo tanto,
d
1
1
1
d
d
3
[(x) 1] <
(x)
<
(x)
dx
x x
dx
dx
x
(5)
x 2x3
(7)
es practicamente in
util para valores peque
nos de x (i.e., x (0, 1]) pero va mejorando a
medida que los valores de x crecen. Usando la aproximacion dada en (7) se obtienen las
siguientes aproximaciones
x
(x)
|error|
1.28
0.90454
0.04192
1.64
0.94839
0.01178
1.96
0.97406
0.00388
2.33
0.98970
0.00104
2.58
0.99487
0.00041
3.09
0.99896
0.00005
3.29
0.99948
0.00002
Nota hist
orica La distribucion normal fue descubierta por De Moivre en 1733 como resultado de analizar la forma lmite de la distribucion binomial simetrica y redescubierta
nuevamente por Gauss (1809) y Laplace (1812) quienes la estudiaron en relaci
on con sus trabajos sobre la teora de los errores de observaci
on. Laplace dio, adem
as, el primer enunciado
(incompleto) del teorema central del lmite. (Ver Cramer, H., (1970). Metodos matem
aticos
de estadstica, Aguilar, Madrid.)
4
1.2.
Sean R y > 0 arbitrarios, pero fijos. Se dice que la variable aleatoria X tiene
distribucion normal de par
ametros y 2 y se denota X N (, 2 ) si la funcion densidad
de X es de la forma
1
(x )2
,2 (x) =
.
(8)
exp
2 2
2
Nota Bene. Un hecho importante sobre las variables aleatorias normales es que si X tiene
distribucion normal N (, 2 ), entonces
Z=
(9)
exp
=
dx
2 2
2
Z z
1 2
1
por sustituci
on x = t + .
e 2 t dt
=
2
Este hecho significa que si trasladamos el origen de las abscisas en y cambiamos la escala
de manera tal que represente la unidad de medida, la distribucion normal N (, 2 ) se
transforma en la distribucion normal N (0, 1). Su importancia practica radica en que permite
reducir el calculo de probabilidades de las distribuciones normales N (, 2 ) al de la distribuci
on normal N (0, 1). Motivo por el cual esta u
ltima recibe el nombre de normal est
andar (o
2
tpica). M
as precisamente, si X tiene distribucion normal N (, ), su funcion de distribuci
on podra reducirse a la funcion de distribucion normal () definida en (2) de la siguiente
manera:
X
x
x
x
P(X x) = P
=P Z
=
.
(10)
.
(11)
P(a < X < b) =
1.3.
Ejemplos
1.4.
Demostraci
on. Observando que X1 + X2 = (X1 1 ) + (X2 2 ) + 1 + 2 el problema se
reduce a considerar el caso 1 = 2 = 0. La prueba
se obtiene mostrando que la convolucion de
1
1
las densidades f1 (x1 ) = 2
exp x21 /212 y f2 (x2 ) = 2
exp x22 /222 es la densidad
1
(13)
El resultado se obtendr
a mediante un poco de algebra, bastante paciencia, y un cambio de
variables en la integral del lado derecho de la identidad (13).
!
2
(x y)2
y2
1
2
x2
exp
2
= exp
y
x 2
2 1 2
1
2
212
22
2 !
2
1
x2
y
x
= exp
exp 2
2 1 2
1
2
2
2 2
1
y2
222
1 2 y 1 x,
cuya
2
Z
z
x2
1
x2
1
exp
exp 2
dz =
exp 2 .
(f1 f2 )(x) =
2
2
2
2
2
Este resultado se puede generalizar para una suma de n variables aleatorias independientes:
Sean X1 , X2 , . . . , Xn variables aleatorias independientes con distribuciones normales: Xi
N (i , i2 ), 1 i n. Entonces,
!
n
n
n
X
X
X
2
Xi N
i .
i ,
i=1
i=1
i=1
2.
2.1.
i=1
i=1
G
enesis de la distribuci
on normal
Teorema lmite de De Moivre - Laplace
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
10
12
14
16
Figura 2: Relaci
on entre la distribucion Binomial simetrica y la distribucion normal. La probabilidad de que ocurran k exitos en n ensayos de Bernoulli esta representada por un segmento
paralelo al eje de las abscisas localizado en la ordenada k de altura igual a P(Sn = k). La curva
continua aproxima los valores de P(Sn = k). Observar que dichas probabilidades tambien
se pueden representar como
areas de rectangulos de altura P(Sn = k) y de base unitaria
centrada en k.
Demostraci
on. Ver Captulo VII de Feller, W., (1971). An Introduction to Probability
Theory and Its Applications, Vol. I, John Wiley & Sons, New York.
Qu
e significa el Teorema Lmite de De Moivre-Laplace? Para contestar esta pregunta vamos a reconstruir las ideas principales de su genesis. En otras palabras, vamos a
(re)construir el Teorema. La clave de la construcci
on esta embutida en la Figura 2. La imagen permite capturar de inmediato la existencia de una forma lmite para la distribucion
Binomial en el caso simetrico p = 1/2.
Paso 1. El primer paso en la direccion del Teorema de De Moivre consiste en darse cuenta
que la Figura 2 se
nala la existencia de una forma lmite. En una primera fase (completamente abstracta) podemos conjeturar que la distribuci
on binomial simetrica tiene una forma
asint
otica. En otras palabras, cuando la cantidad de ensayos de Bernoulli es suficientemente
grande, salvo traslaciones y cambios de escala apropiados, la distribuci
on Binomial se parece
a una funci
on continua par, (x), cuyo gr
afico tiene la forma de una campana.
Paso 2. El segundo paso consiste en precisar la naturaleza de la traslacion y los cambios de
escala que permiten capturar esa forma lmite. Si se reflexiona sobre el significado de la
media y la varianza de una variable aleatoria, parece claro que la forma lmite se obtendr
a centrando la variable Sn en su valor medio, E[Sn ] = 12 n, y adoptando como unidad de medida
la desviacion tpica de los valores observados respecto de dicho valor, (Sn ) = 21 n. El significado geometrico de esta transformacion consiste en (1) trasladar el origen de las abscisas
en 12 n y (2) dividirlas por 21 n. Para que las areas de los rectangulos sigan representando
probabilidades, las ordenadas deben multiplicarse por el mismo n
umero. Este paso permite
enunciar la siguiente versi
on mejorada de la conjetura inicial: existe una funci
on continua
(x) tal que
!
n
k 12 n
1
n
1
P(Sn = k) =
1
,
(15)
1
k
2
2 n
2 n
siempre y cuando n sea suficientemente grande.
Paso 3. Establecida la conjetura el problema consiste en descubrir la expresi
on de la funcion
(x) y en precisar cu
al es el sentido de la relaci
on aproximada que aparece en (15). En este
punto no queda otra que arremangarse y meter la mano en el barro. Como resultado se
obtiene que la expresi
on de la funcion (x) es
2
1
x
(x) = exp
2
2
y que la relaci
on vale para valores de k del orden de n y significa que el cociente de los
dos lados tiende a 1 cuando n .
9
njx2 2
h (jh) ,
(16)
x1 jhx2
donde h = 2n y la suma se realiza sobre todos los enteros j tales que x1 jh x2 . Cada
uno de los sumandos que aparecen en el lado derecho de la aproximacion (16) es el area de
un rectangulo de base [kh, (k + 1)h y altura (kh). Como la funcion () es continua, para
valores peque
nos de h la suma total de las areas de los rectangulo debe estar proxima del area
bajo la curva de la densidad normal entre x1 y x2 . Por lo tanto, debe valer lo siguiente
! Z
x2
Sn 12 n
lm P x1 1
x2 =
(t)dt = (x2 ) (x1 ).
(17)
n
x1
2 n
Este paso puede hacerse formalmente preciso arremangandose y metiendo la mano en ...
Nota Bene.
de (17)
Sn =
Sn 21 n
Sn E[Sn ]
=
1
(Sn )
2 n
(18)
Ejemplo 2.2. Se lanza 40 veces una moneda honesta. Hallar la probabilidad de que se
obtengan exactamente 20 caras. Usar la aproximacion normal y compararla con la solucion
exacta.
Soluci
on: La cantidad de caras en 40 lanzamientos de una moneda honesta, S40 , es una
variable Binomial de par
ametros n = 40 y p = 1/2. La aproximacion normal (15) establece
que
1
1
P(S40 = 20) 1 (0) =
= 0.12615...
20
2 40
El resultado exacto es
P(X = 20) =
40
1
40
= 0.12537...
2
20
Ejemplo 2.3. Se dice que los recien nacidos de madres fumadoras tienden a ser m
as peque
nos
y propensos a una variedad de dolencias. Se conjetura que adem
as parecen deformes. A un
grupo de enfermeras se les mostro una selecci
on de fotografas de bebes, la mitad de los
cuales nacieron de madres fumadoras; las enfermeras fueron invitadas a juzgar a partir de la
apariencia de cada uno si la madre era fumadora o no. En 1500 ensayos se obtuvieron 910
respuestas correctas. La conjetura es plausible?
Soluci
on: Aunque superficial, un argumento atendible consiste en afirmar que, si todos los
bebes parecen iguales, la cantidad de repuestas correctas Sn en n ensayos es una variable
aleatoria con distribucion Binomial (n, 1/2). Entonces, para n grande
!
!
Sn 21 n
Sn 12 n
1
P
>3 =1P
3 1 (3)
1
1
1000
2 n
2 n
por el Teorema lmite de De Moivre-Laplace. Para los valores dados de Sn ,
Sn 12 n
910 750
=
8.
1
5 15
2 n
Se podra decir que el evento {X 12 n > 32 n} es tan improbable que su ocurrencia arroja
dudas sobre la suposicion original de que los bebes parecen iguales. Este argumento otorgara
cierto grado de credibilidad a la conjetura enunciada.
Comentarios sobre el caso general
1. En el caso general, la probabilidad de exito en cada ensayo de Bernoulli individual es
p (0, 1). Si Sn es la cantidad de exitos observados en los primeros n ensayos, entonces
E[Sn ] = np y V(Sn ) = np(1 p). Por lo tanto, la variable aleatoria
Sn np
Sn := p
np(1 p)
(19)
0.2
0.15
0.1
0.05
10
12
14
16
Figura 3: Gr
afica de la funcion de probabilidad binomial con n = 16 y p = 1/4. Cerca
del
t
e
rmino
central
m = np = 4, salvo un cambio de escala (cuya unidad de medida es
p
np(1 p) = 3) la gr
afica es indistinguible de la gr
afica de la densidad normal.
3. De la Figura 3 debera estar claro que, para n suficientemente grande, debe valer lo siguiente
!
k
np
1
n k
p
p (1 p)nk p
P(Sn = k) =
.
(20)
k
np(1 p)
np(1 p)
distribucion asimetrica. La mayor parte de la distribucion se acumulara alrededor de 0, impidiendo con ello que una curva normal se le ajuste bien. Si la media se aparta por lo menos
5 unidades de una y otra extremidad, la distribucion tiene suficiente espacio para que resulte
bastante simetrica. (Ver la Figura 4).
0.8
0.4
0.7
0.5
0.35
0.6
0.3
0.4
0.5
0.25
0.3
0.4
0.2
0.3
0.15
0.2
0.2
0.1
0.1
0.1
0.05
10
(a)
10
(b)
0.25
10
10
(c)
0.25
0.25
0.3
0.2
0.2
0.2
0.15
0.15
0.1
0.1
0.05
0.05
0.15
0.1
0.05
(d)
10
(e)
10
(f)
Figura 4: Comparaci
on entre la distribucion Binomial(10, p) y su aproximacion por la normal
para distintos valores de p (a) p = 0.025; (b) p = 0.05; (c) p = 0.1; (d) p = 0.2; (e) p = 0.4;
(f) p = 0.5.
o lo que es equivalente
!
p
Sn
a p(1 p)
P
2(a) 1.
p
n
n
(23)
p
p
P
2(a) 1.
(24)
P
n
n
2 n
n
Esta u
ltima relaci
on es la herramienta con la que podemos resolver nuestro problema.
En primer lugar tenemos que resolver la ecuaci
on 2(a) 1 = 0.9999 o la ecuaci
on
equivalente (a) = 1.9999
=
0.99995.
La
soluci
o
n
de
est
a
ecuaci
o
n
se
obtiene
consultando
una
2
tabla de la distribucion normal: a = 3.9. Reemplazando este valor de a en (24) obtenemos
Sn
3.9
0.9999.
P
p
n
2 n
En segundo lugar tenemos que encontrar los valores de n que satisfacen la desigualdad
3.9
0.02.
2 n
(25)
3.
Los teoremas sobre normalidad asintotica de sumas de variables aleatorias se llaman Teoremas Centrales del Lmite. El Teorema lmite de De Moivre - Laplace es un Teorema Central
del Lmite para variables aleatorias independientes con distribucion Bernoulli(p). Una versi
on
m
as general es la siguiente:
Teorema 3.1 (Teorema Central del Lmite). Sea X1 , X2 , . . . una sucesi
on de variables aleatorias independientes identicamente distribuidas, cada una con media y varianza 2 . Entonces
la distribuci
on de
Pn
i n
i=1 X
n
tiende a la normal est
andar cuando n . Esto es,
Pn
i n
i=1 X
x = (x),
lm P
n
n
Rx
2
donde (x) := 12 et /2 dt es la funci
on de distribuci
on de una normal de media 0 y
varianza 1.
14
Demostraci
on. Ver Captulo XV de Feller, W., (1971). An Introduction to Probability
Theory and Its Applications, Vol. II, John Wiley & Sons, New York.
Corolario 3.2. Sea X1 , X2 , . . . una sucesi
on de variables aleatorias independientes identicamente distribuidas, cada una con media y varianza 2 . Si n es suficientemente grande,
para cada valor a > 0 vale la siguiente aproximaci
on
n
!
1 X
P
Xi a
2(a) 1
(26)
n
n
i=1
Demostraci
on. El teorema central del lmite establece que si n es suficientemente grande,
entonces para cada x R vale que
Pn
i n
i=1 X
x (x)
(27)
P
n
De la aproximacion (27) se deduce que para cada valor a > 0
Pn
i=1 Xi n
P
a (a) (a) = 2(a) 1.
n
=
X
.
i
i
n
n
n n
i=1
(28)
(29)
i=1
Nota Bene. Para los usos practicos, especialmente en estadstica, el resultado lmite en
s mismo no es de interes primordial. Lo que interesa es usarlo como una aproximacion con
valores finitos de n. Aunque no es posible dar un enunciado consiso sobre cuan buena es la
aproximacion, se pueden dar algunas pautas generales y examinando algunos casos especiales
se puede tener alguna idea m
as precisa del comportamiento de cuan buena es la aproximacion.
Que tan r
apido la aproximacion es buena depende de la distribucion de los sumandos. Si
la distribucion es bastante simetrica y sus colas decaen rapidamente, la aproximacion es
buena para valores relativamente peque
nos de n. Si la distribucion es muy asimetrica o si
sus colas decaen muy lentamente, se necesitan valores grandes de n para obtener una buena
aproximacion.
3.1.
Ejemplos
1 1
Ejemplo 3.3 (Suma de uniformes). Puesto que la distribucion uniforme
sobre
2 , 2 tiene
1
, la suma de 12 variables independientes U 21 , 21 tiene media 0 y
media 0 y varianza 12
varianza 1. La distribucion de esa suma esta muy cerca de la normal.
Ejemplo 3.4. Para simplificar el calculo de una suma se redondean todos los n
umeros al
entero m
as cercano. Si el error de redondeo se puede representar como una variable aleatoria
U 12 , 12 y se suman 12 n
umeros, cu
al es la probabilidad de que el error de redondeo exceda
1?
15
0.45
0.4
0.9
0.8
0.35
0.7
0.3
0.6
0.25
0.5
0.2
0.4
0.15
0.3
0.1
0.2
0.05
0
4
0.1
3
0
3
(a)
(b)
i=1
16
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
3
Figura 6: La normal estandar (solida) y las funciones de distribucion de las variables (n, 1)
estandarizadas para n = 5 (punteada), n = 10 (quebrada y punteada) y n = 30 (quebrada).
Ejemplo 3.6. La distribucion de Poisson de media se puede aproximar por la normal para
valores grandes de : si N Poisson(), entonces
N
N (0, 1).
Sea N una variable Poisson de media 900. Calculamos P(N > 950) estandarizan-
N 900
950 900
>
900
900
5
= 0.04779.
1
3
Ejemplo 3.8. El tiempo de vida de una batera es una variable aleatoria de media 40 horas
y desvo 20 horas. Una batera se usa hasta que falla, momento en el cual se la reemplaza por
17
una nueva. Suponiendo que se dispone de un stock de 25 bateras, cuyos tiempos de vida son
independientes, aproximar la probabilidad de que pueda obtenerse un uso superior a las 1100
horas.
Soluci
on: Si ponemos Xi para denotar el tiempo de vida de la i-esima batera puesta en
uso, lo que buscamos es el valor de p = P(X1 + + X25 > 1000), que puede aproximarse de
la siguiente manera:
!
P25
X
1000
1100
1000
i
i=1
p = P
1 (1) = 0.1587.
>
20 25
20 25
Ejemplo 3.9. El peso W (en toneladas) que puede resistir un puente sin sufrir da
nos estructurales es una variable aleatoria con distribucion normal de media 1400 y desvo 100. El
peso (en toneladas) de cada camion de arena es una variable aleatoria de media 22 y desvo
0.25. Calcular la probabilidad de que ocurran da
nos estructurales cuando hay 64 camiones de
arena sobre el tablero del puente.
Soluci
on: Ocurren da
nos estructurales cuando la suma de los pesos de los 64 camiones,
X
,
.
.
.
,
X
,
supera
al
peso
W . Por el teorema central del lmite, la distribucion de la suma
1
64
P64
X
es
aproximadamente
una normal de media 1408 y desvo 2. En consecuencia, W
i=1 i
P64
i=1 Xi se distribuye (aproximadamente) como una normal de media 1400 1408 = 8 y
varianza 10000 + 4 = 10004. Por lo tanto,
!
!
!
P
64
64
X
X
W 64
X
+
8
8
i
i=1
P
Xi < 0 = P
Xi > W
= P W
<
10004
10004
i=1
i=1
(0.07998...) = 0.5318...
Ejercicios adicionales
1. Un astronauta debera permanecer 435 das en el espacio y tiene que optar entre dos
alternativas. Utilizar 36 tanques de oxgeno de tipo A o 49 tanques de oxigeno de tipo B.
Cada tanque de oxgeno de tipo A tiene un rendimiento de media 12 das y desvo 1/4. Cada
tanque de oxgeno de tipo B tiene un rendimiento de media de 8, 75 das y desvo 25/28.
Que alternativa es la m
as conveniente?
2. 432 n
umeros se redondean al entero m
as cercano y se suman. Suponiendo que los errores
individuales de redondeo se distribuyen uniformemente sobre el intervalo (0.5, 0.5), aproximar la probabilidad de que la suma de los n
umeros redondeados difiera de la suma exacta en
m
as de 6.
3. Dos aerolneas A y B que ofrecen identico servicio para viajar de Buenos Aires a San Pablo
compiten por la misma poblacion de 400 clientes, cada uno de los cuales elige una aerolnea
al azar. Cual es la probabilidad de que la lnea A tenga m
as clientes que sus 210 asientos?
18
4.
En esta secci
on se presentan tres distribuciones de probabilidad relacionadas con la distribuci
on normal: las distribuciones 2 , t y F . Esas distribuciones aparecen en muchos problemas estadsticos.
4.1.
2 (chi-cuadrado)
Definici
on 4.1 (Distribucion chi-cuadrado con un grado de libertad). Si Z es una una variable aleatoria con distribucion normal estandar, la distribucion de U = Z 2 se llama la distribuci
on chi-cuadrado con 1 grado de libertad.
1.8
1.6
1.4
1.2
1
0.8
0.6
0.4
0.2
0
Figura 7: Gr
afico de la funcion densidad de probabilidad de la distribucion 21 .
Caracterizaci
on de la distribuci
on 21 . La funcion de distribucion de la variable U = Z 2
2
es FU (u) = P(Z u), donde Z es N (0, 1). Para cada u > 0, vale que
Z u
1
2
2
F (x) = P(Z u) = P(|Z| u) = P( u Z u) = ez /2 dz.
2
u
Usando el teorema fundamental del calculo integral y la regla de la cadena obtenemos que
para cada u > 0 vale que
Z u
1
d
d
2
ez /2 dz
fU (u) =
FU (u) =
du
du u 2
1
( u)2 /2 d
( u)2 /2 d
( u) e
( u)
=
e
du
du
2
1
1
u/2 1
u/2 1
u/2 1
+e
=
=
e
e
2 u
2 u
u
2
2
1
1
(1/2) 2
(1/2) 2 1
(30)
=
u1/2 e(1/2)u = u 2 1 e(1/2)u .
19
La u
ltima expresi
on que aparece en el lado derecho de la identidad (30) es la expresi
on de la
1 1
densidad de la distribucion 2 , 2 . Por lo tanto,
1 1
2
1 =
,
.
2 2
Nota Bene.
21 .
2
Definici
on 4.2 (Distribucion chi-cuadrado). Si U1 , U2 , . . . , Un P
son variables aleatorias independientes, cada una con distribucion 21 , la distribucion de V = ni=1 Ui se llama distribucion
chi-cuadrado con n grados de libertad y se denota 2n .
Caracterizaci
on de la distribuci
on chi-cuadrado.
ticular de la distribucion Gamma. M
as precisamente,
n 1
2
n =
,
.
2 2
La distribucion 2n no es simetrica.
0.14
0.12
0.1
0.08
0.06
0.04
0.02
10
15
20
25
Figura 8: Gr
afico de la funcion densidad de probabilidad de la distribucion 27 .
20
4.2.
t de Student
Definici
on 4.3 (La distribucion t de Student). Sean Z y U variables aleatorias independientes
con distribuciones N (0, 1) y 2n , respectivamente. La distribuci
on de la variable
Z
T =p
U/n
se llama distribuci
on t de Student con n grados de libertad y se denota mediante tn .
La funcion densidad de la t de Student con n grados de libertad es
n+1
2
n+1
t2
2
fT (t) =
1
+
.
n
n n2
La formula de la densidad se obtiene por los metodos estandar desarrollados en las notas
sobre transformaciones de variables.
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
5
Figura 9: Comparaci
on de la funcion densidad de probabilidad de una distribucion t7 (lnea
solida) con la de la distribucion N (0, 1) (lnea punteada).
Observaci
on 4.4. Notar que la densidad de tn es simetrica respecto del origen. Cuando la
cantidad de grados de libertad, n, es grande la distribucion tn se aproxima a la la distribucion
N (0, 1); de hecho para m
as de 20 o 30 grados de libertad, las distribuciones son muy cercanas.
.
4.3.
F de Fisher
Definici
on 4.5 (Distribucion F ). Sean U y V variables aleatorias independientes con distribuciones 2m y 2n , respectivamente. La distribuci
on de la variable
W =
U/m
V /n
21
se llama distribuci
on F con m y n grados de libertad y se denota por Fm, n .
La funcion densidad de W es
m
m+n
m m+n
m 2 m 1
2
2
2
fW (w) =
1
+
w
1{w 0}.
w
n
n
n
m
2
2
0.7
0.6
0.5
0.4
0.3
0.2
0.1
Figura 10: Gr
afico tpico de la funcion densidad de probabilidad de una distribucion F .
C
omo usar las tablas de las distribuciones F ? Para cada (0, 1), sea F,m,n el
punto del semieje positivo de las abscisas a cuya derecha la distribucion Fm,n acumula una
probabilidad :
P(Fm,n > F,m,n ) = .
Observaci
on 4.6. Notar que de las igualdades
U/m
V /n
V /n
1
1
=P
> F,m,n = P
<
=1P
V /n
U/m
F,m,n
U/m
F,m,n
se deduce que
F1,n,m =
1
F,m,n
22
(31)
En los manuales de estadstica se pueden consultar las tablas de los valores F,m,n para
diferentes valores de m, n y {0.01, 0.05}. Por ejemplo, seg
un la tabla que tengo a mi
disposicion1
P(F9, 9 > 3.18) = 0.05
y
P(F9,9 > 5.35) = 0.01
Usando esa informaci
on queremos hallar valores 1 y 2 tales que
P(F9, 9 > 2 ) = 0.025
El valor de 2 se obtiene por interpolacion lneal entre los dos puntos dados en la tabla:
A = (3.18, 0.05) y B = (5.35, 0.01). La ecuaci
on de la recta que pasa por ellos es y 0.01 =
0.04
2.17 (x 5.35). En consecuencia, 2 sera la solucion de la ecuaci
on 0.025 0.01 = 0.04
2.17 (2
5.35). Esto es, 2 = 4.5362.
El valor de 1 se obtiene observando que la ecuaci
on P(F9, 9 < 1 ) = 0.025 es equivalente
a la ecuaci
on P (1/F9, 9 > 1/1 ) = 0.025. Por definicion, la distribucion de 1/F9, 9 coincide con
la de F9, 9 . En consecuencia, 1 debe satisfacer la ecuaci
on P (F9, 9 > 1/1 ) = 0.025. Por lo
tanto, 1 = 1/4.5362 = 0.2204.
5.
Bibliografa consultada
Para redactar estas notas se consultaron los siguientes libros:
1. Cramer, H.: Metodos matem
aticos de estadstica. Aguilar, Madrid. (1970)
2. Durrett R.: Probability. Theory and Examples. Duxbury Press, Belmont. (1996)
3. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. John
Wiley & Sons, New York. (1968)
4. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 2. John
Wiley & Sons, New York. (1971)
5. Hoel P. G.: Introducci
on a la estadstica matem
atica. Ariel, Barcelona. (1980)
6. Piskunov, N.: C
alculo diferencial e integral, tomo I. Mir, Mosc
u (1983)
7. Rice, J. A.: Mathematical Statistics and Data Analysis. Duxbury Press, Belmont. (1995)
8. Ross, S. M: Introduction to Probability and Statistics for Engineers and Scientists.
Elsevier Academic Press, San Diego. (2004)
9. Ross, S.: Introduction to Probability Models. Academic Press, San Diego. (2007)
Introducci
on a la estadstica matem
atica. Ariel, Barcelona. (1980).
23
Estimadores puntuales
(Borradores, Curso 23)
Sebastian Grynberg
20-22 de mayo de 2013
Indice
1. Introducci
on
1.1. Nociones y presupuestos basicos . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2. Algunas familias parametricas . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
2
3
2. Estimadores
2.1. Error cuadratico medio, sesgo y varianza . . . . . . . . . . . . . . . . . . . . .
2.2. Comparaci
on de estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
5
7
9
3. M
etodo de m
axima verosimilitud
3.1. Estimador de m
axima verosimilitud (emv)
3.2. C
alculo del emv para familias regulares .
3.2.1. Familias exponenciales . . . . . . .
3.2.2. Malas noticias! . . . . . . . . . . .
3.3. C
alculo del emv para familias no regulares
3.4. Principio de invariancia . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4. Bibliografa consultada
1.
10
10
12
17
19
20
22
23
Introducci
on
1.1.
Nociones y presupuestos b
asicos
Definici
on 1.1 (Muestra aleatoria). Sea (, A, P) un espacio de probabilidad y X : R
una variable aleatoria. Una muestra aleatoria de volumen n de la variable aleatoria X es una
sucesion X1 , . . . , Xn de variables aleatorias independientes cada una con la misma distribucion
de X.
Modelos param
etricos. En todo lo que sigue vamos a suponer que
1. La funcion de distribucion de la variable aleatoria X es desconocida parcialmente: se
sabe que F (x) = P(X x) pertenece a una familia, F, de distribuciones conocidas que
dependen de un par
ametro desconocido: F = {F : }.
2. El conjunto parametrico, , es no vaco y esta contenido en Rd .
3. Las distribuciones de la familia F son distinguibles: F1 6= F2 cuando 1 6= 2 .
4. Las distribuciones de la familia F tienen densidad. Si se trata de una familia de
distribuciones continuas esto significa que para cada , existe una funcion densidad
d
F (x) = f (x|). Si se trata de una familia
de probabilidades (f.d.p.) f (x|) tal que dx
de distribuciones discretas esto significa que para cada , existe una funcion de
probabilidad (f.p.) f (x|) tal que F (x) F (x) = f (x|).
5. Es posible conseguir muestras aleatorias de la variable X del volumen que se desee.
Nota Bene. De los presupuestos basicos adoptados resulta que los modelos parametricos
adoptan la forma
F = {f (x|) : } ,
donde es un par
ametro desconocido que puede tomar valores en un espacio parametrico
d
R .
1.2.
1 x
x e
1{x 0},
()
R
donde () := 0 x1 ex dx. Vale que E[X] = / y V(X) = /2 .
Casos particulares de las familias Gamma son las familias exponenciales Exp() = (1, )
y las familias chi cuadrado 2 = (/2, 1/2).
3. Familia Beta, (1 , 2 ). Decimos que X tiene distribucion beta de par
ametros 1 > 0
y 2 > 0 cuando la f.d.p. de X esta dada por
f (x|1 , 2 ) =
(1 + 2 ) 1 1
x
(1 x)2 1 1{0 < x < 1}.
(1 )(2 )
Vale que
E[X] =
1
1 + 2
V(X) =
(1 +
1 2
2
2 ) (1 + 2
+ 1)
x
,
x!
x = 0, 1, . . . .
2.
Estimadores
Notaci
on. Si F es una familia de distribuciones F con densidades f (x|), , escribimos
Z
Z
P (X A) =
f (x|)dx
y
E [r(X)] = r(x)f (x|)dx
A
El subndice indica que la probabilidad o la esperanza es con respecto a f (x|). Similarmente, escribimos V
para la varianza.
2.1.
Error cuadr
atico medio, sesgo y varianza
para el par
ametro se define por
h
i
= E ( )2 .
ECM()
(1)
El ECM se puede descomponer de la siguiente manera2
h
i
+ B2 (),
E ( )2 = V ()
(2)
:= E []
es el llamado sesgo del estimador. El primer termino de la descomdonde B ()
2
2
2
+ 2( E [])(E
h
i
2
2 + 2( E [])(E
E ( )2
= E ( E [])
[] ) + E []
=
h
i
2
2 + 0 + E []
= V ()
+ B2 ().
E ( E [])
Definici
on 2.4 (Estimadores insesgados). Diremos que un estimador es insesgado para el
par
ametro si
= .
E []
0. Si lmn B []
= 0 para todo , diremos que el
para todo , o sea B ()
estimador es asint
oticamente insesgado para .
Nota Bene.
ECM()
X
= 1
X
Xi .
n
i=1
E X = E
Xi =
E [Xi ] = ().
n
n
i=1
i=1
i=1
X
:= 1
X
Xi
n
2 :=
i=1
1X
2.
(Xi X)
n
i=1
1X
())2 ,
=
(Xi ())2 (X
n
2
(3)
i=1
E [
2] =
1X
())2
E (Xi ())2 E (X
n
i=1
n
1X
V (Xi ) V (X).
n
(4)
i=1
1X
= 2 () 1 2 () = n 1 2 ().
E [
]=
V (Xi ) V (X)
n
n
n
2
(5)
i=1
S 2 :=
1 X
n
2
2 =
(Xi X)
n1
n1
(6)
i=1
2.2.
Comparaci
on de estimadores
El error cuadratico medio puede usarse para comparar estimadores. Diremos que 1 es
mejor que 2 si
ECM(1 ) ECM(2 ),
(7)
para todo , con desigualdad estricta para al menos un valor de . En tal caso, el estimador 2
se dice inadmisible. Si existe un estimador tal que para todo estimador de con 6=
ECM( ) ECM(),
(8)
3
en la forma
La descomposici
on (3) se obtiene haciendo lo siguiente. Para cada i escribimos (Xi X)
()). Desarrollando cuadrados obtenemos (Xi X)
2 = (Xi ())2 + (X
())2
(Xi ()) (X
2(Xi ())(X ()). El resultado se obtiene observando que el promedio de los terminos cruzados (Xi
()) es igual a (X
())2 . (Hacer la cuenta y verificarlo! )
())(X
para todo , con desigualdad estricta para al menos un valor de , entonces se dice o
ptimo.
Cuando la comparacion se restringe a los estimadores son insesgados, el estimador optimo,
, se dice el estimador insesgado de varianza uniformemente mnima. Esta denominacion
resulta de observar que estimadores insesgados la relaci
on (8) adopta la forma
V ( ) V (),
para todo , con desigualdad estricta para al menos un valor de .
Ejemplo 2.7. Sean X1 , X2 , X3 una muestra aleatoria de una variable aleatoria X tal que
E [X] = y V (X) = 1. Consideremos los estimadores
1
1
1
= X1 + X2 + X3
X
y
= X1 + X2 + X3 .
3
2
4
4
1
= y V (X)
= . Tenemos tambien que
Seg
un el Ejemplo 2.5 E [X]
3
= 1 E [X1 ] + 1 E [X2 ] + 1 E [X3 ] = 1 + 1 + 1 =
E []
2
4
4
2
4
4
y
V (1 ) =
2
.
3n
(9)
(10)
Por otro lado, la funcion densidad de X(n) esta dada por f (x) =
donde se deduce que
E [X(n) ] =
n+1
V (X(n) ) =
nxn1
n 1{0
n2
.
(n + 1)2 (n + 2)
< x < }, de
(11)
(n + 1)2 (n + 2)
n+1
2
2
2
n
2
=
+
=
.
(12)
2
2
(n + 1) (n + 2) (n + 1)
(n + 1)(n + 2)
Es facil, pero tedioso, ver que ECM(2 ) < ECM(1 ) para todo y todo n. Por lo tanto, X(n)
para todo y todo n.
es mejor que 2X
2.3.
Consistencia
1 , . . . , Xn ), es que, en
Lo mnimo que se le puede exigir a un estimador puntual, (X
alg
un sentido, se aproxime al verdadero valor del par
ametro cuando el volumen de la muestra
aumenta. En otras palabras, si es tal que F = F y X1 , X2 , . . . es una sucesion
de variables aleatorias independientes cada una con distribucion F , en alg
un sentido, debe
ocurrir que
1 , . . . , Xn ) ,
(X
cuando n .
Por ejemplo, es deseable que el estimador tenga la siguiente propiedad, llamada consistencia debil : para cada > 0 debe cumplir que
1 , . . . , Xn ) | > ) = 0.
lm P (|(X
(13)
M
as exigente, es pedirle que tenga la siguiente propiedad, llamada consistencia fuerte:
1 , . . . , Xn ) = = 1.
P lm (X
(14)
n
Normalidad asint
otica. Tambien se le puede pedir una propiedad similar a la del teorema
central lmite, llamada normalidad asint
otica: existe = () > 0 tal que
! Z
x
1
n((X1 , . . . , Xn ) )
2
et /2 dt
lm P
x =
(15)
n
Nota Bene. Los problemas de consistencia y normalidad asintotica estan relacionados con
las leyes de los grandes n
umeros y el teorema central de lmite. El siguiente ejemplo muestra
dicha relaci
on para el caso en que se quiere estimar la media de una distribucion.
Ejemplo 2.9 (Estimacion de media). Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una
variable aleatoria cuya distribucion pertenece a una familia F = {F : }. Sean () y
2 () la media y la varianza correspondientes a la distribucion F , respectivamente. Aplicando
se obtiene que para cada > 0
la desigualdad de Chebychev a X
V (X)
1 2 ()
P X () >
=
0,
2
n
2
cuando n .
Hasta aqu, lo u
nico que hicimos es volver a demostrar la ley debil de los grandes n
umeros.
Lo que queremos subrayar es que en el contexto de la estimaci
on de par
ametros, la ley debil de
es un estimador debilmente
los grandes n
umeros significa que el promedio de la muestra, X,
consistente para la la media de la distribuci
on, ().
La consistencia fuerte del promedio, como estimador para la media es equivalente a la
Ley fuerte de los grandes n
umeros que afirma que: Si X1 , X2 , . . . es una sucesi
on de variables
aleatorias independientes e identicamente distribuidas y si existe E[Xi ] = , entonces
= = 1.
P lm X
n
Nota Bene. De todas las propiedades de convergencia la consistencia debil es la mas simple,
en el sentido de que puede establecerse con unas pocas herramientas tecnicas. Para verificar
la consistencia debil del promedio para estimar la media solamente usamos la desigualdad
de Chebychev y las propiedades de la media y la varianza. El razonamiento utilizado en el
Ejemplo 2.9 se puede extender un poco m
as all
a.
Teorema 2.10. Sea un estimador de basado en una muestra aleatoria de volumen n. Si
es asintoticamente insesgado y su varianza tiende a cero, entonces es debilmente consistente.
Demostraci
on. El resultado se obtiene usando la desigualdad de Chebychev y la identidad
(2):
h
i
1
1
+ B2 ()
0.
P > 2 E ( )2 = 2 V ()
3.
M
etodo de m
axima verosimilitud
El metodo de m
axima verosimilitud es un metodo universal para construir estimadores
puntuales. Su base intuitiva es la siguiente: si al realizar un experimento aleatorio se observa
un resultado, este debe tener alta probabilidad de ocurrir.
Para hacer m
as precisa esa base intuitiva consideremos una muestra aleatoria, X =
(X1 , . . . , Xn ), de una variable aleatoria discreta X con funcion de probabilidad f (x|),
, donde es el espacio parametrico. La probabilidad de observar los resultados X1 =
x1 , . . . , Xn = xn se calcula del siguiente modo:
P (X1 = x1 , . . . , Xn = xn ) =
n
Y
P (Xi = xi ) =
i=1
n
Y
i=1
f (xi |).
(16)
Si los resultados observables deben tener una alta probabilidad de ocurrir y observamos que
X1 = x1 , . . . , Xn = xn , entonces lo razonable sera elegir entre todos los par
ametros posibles,
, aquel (o aquellos) que maximicen (16). En consecuencia,
Q se podra estimar como el
valor (o los valores) de que hace m
axima la probabilidad ni=1 f (xi |).
3.1.
Estimador de m
axima verosimilitud (emv)
Definici
on 3.1 (EMV). Sea X una variable aleatoria cuya distribucion pertenece a la familia
parametrica F = {F : }. Un estimador de m
axima verosimilitud de , basado en los
valores x = (x1 , . . . , xn ) de una muestra aleatoria X = (X1 , . . . , Xn ), es un valor mv que
maximiza la funcion de verosimilitud
L(|x) :=
n
Y
i=1
f (xi |),
(17)
10
Sobre la notaci
on. Para destacar que el valor del estimador de m
axima verosimilitud
(18)
Ejemplo 3.2. Supongamos que tenemos una moneda que puede ser equilibrada o totalmente
cargada para que salga cara. Lanzamos la moneda n veces y registramos la sucesion de caras
y cecas. Con esa informaci
on queremos estimar que clase de moneda tenemos.
Cada lanzamiento de la moneda se modela con una variable aleatoria X con distribucion
Bernoulli(), donde es la probabilidad de que la moneda salga cara. El espacio parametrico
es el conjunto = {1/2, 1}.
El estimador de m
axima verosimilitud para , basado en los valores x = (x1 , . . . , xn ) de
una muestra aleatoria X = (X1 , . . . , Xn ) de la variable X, es el valor de mv (x) = {1/2, 1}
que maximiza la funcion de verosimilitud L(|x). Para encontrarlo comparamos los valores
de la funcion de verosimilitud L(1/2|x) y L(1|x):
( n
)
n
Y
X
n
f (xi |1/2) = (1/2) ,
L(1|x) = 1
L(1/2|x) =
xi = n .
i=1
i=1
En consecuencia, el estimador de m
axima verosimilitud para , basado en los valores x =
(x1 , . . . , xn ) de una muestra aleatoria X = (X1 , . . . , Xn ) es
( n
)
( n
)
X
X
1
mv (x) = 1
xi < n + 1
xi = n .
2
i=1
i=1
i=1
[1, 1].
2. si x1 = 0, el m
aximo se alcanza en cualquiera de los valores del intervalo ,
3. si x1 > 0, el m
aximo se alcanza en = 1.
Abusando de la notaci
on tenemos que
mv (x1 ) = 1{x1 < 0} + 1{x1 = 0} + 1{x1 > 0}.
Por lo tanto,
mv (X1 ) = 1{X1 < 0} + 1{X1 = 0} + 1{X1 > 0}.
Ejemplo 3.4.
[1, 1].
mv (1/2, 1/4) = 1.
Supongamos ahora que una muestra aleatoria de tama
no 2 arrojo los valores 1/2 y 1/4 y
con esa informaci
on queremos hallar el estimador de m
axima verosimilitud para . La funcion
de verosimilitud adopta la forma
1
1
1
L(|1/2, 1/3) =
1+
1
,
4
2
3
y su gr
afico es un segmento de par
abola convexa cuyas races son 2 y 3. Por lo tanto,
mv (1/2, 1/3) = 0.5.
3.2.
C
alculo del emv para familias regulares
12
n
Y
i=1
f (xi |) > 0.
Esto habilita a tomar logaritmos y utilizar la propiedad el logaritmo del producto es igual
a la suma de los logaritmos. En consecuencia, para cada x = (x1 , . . . , xn ) Sn , la funcion
log L(|x) esta bien definida y vale que
log L(|x) = log
n
Y
i=1
f (xi |) =
n
X
i=1
(19)
Como el logaritmo natural log() es una funcion monotona creciente, maximizar la funcion
de verosimilitud L(|x) sera equivalente a maximizar log L(|x). La ventaja de maximizar el
logaritmo de la funcion de verosimilitud es que, bajo las condiciones de regularidad enunciadas
previamente, los productos se convierten en sumas, aligerando considerablemente el trabajo
de computo del EMV ya que el EMV debe verificar el sistema de ecuaciones
log L(|x)
=0
j
j = 1, . . . , d.
(20)
= 0,
j = 1, . . . , d.
(21)
Por este camino llegamos al siguiente resultado que provee la herramienta adecuada para el
calculo del EMV.
Lema 3.5. Sea X una variable aleatoria con funcion de densidad (o de probabilidad) f (x|),
Rd , perteneciente a una familia regular de distribuciones. El estimador de m
axima
verosimilitud de , basado en los valores x = (x1 , . . . , xn ) de una muestra aleatoria X =
(X1 , . . . , Xn ), es solucion del siguiente sistema de ecuaciones:
n
X
j (|xi ) = 0
j = 1, . . . , d,
(22)
i=1
log f (x|)
.
j
(23)
Nota Bene. Por supuesto que las condiciones (22) son necesarias pero no suficientes para
que sea un m
aximo. Para asegurarse que es un m
aximo deberan verificarse las condiciones de segundo orden. Adem
as debe verificarse que no se trata de un m
aximo relativo sino
absoluto.
13
(|xi ) = 0,
(24)
i=1
log f (x|)
.
(25)
log f (x|)
.
Observando que
1
1
(x 1) + x
1
i=1
(26)
i=1
Un poco de
algebra muestra que para cada pareja a 6= b vale que:
1
1
b
a+ b=0 =
.
(27)
1
ba
P
P
P
Sigue de (27), poniendo a = ni=1 (xi 1) = ni=1 xi n y b = ni=1 xi , que la solucion de la
ecuaci
on (26) es
n
1X
xi .
n
i=1
Con un poco m
as de trabajo, se puede verificar que dicha solucion maximiza el logaritmo de
la verosimilitud.
En resumen, si x = (x1 , . . . , xn ) son los valores observados de una muestra aleatoria
X = (X1 , . . . , Xn ), el estimador de m
axima verosimilitud para es el promedio (o media)
muestral
n
1X
mv = mv (x) =
xi
n
i=1
14
1X
mv (X) =
Xi .
n
(28)
i=1
X
= 1
Xi ,
X
n
i=1
es una variable aleatoria. Subrayamos este hecho para que no se pierda de vista que los
estimadores puntuales son funciones de la muestra aleatoria X = (X1 , . . . , Xn ) y por lo tanto
son variables aleatorias. En el Ejemplo 3.6, el par
ametro es la media de la distribucion que
produce la muestra y el estimador de m
axima verosimilitud para es el promedio muestral.
Por lo tanto, mv es un estimador insesgado, consistente y asint
oticamente normal.
Nota Bene. Si la muestra aleatoria arrojo los valores 1, 1, . . . , 1, es facil ver que mv = 1,
en cambio si arrojo 0, 0, . . . , 0 resulta que mv = 0. Estos resultados tambien coinciden con
el promedio de los valores observados. Por lo tanto, el resultado obtenido en (28) se puede
extender al caso en que = [0, 1].
Ejemplo 3.7 (Distribuciones de Bernoulli). Bajo el supuesto de que los valores de la secuencia
0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0.
(29)
15
1X
mv (X) =
Xi = X.
n
i=1
En efecto, como
(|x) =
x
log f (x|)
=
la ecuaci
on de verosimilitud (24) equivale a
n
X
i=1
(xi ) = 0.
2 2
con lo cual
(x )2
1
log 2
.
2
2 2
log f (x|, 2 )
x
=
2
log f (x|, 2 )
1
(x )2
=
+
.
2
2 2
2( 2 )2
i=1
=
2 =
1X
xi = x
,
n
1
n
i=1
n
X
i=1
16
(xi x
)2 .
mv (x) = n1 ni=1 xi = x
y
)2 .
i=1
n
Por lo tanto, el estimador de m
axima verosimilitud para (, 2 ), basado en una muestra
aleatoria X = (X1 , . . . , Xn ) de variables normales, N (, 2 ), es el punto en R (0, ) de
coordenadas aleatorias
n
X
c2 mv (X) = 1
2.
(Xi X)
n
mv (X) = X,
(30)
i=1
3.2.1.
Familias exponenciales
Muchos modelos estadsticos pueden considerarse como casos particulares de una familia
m
as general de distribuciones.
Definici
on 3.10 (Familias exponenciales). Decimos que la distribucion de una variable
aleatoria X pertenece a una familia exponencial unidimensional de distribuciones, si podemos
escribir su funcion de probabilidad o su funcion densidad como
f (x|) = ea()T (x)+b()+S(x) ,
x S,
(31)
log f (x|)
= a ()T (x) + b ()
y en consecuencia, la ecuaci
on de verosimilitud (24) adopta la forma
a ()
n
X
T (xi ) + nb () = 0.
i=1
1X
b ()
=
T (xi ).
a ()
n
i=1
17
(32)
Ejemplo 3.11 (Distribuciones exponenciales). Sea X una variable aleatoria con distribucion
Exponencial(), > 0. Podemos escribir
f (x|) = ex = ex+log
Por lo tanto, la distribucion de X pertenece a una familia exponencial unidimensional con
a() = , b() = log , T (x) = x, S(x) = 0 y S = (0, ). La ecuaci
on de verosimilitud (32)
adopta la forma
n
1
1X
=
xi = x
(33)
n
i=1
cuya solucion es = 1/
x. Se puede verificar que el valor de as obtenido maximiza el
logaritmo de la verosimilitud.
Si la muestra aleatoria X = (X1 , . . . , Xn ) arrojo los valores x = (x1 , . . . , xn ), el estimador
de m
axima verosimilitud para es
mv (x) = (
x)1 .
n
i=1
Ejemplo 3.12 (Distribuciones normales con media conocida). Sea X una variable aleatoria
con distribucion normal N (, 2 ), donde la media es conocida y la varianza 2 > 0. Podemos
escribir
(x)2
1
2 1
2
1
f (x| 2 ) =
e 22 = e 22 (x) 2 log log 2
2
Por lo tanto, la distribucion de X pertenece a una familia exponencial
unidimensional con
on
a( 2 ) = 21 2 , b( 2 ) = 21 log 2 , T (x) = (x )2 , S(x) = log 2 y S = R. La ecuaci
de verosimilitud (32) adopta la forma
n
1X
1/2 2
=
(xi )2
1/2( 2 )2
n
(34)
i=1
P
cuya solucion es 2 = n1 ni=1 (xi )2 . Se puede verificar que el valor de 2 as obtenido
maximiza el logaritmo de la verosimilitud.
Si la muestra aleatoria X = (X1 , . . . , Xn ) arrojo los valores x = (x1 , . . . , xn ), el estimador
de m
axima verosimilitud para 2 es
n
1X
c
2
(xi )2 .
mv (x) =
n
i=1
X
c2 mv (X) = 1
(Xi )2 .
n
i=1
18
3.2.2.
Malas noticias!
Esta calle es m
as angosta de lo que pens
as.
(Proverbio Zen)
Ejemplo 3.13 (Fiabilidad). Sea T1 , . . . , Tn una muestra aleatoria del tiempo de duraci
on sin
1
fallas de una m
aquina cuya funcion intensidad de fallas es (t) = t
1{t > 0}, donde el
par
ametro de desgaste > 0 es desconocido. La densidad de cada tiempo T es
(35)
Observando que
log f (t|) = log + ( 1) log t t
y derivando respecto de se obtiene
log f (x|)
1
= + log t t log t.
i=1
i=1
X
n X
ti log ti = 0
log ti
+
(36)
(37)
donde g() es una funcion suave. La idea es la siguiente: supongamos que es una raz de la
ecuaci
on (37). Desarrollando g() en serie de Taylor en torno de un punto 0 , obtenemos que
g() g(0 ) + ( 0 )g (0 ).
En consecuencia, si 0 esta cerca de una raz de la ecuaci
on (37), debera ocurrir lo siguiente
0
g(0 )
.
g (0 )
(38)
De la ecuaci
on (38) obtenemos el procedimiento iterativo
j+1 = j
g(j )
g (j )
(39)
que se inicia con un valor 0 y produce un nuevo valor 1 a partir de (39) y as siguiendo,
hasta que el proceso se estabilice, o sea, hasta que |j+1 j | < para un > 0 peque
no y
prefijado.
19
i=1
i=1
X
n X
+
log ti
ti log ti .
Como
n
X
n
ti (log ti )2 ,
g () = 2
i=1
Pn
i=1 ti log ti
i=1 log ti
.
P
n
n
2
+
t
(log
t
)
i
2
i=1
i
Pn
(40)
3.3.
C
alculo del emv para familias no regulares
Vena r
apido, muy r
apido y se le solt
o un patn ...
20
Ejemplo 3.16 (Distribucion uniforme). La familia {U(0, ) : > 0} de distribuciones uniformes no es una familia regular debido a que el soporte de la densidad de la distribucion
U(0, ) es [0, ] (y depende claramente del valor del par
ametro ). En esta situacion tampoco
puede utilizarse la metodologa del Lema 3.5. En este caso = (0, ) y las funciones de
densidad son de la forma
1
f (x|) = 1{0 x }.
La funcion de verosimilitud es
n
n
Y
1
1 Y
L(|x) =
1{0 xi } = n
1{0 xi }
i=1
i=1
1
=
1
m
a
x
x
.
i
i=1,...,n
n
Si < m
axi xi , entonces L(|x) = 0. Si m
axi xi , entonces L(|x) = n , una funcion
decreciente en . En consecuencia, su m
aximo se alcanza en
= m
ax xi .
i=1,...,n
Ejemplo 3.17 (Distribucion uniforme). La familia {U( 1/2, + 1/2) : R} de distribuciones uniformes no es una familia regular debido a que el soporte de la densidad de
la distribucion U( 1/2, + 1/2) es [ 1/2, + 1/2] (y depende claramente del valor del
par
ametro ). En este caso = R y las funciones de densidad son de la forma
f (x|) = 1{ 1/2 x + 1/2}.
La funcion de verosimilitud es
L(|x) =
n
Y
i=1
1{ 1/2 xi + 1/2}
pues
si y solamente si
= 1 m
ax xi 1/2 mn xi + 1/2
i=1,...,n
i=1,...,n
= 1 x(n) 1/2 x(1) + 1/2 ,
1/2 xi + 1/2,
xi + 1/2
i = 1, . . . , n,
xi 1/2 ,
i = 1, . . . , n,
Como L(|x) se anula para < x(n) y para > x(1) + 1/2 y es constantemente 1 en el
intervalo [x(n) 1/2, x(1) + 1/2], tenemos que cualquier punto de ese intervalo es un estimador
de m
axima verosimilitud para . En particular,
x(1) + x(n)
(x)
=
2
es un estimador de m
axima verosimilitud para . Etc...
21
3.4.
Principio de invariancia
L (|x)
= m
ax L (|x)
L (|x)
= L(g 1 ()|x)
= L(mv |x) = m
ax L(|x) = m
ax L(g 1 ()|x)
= m
ax L (|x).
Por lo tanto,
d
g()
mv = g(mv ).
Ejemplo 3.19. Sea X1 , . . . , Xn una muestra aleatoria de la variable aleatoria X N (, 1).
es el estimador de m
En el Ejemplo 3.8 vimos que
mv = X
axima verosimilitud para .
Queremos estimar
g() = P (X 0) = ().
Por el principio de invariancia, tenemos que
g(
mv ) = (X)
es el estimador de m
axima verosimilitud para P (X 0).
Nota Bene En general, si = g(), aunque g no sea biunvoca, se define el estimador de
m
axima verosimilitud de por
= g(mv ).
22
4.
Bibliografa consultada
Para redactar estas notas se consultaron los siguientes libros:
1. Bolfarine, H., Sandoval, M. C.: Introducao `a Inferencia Estatstica. SBM, Rio de Janeiro.
(2001).
2. Borovkov, A. A.: Estadstica matem
atica. Mir, Mosc
u. (1984).
3. Cramer, H.: Metodos matem
aticos de estadstica. Aguilar, Madrid. (1970).
4. Hoel P. G.: Introducci
on a la estadstica matem
atica. Ariel, Barcelona. (1980).
5. Maronna R.: Probabilidad y Estadstica Elementales para Estudiantes de Ciencias. Editorial Exacta, La Plata. (1995).
23
Indice
1. Estimaci
on por intervalo
1.1. El metodo del pivote . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.1. Pivotes decrecientes . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.2. Pivotes crecientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2. Muestras de Poblaciones Normales
2.1. Media y varianza desconocidas . . . . . . . .
2.1.1. Teorema llave . . . . . . . . . . . . . .
2.1.2. Cotas e intervalos de confianza para la
2.1.3. Cotas e intervalos de confianza para la
2.1.4. Ejemplo . . . . . . . . . . . . . . . . .
2.2. Media de la normal con varianza conocida . .
2.3. Varianza de la normal con media conocida . .
. . . . .
. . . . .
varianza
media .
. . . . .
. . . . .
. . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
5
5
8
10
10
10
11
12
13
13
14
15
4. Comparaci
on de dos muestras normales
4.1. Cotas e intervalos de confianza para la diferencia de medias .
4.1.1. Varianzas conocidas . . . . . . . . . . . . . . . . . . .
4.1.2. Varianzas desconocidas. . . . . . . . . . . . . . . . . .
4.2. Cotas e intervalos de confianza para el cociente de varianzas.
.
.
.
.
17
17
17
17
19
5. Comparaci
on de dos muestras
5.1. Planteo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2. Problema de dos muestras binomiales . . . . . . . . . . . . . . . . . . . . . .
19
19
20
6. Ap
endice: Demostraci
on del Teorema llave
6.1. Preliminares de An
alisis y Algebra
. . . . . . . . . . . . . . . . . . . . . . . .
6.2. Lema previo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.3. Demostraci
on del Teorema. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
22
23
23
7. Bibliografa consultada
24
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1.
Estimaci
on por intervalo
(1)
para todo .
Definici
on 1.2 (Cotas de confianza). Una cota inferior de confianza para , de nivel ,
basada en la muestra aleatoria X, es una variable aleatoria 1 (X) tal que
P (1 (X) ) = ,
(2)
para todo .
Una cota superior de confianza para , de nivel , basada en la muestra aleatoria X, es
una variable aleatoria 2 (X) tal que
P ( 2 (X)) = ,
(3)
para todo .
Nota Bene. En el caso discreto no siempre se pueden obtener las igualdades (1), (2) o (3).
Para evitar este tipo de problemas se suele definir un intervalo mediante la condici
on m
as
laxa P ( I(X)) , . En este caso el mn P ( I(X)) se llama nivel de confianza.
Observaci
on 1.3. Sean 1 (X) una cota inferior de confianza de nivel 1 > 1/2 y 2 (X) una
cota superior de confianza de nivel 2 > 1/2, tales que P (1 (X) 2 (X)) = 1 para todo
. Entonces,
I(X) = [1 (X), 2 (X)]
define un intervalo de confianza para de nivel = 1 + 2 1. En efecto,
P ( I(X)) = 1 P ( < 1 (X) o > 2 (X))
= 1 (1 1 ) (1 2 ) = 1 + 2 1.
(4)
Ejemplo 1.4 (Media de la normal con varianza conocida). Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria X N (, 2 ), con varianza 2 conocida. Para obtener
un intervalo de confianza de nivel para , consideramos el estimador de m
axima verosimilitud para
n
X
= 1
X
Xi .
n
i=1
n X
N (0, 1) .
z(1+)/2
!
n X
z(1+)/2 = .
P X z(1+)/2 X + z(1+)/2 = ,
n
n
y por lo tanto el intervalo
I(X) = X
z
,X+
z
n (1+)/2
n (1+)/2
es un intervalo de confianza para de nivel .
Nota Bene. Las ideas principales para construir el intervalo de confianza contenidas en el
ejemplo anterior son las siguientes:
1. Obtener un estimador del par
ametro y caracterizar su distribucion.
2. Transformar el estimador de par
ametro hasta convertirlo en una variable aleatoria cuya
distribucion conocida que no dependa del par
ametro.
3. Poner cotas para el estimador transformado y despejar el par
ametro.
1.1.
El m
etodo del pivote
construcci
on apoyandose en alg
un estimador puntual del par
ametro (X)
(cuya distribucion
depende de ). Una tecnica general para construir intervalos de confianza, llamada el metodo
2. Despejar el par
ametro de las desigualdades a Q (X, ) b.
Si el pivote Q(X, ) es una funcion monotona en se puede ver que existen 1 (X) y 2 (X)
tales que
a Q(X; ) b 1 (X) 2 (X)
y entonces
P (1 (X) 2 (X)) = ,
de modo que I(X) = [1 (X), 2 (X)] es un intervalo de confianza para de nivel .
1.1.1.
Pivotes decrecientes
q = Q(x, )
{ : Q(x, ) q }
(x, )
Por lo tanto, (X, ) es una cota inferior de confianza para de nivel y una cota superior
de nivel 1 .
M
etodo
Sea (0, 1). Si se dispone de un pivote Q(X, ) que satisface las propiedades (i) y (ii)
enunciadas m
as arriba, entonces
la variable aleatoria, 1 (X), que se obtiene resolviendo la ecuaci
on Q(X, ) = q es una
cota inferior de confianza para , de nivel .
la variable aleatoria, 2 (X), que se obtiene resolviendo la ecuaci
on Q(X, ) = q1 es
una cota superior de confianza para , de nivel .
el intervalo aleatorio I(X) = [1 (X), 2 (X)] cuyos extremos son las soluciones respectivas
de las ecuaciones Q(X, ) = q 1+ y Q(X, ) = q 1 , es un intervalo bilateral de
2
2
confianza para , de nivel .
Ejemplo 1.6 (Extremo superior de la distribucion uniforme). Sea X = (X1 , . . . , Xn ) una
muestra aleatoria de una variable aleatoria X U(0, ), > 0.
6
El estimador de m
axima verosimilitud para es X(n) = m
ax(X1 , . . . , Xn ) y tiene densidad
de la forma
nxn1
f (x) =
1{0 x }.
n
Como la distribucion de X(n) depende de , X(n) no es un pivote para . Sin embargo, podemos
liberarnos de utilizando un cambio de variables lineal de la forma Q = X(n) /:
fQ (q) = nq n1 1{0 q 1}.
Por lo tanto,
Q(X, ) = X(n) /
es un pivote para .
5
4.5
4
3.5
3
2.5
2
1.5
1
0.5
0
0.2
0.4
0.6
0.8
Construyendo un intervalo de confianza. Dado el nivel de confianza (0, 1), para construir un intervalo de confianza de nivel notamos que
= P (q1 Q(X, ) 1) = P q1 X(n) / 1
1.1.2.
Pivotes crecientes
q
q = Q(x, )
{ : Q(x, ) q }
(x, )
Sea (0, 1), arbitrario pero fijo y sea q el cuantil- del pivote Q(X, ).
Para cada x, sea (x, ) la u
nica solucion de la ecuaci
on en
Q(x, ) = q .
Como el pivote Q(X, ) es creciente en tenemos que
Q(X, ) q (X, ).
En consecuencia,
P ( (X, )) = P (Q(X, ) q ) = ,
Por lo tanto, (X, ) es una cota superior de confianza para de nivel y una cota inferior
de nivel 1 .
M
etodo
Sea (0, 1). Si se dispone de un pivote Q(X, ) que satisface las propiedades (i) y (ii)
enunciadas m
as arriba, entonces
la variable aleatoria, 1 (X), que se obtiene resolviendo la ecuaci
on Q(X, ) = q1 es
una cota inferior de confianza para , de nivel .
la variable aleatoria, 2 (X), que se obtiene resolviendo la ecuaci
on Q(X, ) = q es una
cota superior de confianza para , de nivel .
el intervalo aleatorio I(X) = [1 (X), 2 (X)], cuyos extremos son las soluciones respectivas de las ecuaciones Q(X, ) = q 1 y Q(X, ) = q 1+ , es un intervalo bilateral de
2
2
confianza para , de nivel .
Ejemplo 1.7 (Intensidad de la distribucion exponencial). Sea X = (X1 , . . . , Xn ) una muestra
aleatoria de una variable aleatoria X Exp(), > 0.
donde X
= 1 Pn Xi . Sabemos
El estimador deP
m
axima verosimilitud para es 1/X,
i=1
n
= n Xi tiene distribucion (n, ).
que la suma nX
i=1
depende de , nX
no es un pivote para . Sin embargo,
Como la distribucion de nX
1
2
n,
entonces Q n, a . Poniendo a = 2, resulta que Q = 2nX
2 = 2n . (Recordar
n 1
2
que 2 , 2 = n .)
Por lo tanto,
= 2
Q(X, ) = 2nX
n
X
i=1
Xi 22n
es un pivote para .
Construyendo una cota superior de confianza. Dado (0, 1), para construir una cota
superior de confianza para , de nivel , primero observamos que el pivote Q(X, ) = 2nX
es una funcion continua y decreciente en . Debido a que
= 2 =
2nX
resulta que
2 (X) =
2nX
2
Pn
i=1 Xi
P
En tal caso tenemos 10
i=1 = 3.1992. Tomando = 0.975, tenemos de la tabla de la distribuci
on 220 que 220,0.975 = 34.17, entonces 2 (x) = 5.34 es una cota superior de confianza para
de nivel = 0.975.
9
2.
En esta secci
on estudiaremos la distribucion de probabilidades de los estimadores de m
axima verosimilitud para la media y la varianza de poblaciones normales. La tecnica de an
alisis
se basa en la construcci
on de pivotes para los par
ametros desconocidos. Usando esos pivotes
mostraremos como construir intervalos de confianza en los distintos escenarios posibles que
se pueden presentar.
Notaci
on. En todo lo que sigue usaremos la siguiente notaci
on: para cada (0, 1), z
sera el u
nico n
umero real tal que (z ) = . Gr
aficamente, a izquierda del punto z el area
bajo la campana de Gauss es igual a .
Nota Bene. De la simetra de la campana de Gauss, se deduce que para cada (0, 1)
vale que z(1)/2 = z(1+)/2 . Por lo tanto, para Z N (0, 1) vale que
1+ 1
P z(1+)/2 Z z(1+)/2 = z(1+)/2 z(1+)/2 =
= .
2
2
2.1.
mv (X) = X,
X
c2 mv (X) = 1
2.
(Xi X)
(5)
i=1
2.1.1.
Teorema llave
Teorema 2.1 (Llave). Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una distribuci
on
N (, 2 ). Valen las siguientes afirmaciones:
(a) Z =
(b) U =
n(X)
tiene distribuci
on N (0, 1).
1 Pn
n1 2
2 tiene distribuci
S = 2 i=1 (Xi X)
on
2
2n1 .
Nota Bene. El calificativo de llave para el Teorema 2.1 esta puesto para destacar que
sus resultados son la clave fundamental en la construcci
on de intervalos de confianza y de
reglas de decisi
on sobre hip
otesis estadsticas para distribuciones normales. La prueba de este
Teorema puede verse en el Apendice.
Corolario 2.2 (Pivotes para la media y la varianza).PSea X = (X1 , . . . , XP
n ) una muestra
n
= 1 n Xi y S 2 = 1
2
aleatoria de una distribucion N (, 2 ). Sean X
i=1
i=1 (Xi X) .
n
n1
Vale que
(a)
Q(X, 2 ) =
10
(n 1) 2
S
2
(6)
)
n(X
S
(7)
2.1.2.
Notar que el pivote para la varianza Q(X, 2 ) definido en (6) goza de las propiedades
enunciadas en la secci
on 1.1.1 para pivotes decrecientes:
la funcion de distribucion de Q(X, 2 ) es continua y estrictamente creciente;
para cada x, la funcion Q(x, 2 ) es continua y monotona decreciente respecto de 2 .
En consecuencia, las cotas e intervalos de confianza para la varianza se pueden construir
usando el resolviendo la ecuaci
on Q(X, 2 ) = 2n1, , donde chi2n1, designa el cuantil- de
la distribucion chi cuadrado con n 1 grados de libertad.
Observando que
Q(X, 2 ) = 2n1,
(n 1)S 2
(n 1)S 2
2
2
,
=
=
n1,
2
2n1,
(n 1)S 2
2n1,
(8)
2.
22 (X) =
(n 1)S 2
2n1, 1
"
(n 1)S 2
(n 1)S 2
,
I(X) =
2n1, (1+)/2 2n1, (1)/2
Notar que el pivote para la media Q(X, ) definido en (7) goza de las propiedades enunciadas en la secci
on 1.1.1 para pivotes decrecientes:
la funcion de distribucion de Q(X, ) es continua y estrictamente creciente;
para cada x, la funcion Q(x, ) es continua y monotona decreciente respecto de .
En consecuencia, las cotas e intervalos de confianza para la varianza se pueden construir
usando el resolviendo la ecuaci
on Q(X, ) = tn1, , donde tn1, designa el cuantil- de la
distribucion t de Student con n 1 grados de libertad.
Observando que
n(X )
S tn1, ,
Q(X, ) = tn1,
= tn1, = X
(9)
S
n
y usando que que la densidad de la distribucion tn1 es simetrica respecto del origen (i.e,
tn1, 1 = tn1, ), tenemos que, para cada (0.5, 1),
1.
S tn1,
1 (X) = X
n
es una cota inferior de confianza de nivel para ;
2.
S tn1, 1 = X
+ S tn1,
2 (X) = X
n
n
es una cota superior de confianza de nivel para ;
3.
+ S tn1, (1+)/2
S tn1, (1+)/2 , X
I(X) = X
n
n
es un intervalo de confianza de nivel para .
12
2.1.4.
Ejemplo
Para fijar ideas vamos a construir intervalos de confianza de nivel = 0.95 para la media
y la varianza de una variable normal N (, 2 ), basados en una muestra aleatoria de volumen
n = 8 que arrojo los resultados siguientes: 9, 14, 10, 12, 7, 13, 11, 12.
El problema se resuelve recurriendo a las tablas de las distribuciones 2 y t y haciendo
algunas cuentas.
Como n = 8 consultamos las tablas de 27 y de t7 . Para el nivel = 0.95 tenemos que
(1 + )/2 = 0.975 y (1 )/2 = 0.025. De acuerdo con las tablas 27, 0.975 = 16.0127, 27, 0.025 =
= 11, S 2 = 36/7 = 5.1428 y S = 2.2677.
1.6898 y t7, 0.975 = 2.3646. Por otra parte, X
Algunas cuentas m
as (y un poco de paciencia) permiten rematar este asunto. Salvo errores
de cuentas, I1 = [2.248, 21.304] es un intervalo de confianza de nivel 0.95 para la varianza,
mientras que I2 = [9.104, 12.895] es un intervalo de confianza de nivel 0.95 para la media.
2.2.
n
y usando que que la densidad de la distribucion N (0, 1) es simetrica respecto del origen (i.e,
z1 = z ), tenemos que, para cada (0.5, 1),
1.
2.
3.
z
1 (X) = X
n
es una cota inferior de confianza de nivel para ;
+ z
2 (X) = X
n
es una cota superior de confianza de nivel para ;
2.3.
X
c2 mv (X) = 1
(Xi )2 .
n
i=1
(X)
=
mv
2
i=1
i=1
Xi
Q(X, 2 ) =
c2 mv (X)
n
2n
2
es un pivote para 2 .
Como el pivote para la varianza Q(X, 2 ) goza de las propiedades enunciadas en la secci
on
1.1.1 para pivotes decrecientes,
la funcion de distribucion de Q(X, 2 ) es continua y estrictamente creciente,
para cada x, la funcion Q(x, 2 ) es continua y monotona decreciente respecto de 2 ,
las cotas e intervalos de confianza para la varianza se pueden construir resolviendo la ecuaci
on
Q(X, 2 ) = 2n, , donde 2n, designa el cuantil- de la distribucion chi cuadrado con n grados
de libertad.
Observando que
Q(X, 2 ) = 2n,
c2 mv (X)
c2 mv (X)
n
n
2
2
,
=
=
n,
2
2n1,
12 (X) =
c2 mv (X)
n
2n,
c2 mv (X)
n
2n, 1
"
c2 mv (X)
c2 mv (X) n
n
,
I(X) =
2n, (1+)/2 2n, (1)/2
3.
X
= 1
X
Xi .
n
i=1
X)
z 2 + 2nX
z z 2 + 4nX(1
p=
2z 2 + 2n
2z 2 + 2n
Usando que la densidad de la distribucion N (0, 1) es simetrica respecto del origen tenemos
que, para cada (0.5, 1),
1.
p1 (X) =
z2
+ 2nX
2z2 + 2n
q
X)
z2 + 4nX(1
2z2 + 2n
z2 + 2nX
2z2 + 2n
q
X)
z2 + 4nX(1
2z2 + 2n
I(X) =
z(1+)/2
+ 2nX
2
2z(1+)/2
+ 2n
z(1+)/2
2
X)
z(1+)/2
+ 4nX(1
2
2z(1+)/2
+ 2n
(10)
1/2
1/2 sen
Ejemplo 3.1 (Las agujas de Buffon). Se arroja al azar una aguja de longitud 1 sobre un
plano dividido por rectas paralelas separadas por una distancia igual a 2.
Si localizamos la aguja mediante la distancia de su centro a la recta m
as cercana y el
angulo agudo entre la recta y la aguja, el espacio muestral es el rectangulo 0 1
y 0 /2. El evento la aguja interesecta la recta ocurre cuando 12 sen y su
probabilidad es
R /2 1
sen d
1
p= 0 2
= .
/2
#
p
X)
1.962 + 200X
1.96 1.962 + 400X(1
I(X) =
2(1.96)2 + 200
2(1.96)2 + 200
#
"
p
X)
=
207.6832
207.6832
Al realizar el experimento se observ
o que 28 de las 100 agujas intersectaron alguna recta.
= 0.28 y en consecuencia se
Con ese dato el estimador de m
axima verosimilitud para p es X
obtiene el siguiente intervalo de confianza para p
#
"
p
3.8416 + 200(0.28) 1.96 3.8416 + 400(0.28)(1 0.28)
I(X) =
207.6832
207.6832
= [0.28814 0.08674] = [0.20140, 0.37488].
De donde se obtiene la siguiente estimacion: 2.66 4.96.
Nota Bene. Notando que la longitud del intervalo de confianza de nivel > 1/2 para p se
puede acotar de la siguiente forma
q
q
2
2
X)
z(1+)/2 z(1+)/2
+n
+ 4nX(1
z(1+)/2 z(1+)/2
z(1+)/2
|I(X)| =
<
,
2
2
n
z(1+)/2 + n
z(1+)/2 + n
se puede mostrar que para garantizar que |I(X)| < , donde es positivo y peque
no basta
2
tomar n z(1+)/2 / .
16
4.
Comparaci
on de dos muestras normales
4.1.
Queremos estimar = X Y .
4.1.1.
Varianzas conocidas
2 y 2
Para construir un pivote para la diferencia de medias, , cuando las varianzas X
Y
son conocidas, observamos que el estimador de m
axima verosimilitud para = X Y es
Y y que
X
2
2
Y N , X + Y
(11)
X
m
n
En consecuencia,
Y
X
N (0, 1),
Q(X, Y, ) = q 2
2
X
Y
m + n
(12)
Varianzas desconocidas.
17
2 = 2 = 2 . En tal caso
Supongamos que X
Y
Y
Y
X
X
= q
Z= q
N (0, 1).
1
1
2
2
2
+
m
n
m + n
La varianza desconocida
2 se puede estimar ponderando
adecuadamente los estimadores
P
1 P
1
2
2
2
2 + (n 1)S 2
(m 1)SX
n1
m1
2
Y
SX
+
SY2 =
.
m+n2
m+n2
m+n2
2 + (n 1)S 2
(m 1)SX
(n + m 2) 2
Y
S
=
n+m2 .
P
2
2
Por lo tanto,
Y
X
Z
tm+n2
=q q
T =p
1
U/(m + n 2)
+ n1
SP2 m
Y
X
Q(X, Y, ) = q q
1
+ n1
SP2 m
(13)
es un pivote para la diferencia de medias . Debido a que el pivote goza de las propiedades
enunciadas en la secci
on 1.1.1, las cotas e intervalos de confianza para se pueden construir
resolviendo la ecuaci
on Q(X, Y, ) = tm+n2, , donde tm+n2 designa el cuantil- de la
distribucion t de Student con m + n 2 grados de libertad.
Caso 2: Varianzas distintas. En varios manuales de Estadstica (el de Walpole, por
ejemplo) se afirma que la distribucion de la variable
Y
X
Q(X, Y, ) = q 2
SX
SY2
m + n
2
SY2
SX
m + n
2 2
S
X
m
m1
2
S2
Y
n
n1
18
4.2.
2 / 2 .
Queremos estimar el cociente de las varianzas R = X
Y
2 y 2 se pueden estimar mediante
Si las medias X y Y son desconocidas,
las
varianzas
X
Y
Pm
1 Pn
2 = 1
2
2
2
sus estimadores insesgados SX
i=1 (Xi X) y SY = n1
j=1 (Yj Y ) .
m1
Debido a que las variables
U :=
(m 1) 2
SX 2m1
2
X
V :=
(n 1) 2
SY 2n1
Y2
2
SX
SY2
5.
5.1.
Comparaci
on de dos muestras
Planteo general
m = (X)
y n = (Y) son estimadores de los par
ametros y , respectivamente.
En todo lo que sigue vamos a suponer que los estimadores m y n tienen la propiedad de
normalidad asintotica. Esto es,
m(m ) N (0, 2 )
n(
n ) N (0, 2 )
cuando m ,
cuando n ,
cuando m y n ,
19
N (m ) N 0,
2
N (
n ) N 0,
.
1
h
i
2
2
N (m ) (
+
n ) N 0,
o, equivalentemente, que
(m n )
q
N (0, 1)
2
2
+
m
n
(14)
(m n )
q
2
2
m + n
(15)
(m n )
q
c2
c2
m + n
(16)
5.2.
X
= 1
pX = X
Xi ,
m
1X
pY = Y =
Yj ,
n
i=1
j=1
20
Y
X
1
m X(1
(17)
+ 1 Y (1 Y )
X)
n
Ejemplo 5.1. Se toma una muestra aleatoria de 180 argentinos y resulta que 30 estan desocupados. Se toma otra muestra aleatoria de 200 uruguayos y resulta que 25 estan desocupados.
Hay evidencia suficiente para afirmar que la tasa de desocupacion de la poblacion Argentina
es superior a la del Uruguay?
Soluci
on. La poblacion desocupada de la Argentina puede modelarse con una variable
aleatoria X Bernoulli(pX ) y la del Uruguay con una variable aleatoria Y Bernoulli(pY ).
Para resolver el problema utilizaremos una cota inferior de nivel de significacion = 0.95
para la diferencia = pX pY basada en dos muestras aleatorias independientes X e Y de
vol
umenes m = 180 y n = 200, respectivamente.
En vista de que el pivote definido en (17) goza de las propiedades enunciadas en la secci
on
1.1.1, la cota inferior de nivel = 0.95 para se obtiene resolviendo la ecuaci
on Q(X, Y, ) =
z0.95 .
Observando que
Q(X, Y, ) = z0.95
1
180 X(1
Y
X
+
X)
1
200 Y (1
Y 1.64
=X
Y )
= 1.64
1
+ 1 Y (1 Y )
X(1 X)
180
200
21
6.
6.1.
Ap
endice: Demostraci
on del Teorema llave
Preliminares de An
alisis y Algebra
Rn ,
.
gi (y)
yj
i,j
fX (x)dx.
1 (A)
Por ende
P (Y A) =
fX (1 (y))|J1 (y)|dy.
Por lo tanto, el vector aleatorio Y tiene funcion densidad de probabilidad de la forma fY (y) =
fX (1 (y))|J1 (y)|.
La noci
on de base ortonormal respecto del producto interno can
onico en Rn y la noci
on de matriz ortogonal.
Si lo desea, aunque no es del todo cierto, puede pensar que las matrices ortogonales corresponden a rotaciones
espaciales.
2
Sobre la nomenclatura: Los vectores de Rn se piensan como vectores columna y se notar
an en negrita
x = [x1 . . . xn ]T .
1
22
6.2.
Lema previo
Observaci
on 6.3. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una distribuci
on N (0, 2 ).
Por independencia, la distribuci
on conjunta de las variables X1 , . . . , Xn tiene funci
on densidad
de probabilidad de la forma
!
n
n
Y
1
1
1 X 2
1 2
f (x) =
xi
exp 2
exp 2 xi =
2
2
(2)n/2 n
2
i1
i=1
1
1
2
=
||x||
exp
2 .
2 2
(2)n/2 n
De la observaci
on anterior es claro que la distribucion conjunta de las variables X1 , . . . , Xn
es invariante por rotaciones. M
as concretamente vale el siguiente resultado:
Lema 6.4 (Isotropa). Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable N (0, 2 )
y sea B Rnn una matriz ortogonal, i.e. B T B = BB T = In . Si X = [X1 . . . Xn ]T , entonces
Y = [Y1 . . . Yn ]T = BX tiene la misma distribuci
on conjunta que X. En particular las variables aleatorias Y1 , . . . , Yn son independientes y son todas N (0, 2 ).
Demostraci
on. Es consecuencia inmediata del Teorema de cambio de variables para y =
g(x) = Bx. Debido a que B es una matriz ortogonal, g 1 (y) = B T y y Jg1 (y) = det B T =
1
1
1
T
T
T
2
fY (y) = fX (B y)| det(B )| =
exp 2 ||B y||2 | det(B T )|
2
(2)n/2 n
1
1
exp 2 ||y||22 .
=
n/2
n
2
(2)
En la u
ltima igualdad usamos que ||B T y||2 = ||y||2 debido a que las transformaciones ortogonales preservan longitudes.
6.3.
Demostraci
on del Teorema.
Sin perder generalidad se puede suponer que = 0. Sea B = {b1 , b2 , . . . , bn } una base
ortonormal de Rn , donde b1 = 1n [1 . . . 1]T . Sea B Rnn la matriz ortogonal cuya i-esima
fila es bTi . De acuerdo con el Lema 6.4 el vector aleatorio Y = [Y1 . . . Yn ]T = BX tiene la
misma distribucion que X.
En primer lugar, observamos que
n
1 X
Xi = n(X).
Y1 = bT1 X =
n
i=1
En segundo lugar,
n
X
Yi2
= Y Y = (BX) BX = X B BX = X X =
i=1
n
X
i=1
23
Xi2 .
En consecuencia,
n
X
i=2
Yi2
n
X
i=1
Xi2
Y12
n
X
Xi2
i=1
2 =
nX
n
X
i=1
Xi X
2
Las variables Y1 , . . . , Yn son independientes. Como n(X)
depende de Y1 , mientras que
2
Pn
2
Xi X =
2n1 ,
= 2
2
i=2
i=1
7.
Bibliografa consultada
Para redactar estas notas se consultaron los siguientes libros:
1. Bolfarine, H., Sandoval, M. C.: Introducao `a Inferencia Estatstica. SBM, Rio de Janeiro.
(2001).
2. Borovkov, A. A.: Estadstica matem
atica. Mir, Mosc
u. (1984).
3. Cramer, H.: Metodos matem
aticos de estadstica. Aguilar, Madrid. (1970).
4. Hoel P. G.: Introducci
on a la estadstica matem
atica. Ariel, Barcelona. (1980).
5. Lehmann, E. L.: Elements of Large-Sample Theory. Springer, New York. (1999)
6. Maronna R.: Probabilidad y Estadstica Elementales para Estudiantes de Ciencias. Editorial Exacta, La Plata. (1995).
7. Meyer, P. L.: Introductory Probability and Statistical Applications. Addison-Wesley,
Massachusetts. (1972).
8. Walpole, R. E.: Probabilidad y estadstica para ingenieros, 6a. ed., Prentice Hall, Mexico.
(1998)
24
Indice
1. Planteo del problema
1.1. Test de hipotesis . .
1.2. Funcion de potencia
1.3. Nivel de significacion
1.4. Sobre la construccion
. . . . . . .
. . . . . . .
. . . . . . .
de reglas de
. . . . .
. . . . .
. . . . .
decision
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
3
5
6
7
8
3. El m
etodo del pivote
3.1. Hipotesis fundamental simple contra alternativa bilateral . .
3.2. Hipotesis fundamental simple contra alternativa unilateral .
3.3. Hipotesis fundamental unilateral contra alternativa unilateral
3.4. Algunos pivotes . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
9
9
10
10
11
13
13
18
20
22
23
29
32
34
34
36
7. Comparaci
on de dos muestras
7.1. Test para medias de dos muestras normales.
7.1.1. Varianzas conocidas . . . . . . . . . .
7.1.2. Varianzas desconocidas pero iguales.
7.2. Test F para varianzas de normales. . . . . .
7.3. Planteo general . . . . . . . . . . . . . . . .
7.4. Problema de dos muestras binomiales . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
37
37
37
37
38
39
40
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
42
42
43
45
48
51
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9. Bibliografa consultada
1.
1.1.
52
Hip
otesis estadstica. El punto de partida es una muestra aleatoria X = (X1 , . . . , Xn )
de una variable aleatoria X cuya funcion de distribucion FX (x) = P(X x) pertenece a
una familia parametrica de distribuciones de probabilidad, F = {F : }.
En este contexto, una hip
otesis estadstica respecto de la distribucion de probabilidades
de la variable aleatoria X es una afirmacion de la forma siguiente:
F = F para alg
un ,
(1)
donde es alguna parte del conjunto parametrico . Para simplificar la escritura, las
hipotesis estadsticas (1) seran denotadas
H : .
(2)
contra
H1 : 1 ,
(3)
(4)
Tipos de error. Todo test para decidir entre las hipotesis H0 contra H1 conduce a
decisiones erroneas. Hay dos clases de decisiones erroneas.
Las llamadas errores de tipo I que consisten en RECHAZAR la hip
otesis H0 cuando
esta es verdadera.
Las llamadas errores de tipo II que consisten en ACEPTAR la hip
otesis H0 cuando
esta es falsa.
Nota Bene. Cuando 0 , la probabilidad de cometer un error de tipo I sera
P(Rechazar H0 |) = P((X) = 1|) = P(X R|).
Cuando 1 , la probabilidad de cometer un error de tipo II sera
P(Aceptar H0 |) = P((X) = 0|) = P(X 6 R|) = 1 P(X R|).
Ejemplo 1.1. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una distribucion uniforme
sobre el intervalo (0, ), > 0. Para decidir entre las dos hipotesis
H0 : 2
contra
H1 : < 2
Z mn(1, 3 )
2
X(n)
3
3
nq n1 dq
() = P X(n)
=P
=
2
2
n
0n
3
3
3
3
= mn 1,
+
.
=1 0<
1 >
2
2
2
2
Por lo tanto,
4
(6)
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
1.2.
Funci
on de potencia
(7)
1.3.
Nivel de significaci
on
(8)
Para que, por ejemplo, el nivel de significacion del test sea 0.05, debe tomarse un volumen
de muestra n tal que (3/4)n 0.05. Equivalentemente, n log(0.05)/ log(3/4) = 10.413.
Para n = 11 el nivel del test resulta () = 0.042...
en su contra para que se renuncie a ella. En tales condiciones hacen falta criterios de
nivel muy peque
nos. Entonces, si la hipotesis fundamental es verdadera, la realizacion
de un valor de muestra perteneciente a la region crtica R sera demasiado inverosmil. La
concepcion en la que se basa todo el razonamiento es la siguiente: si la probabilidad de
cierto evento A es muy peque
na, consideramos practicamente imposible el hecho de que
este evento ocurra al realizar una sola prueba. Si ocurre, significa que su probabilidad no
era tan peque
na.
M
axima potencia. Elegido el nivel de significacion del test de hipotesis, hay que
prestarle atencion a los valores de su funcion de potencia en la region alternativa 1 . Si
la potencia en 1 resulta demasiado peque
na, los riesgos de cometer errores de tipo II son
muy grandes y tal vez sea conveniente sustituir el nivel de significacion por uno mayor.
Entre todos los test de nivel se prefieren aquellos que tengan la potencia mas alta en
toda la region alternativa 1 .
1.4.
Sobre la construcci
on de reglas de decisi
on
(9)
de la varianza muestral S := n1 i=1 (Xi X) . Esos dos datos deberan ser suficientes
para tomar una decision sobre una hipotesis sobre la media.
Algunos problemas
1. Dado un test caracterizar su funcion de potencia, determinar su nivel y los distintos
tipos de riesgos estadsticos.
2. Construccion de test prefijando el nivel y el volumen de la muestra aleatoria n.
7
2.
contra
H1 : 6= 0 .
contra
H 1 : > 0 .
contra
H 1 : < 0 .
2
Dependiendo de las normas de calidad que se le impongan al test y de la naturaleza de las hip
otesis
a ser confrontadas, existen metodologas generales para construir test optimos que pueden consultarse
en cualquier libro de Estadstica matem
atica. Una exposicion rigurosa puede encontrarse en el libro de
Borovkov.
H1 : 6= 0 .
contra
Nota Bene. Notar que en cualquiera de los tres casos se rechaza la hipotesis H0 cuando
y solo cuando los intervalos de confianza estan contenidos en la hipotesis alternativa H1 .
3.
El m
etodo del pivote
estimador (X)
en un pivote Q((X),
) y utilizarlo para construir el test deseado.
3.1.
(10)
Hip
otesis fundamental simple contra alternativa bilateral
contra
H1 : 6= 0 .
0 ) > q2
(X) = 1 Q((X),
0 ) < q1 + 1 Q((X),
(11)
= P(Q((X),
0 ) q1 ) + 1 P Q((X),
0 ) q 2 = 1 + 1 2 .
(12)
0 ) > q1/2 .
(X) = 1 Q((X),
0 ) < q/2 + 1 Q((X),
9
3.2.
Hip
otesis fundamental simple contra alternativa unilateral
contra
H 1 : > 0 .
(13)
() = (0 ) = P (Rechazar H0 |0 ) = P Q((X),
0 ) > q = 1 .
3.3.
Hip
otesis fundamental unilateral contra alternativa unilateral
contra
H 1 : > 0 .
max () .
0
10
contra
H 1 : < 0
basta considerar
n
o
(X) = 1 Q((X),
0 ) < q .
(15)
() = P (Rechazar H0 |) = P Q((X),
0 ) < q P Q((X),
) < q = .
Por lo tanto,
max () .
0
3.4.
Algunos pivotes
es un pivote para .
2. Para media de normales con varianza desconocida. Si X1 , . . . , Xn es una m.a.
de una distribucion N (, 2 ), con 2 desconocida, entonces
n(X )
tn1
S
es un pivote para .
3. Para varianza de normales con media conocida. Si X1 , . . . , Xn es una m.a. de
una distribucion N (, 2 ), con conocida, entonces
es un pivote para 2 .
n
1 X
n b2
(Xi )2 2n
=
mv
2
2 i=1
11
es un pivote para 2 .
n
(n 1) 2
1 X
2 2
(Xi X)
S = 2
n1
2
i=1
5. Para probabilidad de
exito de distribuciones Bernoulli. Si X1 , . . . , Xn es una
m.a. de una distribucion Bernoulli(p) y n >> 1, entonces
n(X p)
p
N (0, 1)
p(1 p)
es un pivote aproximado para p.
2nX =
Xi 22n
i=1
es un pivote para .
7. Para extremo derecho de uniformes. Si X1 , . . . , Xn es una m.a. de una distribucion U(0, ), entonces
X(n)
max(X1 , . . . , Xn )
=
SP2 :=
2
(m 1)SX
+ (n 1)SY2
m+n2
12
X(1 X) + n Y (1 Y )
m
es un pivote aproximado para la diferencia = pX pY .
4.
En esta seccion usaremos el metodo del pivote para construir test de hipotesis sobre la
media de distribuciones normales.
4.1.
Hip
otesis sobre media con varianza conocida
donde 0 es un alg
un valor determinado.
Test de hip
otesis
P
= 1 n Xi .
es un pivote para basado en X
i=1
n
Es facil ver que el pivote satisface las dos condiciones enunciadas al principio de la
Seccion 3. De acuerdo con los resultados expuestos en la seccion 3.1
n(X 0 )
n(X 0 )
(16)
< z/2 + 1
> z1/2 ,
(X) = 1
13
n(X
n(X0 )
0)
< z/2 o
> z1/2
Dicho en palabras, el test consiste en rechazar H0 si
n(0 )
n( 0 )
() = z/2 +
+ z/2 +
.
(17)
En efecto,
() = P(Rechazar H0 |)
n(X 0 )
n(X 0 )
= P
< z/2 + P
> z1/2
n(X )
n( 0 )
= P
+
< z/2
n(X )
n( 0 )
+
> z1/2
+P
n(X )
n(0 )
= P
< z/2 +
n(X )
n( 0 )
> z/2
+P
n(0 )
n( 0 )
+ z/2 +
.
= z/2 +
Notar que la funcion de potencia dada en (17) satisface las siguientes propiedades
(a) () es simetrica con respecto a 0 : (0 + m) = (0 m) para todo m > 0.
(b) () es creciente4 sobre la semi-recta (0 , ).
(c) (0 ) = .
4
14
(d) lm+ () = 1
Esto significa que a medida que nos alejamos de la hipotesis = 0 disminuye el riesgo
de aceptar dicha hipotesis cuando es falsa. La forma tpica del grafico de la funcion de
potencia correspondiente al test de la forma (16) para decidir entre las hipotesis H0 : = 0
contra H1 : 6= 1 puede observarse en las Figuras 2 y 3.
Nota Bene. La funcion de potencia es u
til para determinar cuan grande debe ser la
muestra aleatoria para conseguir ciertas especificaciones relativas a los errores de tipo II.
Por ejemplo, supongamos que queremos determinar el volumen de la muestra n necesario
para asegurar que la probabilidad de rechazar H0 : = 0 cuando el verdadero valor de la
media es 1 sea aproximadamente . Esto es, queremos determinar n tal que
(1 ) .
De la expresion (17), esto es equivalente a
n(0 )
n( 0 )
+ z/2 +
.
z/2 +
(18)
n(1 0 )
z/2 +
.
(z z/2 )
1 0
n(1 0 )
2
z o lo que es equivalente
(19)
2. Supongamos que 1 < 0 . En tal caso, el segundo termino del lado izquierdo de
(18) es despreciable, y por lo tanto, el problema se reduce a resolver la ecuacion
aproximada
n(0 1 )
z/2 +
.
(20)
El resultado obtenido en (19) coincide con el resultado obtenido en (20) y es una aproximacion razonable para el volumen de muestra necesario para asegurar que el error de tipo
II en el valor = 1 es aproximadamente igual a 1 .
Ejemplo 4.1. Si se enva una se
nal de valor desde un sitio A, el valor recibido en el
sitio B se distribuye como una normal de media y desvo estandar 2. Esto es, el ruido
que perturba la se
nal es una variable aleatoria N (0, 4). El receptor de la se
nal en el sitio
B tiene suficientes motivos para sospechar que recibira una se
nal de valor = 8. Analizar
la consistencia de dicha hipotesis suponiendo que la misma se
nal fue enviada en forma
independientemente 5 veces desde el sitio A y el promedio del valor recibido en el sitio B
= 9.5.
es X
Soluci
on. Se trata de construir un test de hipotesis para decidir entre las hipotesis
H0 : = 8
contra
H1 : 6= 8,
8)
(X) = 1
> 1.96
2
(21)
Decisi
on basada en la muestra observada. Calculamos el valor
0 ) 5(9.5 8)
n(X
=
= 1.68
Como este valor es menor que z1/2 = z0.975 = 1.96, se acepta la hipotesis = 8. En otras
palabras, los datos no son inconsistentes con la hipotesis = 8.
Nota Bene. Notar que, si se relaja el nivel de significacion al 10 %, entonces la hipotesis
= 8 debe rechazarse debido a que el valor z0.95 = 1.645 es menor que 1.68.
Funci
on de potencia. La funcion de potencia es
!
!
5(8 )
5( 8)
+ 1.96 +
.
() = 1.96 +
2
2
(22)
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
10
12
14
(24)
En consecuencia,
17
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
10
12
14
4.2.
(25)
18
Funci
on de potencia. La funcion de potencia correspondiente al test (25) es
n(X 0 )
> z1
() = P (RechazarH0 |) = P
n(X )
n( 0 )
= P
+
> z1
n(X )
n( 0 )
> z
= P
n( 0 )
.
= z +
(26)
contra
H 1 : > 0 .
Ejemplo 4.3. Volvamos al problema presentado en el Ejemplo 4.1 pero supongamos que
esta vez estamos interesados en testear con nivel de significacion, = 0.05, la hipotesis
H0 : 8 contra la hipotesis alternativa H1 : > 8. (Recordar que disponemos de muestra
= 9.5)
aleatoria de volumen 5 de una poblacion normal N (, 4) cuyo promedio resulto ser X
En este caso, el test de hipotesis definido en (25) puede enunciarse de la siguiente
manera:
> 8 + 2 z0.95 = 9.4712 y aceptarla en otro caso.
Rechazar H0 cuando X
5
(27)
5( 8)
(28)
() = 1.64 +
2
Si se quiere determinar la probabilidad de aceptar la hipotesis 8 cuando el valor
real enviado es = 10 basta poner = 10 en la expresion (28) y calculamos:
1 (10) = 1 1.64 + 5 = 0.27...
(29)
19
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
10
12
14
4.3.
Hip
otesis sobre media con varianza desconocida
contra
H1 : 6= 0 ,
donde 0 es un alg
un valor determinado.
Test de hip
otesis
Para distribuciones normales sabemos que
n(X )
Q(X, ) =
tn1
S
= 1 Pn Xi y S 2 = 1 Pn (Xi X)
2.
es un pivote para basado en X
i=1
i=1
n
n1
Es facil ver que el pivote satisface las dos condiciones enunciadas al principio de la
Seccion 3. De acuerdo con los resultados expuestos en la seccion 3.1
n(X 0 )
n(X 0 )
(X) = 1
< tn1, /2 + 1
> tn1, 1/2 ,
(30)
S
S
es un test de nivel para decidir entre las hipotesis H0 : = 0 contra H1 : 6= 0 .
0)
0)
< tn1, /2 o n(X
> tn1, 1/2 y
Dicho en palabras, el test en rechazar H0 si n(X
S
S
aceptarla en otro caso.
20
Ejemplo
Ejemplo 4.4. En la siguiente tabla se muestran las mediciones, en segundos de grado,
obtenidas por James Short (1761), de la paralaje solar (angulo bajo el que se ve el radio
ecuatorial de la tierra desde el centro del sol) .
8.50
8.43
8.71
9.87
10.57
8.55
8.50
8.44
8.31
8.86
9.11
9.54
7.33
8.14
8.36
5.76
8.66
9.07
8.50
8.65
8.50
8.82
9.64
8.06
8.35
8.28
9.02
8.34
0.6
0.5
0.4
0.3
0.2
0.1
10
11
12
Figura 5: Histograma de las mediciones obtenidas por James Short. Parece razonable
asumir que las mediciones de la paralaje solar tienen distribucion normal.
Asumiendo que las mediciones tienen distribucion N (, 2 ) queremos decidir, con un
nivel de significacion = 0.05, entre las hipotesis
H0 : = 8.798
contra
H1 : 6= 8.798
Como n = 53 y t52, 0.025 = t52, 0.975 = 2.0066, el test de hipotesis (30) adopta la forma
(
)
(
)
8.798)
8.798)
53(X
53(X
(X) = 1
< 2.0066 + 1
> 2.0066 .
S
S
21
8.798)
53(X
53(8.6162 8.798)
=
= 1.7667.
S
0.749
Por lo tanto, no hay evidencia suficiente para rechazar que la paralaje solar es = 8.798.
Usando como paralaje solar el valor = 8.798 y como radio ecuatorial de la tierra el
valor R = 6378 km., trigonometra mediante, se puede determinar la distancia D entre la
tierra y el sol:
6378
8.798
D = 1.4953 108 .
=
tan
3600
180
D
Lo que significa que la distancia entre la tierra y el sol es 149.53 millones de km.
5.
Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria con distribucion
Bernoulli(p), p (0, 1). Basados en la muestra aleatoria, X, queremos construir test para
decidir entre dos hipotesis sobre la probabilidad de exito p.
La cantidad de exitos en la muestra
N=
n
X
Xi
i=1
X2,i := 1{Ui p2 }.
n
X
i=1
2 :=
N
X1,i Binomial(n, p1 ),
n
X
i=1
X2,i Binomial(n, p2 )
verifican que N1 N2 . Se deduce entonces que que {N2 x} {N1 x}, para cualquier
x R. Por lo tanto,
P(N2 x) = P N2 x P N1 x = P (N1 x) .
Corolario 5.2. Sea N una variable aleatoria con distribucion Binomial(n, p), p (0, 1).
Fijado un valor x R+ , la funcion polinomica de grado n, h : (0, 1) [0, 1], definida por
h(p) = Pp (N x) =
[x]
X
n
k=0
pk (1 p)nk
es decreciente.
5.1.
1
1
contra H1 : p 6= .
2
2
1.- Se quiere decidir tirando la moneda 6 veces. Que hacer? Observamos la cantidad N
de caras obtenidas en los 6 tiros. Para cada p tenemos que N Binomial(6, p). Cuando
la moneda es honesta, E1/2 [N ] = 3. Teniendo en cuenta la existencia de fluctuaciones
parece razonable aceptar que la moneda es honesta cuando observamos que 2 N 4.
Proponemos entonces el siguiente test
(X) = 1 1{2 N 4} = 1{N < 2} + 1{N > 4},
cuya funcion de potencia des
(p) = Pp (N 1) + Pp (N 5) = (1 p)6 + 6p(1 p)5 + 6p5 (1 p) + p6 .
Dada una moneda honesta, que riesgo se corre de rechazarla como falsa? Esta pregunta
se contesta calculando el nivel de significacion del test = (1/2) = 14
= 0.21875.
64
23
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.2
0.4
0.6
0.8
Figura 6: Grafico de la funcion de potencia del test (X) = 1{N < 2} + 1{N > 4}.
2.- Se propone el siguiente test: lanzar la moneda 100 veces y contar la cantidad de caras
observadas N . Si 40 N 60 se decide que la moneda es honesta. En caso contrario, se
decide que no lo es.
Definido el test lo u
nico que queda por hacer es evaluar los riesgos de decisiones erroneas.
Para ello calculamos la funcion de potencia
(p) = P(RechazarH0 | p) = Pp (N < 40) + Pp (N > 60).
Para cada p la cantidad de caras observadas en 100 lanzamientos se distribuye como una
Binomial: N Binomial(100, p). En consecuencia,
(p) =
39
X
100
k=0
100k
p (1 p)
100
X
100
k=61
pk (1 p)100k .
(31)
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0.2
0.4
0.6
0.8
Figura 7: Grafico de la funcion de potencia del test (X) = 1{N < 40} + 1{N > 60}. En
lnea quebrada aproximacion usando el TCL.
Es mas o menos claro que la funcion de potencia es simetrica respecto de p = 1/2. Esto es,
para cada q (0, 1/2)), vale que (1/2 q) = (1/2 + q).
Riesgos:
1. El nivel de significaci
on del test es = (1/2). Calculamos (1/2) utilizando la
aproximacion obtenida en (32)
!
!
45
56
(1/2) p
+ p
= (2) + (2) 0.0455
1/4
1/4
2. Que riesgo se corre de aceptar como honesta una moneda falsa, con carga 0.7 hacia
el lado de la cara? Para contestar esta pregunta tenemos que calcular el valor de
1 (0.7). Usando (32) obtenemos
76
47
0.0146.
1 (0.7) 1
0.21
0.21
Grosso modo el resultado se interpreta de la siguiente manera: de cada 100 monedas
cargadas con 0.7 para el lado de cara sometidas a verificacion (en promedio) seran
aceptadas como honestas 1 o 2 de ellas.
25
k
(1/2) = 0.05
4
= 0.025
k
= z0.025 = 1.96 k = 7.84.
4
4.- Queremos un test de nivel de significacion = 0.05, cuya potencia cuando la carga
difiere de 0.5 en mas de 0.1 sea como mnimo 0.90. Parece razonable proponer una regla
de la forma
(X) = 1{N < n(1/2) k} + 1{N > n(1/2) + k}.
26
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0.2
0.4
0.6
0.8
Figura 8: Grafico de la funcion de potencia del test (X) = 1{N < 25} + 1{N > 39}. En
lnea quebrada aproximacion usando el TCL.
El problema consiste en determinar el volumen de la muestra, n, y el valor de k. Las
condiciones impuestas al test pueden expresarse de la siguiente manera
() 0.05
(0.6) 0.90,
(33)
en consecuencia,
(p) Pp
=
!
!
n(1/2 p) + n
n(1/2 p) n
Z< p
+ Pp Z > p
np(1 p)
np(1 p)
!
!
n(1/2 p )
n(p 1/2 )
p
p
+
p(1 p)
p(1 p)
Notar que para p > 1/2 el primer termino del lado derecho de la igualdad es despreciable
y entonces
n(0.1 )
(0.6)
0.24
27
!
n
p
= 2 2 n
1/4
0.90.
2 2 n 0.05
y
0.24
Por lo tanto, n y deben ser tales que
n(0.1 )
2 n z0.975
z0.90
(34)
y
0.24
Recurriendo a una tabla de la distribuci
on normal, usando una calculadora de almacenero
(que tenga una tecla con el smbolo ), y operando con las desigualdades (34) se pueden
obtener soluciones particulares. Por ejemplo, n = 259 y = 0.061.
Tomando n = 259 y = 0.061 obtenemos la siguiente regla de decision:
(X) = 1{N < 114} + 1{N > 145}.
En palabras, el test establece que hay que lanzar la moneda 259 veces y contar la cantidad
de caras observadas. Si la cantidad de caras observadas es menor que 114 o mayor que 145
se decide que la moneda esta cargada. En caso contrario, se decide que es honesta.
Una cuenta. Para obtener el resultado particular n = 259 y = 0.061 hay que hacer lo
siguiente: En primer lugar, hay que observar que
n(0.1 )
0.24
0.1 z0.90
0.061.
259
Podemos elegir = 0.061.
28
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0.2
0.4
0.6
0.8
Figura 9: Grafico de la funcion de potencia del test (X) = 1{N < 114} + 1{N > 145}.
En lnea quebrada aproximacion usando el TCL.
5.2.
Hip
otesis fundamental simple
Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria con distribucion
Bernoulli(p), p (0, 1). Basados en la muestra aleatoria X queremos construir test para
decidir entre las hipotesis
H0 : p = p0
contra
H1 : p 6= p0 ,
e
xitos
N
=
i=1 Xi tiene distribup
cion binomial de media np0 y desvo np0 (1 p0 ). Parece razonable construir reglas de
decision de la forma
(X) = 1 {N < np0 n} + 1 {N > np0 + n} ,
(36)
(37)
k=[np0 n]+1
[np0 n]
X
k=0
n k
p (1 p0 )nk +
k 0
n
X
k=[np0 n]+1
n k
p (1 p0 )nk .
k 0
(38)
Nota Bene 1. Notar que los test (36) contienen un juego de dos parametros, n y .
Estos parametros determinan la calidad de cada test y deben ajustarse de acuerdo con
las prescripciones impuestas al test sobre su nivel de significacion y su potencia en alguna
hipotesis alternativa.
Nota Bene 2. Notar que si la muestra tiene volumen prefijado n, por mas que se mueva
el valor de , el nivel de significacion del test () puede tomar a lo sumo n + 1 valores
distintos. Por lo tanto, si se prescribe que el nivel de significacion del test (X) debe ser
, casi seguramente la ecuacion () = no tendra solucion.
Aproximaci
on por TCL para muestras grandes
La funcion de potencia (37) se puede aproximar utilizando el teorema central del lmite.
Si la muestra es suficientemente grande, para cada valor de p, tenemos que
N np
Z=p
N (0, 1).
np(1 p)
30
n(p0 p )
n(p p0 )
p
p
+
.
p(1 p)
p(1 p)
(39)
n
.
(40)
() = (p0 ) = 2 p
p0 (1 p0 )
Esto indica que basta tomar n suficientemente grande para que (p0 ) se ubique todo lo
cerca del 0 que uno quiera. En otras palabras, el test puede construirse para garantizar que
la probabilidad de rechazar la hipotesis p = p0 cuando ella es verdadera sea todo lo chica
que uno quiera.
La aproximacion (40) se puede utilizar para ajustar los valores de los parametros n
y para que valga la desigualdad () . Para ello basta observar que la desigualdad
aproximada
!
n
n
2 p
z/2 .
(41)
p
p0 (1 p0 )
p0 (1 p0 )
Por lo tanto, las soluciones de la desigualdad (41) seran todos los valores de n N y todos
los valores de > 0 que satisfagan
n
p
z1/2 .
(42)
p0 (1 p0 )
Fijada una solucion particular de (42), una alta dosis de paciencia permite calcular a mano
el valor exacto del nivel de significacion () obtenido en (38) y comprobar si efectivamente
satisface () .
Test de hip
otesis con nivel de significaci
on aproximado. Basados en los argumentos y razonamientos anteriores, podemos dise
nar test para decidir entre las hipotesis
H0 : p = p0 contra H1 : p 6= p0 con nivel de significacion aproximadamente . Usando el
dise
no (36) para valores de n y que verifiquen la desigualdad (42) obtenemos
o
n
o
n
p
p
(X) = 1 N < np0 z1/2 np0 (1 p0 ) + 1 N > np0 + z1/2 np0 (1 p0 ) . (43)
31
n(p0 p1 )
p
(p1 )
.
(44)
p1 (1 p1 )
Si p1 > p0 el primer termino es despreciable respecto del segundo y entonces obtenemos la siguiente aproximacion:
!
n(p1 p0 )
p
(p1 )
.
(45)
p1 (1 p1 )
Para fijar ideas supongamos que p1 > p0 . Razonando del mismo modo que antes se
obtiene la siguiente solucion aproximada de la inecuacion (p1 ) :
n(p p0 )
p 1
z .
(46)
p1 (1 p1 )
El razonamiento anterior muestra que, prefijados dos valores y , se pueden dise
nar test
de hipotesis de la forma (36) con prescripciones del siguiente tipo: nivel de significacion
menor o igual que y/o potencia en una alternativa particular superior a .
5.3.
Hip
otesis fundamental compuesta
Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria con distribucion
Bernoulli(p), p (0, 1). Basados en la muestra aleatoria X queremos construir test para
decidir entre las hipotesis
H0 : p p0
contra
H1 : p > p0 ,
Test de hip
otesis. En este caso resulta intuitivamente claro proponer test de forma
(X) = 1{N > np0 + n},
(47)
(48)
k=[np0 +n]+1
N np
np0 + n np
n(p p0 )
p
(p) = Pp p
> p
.
(49)
np(1 p)
np(1 p)
p(1 p)
Nivel de significaci
on. Como la funcion de potencia es creciente, el nivel de significacion
del test se obtiene de la siguiente manera
!
n
X
n
n k
. (50)
p0 (1 p0 )nk p
() = max (p) = (p0 ) =
pp0
k
p0 (1 p0 )
k=[np0 +n]+1
z1 p0 (1 p0 ) = n.
(51)
Test de hip
otesis con nivel de significaci
on aproximado. Usando el dise
no (47)
y el resultado obtenido en (51) se deduce que, para n suficientemente grande y fijo, la
forma del test de hipotesis de nivel de significacion para decidir entre H0 : p p0 contra
H1 : p > p0 es
n
o
p
(X) = 1 N > np0 + z1 np0 (1 p0 ) .
(52)
33
(53)
Dicho en palabras, al nivel del 5 % de significacion, un test para decidir entre las
hipotesis H0 : p 0.02 contra H1 : p > 0.02, basado en una muestra de volumen 300,
consiste en rechazar la hipotesis H0 siempre que se observen 10 o mas exitos.
Traducido al problema que estamos examinando, el criterio de decision puede enunciarse
de la siguiente manera: examinar 300 componentes. Si se observan 10 o mas defectuosos
debe rechazarse la afirmacion del productor de que produce con una calidad de a lo sumo
un 2 %, si se observan menos de 10 defectuosos no hay evidencia suficiente para rechazar
su afirmacion.
En conclusion, como en la muestra examinada se observaron 10 chips defectuosos, al
nivel del 5 % de significacion, la afirmacion del productor debe rechazarse.
6.
El objetivo de esta seccion es ilustrar como se pueden obtener test de hipotesis usando
intervalos de confianza.
6.1.
Hip
otesis sobre varianza con media conocida
para alg
un valor 02 determinado.
Dada una muestra aleatoria X = (X1 , . . . , Xn ) de la distribucion normal N (, 2 ) con
media conocida, sabemos que
#
"
nb2 mv
nb2 mv
,
,
I(X) =
2n, (1+)/2 2n, (1)/2
P
donde nb2 mv = ni=1 (Xi )2 , es un intervalo de confianza para 2 de nivel . Poniendo
= 1 se obtiene el siguiente test de nivel para decidir entre las hipotesis H0 : 2 = 02
contra H1 : 2 6= 02
(X) = 1{I(X) 6 02 }
(
)
(
)
n
n
X
1 X
1
= 1
(Xi )2 < 2n, /2 + 1
(Xi )2 > 2n, 1/2 . (54)
02 i=1
02 i=1
Funci
on de potencia. Para calcular y analizar el comportamiento de la funcion de
potencia,
( 2 ) = P(RechazarH0 | 2 ),
=
(n/2,
1/2).
Multiplicando
por
en las desiguali
2
n
i=1
2
dades dentro de las llaves en la formula del test (54), y calculando las correspondientes
probabilidades, obtenemos la siguiente expresion
2
( ) =
a( 2 )
(1/2)n/2 (n/2)1 1 x
x
e 2 dx +
(n/2)
donde
a( 2 ) =
02 2
,
2 n, /2
b( 2 )
b( 2 ) =
(1/2)n/2 (n/2)1 1 x
x
e 2 dx,
(n/2)
02 2
.
2 n,1/2
Ejemplo 6.1. Dada una muestra aleatoria de volumen 10 de una poblacion normal de
media 0 se quiere construir un test de nivel = 0.05 para decidir entre las hipotesis
H0 : 2 = 1 contra H1 : 2 6= 1.
Soluci
on. Como 210, 0.025 = 3.247 y 210, 0.975 = 20.483, el test de hipotesis (54) adopta la
forma
)
)
( n
( n
X
X
Xi2 > 20.483 .
(55)
Xi2 < 3.247 + 1
(X) = 1
i=1
i=1
35
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
6.2.
Hip
otesis sobre varianza con media desconocida
contra
H1 : 2 6= 02 ,
para alg
un valor 02 determinado.
Dada una muestra aleatoria X = (X1 , . . . , Xn ) de la distribucion normal N (, 2 )
sabemos que
"
#
(n 1)S 2 (n 1)S 2
I(X) =
,
,
2n1, 1/2 2n1, /2
es un intervalo de confianza para 2 de nivel . Poniendo = 1 se obtiene el siguiente
test de nivel para decidir entre las hipotesis H0 : 2 = 02 contra H1 : 2 6= 02
(X) = 1{I(X) 6 02 }
(n 1)S 2
(n 1)S 2
2
2
= 1
< n1, /2 + 1
> n1, 1/2 .
02
02
(56)
Funci
on de potencia. Notar que el analisis de funcion de potencia de test (56) es
completamente analogo al desarrollado para el caso en que suponamos que la media es
conocida.
Nota Bene. Notar que los test de hipotesis definidas en (54) y (56) son inmediatamente
u
tiles para tomar decisiones.
36
contra
H1 : 2 6= 4.
7.
7.1.
Comparaci
on de dos muestras
Test para medias de dos muestras normales.
contra
H1 : > 0.
Varianzas conocidas
2
Supongamos que las varianzas X
y Y2 son conocidas. Para construir el test de hipotesis
y Y . Puesto que
usaremos los estimadores de media: X
2
2
Y
X
Y N ,
+
X
m
n
Y
(X, Y) = 1 q 2
>
z
1
X Y2
+
m
n
7.1.2.
2
Supongamos las varianzas X
= Y2 = 2 . En tal caso, bajo la hipotesis = 0 tenemos
que
Y
X
Z= q
N (0, 1).
2 m1 + n1
2
Para estimar la varianza 2 ponderamos adecuadamente los estimadores de varianza SX
2
y SY ,
2
n1
(m 1)SX
+ (n 1)SY2
m1
2
2
2
S +
S =
.
SP :=
m+n2 X m+n2 Y
m+n2
37
U=
Por lo tanto,
Y
X
(X, Y) = 1 p q
S2 1 +
P
m
1
n
1
n
tm+n2
> tm+n2, 1
7.2.
contra
H1 : R 6= 1.
2
2
Las varianzas X
y Y2 se pueden estimar mediante sus estimadores insesgados SX
y SY2 .
Las variables
U=
(m 1) 2
SX 2m1
2
X
V =
(n 1) 2
SY 2n1
2
Y
son independientes.
Test de hip
otesis. Bajo la hipotesis H0 : R = 1, vale que
F =
2
2
2
SX
/X
SX
=
Fm1, n1 .
SY2
SY2 /Y2
Por lo tanto,
(X, Y) = 1 {F
/ [1 , 2 ]} ,
(57)
donde 1 y 2 son tales que P(F < 1 ) = P(F > 2 ) = /2, es un test de nivel para
decidir entre las hipotesis H0 : R = 1 contra H1 : R =
6 1.
38
Ejemplo 7.1. Queremos construir un test de nivel = 0.05 para decidir entre H0 : R = 1
contra H1 : R 6= 1 usando muestras X y Y de volumen m = n = 10.
Proponemos un test de la forma (57). El problema se reduce determinar valores 1 y
2 tales que
P(F9, 9 > 2 ) = 0.025
y
P(F9, 9 < 1 ) = 0.025.
Usando las tablas de las distribuciones F resulta que 2 = 4.5362 y que 1 = 1/2 = 0.2204.
Finalmente, se obtiene el test
(X, Y) = {F
/ [0.2204, 4.5362]} .
7.3.
Planteo general
H1 : > 0 ;
H1 : < 0 ;
H1 : =
6 0 .
2
n(
n ) N (0, )
cuando n ,
donde 2 y 2 pueden depender de y , respectivamente y ninguna de las variables
esta sobre-representada (i.e., m y n son del mismo orden de magnitud), entonces
(m n ) ( )
q
N (0, 1)
2
2
+
m
n
39
(58)
(m n ) 0
q
> z1 ;
2
2
+ n
m
(m n ) 0
q
< z ;
2
2
+ n
m
(m n ) 0
> z1/2
(c) q
2
2
+ n
m
(b)
producen un test para H0 contra H1 de nivel asintotico , para cada uno de los casos
considerados, respectivamente.
Si 2 y 2 son desconocidas y b2 y b2 son estimadores consistentes para 2 y 2 , se puede
demostrar que las regiones de rechazo conservan su validez cuando 2 y 2 se reemplazan
por b2 y b2 , respectivamente y entonces el test con region de rechazo
(m n ) 0
q
> z1 ;
c2
c2
+
m
n
(m n ) 0
q
< z ;
(b)
c2
c2
+
m
n
(m n ) 0
> z1/2
(c) q
c
c
2
2
+
m
n
(a)
7.4.
contra
40
H1 : > 0
Para construir el test usaremos los estimadores de maxima verosimilitud para las proba y pY = Y .
bilidades px y pY , pX = X
Vamos a suponer que los vol
umenes de las muestras, m y n, son suficientemente grandes
y que ninguna de las dos variables esta sobre representada.
y Y son estimadores consistentes para las probabilidades pX y pY , resulta
Puesto que X
X)
y Y 1 Y son consistentes de las varianzas pX (1 pX ) y
que los estimadores X(1
pY (1 pY ), respectivamente. Por lo tanto,
X Y
(X, Y) = 1 q
> z1
1X
1X
+ 1 Y 1 Y
m
(X, Y) = 1
Y
X
mn
r
> z1
m
X+n
Y
(mX + nY ) 1
m+n
(59)
Ejemplo 7.2. Se toma una muestra aleatoria de 180 argentinos y resulta que 30 estan
desocupados. Se toma otra muestra aleatoria de 200 uruguayos y resulta que 25 estan
desocupados. Hay evidencia suficiente para afirmar que la tasa de desocupacion de la
poblacion Argentina es superior a la del Uruguay?
Soluci
on. La poblacion desocupada de la Argentina puede modelarse con una variable
aleatoria X Bernoulli(pX ) y la del Uruguay con una variable aleatoria Y Bernoulli(pY ).
Para resolver el problema utilizaremos un test de nivel de significacion = 0.05 para
decidir entre las hipotesis
H0 : pX = pY
contra
41
H 1 : p X > pY
Y
X
36000
(X, Y) = 1 r
(60)
> 1.64
180
X+200
Y
(180X + 200Y ) 1
380
= 30/180 y Y = 25/200:
De acuerdo con los datos observados X
30
25
36000
200
180
q
= 1.152 . . .
55
55 1 380
Debido a que 1.152 . . . < 1.64, no hay evidencia suficiente para rechazar la hipotesis pX =
pY . Por lo tanto, con un 5 % de nivel de significacion, no hay evidencia suficiente para
afirmar que la tasa de desocupacion en la Argentina sea superior a la del Uruguay.
8.
8.1.
Los test de bondad de ajuste tienen por objeto decidir si los datos observados se
ajustan a una determinada distribucion de probabilidades. Mas precisamente, se formula
una hipotesis, H, que afirma que los datos observados constituyen una muestra aleatoria
X = (X1 , . . . , Xn ) de una distribucion F . La distribucion F puede estar completamente
especificada (hipotesis simple) o puede pertenecer a una familia parametrica (hipotesis
compuesta).
Algunos ejemplos (para fijar ideas):
Ejemplo 8.1 (Moneda honesta). En una sucesion de 100 lanzamientos independientes de
una moneda se observaron 55 caras y 45 cecas Estos datos son compatibles con la hipotesis
de que la moneda es honesta?
Ejemplo 8.2 (Multinomial). Para identificar las obras de su serie titulada Los paisajes
binarios el artista digital Nelo las firma con una imagen aleatoria de 10 10 pixels: por
cada pixel lanza un dado equilibrado: si sale 1, 2 o 3 lo pinta de rojo; si sale 4 o 5 lo pinta de
verde y si sale 6 lo pinta de azul. Se somete a examen la firma de una obra digital titulada
Cordillera binaria y se obtienen los siguientes resultados: 46 pixels rojos, 37 verdes y 17
azules. La obra Cordillera binaria pertenece a la serie Los paisajes binarios?
42
Ejemplo 8.3 (N
umeros aleatorios). Se producen 10000 n
umeros con un generador de
n
umeros aleatorios. Para economizar espacio se registra la cantidad de n
umeros de la
forma 0. d..., donde d = 0, 1, . . . , 9. Se obtuvieron los resultados siguientes:
d
0
1
2
3
4
5
6
7
8
9
#{0. d...} 1008 1043 1014 1027 952 976 973 1021 998 988
(61)
(62)
740
980
940
790
880
910
810
920
840
870
(63)
8.2.
n
X
j=1
1{Xj Ci }
k
X
ni = n.
i=1
donde los coeficientes wi > 0 se pueden elegir de manera mas o menos arbitraria. Cuando
la hipotesis H0 es verdadera los valores de la medida de dispersion D2 deben ser peque
nos,
lo que sugiere dise
nar un test de hipotesis que decida rechazar la hip
otesis H0 cuando y
solo cuando se observa que D2 > M , donde M es una constante arbitraria pero fija.
Karl Pearson demostro que cuando n es grande y la hipotesis H0 es verdadera, poniendo
wi = pni en (64), la distribucion de la medida de dispersion
2
D =
k
X
(ni npi )2
i=1
npi
(65)
es aproximadamente igual a una chi cuadrado con k 1 grados de libertad. (Una demostracion de este resultado puede consultarse en: Cramer, H.: Metodos matematicos de
estadstica. Aguilar, Madrid. (1970).)
Test de bondad de ajuste 2 . Para decidir si la muestra aleatoria X = (X1 , . . . , Xn )
proviene de la distribucion F se puede adoptar el siguiente criterio:
(X) = 1{D2 > 2k1, 1 },
(66)
donde (0, 1). Dicho en palabras, rechazar que FX = F cuando y solo cuando la medida
de dispersi
on D2 definida en (65) supera al cuantil 1 de la distribucion chi cuadrado
con k 1 grados de libertad. En tal caso, la probabilidad de rechazar H0 cuando H0 es
verdadera es aproximadamente .
5
Los valores de la variable aleatoria X pertenecen a una y solo a una de las clases C1 , . . . , Ck .
44
8.3.
n
X
Xi
n2 = n n1
i=1
n(1 p0 )
Observando que
(n1 np0 )2 (np0 n1 )2
(n1 np0 )2 (n n1 n(1 p0 ))2
+
=
+
np0
n(1 p0 )
np0
n(1 p0 )
(1 p0 )(n1 np0 )2 + p0 (n1 np0 )2
=
np0 (1 p0 )
2
(n1 np0 )
=
,
np0 (1 p0 )
se obtiene que
D2 =
n1 np0
p
np0 (1 p0 )
!2
(67)
n1 np0
np0 (1 p0 )
es asintoticamente normal N (0, 1). Por lo tanto, para valores grandes de n, D2 tiene una
distribucion aproximadamente igual a 21 .
45
0.5
1.5
2.5
3.5
donde
0.5
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
10
12
0.12
0.1
0.08
0.06
0.04
0.02
10
15
20
25
30
Figura 13: La densidad 29 . El area bajo la curva a la derecha del valor 7.036 es 0.6336....
Bajo la hipotesis X U[0, 1], la medida de dispersion D2 se distribuye como una chi
cuadrado con 9 grados de libertad. Si se observa la Figura 13 se puede ver que un valor de
7.036 para D2 no es inusual, lo que indica que no hay evidencia suficiente para rechazar
la hipotesis X U[0, 1]. Para rechazar dicha hipotesis se necesita un test de la forma
(X) = {D2 7.036}. Bajo la hipotesis X U[0, 1], p = P(D2 7.036) = 0.6336...
y en tal caso, la probabilidad de equivocarse al rechazar que los datos provienen de una
distribucion uniforme es del orden del 63 %.
8.4.
Comentarios sobre el m
etodo
0.5819433
0.7259459
0.9884268
1.6384416
0.7775309
3.4097021
0.6062705
0.8901427
3.1158026
0.7115861
0.1999889
0.2149426
0.1842986
1.5896094
0.4281823
0.2214073
0.1052627
0.3577800
0.9444304
0.1282656
0.4525998
0.4859616
0.6616866
0.4833662
49
0.5977917
0.2411217
2.0079459
0.4350003
0.6497803
1.4532404
0.1119637
0.3331565
0.4554032
1.3781469
0.6960469
2.3159498
1.9781844
2.4502631
0.0022114
0.1934794
0.7227835
2.2825177
1.2789623
1.6096607
0.8698826
0.0979241
1.4041375
1.0346222
0.2056717
3.4983549
0.1840173
0.0772446
1.2448903
0.2197928
1.4791009
0.1215625
0.5228204
0.3543629
1.1453108
0.0421012
0.1030540
1.1234052
0.3132625
0.7677260
1.8704697
1.5233421
0.0161651
0.4814322
0.4572152
0.0936486
1.0092715
0.2124635
0.2166610
0.1877053
1.7702696
2.5107661
0.6299386
1.6546837
1.2217523
2.2532736
0.9409121
0.3911424
1.0397349
1.6500077
0.1021735
3.1267264
3.2381804
0.7156024
Puede afirmarse a un nivel del 1 % que la duracion de las bateras se ajusta a una distribucion exponencial de media 2 horas?
Soluci
on.
1. Construyendo una particion. Lo primero que tenemos que hacer es determinar la cantidad
y la forma de las clases en que agruparemos los datos.
Con la indicacion de Cramer (npi 10, para i = 1, . . . , k) la maxima cantidad de
clases que podemos elegir es 10. Para simplificar un poco las cuentas elegiremos una particion en 7 clases, C1 , . . . , C7 , que sean equiprobables bajo la distribucion hipotetica: X
Exponencial(1/2).6
Cuando la funcion de distribucion de una variable aleatoria es continua la construccion
de la particion en
h k clases equiprobables se resuelve utilizando los cuantiles. La clase Ci
sera el intervalo x i1 , x i , donde x i es el cuantil- ki de la distribucion hipotetica.
k
2. Agrupando los datos. Determinadas las clases agrupamos los datos. En la siguiente tabla
se muestran las frecuencias observadas y la cantidad que aporta cada clase a la medida de
dispersion D2 :
ni
26
23
16
18
9
7
1
2
(ni npi ) /npi 9.60571 5.31571 0.20571 0.96571 1.95571 3.71571 12.35571
3. Decisi
on al 1 %. Finalmente comparamos el valor obtenido para D2 = 34.12 con el cuantil
0.99 de la distribucion 26,0.99 = 16.812. Como D2 > 26,0.99 concluimos que la duracion de
las pilas no se ajusta a la distribucion exponencial de media 2 horas.
6
Notar que al elegir el criterio de las clases equiprobables para construir la particion, garantizamos
de entrada que no habra partes sub o sobre dimensionadas y no vamos a encontrarnos con el problema de
tener que unir dos clases porque quedaron muy flacas.
50
Nota Bene. No siempre se puede dividir el rango de la variable en clases de igual probabilidad. Las variables discretas no lo permiten. En tal caso habra que conformarse con
algunas partes suficientemente gorditas como para que valga la condicion npi 10
8.5.
3600
3600
Las clases Ci se pueden construir usando como criterio que 3600P(X Ci ) 10. Si
suponemos que X Poisson(1), su funcion de probabilidades sera P(X = n) = e1 /n!,
n = 0, 1, . . . .
Usaremos como particion las siguientes clases: C1 = {0}, C2 = {1}, C3 = {2}, C4 =
{3, 4, 5, . . . }, cuyas probabilidades son p1 = p2 = 0.3678, p3 = 0.1839 y p4 = 0.0805.
Obtenemos que
(1364 3600p1 )2 (1296 3600p2 )2 (642 3600p3 )2 (298 3600p4 )2
+
+
+
3600p1
3600p2
3600p3
3600p4
1593.6064 788.4864 401.6016 67.24
+
+
+
= 2.6376
=
1324.08
1324.08
662.04
289.8
D2 =
Si se observa la Figura 12 se puede ver que un valor de 2.6376 para D2 no es inusual para
una distribucion 22 , lo que indica que la cantidad de impactos recibidos por la partcula
de polen se puede considerar como una variable aleatoria con distribucion Poisson.
51
x 10
9.
Bibliografa consultada
Para redactar estas notas se consultaron los siguientes libros:
53
Analisis Bayesiano
(Borradores, Curso 23)
Sebastian Grynberg
17-19 de junio de 2013
Indice
1. An
alisis Bayesiano
1.1. Distribuciones a priori y a posteriori . .
1.2. Distribuciones predictivas . . . . . . . .
1.3. Estimadores Bayesianos . . . . . . . . .
1.4. Estimaci
on por intervalo para par
ametro
1.5. Sobre la distribucion a priori uniforme. .
.
.
.
.
.
2
2
5
6
6
7
2. Ejemplos
2.1. Las distribuciones y el problema del control de calidad . . . . . . . . . .
2.2. Normales de varianza conocida y media normal . . . . . . . . . . . . . . . . .
2.3. Distribuciones Poisson con a priori Gamma . . . . . . . . . . . . . . . . . . .
8
8
13
16
3. Bibliografa consultada
19
1.
. . . . . .
. . . . . .
. . . . . .
continuo
. . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
An
alisis Bayesiano
(1)
i.e., como una funcion de , que es desconocida, que depende de los valores observados x.
La regla de Bayes es una descripci
on general de la inversi
on de probabilidades: si A y E
son eventos de probabilidad positiva, P(A|E) y P(E |A) estan relacionados por
P(A|E) =
P(E |A)P(A)
P(E |A)P(A)
=
.
P(E)
P(E |A)P(A) + P(E |Ac )P(Ac )
En su versi
on continua, la regla de Bayes establece que dadas dos variables aleatorias X
e Y , con distribucion condicional fX|Y =y (x) y distribucion marginal fY (y), la distribucion
condicional de Y dado que X = x es
1.1.
fY |X=x (y) = R
(t),
La densidad (t) se llama densidad a priori, o sea, dada antes del experimento. El enfoque
Bayesiano supone que el par
ametro desconocido se ha escogido aleatoriamente de la distribuci
on cuya densidad es (t).
Definici
on 1.1. Un modelo estadstico Bayesiano esta hecho de un modelo parametrico
F = {f (x|t) : t } para las observaciones y una distribucion de probabilidad a priori (t)
sobre el espacio parametrico .
Nota Bene. En un modelo Bayesiano, la densidad muestral f (x|t), t , es la densidad condicional de la variable aleatoria X dado que = t.
Dado un modelo Bayesiano podemos construir varias distribuciones, a saber:
1. La distribucion conjunta del par
ametro y la muestra aleatoria X = (X1 , . . . , Xn ):
!
n
Y
f,X (t, x) = f (x|t) (t) =
f (xi |t) (t).
(2)
i=1
(3)
(t|x) = R
(4)
Ejemplo 1.2 (Bayes (1764)). Se echa a rodar una bola de billar B1 sobre una lnea de
longitud 1, con probabilidad uniforme de que se detenga en cualquier lugar. Se detiene en .
Una segunda bola B2 se echa a rodar 5 veces bajo las mismas condiciones que la primera y
X denota la cantidad de veces que la bola B2 se detuvo a la izquierda de donde lo hizo B1 .
Dado que X = x, que se puede inferir sobre ?
El problema consiste en hallar la distribucion a posteriori de dado que X = x, cuando
la distribucion a priori de es uniforme sobre (0, 1) y X Binomial(5, ). Puesto que
5 x
f (x|t) =
t (1 t)5x
y
(t) = 1{t (0, 1)},
x
3
1.2.
Distribuciones predictivas
1.3.
Estimadores Bayesianos
1. Estimaci
on bayesiana por esperanza condicional. En el contexto Bayesiano es
una variable aleatoria. Entre todas las funciones (de la muestra aleatoria X) = (X)
la mejor estimacion para (desde el punto de vista de minimizar el error cuadratico
medio E[( (X))2 ]) es la esperanza condicional E[|X]:
Z
(7)
t (1 t)2 = arg m
ax t3 (1 t)2 .
map (3) = arg m
ax 6
3
t(0,1)
t(0,1)
Como el logaritmo es una funcion creciente, el argumento que maximiza a la funcion t3 (1 t)2
coincide con el argumento maximizador de la funcion (t) = log(t3 (1 t)2 ) = 3 log(t) +
2 log(1 t). Observando que
0=
d
3
2
3
(t) =
3(1 t) 2t = 0 t = ,
dt
t
1t
5
3
map (3) = .
5
1.4.
Estimaci
on por intervalo para par
ametro continuo
Dada la muestra aleatoria X se desea construir intervalos (acotados) que capturen casi
toda la variabilidad del par
ametro aleatorio . Si el intervalo [a, b] es tal que
P( [a, b]|X) = 1 ,
(8)
sera llamado intervalo estimador de nivel 1 . En la practica, los valores de son peque
nos:
0.1 o 0.05 o 0.01. En general, los valores de a y b dependeran de los valores de la muestra
aleatoria x. Dado que X = x, los intervalos estimadores de nivel 1 se obtienen resolviendo
la siguiente ecuaci
on de las variables a y b:
Z b
(t|x)dt = 1 .
(9)
a
esperanza, (x)
:= E[|X = x], y no puede desviarse demasiado de all, los intervalos que la
contengan deben ser relativamente peque
nos. Esto sugiere la siguiente construcci
on: dividir
a la mitad el nivel y tratar de capturar cada una de las mitades a izquierda y a derecha de
(x).
En otras palabras, se trata de resolver las siguientes ecuaciones:
Z (x)
Z b
1
1
(t|x)dt =
,
.
(10)
(t|x)dt =
2
2
a
(x)
Ejemplo 1.7. Se considera el siguiente modelo Bayesiano: X N (, 1) con distribucion a
priori N (0, 10). Sobre la base de una muestra de tama
no 1 de X se quiere determinar un
intervalo de nivel 1 para la variable .
Dado que X = x tenemos que
!
(x t)2
t2
11
10x 2
(t|x) L(|x) (t) exp
exp
t
2
20
20
11
10
y por lo tanto |X = x N 10x
11 , 11 . Como la variable
Z=
(|X = x) (10x/11)
p
N (0, 1)
10/11
tenemos que P |Z| < z1/2 = 1 y de all se deduce dado que X = x el intervalo
"
r
r #
10x
10 10x
10
z1/2
,
+ z1/2
11
11 11
11
es un intervalo estimador de nivel 1 .
1.5.
Sobre la distribuci
on a priori uniforme.
1
Cuando el par
ametro tiene distribucion a priori U[a, b], esto es (t) = ba
1{t [a, b]}
el enfoque Bayesiano se simplifica abruptamente.
La formula de Bayes para la distribucion a posteriori (4) adopta la forma
(t|x) = R
1
1{t [a, b]}
L(t|x) ba
1
1{t [a, b]}dt
L(t|x) ba
(11)
Teorema 1.8. Entre todas las variables aleatorias continuas a valores en [a, b] la que maximiza la entropa es la U[a, b].
Demostraci
on. No se pierde generalidad si se supone que [a, b] = [0, 1]. Si X U[0, 1],
entonces
Z 1
1 log(1)dx = 0.
H(X) =
0
(13)
(14)
Comentario Bibliogr
afico. Una exposicion elemental de la nocion de entropa y de las
distribuciones menos informativas puede leerse en Pugachev, V.S., (1973). Introducci
on a la
Teora de Probabilidades, Mir, Moscu.
EnfoqueR Bayesiano generalizado. Si la funcion de verosimilitud L(t|x) es integrable,
(t|x) := R
(15)
define una densidad de probabilidades en R. Por abuso del lenguaje, algunos autores suelen
llamarla la densidad a posteriori correspondiente a la distribucion a priori uniforme sobre la
recta1 No hay ning
un problema en utilizar este enfoque siempre que no se pierda de vista
que no existe ninguna distribucion uniforme sobre regiones de longitud infinita. El enfoque
que postula una densidad a posteriori de la forma (15) sera llamado Bayesiano generalizado.
2.
Ejemplos
2.1.
Nota hist
orica: la denominaci
on para esta a priori impropia se debe a Laplace.
(16)
P
donde k(x) = ni=1 xi . De la identidad (16) se concluye que |X = x tiene una distribucion
beta de par
ametros k(x) + 1 y n k(x) + 1. En consecuencia la constante de proporcionalidad
sera
(n + 2)
(n + 1)!
n
=
= (n + 1)
.
(17)
(k(x) + 1)(n k(x) + 1)
k(x)!(n k(x))!
k(x)
Conclusi
on. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de volumen n correspondiente
a una variable aleatoria X Bernoulli(). Si la distribucion a priori del par
ametro es
uniforme sobre el intervalo (0, 1) y se observa que X = x, entonces la distribucion a posteriori
(del par
ametro ) es una (k + 1, n k + 1), donde k es la cantidad de exitos observados. En
otras palabras, la densidad de |X = x es
n k
(t|x) = (n + 1)
t (1 t)nk 1{t (0, 1)},
(18)
k
P
donde k = ni=1 xi .
Funci
on de probabilidad marginal. Cual es la probabilidad de que en una muestra
de volumen n se observen
exactamente k artculos defectuosos. La cantidad de artculos
P
defectuosos sera N = ni=1 Xi . Dado que = t, las variables X1 , . . . , Xn seran independientes,
cada una con distribucion de Bernoulli(t) y en tal caso N Binomial(n, t)
n k
P(N = k|t) =
t (1 t)nk ,
k = 0, 1, . . . , n
(19)
k
Funci
on de probabilidad predictiva Supongamos ahora que en una muestra de volumen
n se observaron exactamente k artculos defectuosos. Cual es la probabilidad p de que un nuevo
artculo resulte defectuoso?
Para calcular p usamos la funcion de probabilidad predictiva obtenida en (5):
p = f (1|x) =
f (1|t)(t|x)dt =
t(t|x)dx = E[|X = x] =
k+1
.
n+2
(21)
Esto es, si los primeros n artculos resultaron en k defectuosos, entonces el proximo artculo
sera defectuoso con probabilidad (k + 1)/(n + 2).
De la ecuaci
on (21) resulta una descripci
on alternativa del proceso de producci
on examinado: Hay una urna que inicialmente contiene una bola blanca y una bola negra. En cada
paso se extrae al azar una bola de la urna y se la repone junto con otra del mismo color.
Despues de cada extraccion la cantidad de bolas del color extrado aumenta una unidad y la
cantidad de bolas del color opuesto se mantiene constante. Si de las primeras n bolas elegidas, k fueron blancas, entonces en la urna al momento de la n + 1-esima extraccion hay k + 1
blancas y n k + 1 negras, y por lo tanto la siguiente bola sera blanca con probabilidad
(k + 1)/(n + 2). Identificando la extraccion de una bola blanca con un artculo defectuoso,
tenemos una descripci
on alternativa del modelo original. Este u
ltimo se llama modelo de urna
de Polya.
Estimadores Bayesianos
1. Utilizando la esperanza condicional de |X = x obtenemos la siguiente estimacion
!
n
X
1
(22)
xi .
1+
(x)
= E[|X = x] =
n+2
i=1
2. El estimador m
aximo a posteriori se obtiene observando que
n k
t (1 t)nk = arg m
ax tk (1 t)nk
map (x) = arg m
ax (n + 1)
k
t(0,1)
t(0,1)
= arg m
ax log tk (1 t)nk = arg m
ax (k log t + (n k) log(1 t))
t(0,1)
=
donde k =
Nota Bene.
Pn
i=1 xi .
Por lo tanto,
1
n
map (x) = x
.
Notar que
(x)
=
donde x
=
t(0,1)
k
,
n
n
1
n
2
x
+
=
x
+
E[U(0, 1)],
n+2
n+2
n+2
n+2
Pn
i=1 xi .
10
(23)
Estimaci
on por intervalo Se quiere construir un intervalo estimador (de nivel 1 ) para
sabiendo que en una muestra de volumen n se observaron k artculos defectuosos.
En este caso la ecuaci
on (9) adopta la forma
1=
b
a
(n + 1)! k
t (1 t)nk dt.
k!(n k)!
(24)
t)
1 =
(n + 1)(1 t)n dt = (n + 1)
n + 1 a
a
(1 a)n+1 (1 b)n+1
= (n + 1)
n+1
n+1
= (1 a)n+1 (1 b)n+1 .
n+1
(25)
Distribuci
on a posteriori. Como la cantidad de exitos observados es k = 11, tenemos
que |X = x (12, 10). En otras palabras, la densidad a posteriori es de la forma
(t|x) =
21! 11
t (1 t)9 1{t [0, 1]}.
11!9!
(26)
11
4
3.5
3
2.5
2
1.5
1
0.5
0
0.2
0.4
0.6
0.8
Figura 1: Gr
aficos de las densidades a priori y a posteriori: en verde el gr
afico de la densidad
de la distribucion U[0, 1] y en azul el de la distribucion (12, 10).
Predicci
on. Cual es la probabilidad de que en una nueva muestra de volumen 5 resulten
exactamente 2 exitos?
En primer lugar hay que observar que dado que = t la cantidad de exitos N en una
muestra de volumen 5 tiene distribucion Binomial(5, t). Por lo tanto,
5 2
t (1 t)3 = 10t2 (1 t)3 .
P(N = 2|t) =
2
Como la densidad a posteriori de resulto ser
(t|x) =
21! 11
t (1 t)9 1{t [0, 1]},
11!9!
11
= 0.55.
map = x
=
20
12
Estimaci
on por intervalo Para construir un intervalo [a, b], de nivel 0.95, para podemos
resolver las siguientes ecuaciones
Z a
Z b
21! 11
21! 11
t (1 t)9 dt = 0.025,
t (1 t)9 dt = 0.975.
11!9!
11!9!
0
0
Utilizando una herramienta de calculo obtenemos que a = 0.3402 y b = 0.7429.
2.2.
f (xi |, 2 ) =
L(, 2 |x) =
exp
2 2
2
i=1
i=1
!
n
n
1
1 X
=
exp 2
(xi )2
2
2
i=1
Pn
n
(xi x
)2
n(
x )2
1
exp
,
(27)
exp i=1 2
=
2
2 2
2
P
donde x
= n1 ni=1 xi ,2 se deduce que
n(
x t)2
L(t|x) exp
.
(28)
2 2
Por hip
otesis, N (, 2 ). En consecuencia,
(t )2
(t) exp
22
De (28) y (29), la densidad a posteriori satisface
n(
x t)2 (t )2
(t|x) exp
+
.
2 2
22
Completando cuadrados respecto de t se obtiene
2
n2 x
+ 2
n2 + 2
n(
x t)2 (t )2
t
+ otras cosas
+
=
2 2
22
2 2 2
n2 + 2
2
La u
ltima igualdad de (27) se obtiene observando que
n
n
X
X
(xi )2 =
(xi x
)2 + n(
x )2 .
i=1
i=1
13
(29)
(30)
(31)
(32)
(33)
Funci
on densidad predictiva. Comenzamos calculando el producto de la densidad condicional de X dado que = t por la densidad a posteriori de dado que X = x:
1
1
(x t)2
(t )2
f (x|t)(t|x) =
exp
exp
2 2
22
2
2
1
1
(x t)2 (t )2
=
,
(34)
+
exp
2 2
22
2 2
donde y 2 son la media y la varianza de la distribucion a posteriori de dado que X = x
=
n2 x
+ 2
n2 + 2
2 =
2 2
n2 + 2
(35)
2 + 2
2 2 2
2
2 x + 2
(x )2
t
+
2 + 2
2(2 + 2 )
(36)
En consecuencia,
f (x|t)(t|x)
#!
"
2
2 x + 2
(x )2
1
1
2 + 2
t
+
=
exp
2 2 2
2 + 2
2(2 + 2 )
2 2
!
(x )2
1
exp
=p
2(2 + 2 )
2(2 + 2 )
2 !
2 + 2
1
2 x + 2
exp
.
q
t
2 2
2 2 2
2 + 2
2 2+
2
(37)
En otras palabras, la distribucion de la variable aleatoria X dado que X = x, es una normal de media y varianza 2 + 2 . El resultado obtenido nos permite calcular todas las
probabilidades de la forma P(X A|X = x).
14
n2 x
+ 2
.
n2 + 2
(39)
Note que
n2
2
n2
2
x
=
x
+
E[N (, 2 )]
n2 + 2
n2 + 2
n2 + 2
n2 + 2
(40)
Estimaci
on por intervalo. En lo que sigue construiremos un intervalo estimador de nivel
1 para sabiendo que X = x. Sabemos que |X = x se distribuye como una normal de
media y varianza 2 . Proponiendo un intervalo centrado en la media de la forma
[ , + ]
(41)
1 = P ( + |X = x) = P
X = x =
.
(42)
2
En consecuencia,
= 1 1
2
2 2
1
1
p
=
n2 + 2
2
2
n2 + 2
n2 x
+ 2
p
+p
,
1 1
1 1
n2 + 2
2
n2 + 2
2
n2 + 2
n2 + 2
(43)
(44)
es un intervalo estimador de nivel 1 para sabiendo que X = x. Note que la longitud del
intervalo no depende los valores arrojados por la muestra y es del orden de 1n .
Curva peligrosa. Para una muestra de una N (, 2 ) con distribucion a priori para de la
forma N (, 2 ) obtuvimos que la distribucion a posteriori satisface
2 !
n2 + 2
n2 x
+ 2
f (t|x) exp
.
(45)
t
2 2 2
n2 + 2
A medida que aumentamos el valor de 2 la informaci
on contenida en la distribucion a priori
se va destruyendo y la densidad a posteriori se va aproximando a la densidad de una normal
de media x
y varianza 2 /n:
!
n (t x
)2
Lt (x).
(46)
lm f (t|x) exp
2 2
2
15
0.9233
-1.9313
0.0935
-0.8401
0.0907
3.4864
0.3909
-0.6258
Si, a priori, suponemos que N (0, 1), entonces la distribucion a posteriori de es una
x 1
normal, ver (33), N 10
= 0.3979. Por lo tanto,
11 , 11 . Observando la muestra se obtiene que x
1
la distribucion a posteriori del par
ametro es una normal N ( 3.979
,
).
11
11
1.4
1.2
0.8
0.6
0.4
0.2
0
3
Figura 2: Gr
aficos de las densidades a priori (en verde) y a posteriori (en azul).
Como la moda y la media de la distribucion normal coinciden, el estimador puntual
Bayesiano resulta ser = 3.979/11 = 0.3617 . . . .
Utilizando la tabla de la normal estandar puede verse que I = [0.22920.9527] es un
intervalo de nivel 0.95.
Etcetera...
2.3.
(47)
Distribuci
on a posteriori. La densidad a posteriori de , dado que X = x, queda caracterizada por la relaci
on de proporcionalidad (t|x) L(t|x) (t), donde L(t|x) es la funcion
de verosimilitud y (t) es la densidad a priori de . En este caso la funcion de verosimilitud
es de la forma
L(t|x) ent t
Pn
i=1
xi
(48)
Pn
i=1
xi 1 t
1{t > 0} = t
Pn
i=1
xi +1 (n+)t
(49)
xi + , n + .
i=1
Estimadores Bayesianos.
1. Utilizando la esperanza condicional de |X = x obtenemos la siguiente estimacion.
Pn
xi +
= E[|X = x] = i=1
(50)
n+
2. La estimacion por m
aximo a posteriori se obtiene observando que
arg m
ax ta ebt = arg m
ax log ta ebt = arg m
ax(a log t bt) =
t>0
t>0
t>0
b
.
a
Por lo tanto,
map =
Nota Bene.
Pn
+1
.
n+
i=1 xi
(51)
Notar que
=
=
Pn
+
n
i=1 xi
=
+
n+
n+
n
n+
n
x
+
E[(, )].
n+
n+
Pn
i=1 xi
(52)
Funci
on de probabilidad predictiva. El producto de la probabilidad condicional de X
dado que = t por la densidad a posteriori de dado que X = x:
f (x|t)(t|x) = et
=
17
(53)
P
donde (x) = ni=1 xi + . Integrando respecto de t ambos lados de la identidad (53), obtenemos la expresi
on de la funcion de probabilidad incondicional (o predictiva)
f (x|x) =
=
=
=
(n + )(x)
x!((x))
t(x)+x1 e(n++1)t dt
(n + )(x) ((x) + x)
x!((x)) (n + + 1)(x)+x
((x) + x)
(n + )(x)
((x))x! (n + + 1)(x)+x
x
(x)
1
n+
((x) + x)
.
((x))x!
n++1
n++1
(54)
Una expresi
on que con un poco de paciencia (o una computadora a la mano) se puede calcular
para cada valor de x.
Caso N. En este caso la expresi
on para la funcion de probabilidad incondicional (54)
adopta la forma
x
(x)
1
n+
((x) + x 1)!
f (x|x) =
((x) 1)!x!
n++1
n++1
x
(x)
(x) + x 1
1
n+
=
.
(x) 1
n++1
n++1
(55)
La expresi
on (55) para la funcion de probabilidad condicional f (x|x) admite la siguiente
interpretaci
on probabilstica: Dado que X = x, la probabilidad incondicional de que la variable
Poisson asuma el valor x es igual a la probabilidad de que en una sucesi
on de ensayos Bernoulli
n+
independientes de par
ametro n++1 el (x)-esimo exito ocurra en el ((x) + x)-esimo ensayo.
Estimaci
on por intervalo. Dado que X = x, podemos construir un intervalo estimador
de nivel 1 para observando que
2(x) 1
,
.
2(n + )
2
2
Si adem
as N, entonces
2(n + ) 22(x) .
En tal caso,
h
i
P 2(n + ) 22(x),/2 , 22(x),1/2 = 1 .
Pn
i=1 xi
18
Ejemplo 2.3. La cantidad de errores de tipeo por hoja que comete una secretaria profesional
puede modelarse con una distribucion de Poisson de par
ametro (Por que?). A priori, se
supone que el par
ametro sigue una distribucion exponencial de intensidad 1 (Esta hip
otesis
sobre la distribucion de es la menos informativa si se supone que la media de la distribucion
es 1). Se analizan 10 hojas tipeadas por la mencionada secretaria y resulta que la cantidad
de errores por pagina es
1
3.
Bibliografa consultada
Para redactar estas notas se consultaron los siguientes libros:
1. Bolfarine, H., Sandoval, M. C.: Introducao `a Inferencia Estatstica. SBM, Rio de Janeiro.
(2001)
2. Borovkov, A. A.: Estadstica matem
atica. Mir, Mosc
u. (1984)
3. Hoel P. G.: Introducci
on a la estadstica matem
atica. Ariel, Barcelona. (1980)
4. Pugachev, V. S.: Introducci
on a la Teora de Probabilidades. Mir, Moscu. (1973)
5. Robert, C. P.: The Bayesian Choice. Springer, New York. (2007)
6. Ross, S. M.: Introduction to Probability and Statistics for Engieneers and Scientists.
Elsevier Academic Press, San Diego. (2004)
19