Gatica Ricardo - Probabilidades

Probabilidad Para Ingenieros
Apuntes EII-346
Ricardo Gatica Escobar, Ph.D.
5 de noviembre de 2003
Capı́tulo 1
Introducción
1.1. Definiciones y Conceptos Básicos
Definiciones
Fenómeno: Cualquier ocurrencia o hecho en la naturaleza que es observable y medible.
Fenómeno Determinı́stico: Su comportamiento (resultado) está completamente deter-

minado por las condiciones en las que el fenómeno ocurre.
Ejemplo 1.1. La distancia (D) recorrida por un móvil que se desplaza a velocidad con-
stante es D = vt, donde v representa la velocidad y t representa el tiempo de desplaza-
miento.
Ejemplo 1.2. La orbita que describe la Tierra alrededor del Sol es una función compleja
de las masas, posiciones, formas y velocidades de todos los cuerpos del Sistema Solar.
Fenómeno Aleatorio (no-determinı́stico, estocástico, probabilı́stico): Su comportamien-

to no está completamentamente determinado por las condiciones en las que el fenómeno
ocurre. Dadas ciertas condiciones iniciales (entradas) y ciertas acciones, el resultado es
incierto, puede ser cualquier elemento de un set de posibles resultados.
Ejemplo 1.3. Al lanzar una moneda al aire, parece ser el caso que no existen condiciones
iniciales o información alguna que perimita predecir si el resultado será cara o sello.
Ejemplo 1.4. ¿Puede Ud. predecir la duración de una ampolleta, o el tiempo entre dos
fallas sucesivas de un automóvil, o el tiempo exacto que toma el viaje de casa a la uni-
versidad cada dı́a?
1
Ricardo Gatica E. Probabilidad para Ingenieros 2
En esta clase estudiaremos fenómenos que presentan dos caracterı́sticas importantes:

Espacio muestral fijo: El set de posibles resultados es el mismo para toda ocurrencia
del fenómeno.
Regularidad Estadı́stica: Suponga que un fenómeno puede ser observado bajo las
mismas condiciones un número ilimitado de veces, entonces la secuencia de resultados
generados presenta cierta “regularidad” o “estabilidad” que permite construir modelos
matemáticos para representar el fenómeno y hacer inferencias probabilı́sticas respecto de
su comportamiento.
Ejemplo 1.5. Si una moneda balanceada es lanzada repetidamente, la proporción de
veces que se obtiene cara tiende a estar alrededor del 50 % a medida que el número de
lanzamientos se incrementa.
Ejemplo 1.6. Si un dado no cargado es lanzado repetidamente, la proporción de 10 s que
se obtiene es cercana a 1/6.
Nota: De hecho, no todos los fenómenos aleatorios parecen satisfacer las condiciones
anteriores. Por ejemplo, el número de personas que visita un parque de entretenciones
(el fenómeno) no es el mismo todos los dı́as de la semana (ocurrencias del fenómeno),
el tiempo entre fallas de una máquina tiende a disminuir en la medida que aumenta el
tiempo de uso (edad) de la máquina. Muchas veces, redefinir el fenómeno en estudio es
suficiente para evitar este problema. En otras, sin embargo, modelos más sofisticados se
hacen necesarios. Para nuestros propósitos, si un fenómeno no satisface estas condiciones,
trataremos sus ocurrencias como diferentes fenómenos.
Ejemplo 1.7. Considere otra vez un parque de entretenciones. En general, esperarı́amos
que el número de personas que asisten en fines de semana es significativamente mayor que
en dı́as de semana. Por lo tanto, es aconsejable considerar diferentes dı́as de la semana
como diferentes fenómenos. Es tambien razonable esperar, por ejemplo, que todos los lunes
asistirá aproximadamente el mismo número de personas, por lo tanto asumimos que los
lunes de diferentes semanas son distintas ocurrencias del mismo fenómeno.
Nota: Observe que la regularidad estadı́stica no implica que el resultado de la n-ésima

repetición de un fenómeno se hace mas predecible a medida que n se incrementa.
Modelo Matemático: Es una representación matemática de un fenómeno, desarrollado
con el objeto de estudiar el fenómeno. Las caracterı́sticas del modelo no solo dependen de
la naturaleza del fenómeno, sino también, en un grado importante, en el objetivo especı́fico
del estudio. Esto implica que pueden existir muchos modelos diferentes asociados al mismo
fenómeno.
Experimento: Es la repetición de un fenómeno bajo condiciones controladas (para los
propósitos de este curso no haremos distinción entre un experimento y una ocurrencia
natural del fenómeno).
¿Fenómenos aleatorios o Modelos aleatorios?
¿Existen los fenómenos aleatorios en el mundo real?. La respuesta parece simple. Nuestra vida
está llena de situaciones en que experimentamos la incertidumbre. Los ejemplos 1.3 y 1.4 son
una pequeña muestra. Para los matemáticos y estadı́sticos, sin embargo, la respuesta es menos
clara. Algunos de ellos creen que la aleatoriedad es una propiedad intrı́nseca de la naturaleza.
Esto implica que para algunos fenómenos, incluso el conocimiento exacto y completo de las
condiciones iniciales no es suficiente para predecir el resultado en forma exacta. Otros piensan
que el mundo es completamente determinı́stico y que el concepto de incertidumbre solo refleja
nuestra falta de conocimiento respecto de los factores y relaciones (por ejemplo, las leyes fı́sicas)
que gobiernan la evolución de los distintos procesos que ocurren en la naturaleza.
Afortunadamente, la Teorı́a de la Probabilidad (el objeto de este curso) ha mostrado ser útil
para modelar sistemas complejos, independientemente de cual de la visiones reseñadas en el
párrafo anterior es correcta. Desde un punto de vista práctico, la selección entre un modelo
determinı́stico o un modelo aleatorio esta fuertemente influenciada por el objetivo de estudio.
Un fenómeno supuestamente aleatorio puede ser representado por un modelo determinı́stico si
sólo se necesitan estimadores gruesos de una medida de desempeño. Por otro lado, un mode-
lo aleatorio puede ser apropiado para representar un sistema determı́nistico extremadamente
complejo.
Es prudente establecer que este curso se concentra en modelos aleatorios más que en fenómenos
aleatorios, sin embargo, no profundizaremos mayormente en la diferencia entre estos conceptos.
¿Qué es Teorı́a de la Probabilidad?
Teorı́a de la Probabilidad es la rama de las matemáticas que ha sido desarrollada para lidiar con
el concepto de aleatoriedad o incertidumbre. Provee el soporte matemático, los fundamentos
conceptuales, las leyes y un lenguaje común para modelar fenómenos (o experimentos) aleato-
rios. A un nivel muy básico, el propósto de estos modelos es entender y analizar la estructura
de probabilidades de los diferentes resultados posibles del fenómeno.
Ejemplo 1.8. Un modelo para calcular la probabilidad que al lanzar simultáneamente n mon-
edas balanceadas, en exactamente k de ellas se obtenga cara es
n!
k!(n − k)!
Teorı́a de la Probabilidad v/s Estadı́stica
La Estadı́stica es la disciplina relacionada con los métodos cientificos para la recolección, organi-
zación, presentación y análisis de un set de datos (generalmente, observados bajo incertidunbre),
con el objeto de obtener conclusiones que sean útiles en un proceso de toma de decisiones.
La Teorı́a de la Probabilidad provee los fundamentos para la ciencia estadı́stica, como también
para varias otras disciplinas, tales como Teorı́a de la Confiabilidad, Teorı́a de Colas, Procesos
Estocásticos, Análisis de Riesgo Financiero, etc.
Por otro lado, la gran mayorı́a de las veces, los modelos probabilı́sticos se basan en ciertos
valores numéricos denominados parámetros, que son caracterı́sticos del fenómeno estudiado.
Con frecuencia, en la vida real, los valores de estos parámetros son desconocidos. La inferencia
estadı́stica es utilizada en estos casos para estimar los valores de los parámetros a partir de
datos observados de la realidad.
Ejemplo 1.9. Basados en el número de fumadores observado en una encuesta (normalmente

hecha a solo una muestra de la población), podemos utilizar un modelo estadı́stico para estimar
la fracción de fumadores en la población. Conociendo este parámetro, utilizamos un modelo
de probabilidad para estimar el contenido probable de cualquier muestra o subconjunto de la
población sin necesidad de nuevas encuestas.
1.2. Conceptos básicos en Teorı́a de la Probabilidad
Espacio muestral
Definición 1.1. Sea E un experimento, se define el espacio muestral de E, denotado S,

como el set de todos los resultados posibles de E.
Ejemplo 1.10. Si un experimento consiste en lanzar una moneda exactamente una vez, en-
tonces S = {cara, sello} = {C, T }.
Ejemplo 1.11. Si una moneda es lanzada exactamente dos veces, entonces S =

{(C, C), (C, T ), (T, C), (T, T )}.
Quiz: ¿Cual es el espacio muestral si dos monedas diferentes son lanzadas simultáneamente?.
¿Como se modifica su respuesta si las monedas son indistinguibles?.
Ejemplo 1.12. Cuando se testea la duración de una ampolleta, S = {t |t ≥ 0} = <+ .
Ejemplo 1.13. Si E consite en lanzar dos dados diferentes y registrar los valores respectivos,
entonces  
 (1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6)

 



 (2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6)



 

 (3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6)
S=


 (4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6)


 



 (5, 1), (5, 2), (5, 3), (5, 4), (5, 5), (5, 6)



 
(6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6)
Ejemplo 1.14. Si dos dados son lanzados y se registra la suma de los resultados respectivos,
S = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}.
Estos ejemplos muestran que el espacio muestral no es una caracterı́stica del objeto utilizado en
el experimento, sino que depende de la definición completa del experimento a realizar. Observe
como dos experimentos esencialmente iguales pueden definir espacios muestrales diferentes. Es
por eso que estrictamente hablando debe decirse “un espacio muestral asociado al experimento
E”, y no “el espacio muestral del experimento E”. En la Sección ?? veremos como el con-
cepto de variable aleatoria permite relacionar dos espacios muestrales asociados con un mismo
experimento.
Cardinalidad del espacio muestral
Cardinalidad se refiere al número de elementos en el espacio muestral.
Definición 1.2. Se dice que un espacio muestral es discreto, si sus elementos pueden colocarse
en relacion 1-1 con el set de números naturales. Es decir, si su cardinalidad es finita o infinita-
contable.
Ejemplo 1.15. Los espacios muestrales descritos en los ejemplos 1.10-1.11 y 1.13-1.14 son
todos discretos.
Ejemplo 1.16. Asuma que el experimento E consiste en lanzar una moneda repetı́damente
hasta obtener cara, y registrar el número de lanzamientos. Observe que aunque nuestra intu-
ición indica que el número de lanzamientos tiene que ser finito, es decir, en algun instante
necesariamente se obtendrá cara, no podemos establecer a priori un número máximo de lanza-
mientos. El espacio muestral en este caso es entonces S = {1, 2, 3, . . .}. note que S es discreto
pero infinito.
Definición 1.3. Se dice que un espacio muestral es continuo si su cardinalidad es no-contable.

En general en este caso, el espacio muestral corresponde a uno o varios intervalos en <.
Ejemplo 1.17. El espacio muestral descrito en el Ejemplo 1.12 es continuo.
Nota: Comúnmente, los espacios muestrales continuos están relacionados con tiempo, distan-
cias, masa u otra cantidad de medida no contable.
Ejemplo 1.18. Suponga que se desea estudiar las fallas de una máquina. Cada vez que la
máquina falla se registra el tipo de falla y el tiempo que toma la reparación. Observe que el
set de posibles resultados asociados al tipo de falla es discreto, pero el tiempo de reparación es
continuo. En este caso debe decidirse si estos aspectos serán estudiados en forma independiente
o conjunta. La decisión depende del objetivo de estudio. Si, por ejemplo, se desea saber como el
tipo de falla influencia el tiempo de reparación, la segunda opción es la adecuada. En tal caso,
tendrı́amos un espacio muestral de dos dimensiones, una de ellas discreta y la otra continua.
Se dice que un experimento de este tipo tiene un espacio muestral mixto.
Eventos
Definición 1.4. Sea E un experimento, S un espacio muestral asociado con E, y A ⊆ S. Se

dice que A es un evento en S, o cuando no hay confusión posible, que A es un evento en E.
En palabras, un evento es cualquier subconjunto del espacio muestral. Un evento agrupa los
resultados que comparten una propiedad de interés. Un resultado individual es en ocasiones
denominado evento elemental. Por definición ∅ y S son también eventos.
Ejemplo 1.19. Si una moneda es lanzada exactamente dos veces (Ejemplo 1.11), el evento de
obtener al menos una cara es A = {(C, C), (C, T ), (T, C)}.
Ejemplo 1.20. Si el experimento E consiste en lanzar dos dados diferentes

(Ejemplo 1.13), el evento de obtener dos pares o suma mayor a 10 es A =
{(2, 2), (2, 4), (2, 6), (4, 2), (4, 4), (4, 6), (6, 2), (6, 4), (6, 6)}, (5, 6), (6, 5)}.
Ejemplo 1.21. El evento que una ampolleta dure más de r unidades de tiempo puede expresarse
como A = {t |t > r}.
Algebra de los eventos
Todas las propiedades y operaciones asociadas con conjuntos aplican a espacios muestrales y
eventos. En particular, si A, B y C son eventos en un espacio muestral S, se cumple que:
1. A ∪ B ⊆ S (A ∪ B es también un evento).
2. A ∩ B ⊆ S
3. A ∪ S = S
4. A ∩ S = A
5. A ∪ B = B ∪ A
6. A ∩ B = B ∪ A
7. A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
8. A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
9. A0 = S − A ⊆ S. A0 is denominado como el evento complementario de A.
10. (A ∪ B)0 = A0 ∩ B 0
11. (A ∩ B)0 = A0 ∪ B 0
12. (A0 )0 = A
Definición 1.5. Se dice que dos eventos A y B don mutuamente excluyentes si A ∩ B = ∅.

Un conjunto A1 , A2 , . . . , An de eventos es mutuamente excluyentes si Ai y Aj son mutuamente
excluyentes para todo 1 ≤ i, j ≤ n, i 6= j (ver figura 1.1).
Definición 1.6. Un conjunto A1 , A2 , . . . , An de eventos es una partición del espacio muestral

S si S = A1 ∪ A2 ∪ . . . ∪ An , y A1 , A2 , . . . , An son mutuamente excluyentes.
Ejemplo 1.22. Sea S = {1, 2, . . . , 10}, A1 = {1, 2, 3, 4}, A2 = {5, 7, 9} y A3 = {6, 8, 10}.
Entonces A1 , A2 y A3 representan un partición de S.
Frecuencia Relativa
Sea E un experimento y S un espacio muestral asociado con E. Sean A y B dos eventos en S.

Suponga que E es repetido n veces y defina nA y nB como el número de veces que se obtiene
A y B, respectivamente (observe que en general, A y B pueden ocurrir simultáneamente).
Definición 1.7. La Frecuencia Relativa del evento A se define como na /n =: fA (también

denotada f (A)).
Propiedades de la frecuencia relativa
f1. 0 ≤ fA ≤ 1.
f2. fA = 1 si y solo si A ocurre en todas las repeticiones.
f3. fA = 0 si y solo si A no ocurre.
f4. fA∪B = fA + fB − fA∩B .
f5. fA∪B = fA + fB si y solo si A y B son mutuamente excluyente.
f6. fA0 = 1 − fA .
f7. lı́mn→∞ fA existe. Es decir, fA converge cuando n tiende a infinito. Esta es una conse-
cuencia de la regularidad estadı́stitica mencionada anteriormente.
1.3. Definiciones de Probabilidad
Definición 1.8. (clásica) Si un experimento tiene asociado un espacio muestral S compuesto

por n (finito) elementos igualmente probables, entonces la probabilidad de un evento A en S
está dada por
número de resultados en A nA
P (A) = = (1.1)
número de resultados totales n
La equación 1.1 es comúnmente expresada de la siguiente manera:

resultados favorables
P (A) = (1.2)
resultados totales
La definición clásica de probabilidad tiene dos limitaciones importantes: Primero, es circular en

el sentido que asume que los posibles resultados del experimento son igualmente “probables”
(tienen la misma probabilidad). Segundo, no aplica cuando el número de resultados en el espacio
muestral es infinito. Sin embargo, a pesar de estas limitaciones, esta definición provee una
herramienta útil en muchos casos, y una intuición general acerca de concepto de probabilidad.
Una generalización, aunque también circular, de la Definición 1.8 esta dada por
P (A) = suma de las probabilidades de los resultados en A (1.3)
Ejemplo 1.23. Sea E el experimento de lanzar un dado balanceado, y A el evento de obtener

un resultado mayor a 4, entonces
resultados favorables 2
P (A) = =
resultados totales 6
o equivalentemente,
1 1
P (A) = P ({5}) + P ({6}) = +
6 6
Ejemplo 1.24. Suponga que para un experimento S = [10, 20] (el intervalo de los reales entre
10 y 20), y que todos los resultados son igualmente probables. Si se define A = [12, 16], parece
intuitivamente razonable que
resultados favorables 16 − 12 4
P (A) = = =
resultados totales 20 − 10 10
Veremos en secciones posteriores, que este es efectivamente el caso.
Definición 1.9. (basada en el concepto de frecuencia relativa) Suponga un experimento E que
puede ser repetido bajo las mismas condiciones un número indefinido de veces. Se define la
probabilidad del evento A como
P (A) = lı́m fA . (1.4)
n→∞
Obsevar que la existencia del lı́mite está garantizado por la propiedad f7. de la frecuencia
relativa.
La definición de probabilidad basada en el concepto de frecuencia relativa provee una herramien-

ta empı́rica para estimar probabilidades asociadas con diferentes eventos cuando los resultados
no son igualmente probables. En particular, si el espacio muestral es finito, puede usarse la
Ecuación 1.4 para estimar la probabilidad de cada uno de los posibles resultados, y después la
Ecuación 1.3 para calcular la probabilidad de un evento cualquiera.
La principal limitación de este enfoque es que solo aplica a fenómenos que son repetibles. Incluso
cuando ese es el caso, la definición no provee ningún criterio respecto de que tan grande debe
ser el número de repeticiones par obtener un “buen” estimador de P (A). De hecho este es un
problema de carácter estadı́stico.
La siguiente es una definición abstracta que soslaya las dificultades de los enfoques anteriores y
provee un marco matemático preciso para calcular y operar con probabilidades. Además, bajo
las condiciones respectivas, ambos enfoques pueden interpretarse en el contexto de este marco.
Definición 1.10. (axiomática) Sea E un experimento. Sea S un espacio muestral asociado con
E. Se denomina función de probabilidad, o simplemente probabilidad, a la función P ( ) que
asocia con cada evento A en S, un número real P (A) que satisface las siguientes propiedades:
P1. 0 ≤ P (A) ≤ 1
P2. P (S) = 1
P3. P (∅) = 0
P4. Para un set A1 , A2 , . . . , Ak de eventos mutuamente excluyentes,
P (A1 ∪ A2 ∪ . . . ∪ Ak ) = P (A1 ) + P (A2 ) + . . . + P (Ak )
Puede demostrarse fácilmente que P1., P2. y P4 implican P3. Otras propiedades son las sigu-
ientes:
P5. P (A0 ) = 1 − P (A)
P6. P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
P7. Si A ⊆ B, entonces P (A) ≤ P (B)
Interpretación subjetiva de probabilidad
La definición Axiomática de probabilidad constituye un set no ambiguo de propiedades que una

función de probabilidades debe satisfacer. Sin embargo, no provee orientación alguna respecto de
como estas probabilidades pueden ser calculadas o interpretadas. En algunos casos, la definición
clásica y la basada en frecuencia relativa proveen tal orientación. Pero ¿qué sucede si el fenómeno
no puede repetirse bajo las mismas condiciones y el espacio muestral no es finito o equiprobable?.
En algunos casos, se pueden hacer supuestos repecto del comportamiento del fenómeno basados
en consideraciones fı́sicas, o alguna teorı́a previa. Pero en muchos otros, la probabilidad solo
puede ser intepretada como un grado de convicción personal respecto de las posibilidades de
ocurrencia de un evento. En estos casos, se habla de “probabilidades subjetivas”, y tı́picamente
se las expresa en términos de porcentaje.
Por ejemplo, asuma que Ud. piensa que la probabilidad que el señor A gane las próximas
elecciones municipales es a. Suponga que Ud. tiene la posibilidad de participar en el siguiente
juego: Si el señor A gana las elecciones, Ud. gana X pesos, en otro caso, Ud. paga 1 peso. Parece
razonable que si a es muy pequeño, X debe ser muy grande para que Ud. decida jugar. Por otro
lado, si X es grande, implica, que la persona que diseño el juego estima que la probabilidad que
gane A es muy pequeña. ¿Puede X ser calculada desde a, o viceversa?. En secciones posteriores,
veremos que la respuesta a esta pregunta es en cierto sentido afirmativa. Mientras tanto, ¿le
parece razonable que si a = 10 %, entonces debe X ≥ 9 para que Ud. participe en el juego?.
Espacio de probabilidad
Definición 1.11. Dado un experimento E, se denomina Espacio de Probabilidad a un

espacio muestral S junto con una asignación de probabilidad para todos los eventos contenidos
en S. Formalmente, si F es la familia de todos los eventos en S, y P ( ) es una función de
probabilidad, el espacio de probabilidad es la terna (S, F, P ).
Ejemplo 1.25. Sea S = {a, b, c}. Se tiene F = {{∅}, {a}, {b}, {c}, {a, b}, {a, c}, {b, c}, {a, b, c}}.
El espacio de probabilidad (asumiendo resultados equiprobables) es descrito en el Tabla 1.1.
Tabla 1.1: Espacio de probabilidad Ejemplo 1.25
Evento Probabilidad
{∅} 0
{a} 1/3
{b} 1/3
{c} 1/3
{a,b} 2/3
{a,c} 2/3
{b,c} 2/3
{a,b,c} 1
Nota: Observe que, en principio, la descripción del espacio de probabilidad asociado con un
experimento requiere el listado completo de todos los posibles eventos con sus probabilidades
respectivas. Afortunadamente, veremos en secciones posteriores que, en la mayorı́a de los casos,
existe una forma mucho más compacta de representar el espacio de probabilidad.
Capı́tulo 2
Espacios de Probabilidad Finitos y

Técnicas de Enumeración
2.1. Espacios de Probabilidad Finitos
Si un espacio muestral consiste en un número finito de elementos, la Ecuación (1.3) implica

que la probabilidad de cualquier evento puede calcularse como la suma de las probabilidades
individuales de los resultados que constituyen el evento. En otra palabras, la función de proba-
bilidad queda especificada por las probabilidades de los eventos elementales. Más formalmente,
un espacio de probabilidad finito puede describirse completamente por
1. Un espacio muestral de la forma S = {s1 , s2 , . . . , sn }
2. Un conjunto {p1 , p2 , . . . , pn }, denominado distribución de probabilidad, que satisface las

siguientes propiedades:
pi ≥ 0, i = 1, 2, . . . , n
p1 + p 2 + . . . + pn = 1
donde pi = P ({si }).
La probabilidad de un evento A = {s[1] , s[2] , . . . , s[k] }, k ≤ n es entonces calculada por
P (A) = p[1] + p[2] + . . . + p[k] (2.1)
Observe que agregando la definición P (∅) = 0, la descripción anterior es completamente con-

sistente con la definición axiomática de probabilidad (Definición 1.10).
11
Ejemplo 2.1. Sea S = {a, b, c, d, e, f, g} y sea {.1, .2, .3, .05, .15, .1, .1} la distribución de prob-
abilidades de S. Sea A = {a, b, f }, B = {a, c, d, f } y C = {d, e, f, g}. Se tiene que:
P (A) = .1 + .2 + .1 = .4
P (B) = .1 + .3 + .05 + .1 = .55
P (C) = .05 + .15 + .1 + .1 = .4
A ∪ B = {a, b, c, d, f } y P (A ∪ B) = .1 + .2 + .3 + .05 + .1 = .75
A ∩ B = {a, f } y P (A ∩ B) = .1 + .1 = .2
A ∩ B ∩ C = {f } y P (A ∩ B ∩ C) = .1
C 0 = {a, b, c} y P (C 0 ) = .6
2.2. Espacios de Probabilidad Finitos Uniformes
Una tarea básica cuando se analiza un espacio de probabilidad finito es evaluar las probabil-
idades de los resulatados individuales. En el Capı́tulo 1 vimos que el concepto de frecuencia
relativa provee una herramienta para estimar estas probabilidades cuando el experimento puede
repetirse un número ilimitado de veces. Sin embargo, en el caso más general, debe hacerse al-
gunos supuestos para evaluarlas.
Un supuesto común es que todos los resultados son igualmente probables. Aunque de hecho
existe una gran viariedad de fenómenos y experimentos que satisfacen esta propiedad, este no
deja de ser un supuesto muy restrictivo, y no puede hacerse sin una justificación cuidadosa.
Cuando los resultados son igualmente probables, se dice que el espacio de probabilidad
es equi-probable o uniforme. En este caso, utilizado la definición de probabilidad clásica
(Ecuación (1.1)), se tiene que
1
pi = , para todo i = 1, 2, . . . , n
n
k
P (A) = , donde k es el número de elementos en A
n
Ejemplo 2.2. Si se lanza un dado balanceado, se tiene un espacio de probabilidad uniforme
con S = {1, 2, 3, 4, 5, 6} y p1 = p2 = p3 = p4 = p5 = p6 = 1/6.
Ejemplo 2.3. Si el experimento consiste en lanzar dos dados balanceados distinguibles , se
tiene un espacio de probabilidad uniforme con S = {(i, j) : i, j = 1, 2, . . . , 6} y pij = 1/36 para
todo i, j.
Ejemplo 2.4. Si el experimento consiste en lanzar dos dados balanceados distinguibles y regis-
trar la suma de los resultados, se tiene que S = {2, 3, . . . , 12}. En este caso se puede verificar,
por ejemplo, que P ({2}) = 1/36 y P (({5}) = 4/36. Por lo tanto el espacio de probabilidad no
es uniforme.
Quiz: Encuentre la distribución de probabilidades asociada al espacio muestral descrito en el

Ejemplo 2.4.
2.3. Técnicas de Enumeración
La tarea principal cuando se calcula la probabilidades de un evento A asociado a un espacio

muestral finito uniforme S, es calcular el número de resultados en A (resultados favorables) y
el numero total de resultados en S (resultados totales). Esto es trivial si la cardinalidad del
espacio muestral es pequeña (una enumeración total, o un diagrama de árbol es normalmente
suficiente) como en los ejemplos anteriores. En la medida que el tamaño del espacio muestral se
incrementa, esta tarea se vuelve cada vez más difı́cil. En esta sección presentamos una colección
de herramientas que nos permiten abordar esta dificultad. Estas herramientas son conocidas
como técnicas de enumeración, o más informalmente como técnicas de conteo.
1. Diagramas de Arbol
Un diagrama de árbol permite enumerar todas las formas alternativas en que puede resultar
un experimento que consite en k etapas secuenciales. Es útil cuando la cardinalidad del espacio
muestral es pequeña.
Para construir un diagrama de árbol se parte de un punto denominado raı́z y se agrega un

número de ramas equivalentes al número de resultados posibles de la primera etapa. Entonces
se toma cada rama generada en la primera etapa y se divide en tantas ramas como resultados
posibles existen para la segunda etapa si la primera etapa resulta en la forma representada por
la rama que se está examinando. Procediendo de esta manera, para j = 2, 3, . . . , k, tomamos
cada rama generada en la etapa j − 1 y la dividimos en tantas ramas como resultados posibles
existen para la etapa j si las etapas 1 a j − 1 resultan de la forma representada por la ruta
desde la raı́z hasta la rama actual. El número total de resultados del experimento es el número
total de ramas generadas en la etapa k.
Ejemplo 2.5. Suponga que se tiene un estante con tres cajones, cada cajón tiene dos com-
partimientos. En un cajón hay dos monedas de oro (una en cada compartimiento). En el otro
cajón, hay dos monedas de plata. En el último cajón hay una moneda de oro y una de plata. Si
se selecciona aleatoriamente un cajón y un compartimiento, ¿cuál es la probabilidad de encon-
trar una moneda de oro?. Si la moneda encontrada es oro, ¿cuál es la probabilidad que el otro
compartimiento del mismo cajón contenga una moneda de plata?.
Figura 2.1: Diagrama de árbol Ejemplo 2.5
La mayorı́a de los principiantes responden “1/2” a ambas preguntas (¿entiende Ud. la lógica
de estas respuestas?). La respuesta correcta puede obtenerse utilizando un diagrama de árbol.
En este caso, el experimento consiste en dos etapas. la primera etapa es seleccionar un cajón,
y la segunda es seleccionar un compartimiento. El diagrama se muestra en la Figura 2.5.
Si P (oro) es la respuesta a la primera pregunta, y P (plata/oro) es la respuesta a la segunda

pregunta, se tiene
número de compartimientos con una moneda de oro 3 1
P (oro) = = =
número total de compartimientos 6 2
número de comps. con oro que tienen plata en el comp. adyacente 1
P (plata/oro) = =
número de comps. con oro 3
Nota: Este es un ejemplo complicado, donde la intuición normal generalmente falla. La segunda
probabilidad es un ejemplo de lo que denominaremos probabilidad condicional. En el Capı́tu-
lo ??, presentaremos el Theorema de Bayes, que proporciona una manera elegante de resolver
el problema.
2. Principio de Multiplicación
Suponga que un experimento consiste en k procedimientos o etapas. Suponga también que:
El primer procedimiento tiene n1 resultados posibles
Para j = 2, 3, . . . , k, independientemente del resultado de los procedimientos 1 a j − 1, el

procedimiento j tiene nj resultados posibles.
Entonces, el número total de resultados del experimento es
n1 n2 . . . n k
Nota: Observe que sólo se requiere que el número de resultados de un procedimiento no dependa
del resultado obtenido en los procedimientos anteriores. No se requiere que los nj resultados
posibles del procedimiento j sean los mismos independientemente de los resultados anteriores.
Ejemplo 2.6. El número máximo de placas de patente consistentes en dos letras y dos números
que pueden ser emitidas es 26 ∗ 26 ∗ 10 ∗ 10 ∗ 10 ∗ 10 = 6760000.
Quiz: ¿Cuál es número máximo de placas de patente que empiezan con un 2?.
Ejemplo 2.7. El número de palabras de tres letras empezadas en vocal, que pueden formarse
utilizando las letras de la palabra “música” es 3 ∗ 5 ∗ 4 = 60.
Quiz: Repita el Ejemplo 2.7 utilizando las letras de la palabra “musicólogo”.
3. Principio de Adición
Suponga que un experimento puede realizarse de k formas alternativas y excluyentes. Suponga

además que si el experimento se realiza de la forma j, hay nj resultados posibles. Entonces el
número total de resultados posibles para el experimento es
n1 + n2 + . . . + nk .
Ejemplo 2.8. Si una carta es seleccionada al azar de un mazo inglés, el número de formas
posibles de obtener un rojo impar o un trebol es número de corazones impar+número de
diamantes impar+número de tréboles= 7 + 7 + 13 = 27.
Nota: El principio de Adición es análogo a la propiedad P4. de la función de probabilidad (ver

la Definición 1.10).
Los principios de multiplicación y adición permiten construir técnicas de conteo bastante más
sofisticadas. A continuación se presentan tres conceptos claves en análisis combinatorial. En
todos ellos suponemos que se extraen sucesivamente k objetos de un set the n objetos. La
selección es al azar, es decir, cada vez que se extrae un objeto, todos los objetos todavı́a
disponibles en el set tienen la misma probabilidad de ser seleccionadas. Si cada vez que se
extrae un objeto este es devuelto al set, se dice que las extracciones son con reemplazo, en caso
contrario, las extracciones son sin reemplazo.
4. Permutaciones
Una permutación de k desde n objetos es una selección ordenada de k objetos tomados sin
reemplazo de un set de n objetos distinguibles. Esto es equivalente a seleccionar k objetos
simultáneamente y luego ordenarlos.
El número total de permutaciones de k desde n objetos se denota por Pkn y está dado por
n!
Pkn = (2.2)
(n − k)!
Para derivar (2.2), suponga que se tiene k casilleros para ser llenados y n objetos para elegir.
El primer casillero puede ser llenado con cualquiera de los n objetos. Una vez llenado el primer
casillero, hay n − 1 objetos disponibles, cualquiera de los cuales puede usarse para llenar el
segundo casillero. Después de llenar el segundo casillero, quedan n − 2 objetos disponibles, y
ası́ sucesivamente. Para el k-ésimo casillero habrá n − k + 1 objetos disponibles. Aplicando el

principio de multiplicación, se tiene
n!
Pkn = n(n − 1)(n − 2) . . . (n − k + 1) =
(n − k)!
Observe que si k = n, entonces Pnn = n! es el número total de maneras de ordenar un set de n

objetos.
Ejemplo 2.9. El número total de permutaciones de 5 cartas tomadas de un mazo de 52 cartas

es 52!/47! = 52 ∗ 51 ∗ 50 ∗ 49 ∗ 48 = 311875200.
Nota: Una selección ordenada de k objetos tomados con reemplazo de un set de n objetos es
en ocasiones llamada permutación con reemplazo. El principio de multiplicación implica que el
número total de permutaciones con reemplazo de k desde n objetos es nk (¿por qué?).
5. Combinaciones
Una combinación de k desde n objetos es una selección o subconjunto de k objetos tomados sin
reemplazo de un set de n objetos distinguibles, sin ninguna consideración de orden. El número
total de combinaciones de k desde n objetos se denota Ckn y está dado por
n!
Ckn = (2.3)
k!(n − k)!
Observe que la diferencia clave entre el concepto de permutación y el concepto de combinación

es que las permutaciones consideran el orden en que los objetos son extraı́dos, mientras las
combinaciones sólo consideran el contenido de la selección. Por ejemplo, suponga que se tiene
los objetos A, B, C y D, y se quiere seleccionar tres objetos sin importar el orden (esto es una
combinación de 3 desde 4 objetos). Las únicas alternativas son ABC, ABD, ACB y BCD. Se
concluye que existen solo cuatro combinaciones de tres objetos. Considere ahora, por ejemplo,
la combinación ABC y observe que puede ser ordenada de las siguientes 3! = 6 maneras: ABC,
ACB, BAC, BCA, CAB y CBA. Estos ordenamientos representan diferentes permutaciones de
la misma combinación. Repitiendo el argumento para todas las combinaciones, se concluye que
hay C34 ∗ 3! = 24 permutaciones de 3 desde 4 objetos. Generalizando, se tiene
Ckn k! = Pkn ,
o equivalentemente,
Pkn n!
Ckn = =
k! k!(n − k)!
Ejemplo 2.10. El número e comités de tres miembros que pueden formarse en un grupo de
ocho personas es C38 = 8!/(3! ∗ 5!) = 56.
Quiz: ¿cuántos comités de cinco personas pueden formarse?
Los números Ckn son también denotados por (nk ), y tienen, entre otras, las siguientes propiedades:
a) Ckn = Cn−k
n
n−1
b) Ckn = Ck−1 + Ckn−1
Una forma intuitiva de entender la propiedad a) es mediante la simple observación que selec-
cionar k objetos de un total de n es equivalente a descartar n − k objetos. La interpretación
de b) es un poco más complicada. Considere un objeto especı́fico en el set, denominado a1 .
Este objeto puede estar incluı́do en la selección, o puede estar excluı́do, pero no pueden ocurrir
ambas cosas. Si a1 esta incluı́do, deben seleccionarse k1 objetos adicionales de un total de n − 1
disponibles. Si a1 no esta incluı́do, entonces deben seleccionarse k objetos de un total de n − 1
disponibles. Como las opciones son excluyentes, el principio de adición implica que el número
n−1
total de maneras de seleccionar los k objetos es Ck−1 + Ckn−1 .
Quiz: Demostrar las propiedad a) y b) algebraicamente.
Quiz: Demostrar la relación Pkn = Pkn−1 + k!Pk−1

n−1
6. Permutaciones con objetos repetidos
Previamente consideramos sets en que todos los objetos eran distinguibles. Ahora suponga
que algunos de los objetos son idénticos. Más precisamente, suponga que tenemos un set de n
objetos, de los cuales n1 son tipo 1, n2 son tipo 2,. . . y nr son tipo r. Por supuesto, se tiene
n1 + n2 + . . . + nr = n. Objetos del mismo tipo son indistinguibles entre si. El número de
permutaciones (distintas) de los n objetos es
n!
n1 !n2 ! . . . nr !
Ejemplo 2.11. El número de permutaciones diferentes de la palabra MISSISSIPPI
es 11!/(1! ∗ 4! ∗ 4! ∗ 2!) = 34650.
2.4. Ejercicios Propuestos
2.1. Un comité de cinco personas debe ser seleccionado de un set de quince candidatos. En-
cuentre el número de maneras que esto puede ser hecho si el comité consiste en:
a) cinco miembros de igual autoridad

b) presidente, vice-presidente, secretario, tesorero y delegado
c) presidente, vice-presidente, y tres directores (directores tienen la misma autoridad)
2.2. Suponga que Ud. tiene tres libros de gramática, cinco de matemáticas, y cuatro de historia.
Asumiendo que todos los libros son diferentes, encuentre el número de maneras que los libros
pueden ordenarse en un estante si:
a) sin condición
b) los libros de cada materia deben permanecer juntos
c) sólo los libros de matemáticas deben permanecer juntos
d) un libro de gramática debe ser el primero
e) un libro de gramática debe ser el primero, y un libro de matemáticas debe ser el último
f ) repetir a)-e) asumiendo que los libros de una misma materia son indistinguibles
2.3. Encuentre la probabilidad que una mano de cinco cartas tomadas de un naipe inglés:
a) no contenga corazones
b) contenga al menos un corazón
c) contenga sólo corazones
d) contenga la reina de hoja
e) no contenga la reina de hoja
f ) contenga el As de hoja y el As de diamante
g) contenga el As de hoja, el As de diamante, y ningún otro As
h) contenga dos corazones, dos hojas y un trébol impar
i) contenga todas las cartas de la misma pinta
2.4. Hay siete iglesias en el pueblo. Tres visitantes escogen una iglesia al azar para asistir a
misa. Encuentre la probabilidad que:
a) los tres visitantes elijan la misma iglesia

b) no todos elijan la misma iglesia
c) todos elijan diferentes iglesia
d) al menos dos de ellos elijan la misma iglesia
2.5. Encuentre la probabilidad que una mano de cuatro cartas contenga dos pares diferentes.
2.6. Encuentre la probabilidad que una mano de cinco cartas contenga:
a) dos ases y dos reyes (y no tres ases o tres reyes)

b) dos ases o dos reyes
c) a lo más dos hojas
d) exactamente dos hojas y a lo más un corazón
e) exactamente dos hojas y al menos un corazón
2.7. Encuentre el número de maneras que cinco americanos y cinco chilenos pueden sentarse
a) en una fila
b) en un circulo (rotaciones se consideran como el mismo ordenamiento
si no puede haber dos americanos ni dos chilenos juntos.

2.8. Un comité de seis personas es seleccionado desde una población de 4 rusos, 7 franceses y
6 chilenos. Encuentre la probabilidad que el comité contenga al menos un ruso y un chileno.
2.9. Una caja contiene 10 bolas blancas, 20 rojas y 30 verdes. Si se extraen 5 bolas sin reemplazo,
encuentre la probabilidad que la selección contenga:
a) 3 blancas o 2 rojas o 5 verdes

b) todas la bolas del mismo color
c) exactamente una roja y al menos una blanca
d) ninguna roja o sólo rojas
2.10. Explique por qué el siguiente procedimiento para contar el número de palabras de siete
letras con tres veces la letra A es incorrecto, y provea el correcto.
- escoja una posición para la primera A

- escoja una posición para la segunda A
- escoja una posición para la tercera A
- complete las posiciones restantes con letras diferentes de A
Respuesta: 7 ∗ 6 ∗ 5 ∗ 254 (equivocada).
2.11. Una caja contiene M bolas. R bolas son rojas y M − R son verdes. Si se extraen exacta-
mente k (k > R) bolas sin reemplazo, encuentre la probabilidad que las dos últimas bolas rojas
sean seleccionadas en las últimas dos extracciones.
2.12. Una caja contiene 20 bolas rojas, 20 verdes y 20 azules. Si se extraen 10 bolas sin reem-
plazo, encuentre la probabilidad que al menos un color no esté incluı́do en la selección.
2.13. Si una moneda balanceada es lanzada doce veces, encuentre la probabilidad que se obtengan
exactamente cinco caras.
2.14. Una caja contiene 3 bolas rojas, 5 verdes y 2 blancas. Si se extraen 3 bolas sin reemplazo,
encuentre la probabilidad que las tres sean de diferentes colores.
2.15. Un closet contiene ocho pares de zapatos. Si cinco zapatos son seleccionados al azar,
encuentre la probabilidad que la selección contenga:
a) ningun par
b) exactamente un par
c) exactamente dos pares
Capı́tulo 3
Probabilidad Condicional e
Independencia de Eventos
3.1. Ejemplo Introductorio
Considere un experimento que consiste en seleccionar una persona al azar de un grupo de 250
personas agrupadas de la siguiente manera:
Hombres Mujeres
Fumadores 55 35
No Fumadores 75 85
Defina los siguientes eventos:
H = {la persona es hombre}

M = {la persona es mujer}
F = {la persona fuma}
N = {la persona no fuma}
Preguntas:
a) ¿Cuál es la probabilidad que la persona sea una mujer fumadora?

b) ¿Cuál es la probabilidad que la persona sea mujer?
c) ¿Si la persona resulta ser hombre, cuál es la probabilidad que sea fumador?
Como todas las personas del grupo tienen la misma posibilidad de ser escogidas, contestaremos
estas preguntas utilizando la Ecuación (1.1) para espacios muestrales.
Nota: Utilizaremos notación que definiremos más adelante.
20
Respuestas:
número de mujeres fumadoras 35

a) P (M ∩ F ) = total de personas = 250 (Probabilidad Conjunta)
# mujeres fumadoras + # mujeres no fumadoras 35+85
b) P (M ) = total de personas = 250 (Probabilidad Total)
número de hombres fumadores 55
c) P (F/H) = total de hombres = 55+75 (Probabilidad Condicional)
Observe que en c) ya se sabe que la persona es hombre, entonces, al aplicar (1.1) se reduce el
número total de resultados (el denominador) al número total de hombres (en vez del número
total de personas como en a) y b)). En este caso se dice que el espacio muestral ha sido reducido
al evento {la persona es hombre}.
3.2. Probabilidad Conjunta y Condicional
Probabilidad Conjunta
Definición 3.1. Sean A y B dos eventos arbitrarios en el espacio muestral S. La probabilidad

conjunta de A y B es la probabilidad del evento A ∩ B, es decir, la probabilidad de que el
resultado esté contenido en A y B simultáneamente.
Probabilidad Condicional
Definición 3.2. Sean A y B dos eventos arbitrarios en el espacio muestral S, tal que P (B) > 0.
Definiremos la probabilidad condicional de A dado B, denotada P (A/B), como:
P (A/B) = P (A ∩ B)/P (B) (3.1)
P (A/B) es la probabilidad que el resultado pertenezca a A, si se sabe que pertenece a B.

En otras palabras, P (A/B) es la probabilidad de A dado que se tiene la información que B
ocurrió. Formalmente, se dice que P (A/B) es la probabilidad de A cuando el espacio muestral
es reducido desde S a B (ver Figura 3.1). De este modo, se puede pensar en P (A) como P (A/S).
Para verificar esto observe que
P (A/S) = P (A ∩ S)/P (S) = P (A)/1 = P (A).
Nota: A/B no es un evento.

Figura 3.1: Esquema Probabilidad Condicional
Ejemplo 3.1. Considere un experimento que consiste en extraer dos artı́culos sin reemplazo
de un conjunto de diez artı́culos. Siete de los objetos no son defectuosos, y tres de ellos son
defectuosos. Defina los siguientes eventos:
A ={el primer objeto es defectuoso}

A0 ={el primer objeto no es defectuoso}
B ={el segundo objeto es defectuoso}
Entonces:
P(A)=3/10
P(A’)=7/10
P (B ∩ A) = C23 /C210 = 1/15
P (B ∩ A0 ) = 21/90 (¿por qué?)
P (B/A) = P (B ∩ A)/P (A) = (1/15)/(3/10) = 2/9
P (B/A0 ) = P (B ∩ A0 )/P (A0 ) = (21/9)/(7/10) = 3/9
Observe que estos resultados son intuitivos. Si el primer artı́culo resulta ser defectuoso, en-
tonces el segundo objeto debe ser seleccionado de un conjunto de 9 objetos con 2 defectuosos.
Similarmente, si el primer objeto no es defectuoso, el segundo objeto debe ser seleccionado de
un conjunto de 9 objetos con 3 defectuosos. Además observe que éste es el mismo razonamiento
que se utilizó anteriormente al aplicar el Principio de Multiplicación.
Quiz: Repita el ejemplo asumiendo que los objetos se extraen con reemplazo. ¿Comentarios?.
Propiedades de la Probabilidad conjunta y condicional
Sean A y B dos eventos arbitriarios en un espacio muestral S. Entonces:
C1. Si A y B son mutuamente excluyentes, entonces P (A ∩ B) = P (A/B) = P (B/A) = 0

C2. Si A ⊆ B, entonces P (B/A) = P (B ∩ A)/P (A) = P (A)/P (A) = 1
C3. P (·/A) es una función de probabilidad. Esto significa que, para una condición fija A, las
probabilidades condicionales satisfacen todas las propiedades (P1. a P7.) de una función
de probabilidad.
C4. Si A1 , A2 , . . . , Ak son eventos mutuamente excluyentes en S, entonces
P (A1 ∪ A2 ∪ . . . ∪ Ak /B) = P (A1 /B) + P (A2 /B) + . . . + P (Ak /B)
Nota: Esto es consecuencia directa de C3.

C5. Teorema de la Multiplicación de las Probabilidades
P (A/B)P (B) = P (B/A)P (A) = P (A ∩ B)
(Por qué?)
C6. Teorema de la Probabilidad Total
Sea A1 , A2 , . . . , Ak una partición de S, entonces
P (B) = P (B ∩ A1 ) + P (B ∩ A2 ) + . . . + P (B ∩ Ak ), (3.2)
o equivalentemente,
P (B) = P (B/A1 )P (A1 ) + P (B/A2 )P (A2 ) + . . . + P (B/Ak )P (Ak ). (3.3)
Nota: Comúnmente, cuando se calcula utilizando las ecuaciones (3.2) o (3.3), P (B) es
referida como la probabilidad total o marginal de B.
Nota: Observe que, en particular, A y A0 representan una partición de S. Por lo tanto el
Teorema de la Probabilidad Total implica
P (B) = P (B ∩ A) + P (B ∩ A0 ). (3.4)
C7. Sea A1 , A2 , . . . , Ak una partición de S, entonces:

P (B∩A) = P (B∩A1 )+P (B∩A2 )+. . .+P (B∩Ak ) = P (B/A1 )P (A1 )+. . .+P (B/Ak )P (Ak ).
Quiz: Comprobar la propiedad C7.
Nota: En C1. a C7. asuma P (A) > 0, P (B) > 0 y/o P (Ai ) > 0 según sea necesario.
Figura 3.2: Teorema de la Probabilidad Total
3.3. Independencia de Eventos
Definición 3.3. Sean A y B dos eventos arbitrarios en un espacio muestral S. A y B son

independientes si
P (A ∩ B) = P (A)P (B) (3.5)
Propiedad 3.1. Si A y B son eventos independientes, entonces:
a) P (A/B) = P (A)
b) P (B/A) = P (B)
Nota: En efecto (3.5), a) y b) son equivalentes, es decir, cualquiera de ellas implica las otras
dos.
La independencia de los eventos A y B implica que la información relativa a la ocurrencia o

no ocurrencia de uno de ellos no provee información adicional respecto de la probabilidad de
ocurrencia del otro.
Ejemplo 3.2. Considere un experimento que consiste en lanzar dos dados balanceados distin-
guibles. Defina los siguientes eventos en el espacio muestral usual (36 pares ordenados):
A ={el primer dado es par}

B ={el segundo dado es 1 o 6}
Parece intuitivamente obvio que el resultado de un lanzamiento no influencia (no aporta infor-
mación) sobre el resultado del otro lanzamiento, en consecuencia A y B debieran ser independi-
entes. Para comprobarlo, verifique mediante enumeración (recordemos que estamos trabajando
en el espacio muestral de 36 pares)que:
P (A) = 18/36 = 1/2
P (B) = 12/36 = 1/3
P (A ∩ B) = 6/36 = 1/6 = 1/2 ∗ 1/3 = P (A)P (B)
Por lo tanto, nuestra intuición es correcta. Note además que:
P (A/B) = P (A ∩ B)/P (B) = (1/6)/(1/3) = 1/2 = P (A)
P (A/B) = P (A ∩ B)/P (B) = (1/6)/(1/3) = 1/2 = P (A)
lo que verifica la propiedad 3.1.
Ejemplo 3.3. Considere nuevamente el Ejemplo 3.1. Utilizando el Teorema de la Probabilidad

Total, tenemos:
P (B) = P (B ∩ A) + P (B ∩ A0 ) = 1/15 + 21/90 = 3/10
Dado que P (B/A) = 2/9 6= P (B), se concluye que A y B no son independientes. Observe,
sin embargo, que P(A)=P(B), es decir, la probabilidad no condicional (o total) que el segundo
objeto sea defectuoso es la misma que la probabilidad que el primero sea defectuoso. Este ejemplo
demuestra que este hecho no puede ser interpretado como independencia. Observe además, que
la dependencia entre A y B puede concluirse del hecho que P (B/A) 6= P (B/A0 ) (¿Por qué?).
Nota: En general, cuando extraemos objetos sin reemplazo desde un conjunto de objetos, la
probabilidades no condicionales o totales asociada con la primera, segunda,. . . , etc., extracción
son las mismas que las probabilidad asociada a la primera extracción.
Nota: Observe que en general, si dos sucesos A y B son mutuamente excluyentes, no son
independientes. En efecto, P (A/B) = 0 y P (B/A) = 0, por lo tanto, la ocurrencia de uno
de estos eventos, previene la ocurrencia del otro. Esto implica, que descontando el caso trivial
cuando P (A) = P (B) = 0, A y B son altamente dependientes.
Definición 3.4. Para k ≥ 3, se dice que k eventos A1 , A2 , . . . , Ak , son mutuamente indepen-

dientes si cada subconjunto de k − 1 eventos son mutuamente independientes y
P (A1 ∩ A2 ∩ . . . ∩ Ak ) = P (A1 )P (A2 ) . . . P (Ak ).
Ejemplo 3.4. Considere un experimento que consiste en lanzar dos dados balanceados distin-
guibles. Defina los siguientes eventos en el espacio muestral uniforme usual (36 pares ordena-
dos):
A ={El primer dado es par}

B ={El segundo dado es par}
C ={La suma de los dados es par}
Como los resultados son equiprobables, es fácil verificar por enumeración (tarea para el lector)
que:
P (A) = P (B) = 1/2
P (C) = 18/36 = 1/2
P (A ∩ B) = 1/4 = 1/2 · 1/2 = P (A)P (B) ⇒ A y B son independientes
P (A ∩ C) = 1/4 = P (A)P (C) ⇒ A y C son independientes
P (B ∩ C) = 1/4 = P (B)P (C) ⇒ B y BC son independientes
Observe que P (C/A) = P (B) y P (C/B) = P (A) (¿por qué?). Entonces P (A ∩ C) y P (B ∩ C)

pueden ser calculados también como:
P (A ∩ C) = P (A)P (C/A) = P (A)P (B) = 1/2 · 1/2 = 1/4

P (A ∩ B) = P (B)P (C/B) = P (B)P (A) = 1/2 · 1/2 = 1/4.
Pero A, B y C no son mutuamente independientes. Puede verificarse por enumeración que
P (A ∩ B ∩ C) = 1/4 6= P (A)P (B)P (C).
El problema surge del hecho que (A ∩ B) ⊆ C, lo que implica que P (C/A ∩ B) = 1 6= P (C).
3.4. El Teorema de Bayes
Teorema 3.1. Sea B1 , B2 , . . . , Bk una partición del espacio muestral S, y sea A un evento
arbitrario en S, con P (A) > 0, entonces
P (Bj /A)P (A) P (Bj ∩ A) P (A/Bj )P (Bj )

P (Bj /A) = = = Pk (3.6)
P (A) P (A) i=1 (P (A/Bi )P (Bi ))
Nota: Observe que en (3.6) simplemente aplicamos el Teorema de la Multiplicación de las

Probabilidades (Propiedad C5.) al numerador, y el Teorema de la Probabilidad Total (Propiedad
C6.) al denominador.
El Teorema de Bayes es útil para calcular las llamadas probabilidades a posteriori. Cuando
dos eventos A y B pueden ser lógicamente ordenados (generalmente utilizando una relación de
tiempo), y el orden está dado por (A,B), entonces P(B/A) se llama probabilidad a priori, y
P(A/B) se llama probabilidad a posteriori.
Ejemplo 3.5. Dos máquinas distintas M1 y M2 producen artı́culos idénticos. 10 % de los artı́cu-
los producidos por M1 son defectuosos, y 95 % de los producidos por M2 son no defectuosos. Un
grupo de 120 artı́culos contiene 40 artı́culos provenientes de M1 y 80 de M2. Si se selecciona
un artı́culo al azar y resulta ser defectuoso, ¿cuál es la probabilidad que el artı́culo provenga de
M1?. ¿Y de M2?.
Defina los siguientes eventos:
M 1 ={el artı́culo proviene de M1}

M 2 ={el artı́culo proviene de M2}
D ={el artı́culos es defectuoso}
N ={el artı́culos no es defectuoso}
Se tiene la siguiente información:
P (M 1) = 40/120 = 1/3
P (M 2) = 80/120 = 2/3
P (D/M 1) = 0.1
P (N/M 2) = 0.95 ⇒ P (D/M 2) = 0.05.
Entonces
P (D/M 1)P (M 1) 0.1 · 1/3 1

P (M 1/D) = = =
P (D/M 1)P (M 1) + P (D/M 2)P (M 2) 0.1 · 1/3 + 0.05 · 2/3 2
Ejemplo 3.6. Considere nuevamente el Ejemplo 2.5 (este ejemplo fue utilizado para ilustrar
los diagramas de árbol). El enunciado es el siguiente: Suponga que se tiene un estante con tres
cajones, cada cajón tiene dos compartimientos. En un cajón hay dos monedas de oro (una en
cada compartimiento). En el otro cajón, hay dos monedas de plata. En el último cajón hay una
moneda de oro y una de plata. Si se selecciona al azar un cajón y un compartimiento, ¿cuál es
la probabilidad de encontrar una moneda de oro?. Si la moneda encontrada es oro, ¿cuál es la

probabilidad que el otro compartimiento del mismo cajón contenga una moneda de plata?.
Definamos los siguientes eventos:
C1 ={se selecciona el cajón con 2 monedas de oro}

C2 ={se selecciona el cajón con 2 monedas de plata}
C3 ={se selecciona el cajón con 1 moneda de oro y una de plata}
O ={se encuentra una moneda de oro}
Q ={se encuentra una moneda de plata}
Se tiene la siguiente información:
P (C1) = P (C2) = P (C3) = 1/3
P (O/C1) = 1
P (Q/C2) = 1
P (O/C3) = P (Q/C3) = 1/2
Entonces,
P (O) = P (O/C1)P (C1) + P (O/C2)P (C2) + P (O/C3)P (C3) = 1 · 1/3 + 0 · 1/3 + 1/2 · 1/3 = 1/2
La segunda probabilidad puede ser interpretada como:
P (C3 ∩ O) P (O/C3)P (C3) 1/2 · 1/3 1

P (C3/O) = = = =
P (O) P (O) 1/2 3
3.5. Ejercicios
3.1. Encuentre la probabilidad de que una carta sacada de un mazo de cartas sea un rey, si Ud.
ya sabe que es una figura.
3.2. Dos cartas son extraı́das de un mazo inglés. Encuentre la probabilidad que:
a) la segunda carta sea una reina dado que la primera es una reina
b) la segunda carta sea una reina dado que la primera es un As
c) se obtenga exactamente un As dado que la primera fue As
d) se obtenga al menos un As dado que la primera fue As
3.3. Dos dados son lanzados. Encuentre la probabilidad que:
a) el primer dado sea 6 dado que la suma es 8.

b) el primer dado sea impar dado que la suma es 8
c) un dado sea 6 dado que la suma es 8.
3.4. Una caja contiene dos bolas rojas y una azul. Se extrae una bola de la caja y se reemplaza
por una bola azul, luego se extrae una segunda bola. Encuentre la probabilidad que la segunda
bola sea azul.
3.5. La probabilidad de que un misil destruya el blanco es de 0.8. Los misiles son disparados
independientemente al blanco hasta que el blanco es destruı́do. Encuentre la probabilidad de que
se necesiten más de tres misiles para destruir el blanco.
3.6. Asuma que usted saca cartas de un mazo de una a la vez. Encuentre la probabilidad de
obtener un corazón antes que una carta negra.
3.7. Un dado cargado tiene P (1) = 0.2, P (2) = 0.3, P (3) = P (4) = P (5) = P (6) = 0.125. Si
usted lanza el dado repetidas veces, encuentre la probabilidad de obtener:
a) un número mayor que dos en el primer intento

b) un número par en el segundo intento
c) un número par en el segundo intento dado que obtuvo un número mayor que dos en el
primero.
d) un número impar en el quinto intento si en el primero y segundo intento obtuvo un 3.
e) un 2 antes que un 1.
3.8. Una moneda cargada tiene probabilidad p de obtener cara, y 1 − p de obtener sello. Si la
moneda es lanzada 5 veces, encuentre la probabilidad de obtener:
a) 5 sellos.
b) a lo menos una cara.
c) la secuencia sello, sello, cara, cara, sello
d) cualquier secuencia especı́fica conteniendo exactamente dos caras y tres sellos
e) dos caras y tres sellos en cualquier orden
f ) al menos tres sellos.
3.9. La moneda 1 tiene probabilidad .5 de obtener cara. La moneda 2 tiene probabilidad .25 de
obtener cara. Encuentre la probabilidad de obtener dos caras si:
a) una moneda es seleccionada al azar y lanzada dos veces

b) Una moneda es seleccionada y lanzada una vez, y luego el proceso se repite.
3.10. Sean A, B y C eventos tales que P (A ∪ B) = 0.7, P (C) = 0.3, P (A/B) = P (B/A) y
P (A ∩ B/C) = P (C/A ∩ B). Encuentre P (A) y P (B).
3.11. Asuma que el 0.5 % de una población tiene cáncer. Un exámen médico diagnostica cáncer
en el 99 % de las personas que efectivamente tienen cáncer, y en el 3 % en las personas que no
tienen cáncer. Marı́a ha sido diagnosticada con cáncer. Encuentre la probabilidad de que ella
no tenga cáncer.
3.12. Si una máquina está bien ajustada, solo el 4 % de los artı́culos que produce son defec-
tuosos. Pero si la máquina no está bien ajustada, el 10 % de los artı́culos son defectuosos.
La máquina está bien ajustada el 90 % de las veces. Encuentre la probabilidad que la máquina
esté bien ajustada si:
a) se tomó una muestra de 10 artı́culos y no se encontró ninguno defectuoso

b) se tomó una muestra de 10 artı́culos y 2 resultaron defectuosos (Recuerde el Ejercicio ??)
c) los artı́culos fueron inspeccionados de a uno y el primer defectuoso se encontró en la décima
inspección.
3.13. AlwaysCola Ltda. tiene dos productos: A-cola y B-cola. Basados en los resultados de una
encuesta reciente, la compañı́a ha proporcionado las siguientes estimaciones:
Producto Hombres Mujeres

A-cola 66 %
B-cola 30 % 50 %
Ambas 14 %
Ninguna
Los números en la tabla representan el porcentaje de personas que consumen el respectivo pro-
ducto (por ejemplo: El 66 % de los hombres consume A-cola). La encuesta también reveló que
el 45 % de los consumidores de A-cola son mujeres, y que el 21 % de las personas consume solo
B-cola. Si el porcentaje de hombres en la población es 50 %, complete la tabla y encuentre el
porcentaje de consumidores de AlwaysCola.
3.14. Suponga P (A) = 0.3, P (B) = 0.5 y P (A/B 0 ) = 0.4. Encuentre:
a) P (B 0 )
b) P (A ∩ B 0 )
c) P (A ∩ B)
d) P (A ∪ B)
Capı́tulo 4
Variables Aleatorias y Funciones de

Probabilidad
4.1. Ejemplo Introductorio
Considere los siguientes experimentos:
Experimento 1: Lanzar dos dados distinguibles y registrar los resultados respectivos.
Experimento 2: Lanzar dos dados distinguibles y registrar la suma de los resultados.
Sean S1 y S2 los espacios muestrales asociados al experimentos 1 y 2, respectivamente. En

ejemplos anteriores se ha establecido que
S1 = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), (2, 2), . . . , (6, 6)} y
S2 = {2, 3, . . . , 12}.
La idea en este ejemplo es relacionar estos dos experimentos y sus espacios de probabilidad.
Asumiendo que los dados son balanceados, se sabe que los resultados en S1 son equi-probables.
Observar que para calcular la distribución de probabilidades de S2 , puede verse los elementos
de S2 como eventos en S1 . La Tabla 4.1 presenta estos cálculos.
Sea F1 la familia de todos los eventos posibles en S1 . La Tabla 4.1 muestra que S2 ⊂ F1 . Por
lo tanto el espacio de probabilidad asociado con el Experimento 1 provee toda la información
necesaria para definir el espacio de probabilidad del Experimento 2. Notar que S1 * F2 , lo
que implica que esta no es una relación de equivalencia, es decir, no es posible calcular la
distribución de probabilidades del Experimento 1 utilizando la distribución de probabilidades
del Experimento 2.
31
Tabla 4.1: Distrinución de Probabilidades Experimento 2.

Resultado en S2 Evento en S1 Resultados Probabilidad
favorables
2 (1,1) 1 1/36
3 (1,2), (2,1) 2 2/36
4 (1,3), (2,2), (3,1) 3 3/36
5 (1,4), (2,3), (3,2),(4,1) 4 4/36
6 (1,5), (2,4), (3,3), (4,2), (5,1) 5 5/36
7 (1,6), (2,5), (3,4), (4,3), (5,2), (6,1) 6 6/36
8 (2,6), (3,5), (4,4), (5,3), (6,2) 5 5/36
9 (3,6), (4,5), (5,4), (6,3) 4 4/36
10 (4,6), (5,5), (6,4) 3 3/36
11 (5,6), (6,5) 2 2/36
12 (6,6) 1 1/36
Para entender la relación descrita en el parrafo anterior, puede pensarse que el Experimento 2
está compuesto de 2 fases. La primera fase consiste en lanzar los dados y registrar los resultados
individuales. La segunda fase consiste en calcular y registrar la suma de los resultados. Obser-
var, que de hecho, la primera fase corresponde al Experimento 1. Además, la segunda fase es
simplemente una operación determinı́stica. En otras palabras, puede pensarse en S2 como un
segundo espacio muestral asociado con el Experimento 1.
Nota: En general, puede definirse un experimento como compuesto por una fase aleatoria y
una fase determinı́stica. Si dos experimentos tienen la misma fase aleatoria, puede pensarse en
ellos como el mismo experimento con dos espacios muestrales distintos asociados. Observar que
esto no implica la equivalencia de sus espacios de probabilidad.
Para formalizar la relación entre S1 y S2 , se procede como sigue: Sea P1 la función de probabili-
dad asociada con el Experimento 1, y P2 la función de probabilidad asociada con el Experimento
2. Sea X : S1 → S2 una función definida por X(i, j) = i + j. Entonces, se tiene que para todo
k ∈ S2
P2 ({k}) = P1 ({(i, j) ∈ S1 : X(i, j) = k}) = P1 ({(i, j) ∈ S1 : i + j = k}).
Observar que la función X es una representación matemática de la segunda fase del Experi-
mento 2. Muchas otras funciones podrı́an definirse en S1 , generando una variedad de espacios
muestrales asociados con el experimento. Este tipo de funciones son llamadas variables aleato-
rias. Notar que el carácter aleatorio de X viene del hecho que su dominio es un espacio muestral,
y no de su naturaleza funcional (la que es determinı́stica).
Figura 4.1: Ilustración del concepto de variable aleatoria
4.2. Variables Aleatorias
Definición 4.1. Sea E un experimento, y S un espacio muestral asociado con E. Una función
X que asigna a cada elemento s ∈ S un número real X(s) se denomina variable aleatoria
(v.a.)1 .
Nota: Implı́cito en la definición de variable aleatoria esta el requerimiento que X(s) esté definido
para todo s ∈ S, y que X(s) ∈ <.
Definición 4.2. El rango de una variable aleatoria X, denotado RX , es el conjunto de todos
los valores posibles de X.
Ejemplo 4.1. Considere el experimento de lanzar una moneda tres veces consecutivas. Ento-
ces S = {CCC, CCT, CT C, T CC, CT T, T CT, T T C, T T T }. Sea X el número de caras que se
obtienen, entoces el rango de X es RX = {0, 1, 2, 3}.
Cuando se piensa en RX como un nuevo espacio muestral asociado con S, aparece como natural
asociarle los conceptos de evento y probabilidad. Se dice que B es un evento en RX , o en una
forma menos precisa que B es un evento de X, si B ⊆ RX . Para definir una función de
probabilidad en RX se introduce el concepto se eventos equivalentes.
Definición 4.3. Sea E un experimento y S un espacio muestral asociado con E. Sea X una
variable aleatoria definida en S. Sea A ⊆ S y B ⊆ RX . Se dice que A y B son equivalentes si
A = {s ∈ S : X(s) ∈ B}.
En palabras, A y B son equivalentes si A contiene todos y solo los elementos cuya imagen,
después de aplicar la función X, está contenida en B (ver Figura 4.2).
1
Comúnmente se usara “v.a.” para abreviar “variable aleatoria”.
Figura 4.2: Ilustración eventos equivalentes.
Ejemplo 4.2. En el ejemplo introductorio de la Sección 4.1, {X = 5} es equivalente a

{(1, 4), (2, 3), (3, 2), (4, 1)}.
Ejemplo 4.3. En el ejemplo introductorio de la Sección 4.1, {X ≤ 4} es equivalente a

{(1, 1), (1, 2), (1, 3), (2, 1), (2, 2), (3, 1)}.
variable aleatoria definida en S. Se define la función de probabilidad de X como sigue: Si A ⊆ S
y B ⊆ RX tal que A y B son equivalentes, entonces
PX (B) = PS (A) = P ({s ∈ S : X(s) ∈ B}).
En palabras, la probabilidad de un evento en RX es la probabilidad de su evento equivalente en

S. El lector puede verificar que PX (·) satisface las propiedades de una función de probabilidad
(ver Definición 1.10).
Ejemplo 4.4. En el ejemplo introductorio de la Sección 4.1, {X ≤ 4}=6/36=1/6.
Ejemplo 4.5. En el Ejemplo 4.1, P {X = 2} = P {CCT, CT C, T CC} = 3/8.
Notación: Es convencional utilizar letras mayúsculas, tales como X, Y , Z, etc., para denotar
variables aleatorias, y letras minúsculas, tales como x, y, z, etc., para denotar los valores que
una v.a. puede tomar (es decir, elementos del rango de la v.a.).
Notación: Observe que hemos utilizado la notación PX para especificar que la función de
probabilidad está definida en el rango de X, y PS cuando esta definida en el espacio muestral
original. Con frecuencia, cuando no hay posibilidad de inducir a errores los subı́ndice X y S
se omiten. También, cuando un evento es expresado por comprensión o extensión, la notación
P ({.....}) será reemplazada por P {.....}.
4.3. Variables Aleatorias Discretas
Definición 4.5. Se dice que una variable aleatoria X es discreta (denotado X es v.a.d.) si su
rango RX es finito o infinito-contable. Es decir, el rango de X puede escribirse de la forma
RX = {x1 , x2 , . . .}.
Función de Probabilidad Puntual
Definición 4.6. Sea X una variable aleatoria discreta. La función de probabilidad puntual
(f.p.p.) de X es la función p(·) que asocia a cada elemento xi ∈ RX un valor real pi = p(xi ) =
P {X = xi }.
El valor pi es conocido como la probabilidad puntual de xi . Se denominada distribución de
probabilidades de X a la coleccion de pares (xi , pi )2 .
Observar que, por definición, RX contiene todos los valores posibles de la v.a. X. Además, como
los eventos {X = xi }, i = 1, 2, . . ., son claramente excluyentes, estos constituyen una partición
del espacio muestral S asociado con X. Por lo tanto se tiene que:
pi ≥ 0, (4.1)
X
pi = 1. (4.2)
xi ∈RX
Usando un argumento similar, la probabilidad de un evento B = {x[1] , x[2] , . . . , x[k] } ⊆ RX es

calculada como
Xk
P (B) = P {xi ∈ B} = p[i] .
i=1
Notación: Como en casos anteriores, se utiliza la notación pX (xi ) cuando es necesario especi-
ficar que la v.a. es X.
Ejemplo 4.6. Considere nuevamente el Ejemplo 4.1, la f.p.p. de X está dada por p0 = 1/8,
p1 = 3/8, p2 = 3/8 y p3 = 1/8.
Ejemplo 4.7. (La Distribución Geométrica) Suponga que una moneda no balanceada tiene
probabilidad p de salir cara. Sea E un experimento que consiste en lanzar la moneda repetida-
mente hasta obtener cara. Defina X como el número total de lanzamientos. La función de
probabilidad puntual de X esta dada por la expresión
pk = P {X = k} = (1 − p)k−1 p, para k = 1, 2, . . . . (4.3)

2
Observar las similitudes con las definiciones de la Sección 2.1
Para derivar (4.3), observar que RX = {1, 2, . . .}, y que el evento {X = k} es equivalente a {se
obtienen k − 1 sellos sucesivos y después una cara}. El resultado se confirma por el hecho que
los lanzamientos son independientes. La condición (4.1) es claramente satisfecha. Para verificar
(4.2), observar que
∞ ∞ ∞
X X X p
pk = (1 − p)k−1 p = p (1 − p)i = = 1.
1 − (1 − p)
k=1 k=1 i=0
Se dice que una variable aleatoria con f.p.p dada por (4.3) tiene una distribución geométrica, o
que es una variable aleatoria geométrica con parámetro p.
Notación: Cuando el rango de una v.a.d. es el set de números naturales, es convencional utilizar
la notación k en lugar de xk para denotar los elementos del rango de la variable.
Ejemplo 4.8. (La Distribución Binomial) Suponga que una moneda no balanceada tiene
probabilidad p de salir cara. Sea E un experimento que consiste en lanzar la moneda exactamente
n veces. Sea X el número de caras que se obtienen. Entonces la función de probabilidad puntual
de X está dada por

n k
pk = P {X = k} = p (1 − p)n−k , para k = 0, 1, . . . , n. (4.4)
k
Para derivar (4.4), observar que hay nk formas de obtener exactamente k caras y n − k sellos,

y cada una de esas formas ocurre con probabilidad pk (1 − p)n−k (ver Ejercicio 3.8).
Se dice que una variable aleatoria con f.p.p. dada por (4.4) tiene distribución bimomial, o es
una variable aleatoria binomial con parámetros n y p.
Quiz: Demuestre que la distribución binomial satisface (4.2).
4.4. Variables Aleatorias Continuas
Definición 4.7. Se dice que una variable aleatoria X es continua (denotado Xes v.a.c.) si su
rango RX consiste en uno o más intervalos en <.
Función de Densidad de Probabilidades
Definición 4.8. Sea X una variable aleatoria continua. La función de densidad de probabil-
idades (f.d.p) de X es una función f definida en RX que permite representar el espacio de
probabilidades de X, y satisface:
D1. f (x) ≥ 0 para todo x ∈ RX .

Z
D2. f (x)dx = 1.
RX
Z
D3. P (A) = f (x)dx, para todo A ⊆ RX .
A
Se denomina distribución de probabilidades de X al conjunto {(x, f (x)), x ∈ RX }.
Nota: Puede verificarse que la función P (·) definida en D3. satisface todas la propiedades de
una función de probabilidad.
Nota: Con frecuencia, para simplificar la notación, la f.d.p. es definida en todo el conjunto <,
de la siguiente manera: (
f¯(x) si x ∈ RX
f (x) =
0 otro caso.
Por ejemplo, con esta notación D2. puede escibirse
Z Z ∞
f (x)dx = f (x)dx = 1.
RX −∞
También, si A = {X ≤ a}, se tiene que

Z Z Z a
P (A) = f (x)dx = f (x)dx = f (x)dx
A {x∈RX :x≤a} −∞
Notación: Como en casos anteriores, se utiliza la notación fX (·) en lugar de f (·) cuando es
necesario especificar que la v.a. es X.
La definición 4.8 sugiere varias observaciones: Primero, f (x) no es la probabilidad de x. De

hecho, para cualquier valor fijo a
Z Z a
P {X = a} = f (x)dx = f (x)dx = 0.
{X=a} a
Es decir, la probabilidad de cualquier valor especı́fico en RX es cero. Sin embargo, esto parece
contradictorio, pues si a ∈ RX , entonces por definición a es un valor posible para X. Para
analizar este tipo de situaciones, se utiliza la siguiente terminologı́a [Ash]: Un evento A es seguro
si contiene todos los elementos de RX (A ⊇ RX ). La probabilidad de un evento seguro es uno.
Un evento es imposible si no contiene ningún elemento de RX (A ∩ RX = ∅). La probabilidad
de un evento imposible es cero. Existen, sin embargo, eventos con probabilidad uno que no son
seguros, y eventos con probabilidad cero que no son imposibles. Para referirse a esos casos, se
dice que el evento A ocurre (P (A) = 1) o no ocurre (P (A) = 0) “casi seguramente”.
Ejemplo 4.9. Suponga que Ud. lanza una moneda balanceada repetı́damente. Sea X el número
de lanzamientos hasta obtener cara por primera vez. En tonces es posible pensar que Ud, sigue
lanzando la moneda por siempre sin nunca obtener cara. La probabilidad de tal evento es, sin
embargo, .5∞ = 0. Por lo tanto se dice que X es finita casi “casi seguramente”. Note que esto
no implica que el rango de X pueda ser acotado por algún valor finito.
Segundo, si A = [a, b] = {x : a ≤ x ≤ b}, entonces P (A) es

Z Z b
P (A) = f (x)dx = f (x)dx = 0,
A a
lo que puede ser interpretado como el área bajo la curva de la f.d.p. entre a y b (ver figura 4.3).
Uniendo esto a la primera observación, se tiene que la función de probabilidad, en el caso de
v.a.c. no distingue entre intervalos abiertos y cerrados. Más especı́ficamente,
P {a ≤ X ≤ b} = P {a ≤ X < b} = P {a < X ≤ b} = P {a < X < b}.
Figura 4.3: Representación gráfica de las probabilidades de una v.a.c.

Figura 4.4: Interpretación de la f.d.p
La tercera y última observación se refiere a al interpretación de la f.d.p.: Sea δ suficientemente

pequeña, tal que f (x) es aproximadamente constante en el intervalo [a − δ/2, a + δ/2]. Se tiene
Z a+δ/2
P {a − δ/2 ≤ x ≤ a + δ/2} = f (x)dx ≈ f (a)δ.
a−δ/2
La función f (x) puede ser interpretado entonces, como la “tasa de probabilidad” de X en una
vecindad de x (ver Figura 4.4). Usando esta interpretación, se tiene, por ejemplo que f (a)/f (b)
es la razón de las probabilidades que X se encuentre en una vecindad infinitesimal alrededor
de a y b, respectivamente.
Ejemplo 4.10. Sea X una v.a.c. con RX = [0, 1]. Suponga que Ud. tiene la idea algo ambigua
pero justificada que la probabilidad que X tome un valor cercano a x es directamente proporcianal
a x. Parece entonces razonable asumir que la f.d.p. de X esta dada por
f (x) = kx, para 0 ≤ x ≤ 1.
Utilizando la propiedad D2. en la Definición 4.8, se tiene

1
1
kx2
Z
k
kxdx = = = 1 ⇒ k = 2.
0 2 0 2
La probabilidad que X esté en el intervalo [a, b] es

Z b
b
2xdx = x = b2 − a2 .
2

P {a ≤ x ≤ b} =
a a
Ejemplo 4.11. Sea X una v.a.c. con RX = [a, b]. Suponga ahora que los resultados son todos
equiprobables, entonces
f (x) = k, para a ≤ x ≤ b.
Utilizando la propiedad D2. en la Definición 4.8, se tiene

Z b b
1
kdx = kx = k(b − a) = 1 ⇒ k = .
a a b−a
La probabilidad que X esté en el intervalo [c, d] es
Z d d
1 x c−d
P {a ≤ x ≤ b} = dx = = .
c b−a b−a c b−a

Se dice que una variable aleatoria con f.d.p. como la descrita en el Ejemplo 4.11 tiene distribución
uniforme entre a y b. Observe que en este caso, la probabilidad que X esté en un intervalo
arbitrario [c, d] es directamente proporcional al largo del intervalo.
Ejemplo 4.12. Suponga que Ud. encontro en su contestadora automática un mensaje de un
correo privado diciendo que hay un paquete para Ud., y que lo entregarán en su domicilio entre
las 15:00 y la 18:00. Ud. no va a llegar a casa hasta la 16:00, y quiere estimar la probabilidad
que pueda recibir el paquete. Sin Información adicional, parece razonable asumir que el tiempo
de arribo del cartero está uniformemente distribuı́do entre las 15:00 y las 18:00. La probabilidad
que Ud. se encuentre en casa al momento del arribo, serı́a entonces 120/180 = 2/3.
Información útil para mejorar esta estimación puede ser, por ejemplo, si Ud. supiera que la
empresa de entregas programa ventanas de tiempo de una hora, pero que a los clientes da
ventanas de tres horas para cubrirse de inprevistos. En ese caso, serı́a más probable que el
paquete llegara entre la 16:00 y las 17:00.
El Ejemplo 4.12 muestra que la distribución uniforme representa un nivel de conocimiento muy
pequeño respecto del comportamiento de un fenómeno. Por esa razón, esta distribución no es
muy común en el mundo real. La regla general es que a mayor conocimiento se tenga de un
fenómeno, mejor es el modelo que se puede contruir para representar su conducta probabilı́stica.
4.5. Función de Distribución Acumulada
Definición 4.9. Sea X una variable aleatoria. Se define como la función de distribución acu-
mulada(f.d.a.) de X a la función F (·) que asigna a cada x ∈ < el valor
F (x) = P {X ≤ x} = P {w ∈ RX : w ≤ x}.
Teorema 4.1. Sea X una variable aleatoria.
1. Si X es una v.a.d., entonces

X
F (x) = P {xi ∈ RX : xi ≤ x} = pi .
{i:xi ≤x}
Figura 4.5: Función de Distribución Acumulada Ejemplo 4.13

.
2. Si X es una v.a.c., entonces

Z Z x
F (x) = f (w)dw = f (w)dw.
{w≤x} −∞
Ejemplo 4.13. Considere un experimento que consiste en lanzar una moneda balanceada exac-
tamente tres veces. Sea X el número de caras obtenidas. La f.p.p. de X está dada por p0 = 1/8,
p1 = 3/8, p2 = 3/8 y p3 = 1/8. La f.d.a. de X está dada por (ver Figura 4.5)


 0 si x < 0

1/8 si 0 ≤ x < 1



F (x) = 4/8 si 1 ≤ x < 2 .

7/8 si 2 ≤ x < 3





1 si 3 ≤ x

Ejemplo 4.14. Sea X una v.a.c. con f.d.p. f (x) = 2x, 0 ≤ x ≤ 1. La f.d.a. de X es (ver
Figura 4.14) 
0
 si x < 0
F (x) = x2 si 0 ≤ x < 1 .

1 si 1 ≤ x

Nota: Observar que F (·) se define siempre en todo <, no solo en RX . Si X es una v.a.d.,
entonces F (·) es una función escalonada, con discontinuidades de magnitud pi en xi . Si X es
una v.a.c, entonces F (·) es una función continua.
Figura 4.6: Función de Distribución Acumulada Ejemplo 4.14

.
Propiedades de la Función de Distribución Acumulada

Propiedad 4.1. Sea X una v.a. con f.d.a F (·), Se tiene:
F1. F (·) es no-decreciente. Es decir, si x1 < x2 , entonces F (x1 ) ≤ F (x2 ).

F2. lı́mx→−∞ F (x) = 0 y lı́mx→∞ F (x) = 1.
F4. Si X es v.a.d. con RX = {x1 , x2 , . . .}, entonces p1 = F (x1 ) y pi = F (xi ) − F (xi−1 ), para
i = 2, 3, . . ..
∂F (x)
F4. Si X es v.a.c., entonces f (x) = , y P {a ≤ x ≤ b} = F (b) − F (a).
∂x
Nota: Es muy importante destacar que tanto la función de distribución acumulada como la
distribución de probabilidades (f.p.p. o f.d.p., según corresponda) proveen información completa
respecto de la propiedades probabilisticas de la variable aleatoria. Por tanto, cualquiera de ellas
puede utilizarse para describir en forma compacta el espacio de probabilidad asociado, evitando
ası́ la necesidad de expresarlo en forma explı́cita.
Quiz: ¿Cómo se imagina Ud. una variable aleatoria mixta discreta-continua?
4.6. Funciones de Variables Aleatorias
En esta sección se estudian funciones de variables aleatorias de la forma Y = H(X). Si E es un

experimento, S un espacio muestral asociaso con E, y X una variable aleatoria definida en S,
entonces Y es también una variable aleatoria, pues Y asigna a cada valor s ∈ S, un valor real
y = H(X(s)). Esto se muestra gráficamente en la Figura 4.7. Se define el rango de Y, denotado
RY , como el set de todos los valores posibles de Y .
Figura 4.7: Ilustración funciones de variables aleatorias
variable aleatoria definida en S, Y = H(X). Sea C ⊆ RY , B ⊆ RX y A ⊆ S. Si
B = {x ∈ RX : H(x) ∈ C},
se dice que B y C son equivalentes. Si además
A = {s ∈ S : X(s) ∈ B},
se dice que A, B y C son equivalentes.
Al igual que con RX , puede pensarse en RY como un nuevo espacio muestral asociado con S, y
asignar probabilidades a los diferentes eventos en RY . Si A, B y C satisfacen las condiciones de la
Definición 4.10, se tiene por la Definición 4.4 que P (C) := P (B) := P (A). Más especı́ficamente,
PY (C) = PX {x ∈ RX : H(x) ∈ C} = PS {s ∈ S : X(s) ∈ B} = PS {s ∈ S : H(X(s)) ∈ C}.
Es decir, se puede calcular la probabilidad de un evento en RY como la probabilidad de su

evento equivalente en RX , o como la probabilidad de su evento equivalente en S.
Nota: Observar que todo evento C ⊆ RY tiene un evento equivalente en RX , pero si la función
no es H(·) no es invertible, un evento B ⊆ RX puede no tener un evenmto equivalente en RY .
4.6.1. Distribución de probabilidad de una función de una variable aleatoria
Caso 1: X es v.a.d.
Es intuitivamente obvio que si X es una variable aleatoria discreta, entonces Y = H(X) es

también discreta.
Tabla 4.2: Distribución de Probabilidades Ejemplo 4.15
yj Evento en RX pY (yj )
0 {X = 2} 3/8
1 {X = 1 ó X = 3} 1/2
2 {X = 0} 1/8
Sea X una v.a.d. e Y = H(X). Suponga que RX = {x1 , x2 , . . .} y RY = {y1 , y2 , . . .}. Sea
Ωj = {xi ∈ RX : H(xi ) = yj }, entonces la distribución de probabilidades de Y esta dada por
X
pY (yj ) = P {Y = yj } = PX (Ωj ) = pX (xi ), para j = 1, 2, . . . .
xi ∈Ωj
Ejemplo 4.15. Sea X una v.a. con distribución de probabilidades {(0, 81 ), (1, 38 ), (2, 38 ), (3, 18 )}.
Sea Y = |X −2|. Se tiene que RY = {0, 1, 2}. La distribución de probabilidades de Y se presenta
en la Tabla 4.2.
Caso 2: X es v.a.c, Y es v.a.d.
Sea X una v.a.c. con f.d.p f (·). Sea Y = H(X) y asuma que Y es discreta. Sea Ωj = {x ∈ RX :
H(x) = yj }, entonces la distribución de probabilidades de Y esta dada por
Z
pY (yj ) = P {Y = yj } = PX (Ωj ) = f (x)dx, para j = 1, 2, . . . .
Ωj
Ejemplo 4.16. Sea X una v.a.c. con f.d.p. f (x) = x/20, 3 ≤ x ≤ 7. Sea Y = bx/2c, entonces
RY = {1, 2, 3}. La distribución de probabilidades de Y se presenta en la Tabla 4.3.
Tabla 4.3: Distribución de Probabilidades Ejemplo 4.16
yj Evento en RX pY (yj )
1 {3 ≤ X < 4} 7/40
2 {4 ≤ X < 6} 20/40
3 {6 ≤ X ≤ 7} 13/40
Quiz: Calcule las probabilidades de la Tabla 4.3.
Caso 3: X es v.a.c, Y es v.a.c.
Sea X una v.a.c. con f.d.p f (·). Sea Y = H(X) y asuma que H(·) es una función continua, en-
tonces Y es una v.a.c. La f.d.p. de Y , denotada fY (·) puede determinarse utilizando el siguiente
procedimiento [Meyer]:
Figura 4.8: Representación v.a. Y en Ejemplo 4.17
Paso 1: Obtener el rango de Y .
Paso 2: Obtener FY (y) = P (Y ≤ y) = P {x ∈ RX : H(x) ≤ y}.

∂FY (y)
Paso 3: Obtener fY (y) = .
∂y
Nota: El punto clave en este procedimiento es con frecuencia la adecuada definición del evento
en RX equivalente a {Y ≤ y}.
Ejemplo 4.17. Sea X una v.a.c con fX (x) = .05, 10 ≤ x ≤ 30, y sea Y = (X − 20)2 . Para
encontrar fY (·) se procede como sigue:
Paso 1: Puede verificarse en la Figura 4.8 que RY = [0, 100].
Paso 2:
FY (y) = P {Y ≤ y} = PX {(X − 20)2 ≤ y}
√
= PX {|X − 20| ≤ y}
√ √
= PX {− y ≤ X − 20 ≤ y}
√ √
= PX {20 − y ≤ X ≤ 20 + y}
√
= .05 ∗ 2 y
√
= .1 y
Paso 3:
∂FY (y) .05
fY (y) = =√ .
∂y y
Teorema 4.2. Sea X una v.a.c. con f.d.p. f (·). Sea Y = H(X) con H(·) una función diferen-
ciable y monótona (por lo tanto invertible). Entonces
∂H −1 (y)
fY (y) = f (H −1 (y)| |
∂y
Ejemplo 4.18. Sea X una v.a.c. con fX (x) = .05x, 3 ≤ x ≤ 7. Sea Y = X 2 (observar que
H(x) = x2 es una función diferenciable y creciente en el intervalo [3, 7]). Se tiene:
RY
= [9, 49]
−1 √
H (y) = y
−1
∂H (y) 1
= √
∂y 2 y
Por lo tanto,
√ 1
fY (y) = (.05 y)| √ | = .025.
2 y
Se concluye que fY (y) = 0.025, 9 ≤ y ≤ 49, es decir, Y es una variable aleatoria uniforme en
el intervalo [9, 49].
Funciones de varias variables aleatorias
Sean X y Z variables aleatorias. Se han definido en la presente sección, las funciones de una
variable aleatoria individual de la forma Y = H(X). Sin embargo, nada impide definir funciones
de varias variables aleatorias, por ejemplo, W = H(X, Z). Claramente, W también es una
variable aleatoria. Este tópico será discutido en el Capı́tulo 8. En este capı́tulo, simplemente se
busca establecer la existencia de tales funciones.
Un caso especial de funciones de varias variables aleatorias que se presentará con cierta fre-
cuencia en capı́tulos posteriores es el siguiente: Sea X1 , X2 , . . . , Xk , un conjunto de variables
aleatorias, y sean α1 , α2 , . . . , αk , números reales. Se dice que Y es una combinación lineal de
X1 , X2 , . . . , Xk , si
Y = α1 X1 + α2 X2 + . . . + αk Xk .
4.7. Ejercicios
4.1. Suponga que una estación de servicio vende gasolina de un solo tipo. La estación recibe
los envı́os desde el proveedor una vez a la semana. El volumen de venta semanal (en miles de
barriles) es una v.a. X con f (x) = k(1 − x)4 , 0 ≤ x ≤ 1. ¿Qué capacidad debiera tener el
déposito de la estación para asegurar que la probabilidad de déficit sea a lo más 1 %.
4.2. Sea X una v.a.d. con f.p.p. P {X = j} = aj (1 − a), j = 0, 1, 2, . . .
a) ¿Para qué valores de “a” la f.p.p. descrita es válida?

b) Provea una interpretación de X.
c) Encuentre una expresión para P {X > s} y P {X ≥ s}, con s un entero no-negativo.
d) Demuestre que P {X > s + t/x > s} = P {X ≥ t}.
4.3. Un experimento consiste en seleccionar un número desde una distribución dada por P {I =
i} = .5i , i = 1, 2, . . ., y después lanzar una moneda cargada con probabilidad e−I de obtener
cara. Si el experimento es realizado y se obtiene cara, encuentre la probabilidad que el número
seleccionado fue 2.
4.4. Sea X una v.a.c. con la siguiente f.d.p.:

ax
 si 0 ≤ x ≤ 1
f (x) = a si 1 < x ≤ 2 .

a(3 − x) si 2 < x ≤ 3

a) Determine el valor de la constante a.

b) Determine y grafique la f.d.a. de X.
c) Encuentre P {X > 1/X < 2}
d) Encuentre P {X < 2.5/X ≥ .5}.
4.5. Un punto es seleccionado al azar desde un intervalo de largo L, dividiendo ası́ el intervalo
en dos segmentos. Encuentre la probabilidad que la razón entre el segmento más corto y el más
largo sea menor a .25.
4.6. La vida útil de cierto componente electrónico es una v.a.c. con f (x) = 100/x2 , x > 100.
a) Encuentre la probabilidad que el componente dure menos de 200 hrs., si se sabe que está aún
en condiciones operativas despues de 150 hrs.
b) Si tres de tales componentes son instalados en una máquina, encuentre la probabilidad que
exactamente uno de ellos deba ser reemplazado antes de 150 hrs.
c)Encuentre el mı́nimo número de componentes que debe ser instalados en una máquina de
manera que la probabilidad que al menos un componente dure más 150 hrs. sea igual o superior
a .95.
4.7. Sea X una variable aleatoria con la siguiente f.d.a.:



 0 si x<0

x/3 si 0≤x<1
F (x) = .
x/2 si

 1≤x<2

1 si 2≤x
a) Grafique F (·).
b) ¿Es X discreta o continua?.
c) Encuentre P {.5 ≤ X ≤ 1.5}.

d) Encuentre P {1 < X < 2}.
e) Encuentre P {1 ≤ X ≤ 2}.
f ) Encuentre P {X = 1}.
g) Encuentre P {X < 1}.
4.8. Sean X, Y y Z variables aleatorias independientes con la misma f.d.a. F (w) = 1 − e−w .
Encuentre:
a) P {máx(X, Y, Z) ≤ 5}
b) P {mı́n(X, Y, Z) ≥ 3}
c) P {mı́n(X, Y, Z) ≥ 3 y máx(X, Y, Z) ≤ 5}
d) P {mı́n(X, Y, Z) ≤ 3 y máx(X, Y, Z) ≤ 5}
4.9. Un blanco consiste en cuatro cı́rculos concéntricos de radios 1, 2, 3 y 5 cm., respectiva-

mente. Los disparos que impactan en el interior del cı́rculo central tienen 10 puntos, disparos
en el primer anillo tienen 5 puntos, en el segundo anillo tienen 2 puntos, y en el tercer anillo
no tienen puntaje. El punto de impacto de los disparos es una variable aleatoria distribuida
uniformemente en toda el área del blanco. Impactos fuera del blanco tienen probabilidad cero.
Encuentre la f.p.p. y la f.d.a del puntaje total después de un disparo, y despues de dos disparos.
Los disparos se asumen independientes.
4.10. Considere el siguiente juego: Un jugador selecciona un punto al azar desde el cuadrado
0 ≤ x ≤ 1, 0 ≤ y ≤ 1. El jugador gana si las coordenadas del punto son ambas mayores que b.
Encuentre b de tal manera que el juego tenga probabilidad .5 de éxito.
4.11. Sea X una v.a.c. con f (x) = kx, −1 ≤ x ≤ 3, e Y = X 2 . Encuentre:
a) El valos de k.
b) P {X < 2}
c) P {Y < 1}
d) P {Y < 2}
e) P {Y > 1, X < 2}
f ) P {Y > 1/X < 2}
g) P {X < 0/Y < 1}
h) P {X < 0/Y < 2}
i) La f.d.a. y la f.d.p. de Y .
4.12. Sea X una v.a.c. con f (x) = kx, −1 ≤ x ≤ 3, e Y = 9 − X 2 . Encuentre:
a) P {Y < 8.5}
b) P {Y < 8/X > 0}
c) P {X > 0/Y > 8}
d) La f.d.a. y la f.d.p. de Y .
Capı́tulo 5
Principales Caracterı́sticas de las

Variables Aleatorias
En este capı́tulo se presentan varias medidas que se utilizan para describir en forma resumida
la distribución de probabilidad de una variables aleatoria.
5.1. Valor Esperado
El concepto de promedio o media de un conjunto de números nos es P familiar. Si tenemos n

valores x1 , x2 , . . . , xn , entonces la media aritmética se define como x̄ = ni=1 (xi /n). Por ejemplo,
suponga que usted participa en el siguiente juego: Una moneda balanceada es lanzada 3 veces
o hasta obtener cara (lo que suceda primero). Si se obtiene cara en el primer, segundo o tercer
lanzamiento usted ganará $2, $4 u $8, respectivamente. Si no obtiene cara, usted perderá $20. De
este modo, si X es la variable aleatoria que representa la ganancia neta, entonces la distribución
de probabilidad de X está dada por {(2, 1/2), (4, 1/4), (8, 1/8), (−20, 1/8)}. Si ud juega n veces
y define Xi como la cantidad de dinero que usted gana en la ronda i, entonces X̄ representará el
promedio ganado por juego (note que X̄ es una combinación lineal de variables aleatorias, por
lo tanto es una variable aleatoria).
En general, parece razonable que usted estará dispuesto a participar en el juego si existen
“buenas posibilidades” que la ganancia promedio por juego sea positiva. Si se define n0 como
el número de veces que no obtenemos cara, y para i = 1, 2, 3, ni como el número de veces que
obtenemos cara en el i-ésimo lanzamiento, se tiene que:
2n1 + 4n2 + 8n3 − 20no n1 n2 n3 n0
Ganancia promedio = = 2 +4 +8 −20 = 2f1 +4f2 +8f3 −20f0
n n n n n
49
donde fi representa las frecuencias relativas respectivas. Como lı́mn→∞ fi = pi , se tiene que:
lı́m Ganancia promedio = 2p1 + 4p2 + 8p3 − 20p0 = 2 · 1/2 + 4 · 1/4 + 8 · 1/8 − 20 · 1/8 = 0.5
n→∞
La propiedad de regularidad nos dice que la ganancia promedio por juego va a tender a este
valor luego de muchos, muchos juegos.
Definición 5.1. Sea X una variable aleatoria con cierta distribución de probabilidad. Se define
el Valor Esperado(también llamado media o esperanza) de X, denotado por E(X), como:
1. Si X es una variable aleatoria discreta

X
E(X) = pi xi (5.1)
xi ∈Rx
2. Si X es una variable aleatoria continua

Z
E(X) = xf (x)dx (5.2)
Rx
Nota: Observe que E(X) no necesita ser un valor en RX (como muestra el ejemplo introduc-
torio).
Nota: El valor esperado de una variable aleatoria no es una variable aleatoria, es una constante,
es una caracterı́stica numérica de la distribución de probabilidad.
Notación: Comúnmente, E(X) se denota también por µX , o, cuando no existe posibilidad de

confusión, simplemente por µ.
Sea E un experimento y X una variable aleatoria asociada a E. Como se ha indicado anterior-

mente, si E se repite n veces
P y se difine Xi como la variable aleatoria asociada con la i-ésima
repetición. Entonces X̄ = ni=1 (Xi /n) tiende a E(X) a medida que n aumenta. Veremos más
adelante que La Ley de los Grandes Números permite modelar esta tendencia.
Observar que el concepto de valor esperado es análogo al concepto de “centro de masa” en

mecánica. En este sentido, el valor esperado representa el “centro” de la distribución de proba-
bilidad. Por esta razon, se dice que E(X) es una medida de tendencia central. En un sentido
general, se espera que los valores de la variable aleatoria se concentren alrededor de E(X).
Ejemplo 5.1. Sea E un experimento que consiste en lanzar dos dados balanceados, y sea X la
variable aleatoria que representa la suma de los valores de los dados. Entonces:
1 2 3 4 5 6 5 4 3 2 1
E(X) = 2 · + 3 · + 4 · + 5 · + 6 · + 7 · + 8 · + 9 · + 10 · + 11 · + 12 · =7
36 36 36 36 36 36 36 36 36 36 36
Ejemplo 5.2. (La Distribución Geométrica) Si X es una variable aleatoria geométrica

(ver Ejemplo 4.7), entonces el valor esperado de X está dado por:
∞ ∞
X X h 1−p i 1
E(X) = i(1 − p)i−1 p = p(1 − p)−1 i(1 − p)i = p(1 − p)−1 =
(1 − (1 − p))2 p
i=1 i=1
Ejemplo 5.3. (La Distribución Uniforme): Si X ∼ U [a, b] (Ejemplo 4.11), entonces

b
x2 b b2 − a2
Z
x b+a
E(X) = dx = = =
a b−a 2(b − a) a 2(b − a) 2
Ejemplo 5.4. Sea X una variable aleatoria continua con f (x) = 2x, 0 ≤ x ≤ 1. Entonces
1 1
2x3 1 2
Z Z
E(X) = x · 2xdx = 2x2 dx = =
0 0 3 0 3
Propiedades del valor Esperado [Nelson]
Sean X e Y variables aleatorias, y sea c una constante, entonces:
E1. E(X + Y ) = E(X) + E(Y )
E2. E(cX) = c · E(X)
E3. E(X + c) = E(X) + c
E4. E(c) = c
E5. E(X) ≤ E(|X|)
E6. E(XY ) = E(X)E(Y ) si X e Y son independientes.
Nota: Para comprender totalmente la propiedad E6., se necesita el concepto de variables

aleatorias independientes. Este concepto se estudiará formalmente en el Capı́tulo 8. En
este punto se provee un definición más bien intuitiva: Dos variables aleatorias X e Y son
independientes si el valor adquirido por una de ellas no influencia de ninguna manera el valor
adquirido por la otra. De este modo, conocer el valor de, por ejemplo, X no proporciona
información respecto del valor de Y .
Valor Esperado de una Función de una Variable Aleatoria
Como se estableció en la Sección 4.6, si X es una variable aleatoria e Y = H(X), entonces

Y también es una variable aleatoria. Si se quiere evaluar E(Y ),puede hacerse directamente
utilizando la Definición 5.1. Pero esto requerirı́a conocer la distribución de probabilidad de Y .
Encontrar la distribución de probabilidad de Y puede ser una tarea difı́cil, especialmente si
H(X) es una función complicada. El Teorema 5.1 provee una forma alternativa (usualmente
más fácil) para calcular E(Y ).
Teorema 5.1 (Meyer). Sea X una variable aleatoria y sea Y = H(X). Se tiene que:
a) Si X es una variable aleatoria discreta con distribución de probabilidad {(xi , p(xi )), i =
1, 2 . . .}, entonces X
E(Y ) = H(xi )p(xi ) (5.3)
x∈Rx
b) Si X es una variable aleatoria continua con f.d.p. f (x), entonces:

Z
E(Y ) = H(x)f (x)dx (5.4)
Rx
Ejemplo 5.5. Sea X ∼ U [10, 30] e Y = (X − 20)2 . Entonces

30
(x − 20)3 30 2000
Z
1
E(Y ) = (x − 20)2 dx = = = 33.33
10 20 60 10 60
Quiz: Calcular E(Y ) utilizando la definición 5.1 (vea fY (y) en el Ejemplo 4.17).
5.2. Varianza
Suponga que usted quiere decidir entre dos marcas de ampolletas, la marca A y la marca B.
Ambas, A y B aseguran que la duración de sus ampolletas tiene un valor esperado de 1000
horas. Esto implica que la duración promedio de muchas ampolletas va a ser cercana a 1000
horas en ambos casos. Pero esta información es incompleta, no indica cuán lejano de este valor
puede ser la vida útil de una ampolleta en particular. Por ejemplo, asuma que la duración de
una ampolleta de tipo A está uniformemente distribuida entre 900 y 1100, y que la duración de
una ampolleta B es casi siempre 700 horas, pero de vez en cuando hay una ampolleta que dura
más de 2000 horas (para que en total promedien 1000), ¿cuál escogerı́a Ud.?
La varianza es una medida cuantitativa que nos ayudará a distinguir entre estas situaciones. Es
una medida de la dispersión de la variables aleatoria alrededor del valor esperado.
Definición 5.2. Sea X una variable aleatoria. Se define la varianza de X, donotada por V (X),
como
V (X) = E[(X − E(X))2 ] = E[(X − µ)2 ] (5.5)
Definición 5.3. Se define la Desviación Estandar de X como:

p
σX = V (X) (5.6)
Nota: Observar que V (X) se expresa en unidades cuadradas de X y σx se expresa en las

mismas unidades que X
Nota: Observar que:
V (X) = E[(X − E(X))2 ] = E[X 2 − 2XE(X) + (E(X))2 ]

= E(X 2 ) − E(2XE(X)) + (E(X)2 )
= E(X 2 ) − 2E(X)E(X) + (E(X)2 )
= E(X 2 ) − (E(X)2 )
Nota: Observe que (X − E(X))2 es simplemente una función de X. Por lo tanto V (X) es sólo
el valor esperado de una función de X.
2 , o simplemente σ 2 .
Notación: Comúnmente, la varianza se denota también por σX
Ejemplo 5.6. Sea X la suma de dos dados (vea el Ejemplo 5.1), entonces:
1 2 3 4
E(X) = (−5)2 · + (−4)2 · + (−3)2 · + (−2)2 ·
36 36 36 36
2 5 6 2 5 2 4 3 2 1
+ (−1) · +0· +1 · +2 · + 32 · + 42 · + 52 · = 5.8333
36 36 36 36 36 36 36
Ejemplo 5.7. Sea X ∼ U [a, b], entonces
b
(x − (a + b)/2)2 (b − a)2
Z
V (X) = dx =
a b−a 12
Quiz: Considere X como en el Ejemplo 5.4. Encuentre la varianza de X.
Propiedades de la Varianza.
Sean X e Y variables aleatorias, y c una constante, entonces:
V1. V (c) = 0
Figura 5.1: Localización v/s Dispesión
V2. V (cX) = c2 V (X)
V3. V (X + c) = V (X)
V4. V (X + Y ) = V (X) + V (Y ) − 2E[(X − E(X))(Y − E(Y ))]
V5. V (X + Y ) = V (X) + V (Y ), si X e Y son independientes.
V6. V (X) = E[(X − c)2 ] − [E(X − c)]2
El coeficiente de la Variación (Nelson)
El valor esperado y la varianza proveen dos caracterizaciones diferentes de una variables aleato-
ria X. Puede pensarse en E(X) como una medida de la “localización” de X, mientras que V (X)
proporciona información respecto de la “dispersión” de X. Estas medidas son independientes
en el sentido de que el valor esperado no contiene información respecto de la dispersión, y la
varianza no da referencia alguna respecto de la localización de la variable. Observe, por ejemplo,
que si X es desplazada en c unidades (se suma la constante c a X), el valor esperado se modifica
a E(X + c) = E(X) + c, pero la varianza permanece inalterada, es decir, V (X + c) = V (X).
La Figura 5.1 ilustra los conceptos de localización y dispersión.
Otra caracterı́stica cualitativa de una variable aleatoria se denomina “Variabilidad”. Suponga

que X ∼ U [50, 150] e Y ∼ U [9950, 10050]. Observe que V (X) = V (Y ) = 833, 33. Sin embargo,
parece razonable decir que X es más “variable” que Y , porque en términos porcentuales pod-
edemos hacer una predicción mucho más precisa de Y que la que podemos hacer de X (¿por
qué?). Esto motiva la definición de una medida que compare el valor esperado y la varianza.
Definición 5.4. Sea X una variable aleatoria. Se define el Coeficiente de Variación de X como:
σX
CX =
E(X)
Ası́ mismo, se define el Coeficiente de Variación cuadrado como:
2 V (X)
CX =
[E(X)]2
Observe que en el ejemplo del párrafo anterior CX = 0, 288 y CY = 0, 0288.
Varianza de una Función de Variable Aleatoria
Como en el caso del valor esperado, si X es una variable aleatoria e Y = H(X), V (Y ) puede
calcularse usando la Definición 5.2, o usando el Teorema 5.1 de la siguiente manera:
V (Y ) = E[(Y − E(Y ))2 ] = E[(H(X) − E(H(X)))2 ] = E[(H(X))2 ] − [E(H(X))]2
Quiz: Encuentre V (Y ) para Y definida en el ejemplo 5.5.
5.3. Dos Teoremas Fundamentales
Teorema 5.2 (La Desigualdad de Markov). [Nelson] Si X es una variable aleatoria y h(x)
es una función no-negativa y no-decreciente, entonces:
E(h(X))
P (X ≥ x) ≤
h(x)
En particular, si X es no-negativa, entonces P (X ≥ x) ≤ E(X)/x.
Ejemplo 5.8. Si el tiempo esperado de respuesta de un sistema computacional es 1 segundo, la

Desigualdad de Markov nos dice que a lo más el 10 % de los usuarios espera más de 10 segundos.
Teorema 5.3 (La Desigualdad de Chebyshev). Sea X una variable aleatoria con E(X) =
µ, c una constante y ε una constante positiva, entonces:
P {|X − c| ≥ ε} ≤ E[(X − c)2 ]/ε2 (5.7)
Dos consecuencias obvias de (5.7) son:

V (X)
a) Si c = µ, se obtiene P {|X − µ| ≥ ε} ≤
ε2
1
b) Si c = µ y ε = kσX , entonces P {|X − µ| ≥ kσX } ≤
k2
Ejemplo 5.9. Una consecuencia de b) es que cualquier variable aleatoria tiene una probabilidad
de a lo más 11 % de estar alejada más de 3 desviaciones estandar desde el valor esperado (hacer
los cálculos).
La Desigualdad de Chebyshev es muy útil para calcular cotas asociadas a la probabiidad de

eventos, cuando no tenemos la distribución de probabilidades exacta de una variable aleatoria,
pero conocemos el valor esperado y su varianza. En particular, la consecuencia a) muestra como
la varianza mide el “grado de concetración” de X alradedor de E(X), nos dice que grandes
desviaciones desde E(X) son improbables si V (X) es pequeña.
Nota: En efecto, la Desigualdad de Chebyshev es una consecuencia de la Desigualdad de

Markov.
Quiz: Demuestre la Desigualdad de Chebyshev utilizando la Desigualdad de Markov.
5.4. Momentos
El Valor esperado y la Varianza son las caracterı́sticas principales de una variable aleatoria.
Ellas pertenecen a un conjunto más amplio de medidas numéricas, denominadas momentos, que
caracterizan completamente la distribución de probabilidades de una variable aleatoria. Esto
quiere decir, que el conjunto de todos los momentos determinan inequı́vocamente la distribución,
y viceversa.
Definición 5.5. Sea X una variable aleatoria. El r-ésimo momento de X alrededor del origen se
defina como σr = E(X r ), y el r-ésimo momento central de X se define como µ0r = E[(X − µ)r ].
Nota: Observe que E(X) = µ1 y V (X) = µ02 .
Nota: Cualquiera de los dos conjuntos de momentos, {µ0i } o {µi }, basta para describir la
distribucion de probabilidades de la variable aleatoria.
En las primeras secciones de este capı́tulo se ha indicado qué tipo de información es proporciona-
da por E(X) y V (X). Otros momnetos también poseen una fácil interpretación. Por ejemplo
µ03 = E[(X − µ)3 ] se asocia con la simetrı́a de la distribución. Si la distribución presenta un
único valor máximo, se tiene que:
µ03 > 0 ⇒ La distribución es asimétrica negativa.

µ03 = 0 ⇒ La distribución es simétrica.
µ03 < 0 ⇒ La distribución es asimétrica positiva.
Figura 5.2: Simetrı́a de una Distribución
5.5. Distribuciones Condicionales y Valor Esperado Condi-

cional
Distribución Condicional
Sean A y B eventos en un espacio muestral S. En el Capı́tulo 3 se definió la Probabilidad

Condicional de A dado B (P (A/B)) como la probabilidad del evento A dado que se sabe que
el resultado del experimento está en B (B ya ocurrió). También se indicó en el Capı́tulo 3
que la función P (·/B) es una función de probabilidad y, consecuentemente, satisface todas las
propiedades de una función general de probabilidad.
Cuando A y B son eventos asociados con una variable aleatoria X, la definición permanece igual,
pero necesitamos reemplazar S por RX . La función P (·/B) en este caso induce la definición de
Distribución Condicional.
Definición 5.6. Sea X una variable aleatoria discreta con distribución de probabilidad
{(xi , p(xi )), i = 1, 2, . . .} y B ⊆ Rx con P (B) 6= 0. Se define la función de probabilidad condi-
cional puntual de X dado B como
(
p(xi )/P (B) si xi ∈ B,
pX/B (xi ) = P {X = xi /B} = para i = 1, 2, . . . . (5.8)
0 en otro caso.
Notación: Cuando no hay posibilidad de confusión, se utiliza la notación pA (Xi ) = pX/A (xi ).
Definición 5.7. Sea X una variable aleatoria continua con p.d.f. f (x), y B ⊆ Rx con P (B) 6=
0. Se define la función de densidad de la probabilidad condiconal de X dado B como:
(
f (x)/P (B) si x ∈ B,
fX/B (x) = (5.9)
0 en otro caso.
Notación: Cuando no hay posibilidad de confusión, se utiliza la notación fA (x) = fX/A (x).
∂
Quiz: Demuestre que fX/B (x) = (P {X ≤ x/B})
∂x
Valor Esperado Condicional
Luego de definir el concepto de distribuciones condicionales, parece natural definir el valor

esperado condicional, esto es, el valor esperado de la variable aleatoria X cuando el rango del
espacio se reduce de RX a B.
Definición 5.8. Sea X una variable aleatoria y B ⊆ RX , con P (B) 6= 0. Se define el Valor
Esperado Condicional de X dado B como:
a) Si X es una variable aleatoria discreta con distribución de probabilidad {(xi , p(xi )), i =
1, 2, . . .}, X
E(X/B) = xi pX/B (xi ) (5.10)
xi ∈B
b) Si X es una variable aleatoria continua con f.d.p. f(x),

Z
E(X/B) = xfX/B (x) (5.11)
x∈B
Nota: Las definición de Valor esperado Condicional de una función de una variable aleatoria
es análoga.
Quiz: Encuentre una expresión para la varianza condicional de X dado B.

Teorema 5.4 (El Teorema del Valor Esperado Total). Sea B1 , B2 , . . . , Bk una partición
de Rx . Entonces,
Xk
E(X) = E(X/Bi )P (Bi ) (5.12)
i=1
Ejemplo 5.10. Sea X una variable aleatoria continua con f (x) = 2x, 0 ≤ x ≤ 1 (recuerde los
ejemplos 4.10, 4.14 y 5.4). Sea A = {X > 0.5}, entonces:
P (A) = P (X > 0.5) = F (1) − F (0.5) = 0.75

P (A0 ) = P (X ≤ 0.5) = F (0.5) = 0.25
2x 8x
fX/A (x) = = , 0.5 < x ≤ 1
0.75 3
2x
fX/A0 (x) = = 8x, 0 ≤ x ≤ 0.5
0.25
Z 1 Z 1 Z 1
8 8 2 8 1 7
E(X/A) = xfX/A (x)dx = x( x)dx = x dx = x3 =
0.5 0.5 3 .5 3 9 0.5 9
Z 0.5 Z 0.5 Z 5
0 8 5 1
E(X/A ) = xfX/A0 (x)dx = x(8x)dx = 8x2 dx = x3 =
0 0 0 3 0 3
7 1 2
E(X) = E(X/A)P (A) + E(X/A0 )P (A0 ) = · 0.75 + · 0, 25 =
9 3 3
Notar que este es el mismo resultado obtenido en el ejemplo 5.4.
Nota: Puede verificarse en el Ejemplo 5.10 que

Z 1 Z 1
8 8x2 1
fX/A (x)dx = xdx = = 1.
0.5 0.5 3 6 0,5
Como obviamente fX/A ≥ 0, puede comprobarse que se satisfacen las propiedades D1. y D2. de
la Definición 4.8. Esto es cierto en general. Es decir, las distribuciones condicionales satisfacen
todas las propiedades de una distribución general de probabilidad.
Distribuciones Condicionales en general.
Reconsidere las definiciones 5.6 y 5.7. Sea E un experimento y S un espacio muestral asociado
con E. Asuma que X es una variable aleatoria definida en S. Sea B ⊆ S un evento en S (no
necesariamente en Rx ) con P (B) 6= 0. Entonces todavı́a tenemos que P (·/B) es una función
de probabilidad y, por lo tanto, induce a una Distribución Condicional para X, esto es,
la Distribución de Probabilidad de X dado que el espacio muestral se redujo de S
a B. El problema en este caso es que pX/B (·) o fX/B (·) (dependiendo de la naturaleza de X)
no pueden encontrarse utilizando (5.8) o (5.9) y por lo tanto, deben ser tomadas como dadas.
Sin embargo, la Definicion 5.8, y el Teorema 5.4, siguen siendo completamente válidos. El
Ejemplo 5.11 ilustra este concepto.
Notación: RX/B denotará el espacio del rango condicional de X dado que el espacio muestral
se reduce de S a B.
Nota: En el Teorema 5.4, B1 , B2 , . . . , Bk debe ser un partición de S. En la definición 5.8, la

sumatoria y la integral deben hacerse en RX/B , en vez de sobre B.
Ejemplo 5.11. Un estudiante tiene 3 alternativas para resolver un problema. El método A

demora una cantidad de tiempo que se distribuye uniformemente entre 2 y 3 horas, el método
B toma un tiempo al azar cuya f.d.p está dada por f (x) = x/4, 1 ≤ x ≤ 3, y el método 3 toma
una cantidad de tiempo cuya f.d.p está dada por f (x) = 0.5e−0.5x , x ≥ 0. Se busca el tiempo
esperado que el estudiante demorará en resolver el problema.
Observar primero que, en este caso, las distribuciones condicionales son dadas. Si
X es el tiempo que el estudiante demora en resolver el problema, y se de-
fine A = {el estudiante escoge el método A}, B = {el estudiante escoge B}, y C =
{el estudiante escoge C}, se tiene que:
5
fX/A (x) = 1, 2 < x < 3 y E(X) = ,
2
R3 26
fX/B (x) = x/4, 1 ≤ x ≤ 3 y E(X/B) = 1 (x2 /4)dx = ,
12
R∞
fX/B (x) = 0.5e−0.5x , x ≥ 0 y E(X/C) = 0 0.5xe−0.5x dx = 2.
Luego, asumiendo que le estudiante escoge al azar entre los métodos A,B y C, se tiene,
5 1 26 1 1 20
E(X) = E(X/A)P (A) + E(X/B)P (B) + E(X/C)P (C) = · + · +2· = .
2 3 12 3 3 9
5.6. Ejercicios
5.1. Una moneda balanceada es lanzada 3 veces. Encuentre el valor esperado y la varianza del
número de caras obtenidas.
5.2. Una moneda balanceada es lanzada 3 veces o hasta que se obtiene cara. Encuentre:
a) El valor esperado y la varianza del número de caras
b) El valor esperado y la varianza del número de sellos
c) El valor esperado y la varianza del número total de lanzamientos.
5.3. Una caja contiene 3 bolas blancas y 7 rojas. Encuentre el valor esperado del número de de
bolas blancas en una selección de 4 bolas.
a) Con reemplazo
b) Sin reemplazo
5.4. Un experimento tiene un costo de prueba de $100, y probabilidad 0.2 de ser exitoso. Hay
un presupuesto de $1000 y el experimento será repetido hasta que sea exitoso o se acabe el
presupuesto. Si el experimento es exitoso se obtiene una ganancia de $2000. Encuentre el valor
esperado de la ganancia neta.
5.5. Sean X e Y dos variables aleatorias independientes tal que E(X) = 10, σX = 2, E(Y ) = 6
y E(Y 2 ) = 52. Encuentre:
a) E(10X + 4)
b) V (3X + 100)
c) E(−X)
d) V (−X)
e) E(X 2 )
f ) V (Y )
g) E(X +Y)
3X + 2Y
h) E
4
3X + 2Y
i) V
4
j) E(X − Y )
k) V (X − Y )
l) V (2X − 3Y )
5.6. Sea X una variable aleatoria continua con la siguiente f.d.p.

ax
 0 ≤ x ≤ 1,
f (x) = a 1 ≤ x ≤ 2,

a(3 − x) 2 ≤ x ≤ 3.

a) Encuentre E(X).
b) Encuentre V (X).
c) Encuentre E(X/X < 1).
d) Encuentre E(X/X > 2).
5.7. Cuando se procesa petróleo, la temperatura de destilado T (en grados centı́grados) es crucial
para la calidad del producto final. Si T es menos de 200, el producto se conoce como nafta, y
genera una ganancia neta de $0.2 por galón. Si 200 ≤ T ≤ 220, se conoce como petróleo refinado
de alta calidad, y genera una ganancia neta de $0.5 por galón. Si T ≥ 220, el producto se
conoce como petróleo refinado y genera una ganancia neta de $0.3 por galón. Si T se distribuye
uniformemente entre 150 y 300, encuentre la ganancia esperada por galón.
5.8. La vida útil de un aparato eléctrico, en años, es una variable aleatoria continua X, con
f (x) = 0.5e−0.5x , x ≥ 0. El costo de manufactura es $50, y el precio de venta es de $120. El
fabricante asegura la devolución total del dinero si el aparato dura menos de 1 año. Encuentre
el valor esperado y la varianza de la ganancia del fabricante por unidad.
5.9. Se sabe que una caja contiene 2 objetos defectuosos y 4 no-defectuosos. Los objetos se
inspeccionan de uno a la vez hasta que se identifican los 2 defectuosos. Encuentre el número
esperado de inspecciones que se debe realizar.
5.10. El radio R de una esfera es una v.a.c. con f (r) = 6r(1 − r), 0 < r < 1. Encuentre el
coeficiente de variación del volumen de la esfera.
5.11. Sea X una variable aleatoria continua con f (x) = 1/x2 , x ≥ 1, e Y otra variable aleatoria
continua definida de la siguiente manera:
(
X 3 si X ≤ 2,
Y =
8 si X > 2.
Encuentre E(X) y E(Y).
5.12. La demanda diaria de pan fresco en una panaderı́a, en miles de kilos, es una variable
aleatoria continua D, con f (d) = ae−ad , d ≥ 0 y a = 1/1000. La producción diaria es de
1100 kilos. El dueño de la panaderı́a envı́a el pan que no se vende a una institución benéfica.
Encuentre:
a) La probabilidad de que la institución reciba pan fresco en un dı́a cualquiera.
b) La probabilidad de que en el lapso de una semana, en por lo menos 6 dı́as, la institución
reciba más de 50 kilos de pan.
c) La demanda esperada diaria.
d) La cantidad esperada de pan que la institución recibe diariamente.
e) La cantidad esperada de pan que la institución recibe semanalmente.
5.13. La cantidad demandada mensual de cierto producto es una variable aleatoria continua D
con f (d) = kd, 20 ≤ d ≤ 30. El costo unitario del producto es de $3 y el precio de venta es de
$7. Debido a que el producto se vuelve obsoleto muy rápidamente, todo lo que no se ha vendido
para el final del mes, debe descartarse a un costo de $1 por unidad. Asuma que le productor
fabrica Q unidades mensualmente.
a) Encuentre una expresión para la ganancia del productor, en función de Q y de D.
b) Encuentre el valor esperado de la ganancia del productor en función de Q y de D.
c) Determine la producción mensual que maximiza la ganancia esperada.
5.14. Un dado se lanza 10 veces. Si se obtienen exactamente 6 unos, encuentre el valor esperado
de números dos que se obtiene.
5.15. Sea X una variable aleatoria continua con f (x) = 3x2 /28, −1 ≤ x ≤ 3, e Y = X 2 .
Encuentre:
a) E(Y ) y V (Y ).
b) E(Y /X > 1).
c) E(X/Y < 1).
5.16. Un estudiante que trabaja en un problema tiene 3 métodos para resolverlo. El método
A le toma una cantidad de tiempo que se distribuye uniformemente entre 2 y 3 horas, y que
no soluciona el problema. Utilizando el método B el estudiante se da por vencido sin haber
solucionado el problema luego de un perı́odo de tiempo que es una variable aleatoria continua
con f (x) = x/4, 1 ≤ x ≤ 3. El método C resuelve le problema luego de una cantidad de
tiempo aleatorio cuya f.d.p. es f (x) = 0.5e−0.5x , x ≥ 0. El estudiente escoge un método al azar
entre éstos, pero sin duda, descarta aquellos que ya ha intentado sin éxito. Encuentre el tiempo
esperado que el estudiante necesita para resolver el problema.
5.17. Diez parejas casadas (20 personas) se sientan al azar en 20 asientos en las siguinetes
configuraciones:
a) En cı́rculo
b) En fila
Encuentre, en cada caso, el número esperado de esposas que están sentadas al lado de su marido.
5.18. Sean X, Y y Z, variables aleatorias independientes tal que: E(X) = 10, E(X 2 ) =
164, E(Y ) = 12, V (Y ) = 10, y E(X · Z) = 80. Encuentre:
a) V (X)
b) E(4X + 5Y )
c) V (4X + 5Y )
d) E(5X − 2Y )
e) V (5X − 2Y )
f ) E(Z)
g) E(X/Y )
Capı́tulo 6
Proceso Bernoulli y Proceso Poisson
Un proceso estocástico es un modelo matemático de un experimento que evoluciona o se repite

en el tiempo, generando una secuencia de variables aleatorias. Ejemplos de procesos estocásticos
son los siguientes:
El precio diario de una acción.
La demanda mensual de cierto producto.
El tiempo entre fallas de una máquina.
El número de clientes que arriban a un banco en cada hora de la jornada bancaria.
Es este capı́tulo se estudiarán el proceso Bernoulli y el proceso Poisson. Estos procesos generan
algunas de las variables aleatorias más frecuentemente usadas en la práctica para representar
un variedad de fenómenos. Además, en cierto sentido, estos procesos son análogos, el primero
en un ambiente de tiempo discreto (el tiempo se mide en periodos) y el segundo en un ambiente
de tiempo continuo.
6.1. El Proceso Bernoulli
La Distribución Bernoulli
Definición 6.1. Sea X una variable aleatoria discreta con RX = {0, 1}, y f.p.p. dada por
P {X = 1} = p y P {X = 0} = 1 − p. Se dice que X tiene distribución Bernoulli, o que X es
una variable aleatoria Bernoulli, con parámetro p.
64
Las variables Bernoulli, tı́picamente aparecen en el siguiente contexto: Si E un experimento y

S en espacio muestral asociado con X. sea A ⊆ S un evento con P (A) = p. Si se define
(
1 si A ocurre
X=
0 si A0 ocurre ,
entonces X es una v.a. Bernoulli.
Ejemplo 6.1. Sea E un experimento que consiste en lanzar una moneda balanceada exacta-
mente una vez. Sea X = 1 si se obtiene cara y X = 0 si se obtiene sello. Entonces X es v.a.
Bernoulli con parámetro p = .5.
Ejemplo 6.2. Sea E un experimento que consiste en lanzar un dado balanceado exactamente
una vez. Sea X = 1 si se obtiene un número mayor a 4, y sea X = 0 en otro caso. Entonces,
X es v.a. Bernoulli con p = 1/3.
En el contexto descrito más arriba, cada una de las repeticiones del experimento E es llamada
un ensayo de Bernoulli, y los eventos A y A0 son referidos como éxito y fracaso, respectivamente.
Propiedad 6.1. Sea X una variable aleatoria Bernoulli con parámetro p. Entonces:
1. E(X) = p
2. V (X) = p(1 − p)
Definición 6.2. Considere una sequencia de ensayos de Bernoulli que satisface:
a) Los essayos son mutuamente independientes.

b) Todos los ensayos tienen el mismo parámentro p.
Para i = 1, 2, . . ., sea Xi la variable aleatoria Bernoulli asociada con el i-ésimo ensayo. Se

denomina proceso Bernoulli a la secuencia X1 , X2 , . . ..
Nota: Informalmente, se denomina también proceso Bernoulli a la secuencia de ensayos de

Bernoulli.
Varias caracterı́sticas de un proceso Bernoulli pueden estudiarse a través de variables aleatorias

discretas. A continuación se estudian tres de ellas. Las dos primeras corresponden a la distribu-
ción Geométrica y a la distribución Binomial, que se introdujeron en los ejemplos 4.7 y 4.8,
respectivamente.
La Distribución Geómétrica
Considere un proceso de Bernoulli con parámetro p, y defina X como el número de ensayos nece-
sarios para obtener el primer éxito. Entonces la distribución de probabilidades de X está dada
por
P {X = k} = (1 − p)k−1 p, k = 1, 2, . . . . (6.1)
Definición 6.3. Se dice que una variable aleatoria discreta X con RX = {1, 2, . . .} y f.p.p dada
por (6.1), es una variable aleatoria Geométrica, o que tiene una distribución Geométrica con
parámetro p, lo que se denota X ∼ Geo(p).
Observe que dado un n, la secuencia Xn+1 , Xn+2 , . . ., es también un proceso Bernoulli, y es

independiente de X1 , X2 , . . . , Xn . Por esta razón, la distribución Geométrica no solo permite
modelar el número de ensayos hasta el primero de todos los éxitos del proceso, sino también
que el número de ensayos necesarios para obtener un éxito empezando en cualquier instante de
tiempo. En particular, permite modelar el número de ensayos entre dos éxitos sucesivos, esto
es el número de ensayos entre un éxito y el siguiente, excluyendo el primero e incluyendo el
segundo. Esto es una consecuencia directa del hecho que los ensayos son independientes, lo que
permite asumir que el proceso se reinicia cada vez que ocurre un éxito.
Propiedad 6.2. Sea X una variable aletoria Geométrica con parámetro p. Entonces:
1
1. E(X) = .
p
1−p
2. V (X) = .
p2
Quiz: Demuestre la Propiedad 6.2.
Quiz: Encuentre la función de distribución acumulada de un a v.a. Geométrica.

Teorema 6.1 (La propiedad de no-memoria de la distribución Geométrica). Sea X
una variable aleatoria Geométrica con parámetro p. Se cumple que
P {X > s + t/X > s} = P {X > t}.
Además, la distribución Geométrica es la única distribución discreta con esta propiedad.
El Teorema 6.1 establece que si el evento A (éxito) no ocurre en los primeros s ensayos, la
probabilidad que no ocurra en los próximos t ensayos es igual a la probabilidad que no ocurra
en los primeros t ensayos. En este sentido, se dice que la distribución Geométrica no tiene
memoria, el modelo olvida lo que ha pasado hasta el instante actual para hacer cálculos de
probabilidad respecto de los ensayos futuros.
La Distribución Binomial
Considere un proceso Bernoulli con parámetro p. Sea X el número de éxitos en un set cualquiera
de n ensayos del proceso (tı́picamente se supone que estos ensayos son sucesivos, pero esto no
es necesario). La función de probabilidad puntual de X está dada por

n k
P {X = k} = p (1 − p)n−k , k = 0, 1, . . . , n. (6.2)
k
Observar que si para i = 1, 2, . . . , n, Zi representa la variable Bernoulli asociada al i-ésimo

ensayo en consideración, entonces
X = Z1 + Z2 + . . . + Zn . (6.3)
Definición 6.4. Se dice que una variable aleatoria discreta X con RX = {0, 1, . . . , n} y f.p.p
dada por (6.2), es una variable aleatoria Binomial, o que tiene una distribución Binomial con
parámetros n y p, lo que se denota X ∼ b(n, p).
Propiedad 6.3. Sea X una variable alatoria Binomial con parámetros n y p, entonces:
1. E(X) = np.
2. V (X) = np(1 − p).
Quiz: Utilice (6.3) para demostrar la Propiedad 6.3.
Teorema 6.2 (Propiedad reproductiva de la distribución Binomial). Sean Yi ∼ b(ni , p),

para i = 1, 2, . . . , k, y sea X = Y1 + Y2 + . . . + Yk . Se tiene que X ∼ (n1 + n2 + . . . + nk , p).
El Teorema 6.2 establece que la suma de un conjunto de variables aleatorias binomiales con
el mismo parámetro p (el parámetro n puede variar), es también una variable aleatoria Bino-
mial. Las distribuciones que cumplen este tipo de propiedad se dice que tienen la propiedad
reproductiva.
La Distribución Pascal
Considere un proceso Bernoulli con parámetro p. Sea X el número de ensayos necesarios para
obtener el r-ésimo éxito. La distribución de probabilidades de X está dada por

k−1 r
P {X = k} = p (1 − p)k−r , k = r, r + 1, . . . . (6.4)
r−1
Para derivar (6.4), observe que el evento {X = k} es equivalente al evento {se producen r − 1
éxitos en los primeros k − 1 ensayos, y el k-ésimo ensayo es un éxito}. La primera parte de
este evento corresponde a una probabilidad binomial y la segunda parte corresponde a una
probabilidad Bernoulli. Como los ensayos son independientes, se tiene

k − 1 r−1
P {X = k} = P {r − 1 éxitos en k − 1 ensayos}P {éxito} = p (1 − p)k−r p.
r−1
Definición 6.5. Se dice que una variable aleatoria discreta X con RX = {r, r + 1, . . .}, y
f.p.p. dada por (6.4), es una variable aleatoria Pascal, o que tiene una distribución Pascal con
parámetros r y p, lo que se denota X ∼ bn(r, p).
Nota: La distribución Pascal es también conocida como la distribución Binomial negativa.
Nota: La notación propuesta para las distribuciones Geométrica y Pascal no es estándar en la

literatura. De hecho, no existe una notación estándar para estas distribuciones, como si es el
caso para ela Binomial.
Propiedad 6.4. Sea X una variable aleatoria Pascal con parámetros r y p. Se tiene:
r
1. E(X) = .
p
r(1 − p)
2. V (X) = .
p2
Un argumento similar al usado en el caso de la Geométrica permite concluir que la distribución

Pascal no solo permite modelar el número de ensayos hasta el r-ésimo éxito en el proceso
Bernoulli, sino que también el número de ensayos necesarios para obtener el r-ésimo éxito
empezando en cualquier instante de tiempo.
Claramente, cuando r = 1, la distribución Pascal se reduce a la Geométrica. Es decir, la

Geométrica es un caso particular de la distribución Pascal. La relación entra ambas, sin embargo
es más profunda. Para observar esta relación, comsidere un proceso Bernoulli con parámetro p.
Sea
Y1 = número de ensayos hasta el primer éxito (incluı́do).

Yi = número de ensayos desde el (i − 1)-ésimo (excluı́do) hasta el i-ésimo (incluı́do) éxito.
Se tiene que Y1 , Y2 , . . ., son variables aleatorias Geométricas independientes, todas con

parámetro p. Si X = Y1 + Y2 + . . . + Yr , entonces X es el número de ensayos hasta el r-ésimo
éxito, por tanto X es Pascal con parámetros r y p. Usando esta observación se tiene:
1 r
E(X) = E(Y1 ) + E(Y2 ) + . . . + E(Yr ) = r = , y
p p
1−p r(1 − p)
V (X) = V (Y1 ) + V (Y2 ) + . . . + V (Yr ) = r 2
= ,
p p2
lo que demuestra la Propiedad 6.4.
La relación entre las distribuciones Geométrica, Binomial y Pascal, en el contexto del proceso
Bernoulli, se muestra en la Figura 6.1.
Ejemplo 6.3. Suponga que los ı́tems producidos por una máquina son inspeccionados uno a
uno. La probabilidad que un ı́tem sea defectuoso es .04.
a) Encuentre la probabilidad que 100 ı́tems sucesivos sean todos no-defectuosos.

Sea X el número de defectuosos en 100 ı́tems, entonces X ∼ b(100, .04), y P {X = 100} =
.96100 .
Figura 6.1: El proceso Bernoulli
b) Encuentre el valor esperado de ı́tems defectuosos en un lote de 100 ı́tems.

E(X) = 100 · .04 = 4.
c) ¿Cada cuántos ı́tems se espera obtener un defectuoso?

Sea Y el número de inspecciones necesarias para obtener el primer defectuoso, entonces
Y ∼ Geo(.04), y E(Y ) = 1/.04 = 25.
d) Encuentre la probabilidad que el quinto ı́tem defectuoso se encuentre exactamente en la

30-ésima inspección.
Sea Z el número de inspecciones
necesarias
para obtener el quinto defectuoso, entonces
29
Z ∼ bn(5, .04), y P (Z = 30) = .045 (.96)25 .
4
Teorema 6.3. Sea X ∼ b(n, p) e Y ∼ bn(r, p). Se tiene:
1. P {Y ≤ n} = P {X ≥ r}.
2. P {Y > n} = P {X < r}.
Demostración. Para verificar 1., observar que {X ≥ r} implica que hay al menos r éxitos en
n ensayos, por lo tanto, se necesitan a lo más n ensayos para obtener r éxitos. La parte 2. se
demuestra en forma similar.
Ejemplo 6.4. Considere una moneda cargada con probabilidad de obtener cara igual a 0.4. Se
desea encontrar la probabilidad que se necesiten más de 10 lanzamientos para obtener dos caras.
Si se define Y = bn(2, .4), la probabilidad buscada es
∞
X k−1
P {Y > 10} = .42 .6k−2 .
1
k=11
Si se define X ∼ b(10, .4), usando el Teorema 6.3 se tiene que

10
P {Y > 10} = P {X < 2} = P {X = 0} + P {X = 1} = .610 + .4 · .69 .
1
6.2. El proceso Poisson
La Distribución Poisson
Definición 6.6. Sea λ > 0. Si X es una variable aleatoria discreta con RX = {0, 1, . . .}, y
f.p.p. dada por
e−λ λk
P {X = k} = , k = 0, 1, . . . , (6.5)
k!
se dice que X es una variable aleatoria Poisson, o que tiene distribución Poisson, con parámetro
λ, lo que se denota X ∼ P s(λ).
La distribución Poisson es usada frecuentemente para representar el número de ocurrencias de

un fenómeno en un intervalo de tiempo. Por ejemplo, el número de clientes que entran a un
centro de servicio en un dı́a, el número de llamadas telefónicas recibidas por un operador en
una hora, la demanda semanal por cierto producto, etc. También se usa para modelar algunos
fenómenos espaciales como, por ejemplo, el número de defectos en una pieza de algun material,
o el número de errores tipográficos por página en un libro.
Observar que a diferencia de la distribuciones asociadas al proceso Bernoulli, no se ha descrito

un experimento en que la distribución Poisson emerge naturalmente. Esto implica que cada vez
que se quiera usar, se necesita verificar que efectivamente la distribución Poisson es una aprox-
imación válida para el fenómeno en estudio. Esto se hace normalmente utillizando información
pasada y algún tipo de test estadı́stico. Los ejemplos del párrafo anterior representan casos en
que tı́picamente estos test resultan positivos.
Propiedad 6.5. Sea X una variable aleatoria Poisson con parámetro λ. Se tiene:
1. E(X) = λ.
2. V (X) = λ.
Ejemplo 6.5. Sea X el número de buques que arriban al puerto de Valparaı́so diariamente.
Asuma que X ∼ P s(2).
a) La probabilidad que en un dı́a en particular lleguen exactamente 3 naves es

e−2 23
P {X = 3} = .
3!
b) La probabilidad que en un dı́a cualquiera llegue al menos un barco es

P {X ≥ 1} = 1 − P {X = 0} = 1 − e−2 .
c) El número esperado de narcos que llegan en un dı́a cualquiera es E(X) = 2.
c) La varianza del número de narcos que llegan en un dı́a cualquiera es V (X) = 2.
Teorema 6.4 (Propiedad reproductiva de la distribución Poisson). Sean

X1 , X2 , . . . , Xk , variables aleatorias independientes. Asuma Xi ∼ P s(λi ), i = 1, 2, . . . , k. Sea
Z = X1 + X2 + . . . + Xk , entonces X ∼ P s(λ1 + λ2 + . . . + λk ).
Ejemplo 6.6. Sea X1 ∼ P s(50) el número de llamadas locales recibidas por un operador en un
dı́a tı́pico. Similarmente, sea X2 ∼ P s(40) el número de llamadas de larga distancia. Entonces
Z = X1 + X2 es el número total de llamadas recibidas por el operador, y Z ∼ P s(90).
Teorema 6.5. Sea X ∼ P s(λ). Asuma que X representa el número de ocurrencias de cierto
evento A. Suponga que una fracción p de los eventos tienen la propiedad B, es decir, B ⊆ A y
P(B/A)=p. Sea Y el número de ocurrencias del evento B, entonces Y ∼ P s(λp).
Ejemplo 6.7. El número total de clientes que entran un dı́a domingo a una tienda por departa-
mentos es una variable aleatoria X ∼ P s(400). Se sabe que en promedio el 10 % de las personas
que entran a la tienda efectivamente compran. Sea Y el número de clientes que efectivamente
hacen un compra,. entoces Y ∼ P s(40).
Observar que el Teorema 6.5 no implica que Y = pX. De hecho dado que X toma cierto valor
x, el número de ocurrencias del evento B es una variable aletoria Binomial con parámetros x y p.
En el caso del Ejemplo 6.7, se tiene que si se sabe que X = 300, la distribucióncondicional
de Y
300
es binomial con parámetros n = 300 y p = .1, es decir P {Y = k/X = 300} = .1k .9300−k .
k
Teorema 6.6 (Aproximación Poisson a la distribución Binomial). Sea X ∼ b(n, p).
Asuma que n tiende a infinito y p tiende a cero. Se cumple que
e−np (np)k
P {X = k} ≈ .
k!
El Teorema 6.6 establece que si n es grande y p es pequeño, una variable aleatoria Binomial
con parámetros n y p puede ser aproximada por una variable aleatoria Poisson con parámetro
np.
Ejemplo 6.8. La probabiliad que un ı́tem sea defectuoso es .0001. Se desea encontrar la prob-
abilidad que un lote de 10000 ı́tems contenga exactamente 12 defectuosos. Sea X el número
de defectuosos en el lote, entonces X ∼ b(10000, .0001). Por el Teorema 6.6, X puede ser
aproximada por una variable aletoria Poisson con parámetro 10000 × .0001 = 10. Por lo tanto,
e−10 1012
P {X = 12} = .
12!
Figura 6.2: La distribución Exponencial
La Distribución Exponencial
Definición 6.7. Sea λ > 0. Si X es una variable aleatoria continua con RX = [0, ∞), y f.d.p.
dada por
f (x) = λe−λx , x ≥ 0, (6.6)
se dice que X es una variable aleatoria Exponencial , o que tiene distribución Exponencial, con
parámetro λ, lo que se denota X ∼ Exp(λ).
La Figura 6.2 muetra la forma genérica de la f.d.p. de una variable aleatoria Exponencial.
La distribución Exponencial es a menudo utilizada para representar tiempos de servicio, tiempos

de proceso, tiempos entre arrivos a un centro de servicio, vida útil de artı́culos electrónicos,
tiempos entre fallas de máquinas, etc.
Propiedad 6.6. Sea X una variable aleatoria Exponencial con parámetro λ. Se cumple:
1
1. E(X) = .
λ
1
2. V (X) = .
λ2
(
1 − e−λx si x ≥ 0
3. F (x) = .
0 otro caso
Teorema 6.7 (No-memoria de la distribución Exponencial). Sea X ∼ Exp(λ), y sean

s y t dos números no-negativos cualesquiera. Se cumple que
P {X > s + t/X > s} = P {X > t}.
Además, la Exponencial es la única distribución continua con esta propiedad.

Demostración. Para demostrar la primera parte observar que
P {X > s + t} e−λ(s+t)
P {X > s + t/X > s} = = = e−λt .
P {X > s} e−λs
La demostración de la segunda parte del teorema escapa al alcance de este texto.

Ejemplo 6.9. Suponga que el tiempo (en minutos) entre llegadas a una estación de servicio
es una variable aleatoria X ∼ Exp(.5).
a) Si la estación esta vacı́a en el instante actual, la probabilidad que continúe vacı́a despues
de 5 minutos es P {X > 5} = e−2.5 . Similarmente, la probabilidad que el próximo vehı́culo
llegue antes de 3 minutos es P {X < 3} = 1 − e−1.5 . Note que en ninguno de los casos
se considera el tiempo transcurrido desde la última llegada. Esto se debe al hecho que la
distribución exponencial no tiene memoria.
b) El tiempo esperado hasta la próxima llegada es E(X) = 2 minutos.
Las distribuciones Gamma y Erlang

Definición 6.8. Para k > 0, se define la función Gamma como
Z ∞
Γ(k) = xk−1 e−x dx.
0
En particular, si k es entero, se tiene Γ(k) = k!.

Definición 6.9. Sea k > 0 y λ > 0. Si X es una variable aleatoria continua con RX = [0, ∞),
y f.d.p. dada por
λk xk−1 e−λx
f (x) = , x ≥ 0, (6.7)
Γ(k)
se dice que X es una variable aleatoria Gamma, o que tiene distribución Gamma, con parámet-
ros λ y k.
Propiedad 6.7. Sea X una variable aleatoria Gamma con parámetros λ y k. Se cumple:
k
1. E(X) = .
λ
k
2. V (X) = .
λ2
Observe que si k = 1, la Ecuación (6.7) se reduce a (6.6), lo que implica que la distribucı́ón Ex-
ponencial es un caso particular de la Gamma. La siguiente definición provee otro caso particular
de la distribución Gamma, el cual también incluye la Exponencial.
Definición 6.10. Sea λ > 0 y k un entero positivo. Si X es una variable aleatoria continua
con RX = [0, ∞), y f.d.p. dada por
λk xk−1 e−λx
f (x) = , x ≥ 0, (6.8)
k!
se dice que X es una variable aleatoria Erlang, o que tiene distribución Erlang, con parámetros
λ y k.
Observe que para k entero, la reducción desde (6.7) a (6.8) es directa. Consecuentemente, el valor
esperado y la varianza de una variable aleatoria Erlang están también dado por la Propiedad 6.7.
El Teorema 6.8 establece una relación importante entre las distribuciones Exponencial y Erlang.
Teorema 6.8. Sean X1 , X2 , . . . , Xk variables aleatorias independientes e identicamente dis-
tribuidas (iid) con Xi ∼ Exp(λ). Sea Z = X1 + X2 + . . . + Xk , entonces Z es una variable
aleatoria Erlang con parámetros λ y k.
El Teorema 6.8 dice que la suma de un conjunto de variables Exponencial idénticas tiene una
distribución Erlang. Este resultado se usará más adelante para mostrar que la relación entre las
distribuciones Exponencial y Gamma es análoga a la relación entre las distribuciones Geométrica
y Pascal.
El Proceso Poisson
El proceso Bernoulli, descrito en la Sección 6.1, permite modelar la ocurrencia de un evento (éxi-
to) en una secuencia de ensayos de Bernoulli. En este contexto, La terna Binomial-Geométrica-
Pascal permite analizar tres caracterı́sticas importantes del proceso: el número de éxitos en un
conjunto de n ensayos, el número de ensayos entre dos exitos sucesivos, y el número de ensayos
necessarios para obtener r éxitos.
El proceso Bernoulli puede entenderse en una base temporal, donde el tiempo avanza en periodos
discretos (por ejemplo dı́as) y a cada periodo corresponde un único ensayo de Bernoulli. Por
ejemplo, el proceso podrı́a contar los dı́as en que cierto ı́ndice de contaminación es excedido en
la ciudad de Santiago, o el número de semanas sin accidentes en una planta manufacturera, etc.
Sin embargo, muchas veces es mucho más realista pensar que el fenómeno evoluciona en tiem-
po continuo. Por ejemplo, en general, interesa el instante preciso en que una máquina falla y
la duración del desperfecto, y no si la máquina falla o no en un dı́a determinado. El proce-
so Poisson puede ser visto como un análogo al proceso Bernoulli, pero en una base tempo-
ral continua. En este caso la terna Bimomial-Geométrica-Pascal es reemplazada por la terna
Poisson-Exponencial-Erlang.
Definición 6.11. Sea X1 , X2 , . . ., una secuencia de variables aleatorias independientes e idénti-
camente distribuidas (iid). Suponga que Xi representa el tiempo transcurrido entre la (i − 1)-
ésima y la i-ésima ocurrencia del cierto evento. Defina
S0 = 0
Sn = X 1 + X 2 + . . . + X n , para n = 1, 2, . . ..
Sn representa el instante de la n-ésima ocurrencia del evento. Se define como proceso de con-
teo a la familia de variables aleatorias {N (t), t ≥ 0}, donde N (t) es el número de ocurrencias
del evento en el intervalo (0, t], esto es
N (t) = máx{n ≥ 0 : Sn ≤ t}, t ≥ 0. (6.9)
Se difine además N (s, t] como el número de ocurrencias del evento en el intervalo (s, t], es decir
N (s, t] = N (t) − N (s) para todo 0 < s < t.
Definición 6.12. Sea X1 , X2 , . . ., una secuencia de variables aleatorias independientes e
idénticamente distribuidas. Si Xi ∼ Exp(λ), i = 1, 2, . . ., se dice que el proceso de conteo
{N (t), t ≥ 0} es un proceso Poisson con tasa λ.
Ejemplo 6.10. Si el tiempo, en minutos, entre llamadas recibidas en una estación telefónica
se distribuye exponencial con parámetro λ = 5, y N (t) es el número de llamadas recibidas hasta
el tiempo t, entonces {N (t), t ≥ 0} es un proceso Poisson con tasa 5 llamadas/minutos.
Ejemplo 6.11. Si el tiempo, en horas, entre llegadas de vehı́culos a una estación de servicio es
Exp(30), y N (t) es el número de vehı́culos que llegan hasta el tiempo t, entonces {N (t), t ≥ 0}
es un proceso Poisson con tasa 30 vehı́culos/hora.
Notación: Si {N (t), t ≥ 0} es un proceso Poisson con tasa λ, se utilizará la notación compacta

N (t) ∼ P P (λ).
Teorema 6.9. Sea {N (t), t ≥ 0} un proceso Poisson con parámetro λ. Se tiene:
1. Para todo t > 0, N (t) es una variable aleatoria Poisson con parámetro λt. Es decir,
e−λt (λt)k
P {N (t) = k} = , k = 0, 1, . . . .
k!
2. N (s, s + t] es una variable aleatoria Poisson con parámetro λt.
3. Para todo s < t ≤ u < v, N (s, t] y N (u, v] son variables aleatorias independientes.
Nota: La parte 3. del Teorema 6.9 dice que el número de ocurrecias del evento en intervalos
de tiempo disjuntos son variables independientes.
Nota: Observar que la parte 1. del Teorema 6.9 es un caso particular de la parte 2.
Nota: El recı́proco del Theorema 6.9 es también cierto. Es decir, si 1., 2. y 3. se cumplen,
entonces {N (t), t ≥ 0} es un proceso Poisson.
La demostración del Theorema 6.9 escapa al alcance de este texto. Sin embargo, para proveer
un poco de intuición al respecto, se examinará la relación entre el número de ocurrencias y el
tiempo entre ocurrencias del evento en un proceso Poisson: Considere el instante de tiem-
po de la primera ocurrencia del evento, X1 = S1 , y observe que el evento {X1 > t} =
{el primer evento ocurre despues de t} es equivalente a {N (t) = 0} = {ocurren cero eventos
entre 0 y t}. Por lo tanto, se tiene
FX1 (t) = P {X1 ≤ t} = 1 − P {X1 > t} = 1 − P {N (t) = 0} = 1 − e−λt .
Por la Propiedad 6.6 parte .3, se sabe que FX1 (·) corresponde a la distribución acumulada de
una variable aleatoria Exponencial con parámetro λ. Usando el Theorema 6.9, puede verificarse
que X2 , X3 , . . . son también Exponenciales con parámetro λ. Consecuentemente, el Teorema 6.8
implica que Sn es una variable aleatoria Erlang con parámetros λ y n. Usando la propiedad de no
memoria de la distribución Exponencial, se tiene que el tiempo necesario para tener n ocurren-
cias del evento, empezando en cualquier instante de tiempo es tambien Erlang con parámetros
λ y n. De esta manera, se completa la analogı́a entre las ternas Binomial-Geométrica-Pascal y
Poisson-Exponencial-Erlang.
Quiz: Use la f.d.p. de la distribución Erlang para demostrar la parte 1. del Teorema 6.9.
Nota: Con frecuencia se utilizara la expresión ”el n-ésimo evento”en lugar de ”la n-ésima
ocurrencia del evento.
Ejemplo 6.12. Los clientes llegan a un estación de servicio de acuerdo a un proceso Poisson
con tasa 30 vehı́culos/hora. Suponga es actualmente 8:00 A.M.
a) La probabilidad que el próximo vehı́culo llegue después de las 8:10 se obtiene de la siguiente
manera: Sea X el tiempo hasta la próxima llegada, entonces X ∼ Exp(30). Se busca
P {X > 1/6} = e−30·1/6 = e−5 .
Alternativamente, se puede definir Y como el número de llegadas entre las 8:00 y las 8:10,
en tal caso se tiene que Y = N (1/6) ∼ P s(30/6), y
P {X > 1/6} = P {Y = 0} = e−5 .
b) La probabilidad que exactamente 20 vehı́culos lleguen entre 8:30 y 9:00 es
e−15 1520
P {N (8.5, 9] = 20} = .
20!
c) La probabilidad que 20 vehı́culos lleguen entre 8:00 y 9:00, 50 vehı́culos lleguen entre 9:00
y 11:00, y no lleguen vehı́culos entre 11:00 y 12:00 es
e−30 3020 e−60 6050 −30

P {N (8, 9] = 20}P {N (9, 11] = 50}P {N (11, 12]} = · ·e .
20! 50!
d) La probabilidad que 40 vehı́culos lleguen entre 9:00 y 10:00, dado que solo 10 llegaron
entre 8:00 y 9:00 es simplemente
e−30 3040
P {N (9, 10] = 40} = ,
40!
debido a la independencia del número de llegadas en intervalos disjuntos.
En la parte e) se explotará la siguiente consecuencia del Teorema 6.9:
P {N (s + t) = n, N (s) = k}
P {N (s + t) = n/N (s) = k} =
P {N (s) = k}
P {N (s) = k, N (s, s + t] = n − k}
=
P {N (s) = k} (6.10)
P {N (s) = k}P {N (s, s + t] = n − k}
=
P {N (s) = k}
= P {N (s, s + t] = n − k}
e) La probabilidad que 65 vehı́culos lleguen entre 9:00 y 10:30, dado que 40 llegaron entre
9:00 y 10:00 es
e−15 1525
P {N (9, 10.5] = 65/ N (9, 10] = 40} = P {N (10, 10.5] = 25} = .
25!
Superposición y Separación de Procesos Poisson
En esta sección se examinan dos consecuencias importantes de los teoremas 6.4 y 6.5.
Superposición es la operación de juntar dos o más procesos de conteo para generar un nuevo
proceso. Por ejemplo, en un banco, el conteo de clientes puede superponerse al conteo de no-
clientes para formar el proceso de conteo del total de personas que demandan servicio. La
propiedad reproductiva de la distribución Poisson permite concluir que la superposición de
procesos Poisson es tambı́en un proceso Poisson.
Teorema 6.10. Sean {Ni (t), t ≥ 0}, i = 1, 2, . . . , k, procesos Poisson independientes. Sea λi
la tasa de proceso i. Defina
N (t) = N1 (t) + N2 (t) + . . . + Nk (t).
Entoces {N (t), t ≥ 0} es proceso Poisson con tasa λ = λ1 + λ2 + . . . + λk .

Ejemplo 6.13. Los trabajos enviados para su ejecución en un computador central están divi-
didos en tres clases de prioridad. Los trabajos de prioridad baja llegan de acuerdo a un proceso
Poisson con tasa 15 trabajos/minuto. Similarmente,los trabajos de prioridad media llegan de
acuerdo a u P P (10) y los de prioridad alta de acuerdo a un P P (5).
a) Sea {N (t), t ≥ 0} el proceso de llegada total, entonces N (t) ∼ P P (30).

b) La probabilidad que lleguen exactamente 50 trabajos en los próximos 2 minutos es
e−60 6050
P {N (2) = 50} = .
50!
Teorema 6.11. Sean {N (t), t ≥ 0} y {Ni (t), t ≥ 0}, i = 1, 2 . . . , k, procesos Poisson definidos
como el el Teorema 6.10. Defina Zn = j si el n-ésimo evento (llegada) en el proceso total
{N (t), t ≥ 0} proviene del proceso {Nj (t), t ≥ 0}. Entonces, Zn , n = 1, 2, . . ., es una secuencia
de variables aleatorias iid con f.p.p. dada por
λi
P {Zn = i} =, i = 1, 2, . . . , k.
λ
Ejemplo 6.14. Considere nuevamente el Ejemplo 6.13. Se desea calcular la probabilidad que
entre las primeras 50 llegadas, se encuentren exactamente 5 trabajos de prioridad alta. El Teo-
rema 6.11 implica que la probabilidad que cualquier trabajo sea de prioridad alta es 5/30 = 1/6.
Por tanto, si X es el número de trabajos de prioridad alta entre las 50 primeras llegadas, se
tiene que X ∼ b(50, 1/6), y
5 45
50 1 5
P {X = 5} = .
5 6 6
Separación es la operación de generar dos o más procesos de conteo a partir de un proceso

total. La separación ocurre tı́picamente cuando se desea dividir un flujo de llegada en diferentes
clases de acuerdo a alguna propiedad de las entidades que llegan. El siguiente es una extesión
del Teorema 6.5, y establece que después de separar un proceso Poisson, cada proceso individual
es también Poisson.
Teorema 6.12. Sea {N (t), t ≥ 0} un P P (λ). Suponga que N (t) cuenta el número de ocur-
rencias de cierto evento A. Suponga que A puede clasificarse en k categorı́as excluyentes
A1 , A2 , . . . , Ak con probabilidades p1 , p2 , . . . , pk , respectivamente. Es decir, A1 , A2 , . . . , Ak es
una partición de A y P (Ai /A) = pi . Para i = 1, 2, . . . , k, sea {Ni (t), t ≥ 0} el proceso de conteo
de los eventos Ai . Se cumple que {Ni (t), t ≥ 0} es proceso Poisson con tasa λi = λpi . Además
los k procesos individuales son mutuamente independientes.
Ejemplo 6.15. La llegada de vehı́culos a una estación de servicio es un proceso Poisson con
λ = 60 vehı́culos/hora. El 70 % de los vehı́culos son automóviles y el 30 % son camionetas. Si
N (t) denota el proceso de llegada total, N1 (t) la llegada de automóviles y N2 (t) la llegada de
camionetas:
a) {N1 (t), t ≥ 0} es P P (42), y {N2 (t), t ≥ 0} es P P (18).

b) La probabilidad que 25 automóviles lleguen en un periodo de una hora es
e−42 4225
P {N1 (1) = 25} = .
25!
c) La probabilidad que 25 automóviles lleguen en un periodo de una hora, dado que 60

camionetas llegaron en el mismo periodo es P {N1 (1) = 25/N2 (1) = 60} = P {N1 (1) =
25}, debido a la independencia de los procesos indivuales.
d) La probabilidad que 80 vehı́culos lleguen en una hora dado que 20 automóviles llegaron en
el mismo periodo es
P {N (1) = 80, N1 (1) = 20}

P {N (1) = 80/N1 (1) = 20} =
P {N1 (1) = 20}
P {N1 (1) = 20, N2 (1) = 60}
=
P {N1 (1) = 20}
P {N1 (1) = 20} P {N2 (1) = 60}
=
P {N1 (1) = 20}
= P {N2 (1) = 60}
e−18 1860
= .
60!
6.3. Ejercicios
6.1. El número de barcos que llega al Puerto de Valparaı́so en un dı́a cualquiera es una v.a.
Poisson con λ = 2. En la actualidad el puerto puede atender solo tres naves por dı́a. Si llegan
más de tres naves, la diferencia es desviada al puerto de San Antonio.
a) Encuentre la probabilidad que en un dı́a cualquiera, el puerto deba desviar naves a San
Antonio.
b) Encuentre la probabilidad que en un periodo de un mes (30 dı́as), el puerto deba desviar
naves a San Antonio en al menos tres ocasiones.
c) Encuentre el numero esperado de dı́as que el puerto desvı́a naves a San Antonio en un periodo
de un mes.
d) ¿Cada cuántos dı́as en promedio, el puerto desvı́a naves?
e) Encuentre el número esperado de naves que llegan por dı́a.
f ) Encuentre el número esperado de naves que llegan por mes.
g) Encuentre el número esperado de naves atendidas por dı́a.
h) Encuentre le número esperado de naves desviadas a San Antonio por dı́a.
i) ¿En cuánto debieran crecer las instalaciones, de manera que que el puerto atienda todas la
naves que llegan, al menos el 90 % de los dı́as?
6.2. Las estadı́sticas muestran que aproximadamente el 0.1 % de la población está involucrada
en cierto tipo de accidente cada año. Una empresa aseguradora tiene 10000 clientes asegurados
(seleccionados aleatoriamente de la población). Encuentre la probabilidad que no más de 5 de
los clientes efectivamente sufran el accidente.
6.3. EL número de fallas de transistores en un computador sigue un proceso Poisson con tasa
0.1 fallas por hora. Cierto cálculo requiere 20 horas de computación para completarse. El cálculo
se interrumpe si tres o más transistores fallan. Encuentre la probabilidad que el el cálculo no
termine.
6.4. Una fuente radioactiva emite partı́culas de acuerdo a un proceso Poisson con tasa 10
partı́culas por hora. El aparato que cuenta las emisiones falla en registrar una partı́cula con
probabilidad 0.1.
a) Encuentre la distribución de probabilidades del número de partı́culas registradas en un periodo

de una hora, en un periodo de tres horas, y en un periodo de un dı́a.
b) Encuentre el número esperado de partı́culas registradas en un periodo de una hora, en un
periodo de tres horas, y en un periodo de un dı́a.
c) Actualmente es 2:00 pm, encuentre la probabilidad que 40 partı́culas sean registradas entre
4:00 y 7:00.
d) Encuentre la probabilidad que 40 partı́culas sean registradas entre 4:00 y 7:00, dado que 16
particulas fueron registradas entre 2:00 y 4:00.
e) Si 50 partı́culas son emitidas entre 4:00 y 7:00, encuentre el número esperado de partı́culas
registradas en el mismo periodo.
f ) Encuentre la distribución de probabilidades y el valor esperado del tiempo que transcurre
entre dos emisiones no registradas sucesivas.
g) Encuentre la probabilidad que entre las 5:00 y las 7:00 todas las emisiones sean registradas.
h) Encuentre la probabilidad que 15 partı́culas sean registradas entre 2:00 y 5:00, si 5 partı́culas
son registradas entre 2:00 y 3:00.
i) Encuentre la probabilidad que 9 partı́culas sean registradas en un periodo de una hora, si 12
particulas son emitidas en el mismo periodo.
j) Encuentre la probabildiad que 10 partı́culas sean registradas enter 2:00 y 4:00, dado que solo
2 partı́culas son emitidas entre 2:00 y 3:00.
k) Encuentre la probabilidad que 12 partı́culas fueron emitidas entre 6:00 y 7:00, dado que 9
partı́culas fueron registradas en el mismo periodo.
6.5. La demanda mensual por cierto ı́tem tiene una distribución Poisson con parámetro λ = 8
unidades. Los ı́tems que no han sido vendidos al final del mes deben ser descartados. EL precio
de venta del ı́tem es $10 y el costo de producción es $3. Si la producción mensual es de 10
unidades, encuentre la valor esperado de la utilidad obtenida por el fabricante.
6.6. El tiempo de servicio (en minutos) por cliente de un cajero de banco es exponencial con
parámetro λ = .2. Considere una sucursal con un solo cajero.
a) Un cliente ha empezado en este instante su servicio, y Ud. está primero en la fila. Encuentre
la probabilidad que Ud. tenga que esperar entre 3 y 8 minutos.
b) Suponga ahora que Ud. ya lleva 5 minutos el principio de la fila. Encuentre la probabilidad
que tenga de esperar entre 3 y 8 minutos adicionales.
c) Suponga que hay 3 clientes antes que Ud. en la fila (incluyendo al que está siendo atendido).
Encuentre la probilidad que tenga que esperar al menos 10 minutos antes de empezar su servicio.
6.7. Suponga que Ud. está en la fila de un banco. El banco tiene dos cajeros. Cada cajero tiene
un tiempo de servicio (en minutos) con distribución Exponencial con parámetro λ = .2. Ud.
está primero en la fila, y los dos cajeros están ocupados con otros clientes.
a) Encuentre la probabilidad que Ud. tenga que esperar más de 3 minutos para iniciar su ser-
vicio.
b) Encuentre la probabilidad que Ud. tenga que esperar entre 3 y 7 minutos.
c) Encuentre la distribución y el valor esperado del tiempo de espera.
6.8. Suponga que los autos llegan a una estación de servicio de acuerdo a un proceso Poisson
con tasa 30 autos/hora. Similarmente, las camionetas llegan de acuerdo a un proceso Poisson
con tasa 20 camionetas/hora.
a) Encuentre el valor esperado del número total de vehı́culos que llegan en un periodo de dos
horas.
b) Encuentre la probabilidad que 60 vehı́culos lleguen a la estación de servicio en las próximas
dos horas.
c) Si 15 autos llegan en la próxima hora, encuentre le número esperado de vehı́culos que llegarán
en el mismo periodo.
d) Considere una llegada cualquiera, ¿cuál es la probabilidad que el vehı́culo sea auto?.
e) Si en un periodo de una hora llegan 100 vehı́culos, encuentre el valor esperado del número
de autos que llegan en el mismo periodo.
6.9. Asuma que en promedio el 10 % de las personas que entran a una tienda efectivamente
realiza una compra. Encuentre:
a) La probabilidad que entre las 50 primeras personas que entran a la tienda, se produzcan
exactamente 5 ventas.
b) El número esperado de ventas entre los primeras 50 personas que entran a la tienda.
c) La probabilidad que la sexta compra la realice el 50-ésimo cliente potencial.
d) El número esperado de personas que se necesita que entren a la tienda pra realizar 6 ventas.
e) La probabilidad que se necesiten más de 10 clientes potenciales para realizar 2 ventas.
6.10. Los casos de emergencia llegan a un hospital de acuerdo a un Proceso Poisson con tasa
6 pacientes por hora. El 30 % de los paciemtes son mujeres. En este instante es 8:00 am.
a) La probabilidad que la primera emergencia llegue antes de las 8 : 15.

b) La probabilidad que la segunda emergencia llegue antes de las 8 : 15.
c) La probabilidad que se produzcan 20 emergencias entre 8:00 y 11:00, dado que se produjeron
10 entre 8:00 y 9:00.
d) La probabilidad que 3 mujeres lleguen entre 8:00 y 9:00.
e) La probabilidad que 3 mujeres lleguen entre 8:00 y 9:00, dado que se producen 10 emergencias
en total en ese periodo.
f ) El valor esperado del instante de llegada de la tercera mujer.
6.11. Suponga que los autos, camionetas y motos, llegan a una estación de servicio de acuerdo a
procesos Poisson independientes con tasas 30 autos/hora, 20 camionetas/hora y 10 motos /hora,
respectivamente. En este instante es 10:00 am. El último vehı́culo llegó a las 9:55. Encuentre:
a) La distribución y el valor esperado del número total de vehı́culos que llegan en un periodo de
2 horas.
b) La probabilidad que exactamente 100 vehı́culos lleguen en un periodo de 2 horas.
c) La probabilidad que 15 autos, 25 camionetas y 5 motos lleguen en un periodo de una hora.
d) La probabilidad que el primer auto llegue despues de 5 minutos.
e) La probabilidad que 80 vehı́culos lleguen entre 10:00 y 11:00, dado que 30 vehı́culos llegaron
entre 10:00 y 10:30.
f ) La probabilidad que 30 vehı́culos lleguen entre 10:00 y 10:30, dado que 80 vehı́culos llegan
entre 10:00 y 11:00.
6.12. Considere los mismos procesos Poisson del Ejercicio 6.11. Suponga que 20 % de los autos
y 10 % de las camionetas son marca Mazda (suponga que Mazda no fabrica motos). Encuentre:
a) La tasa de llegada de autos y camionetas marca Mazda.

b) La distribución y el valor esperado del número de vehı́culos marca Mazda que llegan a la
estación en un periodo de una hora.
c) La probabilidad que 5 autos marca Mazda lleguen entre 10:00 y 11:00, dado que en total
llegan 30 autos en el mismo periodo.
d) Los valores esperado del tiempo de llegada del próximo y del quinto auto marca Mazda.
e) El número esperado de vehı́culos marca Mazda que llegan entre 11:00 y 13:00, si en el mismo
periodo llegan en total 40 autos, 40 camionetas, y 20 motos.
Capı́tulo 7
La distribución Normal y los

Teoremas de Lı́mite
7.1. La Distribución Normal
La distribución normal es considerada como la distribución continua más importante. Se dice

que es la piedra fundamental de la inferencia estadı́stica. Su importancia proviene de las sigu-
ientes caracterı́sticas:
a) Se ha demostrado empı́ricamente que muchas poblaciones y fenómenos reales pueden

modelarse a través de una distribución normal, o una de sus distribuciones relacionadas.
b) Muchas variables aleatorias continuas y discretas se pueden aproximar mediante una

distribución normal.
c) Debido al Teorema del Lı́mite Central (que se introducirá más adelante), la distribución
normal se utiliza para aproximar la suma y el promedio de un número grande de variables
aleatorias con cualquier distribución. En particular, si un fenómeno puede modelarse como
el resultado de muchas contribuciones pequeñas e (aproximadamente) independientes,
entonces puede ser aproximado por una distribución normal. De hecho, es este principio
el que en muchos casos justifica las dos propiedades anteriores.
d) La distibución normal tiene muchas propiedades matemáticas útiles, que facilitan su ma-
nipulación algebraica.
Definición 7.1. Se dice que una variable aleatoria continua X con RX = (−∞, ∞) y función
de densidad de probabilidades dada por
83
Figura 7.1: f.d.p. de la distribucón Normal
1 (x−µ)2
f (x) = √ e− 2σ2 , −∞ < x < ∞ (7.1)
2πσ
es una variable aleatoria normal con parámetros µ y σ 2 , lo que se denota X ∼ N (µ, σ 2 ). Los
parámetros µ y σ 2 deben satisfacer −∞ < µ < ∞ y σ > 0.
Teorema 7.1. Sea X ∼ N (µ, σ 2 ). Entonces
E(X) = µ (7.2)
V (X) = σ 2 (7.3)
La distribución normal tiene la conocida forma de campana que se presenta en la Figura 7.1.
La campana está centrada, y es simétrica respecto a la media µ.
Nota: Cuando sea necesario para evitar ambiguedad, se utilizará la notación: µX = E(X) y
2 = V (X).
σX
Teorema 7.2. Sea X ∼ N (µ, σ 2 ), e Y = aX + b, entonces Y ∼ N (aµ + b, a2 σ 2 ).
Teorema 7.3 (Propiedad reproductiva de la distribución normal). Sean X1 , X2 . . . Xk

variables aleatorias independientes tal que Xi ∼ N (µi , σi2 ), para i = 1, 2, . . . , k. Sea Y = X1 +
X2 + . . . + Xk . Entonces Y ∼ N ( ki=1 µi , ki=1 σi2 )
P P
Observar que al combinar el Teorema 7.2 y el Teorema 7.3, se tiene que cualquier combinación
lineal de un número finito de variables aleatorias es también una variables aleatoria normal.
La media y la varianza de la nueva variable aleatoria se calculan utilizando las propiedades
generales del valor esperado y de la varianza, discutidas en el Capı́tulo 5. De esta manera, si
X1 , X 2 . P
. . Xk se definenP
como en el Teorema 7.3, e Y = a1 X1 + a2 X2 + . . . + ak Xk + b. Entonces
Y ∼ N ( ki=1 ai µi + b, ki=1 a2i σi2 ).
La distribución normal estándar

Definición 7.2. Si X es una variable aleatoria normal con µ = 0 y σ 2 = 1, se dice que X
tiene una distribución normal estándar. La f.d.p de X se denota por φ(x), y está dada por
1 x2
φ(x) = √ e− 2 , −∞ ≤ x ≤ ∞. (7.4)
2π
La función de densidad de la distribución normal no puede integrarse de manera exacta. Con-

secuentemente, la distribución acumulada de una variable aleatoria normal no tiene una forma
conocida y todos los cálculos de probabilidad deben hacerse utilizando aproximaciones numéri-
cas. Las calculadoras modernas pueden realizar estos cálculos sin problemas. Sin embargo,
tradicionalmente, las probabilidades se obtenı́an de tablas para la distribución acumulada de
la distribución normal estandar, denotada por Φ(x), utilizando el Teorema 7.2 de la siguiente
manera: Sea X ∼ N (µ, σ 2 ), entonces:

a−µ x−µ b−µ
P {a ≤ x ≤ b} = P ≤ ≤
σ σ σ

a−µ b−µ
=P ≤ N (0, 1) ≤
σ σ

b−µ a−µ
=Φ −Φ
σ σ
Notación: Para α < 0.5, el percentil 100(1 − α) de la distribución normal se denota por zα .
Es decir, P {N (0, 1) ≤ zα } = Φ(zα ) = 1 − α.
Ejemplo 7.1. El diámetro en milı́metros X de un cable eléctrico se distribuye normal con
media 0.5 y desviación estandar 0.005. Las especificaciones dicen que el diámetro debe ser entre
0.49 y 0.51. Entonces la probabilidad que el cable satisfaga las especificaciones es:

0.51 − 0.5 0.49 − 0.5
Φ −Φ = Φ(2) − Φ(−2) ≈ 0.95
0.005 0.005
El Ejemplo 7.1 sugiere el siguiente problema: Si la distribución normal tiene un rango de todos
los números reales (incluyendo los negativos), ¿cómo puede el diámetro del cable, que debe
ser positivo, ser modelado como una variable aleatoria normal?. La validez del modelo viene
dada por el hecho que P (X < 0) = Φ(−0.5/0.005) = Φ(−100) ∼ = 0. Es decir, la probabilidad
teórica que la variable aleatoria tome un valor negativo es prácticamente cero. En general, puede
verificarse que Φ(−3) ≈ 0.0015 y Φ(−4) ≈ 0. De este modo, la probabilidad que una variable
aleatoria normal tome un valor negativo es despreciable si σ ≤ µ/4 (¿por qué?). En dichos casos,
modelar un valor no-negativo utilizando una variable aleatoria normal, es perfectamente válido.
Incluso para el caso σ ≤ µ/3, la distribución normal puede todavı́a ser una buena aproximación.
Ejemplo 7.2. Un administrador de inventarios ha estimado que el tiempo de reaprovision-
amiento (el tiempo que pasa desde el instante en que él da una orden a su proveedor hasta
que los productos ordenados llegan a la bodega) de cierto producto se distribuye normal con
media 8 dı́as y desviación estandar 1.5. Utilizando esta información, el administrador desea
calcular cuántos dı́as antes de la fecha en que el stock actual se acabe, debe poner una orden de
reaprovisionamiento para que la probabilidad de quedar en déficit sea a lo más 0.02.
Sea X ∼ N (8, 1.52 ) el tiempo de reaprovisionamiento. Se busca un valor R tal que P (X > R) ≤
0.02. Entonces, de

X −8 R−8 R−8
P {X > R} = P > =1−Φ ≤ 0.02
1.5 1.5 1.5
se tiene que
R−8
≥ z0.02 ,
1.5
o equivalentemente que
R ≥ 1.5z0.02 + 8 = 11.08.
De este modo, si el administrador pone una orden de reemplazo 12 dı́as antes que el inventario
actual se acabe, la probabilidad de déficit será a lo más 0.02.
Ejemplo 7.3. El radio de un pistón es una variable aleatoria X ∼ N (30, 0.052 ). El radio
interior del cilindro es una variable aleatoria Y ∼ N (30.25, 0.062 ). El espacio entre el cilindro
y el pistón está dado por Z = X − Y . Se tiene que E(Z) = 30.25 − 30.00 = 0.25, y V (Z) =
0.052 + 0.062 = 0.0061, y por tanto, Z ∼ N (0.25, 0.061). La probabilidad que un pistón tomado
al azar encaje en un cilindro está dada por:

−0.25
P (Z ≥ 0) = 1 − P (Z < 0) = 1 − Φ √ = 0.9993
0.0061
.
Quiz Considere el Ejemplo 7.3. Si Ud. tiene 80 pares pistón-cilindro seleccionados al azar,
encuentre la probabilidad que exactamente 75 pares calzen (que el pistón entre en el cilindro).
¿Piensa Ud. que esta probabilidad es la misma que la probabilidad de obtener 75 pares que
calzen desde un grupo de 80 pistones y 80 cilindros?.
7.2. Distribuciones Aproximadas por la Distribución Normal
Teorema 7.4. Sea X ∼ b(n, p). Si n es grande, X puede ser aproximada por una distribución
Normal con parámetros µ = np y σ 2 = np(1 − p). Es decir, para n grande se cumple que
!
x − np
P {X ≤ x} ≈ P {N (np, np(1 − p)) ≤ x} = Φ p .
np(1 − p)
Nota: Una expresion más formal para el Teorema 7.4 está dada por
( )
X − np
lı́m P p < z = Φ(z).
n→∞ np(1 − p)
Teorema 7.5. Sea X ∼ P (λ). Entonces, si λ es grande, X puede ser aproximada por un
distribución Normal con parámetros µ = λ y σ 2 = λ.
Nota: Si se considera una proceso Poisson con tasa λ, entonces el Teorema 7.5 implica que el
número de eventos en un intervalo de tiempo largo (λt debe ser gande) se distribuye aproxi-
madamente normal con parámetros µ = λt y σ 2 = λt.
Muchas otras distribuciones importantes pueden aproximarse por la distribución normal, en

particular, todas aquellas que pueden representarse como la suma de variables aleatorias inde-
pendientes. Esto es una consecuencia del Teorema del Lı́mite Central que se presentará en la
Sección 7.4. Entre las distribuciones con esta caracterı́tica, ya se han visto la distribución Pas-
cal (que puede ser modelada como la suma de variable aleatorias Geométricas independientes)
y la distribución Gamma/Erlang (que puede ser modelada como una suma de variables
aleatorias Exponenciales independientes).
7.3. La Ley de los Grandes Números
La Media y la Varianza del Promedio Muestral
Considere una secuencia de variables aleatorias X1 , X2 , . . . , Xn , entonces P

la media aritmética
(o simplemente la media) de X1 , X2 , . . . , Xn es la variable aleatoria X̄ = ni=1 Xni . Utilizando
las propiedades del valor esperado y de la varianza, se puede verificar que:
n
X E(Xi )
E(X̄) = (7.5)
n
i=1
n
X V (Xi )
V (X̄) = , si X1 , X2 , . . . , Xn son independientes. (7.6)
n2
i=1
Si X1 , X2 , . . . , Xn son variables aleatorias independientes e idénticamente distribuidas (iid) con

E(Xi ) = µ, y V (Xi ) = σ 2 , para todo i = 1, 2, . . . , n. Entonces se dice que X1 , X2 , . . . , Xn es
una muestra y que X̄ es el promedio muestral. En este caso, (7.5) y (7.6) se reducen a:
E(X̄) = µ (7.7)
σ2
V (X̄) = (7.8)
n
Las muestras comúnmente aparecen en el siguiente contexto: Considere un experimento E que

puede ser repetido muchas veces bajo exactamente las mismas condiciones. Sea X una variable
aleatoria genérica asociada con E. Considere n repeticiones independientes del experimeto y
sea Xi la variable aleatoria asociada con la i-ésima repetición, entonces X1 , X2 , . . . Xn es una
muestra de la variable aleatoria genérica X. Se dice que el número n es el tamaño de la muestra.
Por ejemplo, asuma, como en el Ejemplo 7.3, que X ∼ N (30, 0.05) es el radio de un pistón (la
variable aleatoria genérica) y tenemos un conjunto de 80 de tales pistones numerados 1, 2, . . . , 80.
Para i = 1, 2, . . . , 80, sea Xi el radio del pistón i, entonces X1 , X2 , . . . , X80 es una muestra
de tamaño 80. Se ha asumido en este ejemplo que la precisión de la máquina que produce los
pistones no cambia entre cada pistón. En este sentido, el experimento ”producir un pistón”puede
ser repetido muchas veces bajo las mismas condiciones.
Nota: El término muestra también se usa para referirse a la secuencia x1 , x2 , . . . , xn de valores

especı́ficos tomados por las variables aleatorias X1 , X2 , . . . , Xn . Informalmente también se usa
para referirse al conjunto de objetos desde el cual se va a extraer X (los 80 pistones en el
ejemplo anterior). El concepto de muestra es un concepto clave en Estadı́stica.
Teorema 7.6. La Ley de los Grandes Números: Asuma que X1 , X2 , . . . , Xn , es una
muestra de variables aleatorias independientes e idénticamente distribuı́das, con E(Xi ) = µ
y V (Xi ) = σ 2 , para todo i = 1, 2, . . . , n. Entonces, por la Desigualdad de Chebyshev se tiene
σ2
P (|X̄ − µ| < ε) ≥ 1 − , (7.9)
nε2
lo que implica,
lı́m P (|X̄ − µ| < ε) = 1 (7.10)
n→∞
Observar que el Teorema 7.6 es en cierta forma, una declaración formal de la propiedad de regu-
laridad estadı́stica mencionada anteriormente. El teorema dice que medida que el tamaño de
la muestra (el número de reticiones del experimento) crece, el promedio muestral tiende, prob-
abilı́sticamente, a ser cada vez más cercano al valor esperado de la variable aleatoria genérica
X. Esto es una consecuencia del hecho que mientras más grande es n menor es la varianza del
promedio muestral (ver Ecuación (7.8)).
Quiz: Aplique la Desigualdad de Chebyshev para derivar una “versión Bernoulli” de la Ley de
los Grandes Números. Esto es, demuestre que lı́mn→∞ P (|fA − P (A)| < ε) = 1, donde fA y
P (A) son la frecuencia relativa y la probabilidad del evento A, respectivamente.
Ejemplo 7.4. Asuma que X es una variable aleatoria con E(X) = 30 y V (X) = 25. Se busca
el tamaño de muestra requerido para tener un 96 % de seguridad que el promedio muestral no
difiere del valor esperado en más de dos unidades. De (7.9) se tiene que P (|X̄ − 30| ≤ 2) ≥
1 − 25/4n. Resolviendo 1 − 25/4n ≥ 0.96, se obtiene n ≥ 157. Observe que este resultado no
depende en lo absoluto de E(X). Depende solamente de la varianza.
Quiz: Repita el Ejemplo 7.4 asumiendo X ∼ N (30, 25)
7.4. El Teorema del Lı́mite Central (TLC)
Las aproximaciones descritas en la Seccion 7.2 son casos particulares de un resultados mucho
más general, importante y notable en la Teorı́a de la Probabilidad y en Estadı́stica: El Teorema
del Lı́mite Central. A grandes rasgos, este teorema dice que la suma de un gran número de
variables aleatorias, con cualquier tipo de distribución, se distribuye aproximadamente Normal.
Teorema 7.7 (Teorema del Lı́mite Central). Considere una secuencia X1 , X2 , . . . , Xn de
variables aleatorias independientes con E(Xi ) = µi y V (Xi ) = σi2 , para i = 1, 2, . . . , n. Sea
Y = X1 + X2 + . . . + Xn . Entonces, bajo
Pnciertas condiciones
Pn generales, Y tiene una distribución
2 2
aproximadamente Normal con µY = i=1 µi , y σY = i=1 σi . Formalmente,

Y − µY
lı́m P ≤ y = Φ(y).
n→∞ σY
Las condiciones generales referidas en el Teorema 7.7 básicamente requieren que cada variable
aleatoria individual contribuya con una cantidad despreciable a la suma total. Esto es, cada
variable individual tiene una varianza pequeña y es incapaz de influenciar significativamente el
valor total de la suma.
Un caso particular del Teorema 7.7 se obtiene cuando la secuencia X1 , X2 , . . . , Xn representa

una muestra iid. En esta caso Y es aproximadamente N (nµ, nσ 2 ) y X̄ es aproximadamente
N (µ, σ 2 /n).
Ejemplo 7.5. Asuma que una mujer chilena tı́pica tiene una altura promedio de 65 pulgadas,
con una varianza de 9 pulgadas cuadradas.
a) Se busca la probabilidad que la altura promedio en una muestra promedio de 30 mujeres

está entre 64 y 66.
Sea X la variable aleatoria que representa la altura de una mujer. Por el Teorema del
Lı́mite Central (TLC), se tiene que X̄ ∼ N (65, 0.3). Por tanto,

64 − 65 X̄ − 65 66 − 65
P 64 ≤ X̄ ≤ 66 = P √ ≤ √ ≤ √
0.3 0.3 0.3
= P {−1.82 ≤ N (0, 1) ≤ 1.82}
= Φ(1.82) − Φ(−1.82) = 0.931.
b) Se busca el tamaño de muestra requerido para asegurar que el promedio muestral esté entre
64.5 y 65.5 con un 95 % de probabilidad. Nuevamente por el TLC, se tiene que X̄ ∼
N (65, 9/n). Por lo tanto,
( )
64.5 − 65 X̄ − 65 65.5 − 65
P {64.5 ≤ X̄ ≤ 65.5}) = P p ≤ p ≤ p
9/n 9/n 9/n
√ √
= Φ(0.167 n) − Φ(−0.167 n)
√
= 1 − 2Φ(−0.167 n)
√ √
Resolviendo 1 − 2Φ(−0.167 n) ≥ 0.95, se tiene Φ(−0.167 n) ≤ 0.025, lo que implica
√
−0.167 n ≤ −z0.025 = −1.96 o, equivalentemente, n ≥ 138.
Ejemplo 7.6. La vida útil (en dı́as) de una ampolleta tiene media 10 y varianza 16. Cuando
una ampolleta se quema es reemplazada por una similar. Se busca la probabilidad que en los
próximos tres años (1095 dı́as) se necesiten más de 100 ampolletas. Para i = 1, 2, . . . , 100,
sea Xi la variable aleatoria que representa la vida útil de la i-ésima ampolleta. Entonces Y =
X1 + X2 + . . . + X100 representa el tiempo total cubierto por las primeras 100 ampolletas. Por
el TLC, Y ∼ N (1000, 1600). Se desea calcular

Y − 1000 1095 − 1000
P {Y < 1095} = P √ < √
1600 1600
= Φ(2.38)
= 0.9913.
7.5. Ejercicios
7.1. El número de barcos que llegan a una refinerı́a cada dı́a es una variable aleatoria Poisson
con parámetro λ = 3. Las instalaciones actuales del puerto permiten el servicio de 3 naves
diarias. Si llegan más de 3 naves, los que sobrepasan este número deben ser enviados a otro
puerto.
a) Encuentre la distribución del número de naves que llegan al puerto en un perı́odo de 6 meses
(180 dı́as).
b) Encuentre la probabilidad que en un perı́odo de 6 meses lleguen entre 340 y 400 naves al
puerto.
c) Encuentre la probabiliadd que en un dı́a particular el puerto deba mandar naves a otro puerto.
d) Encuentre la probabilidad que en un perı́odo de 6 meses el puerto mande naves a otro puerto
en no más de 80 dı́as.
e) Encuentre la probabilidad que en un periodo de 6 meses, se atiendan entre 250 y 300 naves.
(Ayuda: Usted debe utilizar las aproximaciones normales a las otras distribuciones en este
problema )
7.2. El grosor de una placa de metal hecha por una máquina se distribuye normalmente con
media 4.3 mm y desviación estandar 0.12 mm. Si se ponen juntas 12 placas:
a) ¿Cuál es la distribucion del grosor total de las 12 placas?

b) Encuentre la probabilidad que el grosor total esté entre 51 y 52 mm.
c) Encuentre el mı́nimo número de placas requeridas para que el grosor promedio esté entre
4.25 y 4.35 mm con probabilidad de al menos 99.7 %.
Capı́tulo 8
Variables Aleatorias
Multidimensionales
En los capı́tulos 4 y 5 se estudió el concepto de variables aleatorias unidimensionales. Esto

es variables aleatorias que representan una caracterı́stica numérica única de un experimento o un
fenómeno. El interés se centra ahora en estudiar el comportamiento de dos o más caracterı́sticas
numéricas de un experimento en forma simultánea. Por ejemplo; la altura y el peso de una
persona: el volumen y el peso de los paquetes recibidos en la oficina de correos; la inflación
y la tasa de desempleo en una economı́a; el precio, calidad y demanda de cierto producto; el
ingreso, costos de educación y costos de alimentación de las familias chilenas, etc. En cada uno
de estos ejemplos parece intuitivamente obvio que las dimensiones que hay que estudiar no son
independientes. La discusión se concentra en el caso bidimensional. Esto no representa limitación
alguna, pues todos los conceptos y herramientas presentados son fácilmente extendibles al caso
de más de dos dimensiones.
8.1. Variables Aleatorias Bidimensionales y Distribuciones de

Probabilidad Conjunta
Definición 8.1. Sea E un experimeto y S un espacio muestral asociado con E. Sean X e Y

dos funciones que asignan a cada elemento s ∈ S números reales X(s) e Y (s), respectivamente.
Se denomina variable aleatoria bidimensional al par ordenado (X, Y ).
Definición 8.2. El rango (X, Y ), denotado por RXY , es el conjunto de todos los valores posibles
del par (X, Y ).
Definición 8.3. Sea E un experimento y S un espacio muestral asociado con E. Sean X1 =
X1 (s), X2 = X2 (s), . . . , Xn = Xn (s), n funciones, cada una de las cuales asigna un número
92
real a cada elemento s ∈ S . Se denomina variable aleatoria n-dimensional al vector

(X1 , X2 , . . . , Xn ) (también llamado vector aleatorio n-dimensional).
Como en el caso unidimensional, se busca asociar el concepto de probabilidad con la vari-

able aleatoria bidimensional (X, Y ). Nuevamente, la distribución de probabilidad de (X, Y )
será derivada de las probabilidades asociadas con el espacio muestral original utilizando el
concepto de eventos equivalentes.
Definición 8.4. Sea E un experimento y S un espacio muestral asociado con E. Sea (X, Y )
una variable aleatoria bidimensional definida en S. Sea B ⊆ RXY y A ⊆ S. Se dice que A y B
son equivalentes si
A = {s ∈ S : (X(s), Y (s)) ∈ B}.
Si A y B son equivalentes, la probabilidad del evento B está dada por
P (B) = P (A) = P {s ∈ S/(X(s), Y (s)) ∈ B}.
De manera análoga al Capı́tulo 4, se distinguirá entre dos tipos básicos de variables aleatorias
bidimensionale: discretas y continuas.
Definición 8.5. Se dice que una variable aleatoria bidimensional (X, Y ) es discreta si el rango
RXY es finito o infinito contable. Es decir, RXY puede ser escrito como RXY = {(xi , yj ), i =
1, 2, . . . , j = 1, 2, . . .}.
Definición 8.6. Sea (X, Y ) una variable aleatoria bidimensional discreta. La función de proba-
bilidad puntual conjunta (f.p.p.) de (X, Y ) es la función p(·, ·) que asocia a cada (xi , yj ) ∈ RXY
un valor pij = p(xi , yj ) = P {X = xi , Y = yj } que satisface:
a) pij ≥ 0
PP
b) (xi ,yj )∈Rxy pij = 1
La colección de trı́os (xi , yj , pij ), se denomina distribuición de probabilidad de (X, Y ).
En forma similar al caso unidimensional, puede verificarse que la probabilidad de un evento

B ⊆ RXY está dada por
XX
P (B) = pij (8.1)
(xi ,yj )∈B
Ejemplo 8.1. Considere una variable aleatoria bidimensional discreta (X, Y ) con función de
probabilidad conjunta dada en la Tabla 8.1. Se tiene:
a) P {X = 2, Y = 3} = p2,3 = 0.05
b) P {X ≤ 1, Y = 2} = p0,2 + p1,2 = 0.05 + 0.05 = 0.1
c) P {X ≤ 1, Y ≥ 2} = p0,2 + p1,2 + p0,3 + p1,3 = 0.05 + 0.05 + 0 + 0.1 = 0.2
d) P {Y = 0} = p0,0 + p1,0 + p2,0 = 0.1 + 0.05 + 0.2 = 0.35
e) P {X = Y } = p0,0 + p1,1 + p2,2 = 0.1 + 0.2 + 0.1 = 0.4
f ) P {X > Y } = p1,0 + p2,0 + p2,1 = 0.05 + 0.2 + 0 = 0.25
Tabla 8.1: Distribución de probabilidad Ejemplo 8.1
x/y 0 1 2 3
0 0.1 0.1 0.05 0
1 0.05 0.2 0.05 0.1
2 0.2 0 0.1 0.05
Ejemplo 8.2 (La distribución trinomial). Considere un experimento E con tres posibles
resultados. Sean p1 , p2 y p3 las probabilidades de los resultados 1, 2 y 3, respectivamente (p1 +
p2 + p3 = 1). Suponga que ud. repite el experimento n veces y defina Xi como el número de
veces que el resultado del experimento es i. Note que para i = 1, 2, 3, Xi ∼ b(n, pi ). Sin embargo,
X1 , X2 y X3 no son independientes, porque X1 +X2 +X3 = n. La función de probabilidad puntual
conjunta de la variable aleatoria tridimensional (X1 , X2 , X3 ), está dada por:
 n! pi pj pk

si i+j+k=n,
pijk = P {X1 = i, X2 = j, X3 = k} = i!j!k! 1 2 3 (8.2)
0 de otra manera

Se dice que una variable aleatoria tridimensional con f.p.p conjunta dada por 8.2 tiene una
distribución trinomial, o que es una variable aleatoria trinomial con parámetros n, p1 , p2
y p3 .
Quiz: Derive la expresion 8.2.
Quiz: Considere el Ejemplo 8.2. Encuentre la distribución conjunta de la variable aleatoria

bidimensional (X1 , X2 ).
Definición 8.7. Se dice que una variable aleatoria bidimensional (X, Y ) es continua si el rango
RXY es un subconjunto no contable del espacio Euclidiano.
Definición 8.8. Sea (X, Y ) una variable aleatoria continua bidimensional. La Función de
densidad de probabilidad conjunta (f.d.p) de (X, Y ) es una función f (·, ·) definida en RXY
que permite representar el espacio de probabilidades de (X, Y ) y satisface:
Figura 8.1: Ilustración Ejemplo 8.3d)
a) f (x, y) ≥ 0, para todo (x, y) ∈ RXY
ZZ
b) f (x, y)dxdy = 1
RXY
ZZ
c) P (A) = f (x, y)dxdy, para todo A ⊆ RXY
A
Ejemplo 8.3. Sea (X, Y ) una variable aleatoria bidimensional con

(
1
xy si 4 ≤ x ≤ 6, 4 ≤ y ≤ 8
f (x, y) = 240
0 otro caso
Z 5Z 6 Z 5Z 6
1
a) P {X ≤ 5, Y ≤ 6} = f (x, y)dydx = xydydx = 0.1875
4 4 4 4 240
Z 5Z 7 Z 5Z 7
1
b) P {X ≤ 5, 5 ≤ Y ≤ 7} = f (x, y)dydx = xydydx = 0.225
4 5 4 5 240
Z 5Z 8 Z 5Z 8
1
c) P {X ≤ 5} = P {X ≤ 5, 4 ≤ Y ≤ 8} = f (x, y)dydx = xydydx = 0.45
4 4 4 4 240
Z 6Z x Z 6Z x
1
d) P {X > Y } = f (x, y)dydx = xydydx = 0.5365 (ver Figura 8.1)
4 4 4 4 240

(
8xy si 0 ≤ x ≤ 1, x ≤ y ≤ 1
f (x, y) =
0 otro caso
Figura 8.2: Ilustración Ejemplo 8.4
Z .5 Z .6 Z .5 Z .6
a) P {X ≤ .5, Y ≤ .6} = f (x, y)dydx = 8xydydx = 0.1175
0 x 0 x
(ver Figura 8.2a)
Z .5 Z 1 Z 1Z 1 Z .5 Z .5
b) P {Y ≥ .5} = 8xydydx + 8xydydx = 1 − 8xydydx = 0.9375
0 .5 .5 x 0 x
(ver Figura 8.2b)
Ejemplo 8.5. Sea (X, Y ) una variable aleatoria bidimensional definida en RXY ⊆ R2 . Si
(
1
para (x, y) ∈ RXY
f (x, y) = Area(RXY )
0 otro caso
Se dice que (X, Y ) tiene una distribución uniforme en RXY , o lo que es equivalente, que es una
variable aleatoria uniforme en RXY . En este caso, para cada A ⊆ RXY ,
Area(A)
P (A) = .
Area(Rxy )
8.2. Probabilidades y Valor Esperado de una Función de una

Variable Aleatoria Bidimensional
Sea (X, Y ) una variable aleatoria bidimensional, y sea Z = H(X, Y ). De la misma manera que
en el caso unidimensional, es claro que Z es una variable aleatoria. También como en el caso
unidmensional, en la mayorı́a de las situaciones no es necesario encontrar la distribución de
probabilidad de Z. Los cálculos de probabilidad asociados con Z pueden realizarse utilizando
el concepto de eventos equivalentes de la siguiente manera:
P {Z ∈ B} = P {(x, y) ∈ RXY : H(x, y) ∈ B}
Similarmente, el valor esperado de Z puede encontrarse utilizando la siguiente extensión directa

del Teorema 5.1.
Teorema 8.1. Sea (X, Y ) una variable aleatoria bidimensional, y sea Z = H(X, Y ). Entonces
a) Si (X, Y ) es discreta
XX
E(Z) = E(H(X, Y )) = H(xi , yj )p(xi , yj ) (8.3)
xi ,yj ∈RXY
b) Si (X, Y ) es continua
ZZ
E(Z) = E(H(X, Y )) = H(x, y)f (x, y)dxdy (8.4)
RXY
Nota:
RR Observe que si se define H(X, Y ) = X, entonces el Teorema 8.1 dice que E(X) =
RXY xf (x, y)dydx para (X, Y ) continua (el caso de (X, Y ) discreta se deja como ejercicio).
De manera similar podemos calcular E(Y ). Otra forma de calcular E(X) y E(Y ), es utilizando
la distribución marginal de X e Y , que serán definidas en la siguiente sección.
(
1
xy si 4 ≤ x ≤ 6, 4 ≤ y ≤ 8
f (x, y) = 240 ,
0 otro caso
entonces
Z 6Z 8 Z 6Z 8 Z 6Z 8
1 1 2
E(X) = xf (x, y)dydx = x xydydx = x ydydx = 5.066.
4 4 4 4 240 4 4 240
Sea Z = X + Y , entonces (ver Figura 8.3)
Z 6 Z 10−x
1
P {Z ≤ 10} = P {X + Y ≤ 10} = xydydx.
4 4 240
Z 6Z 8 Z 6Z 8
1
E(Z) = E(X + Y ) = (x + y)f (x, y)dydx = (x + y)xydydx.
4 4 4 4 240
Quiz: Complete los cálculos anteriores.

Figura 8.3: Ilustración Ejemplo 8.6
8.3. Distribuciones Marginales
Considere una variable aleatoria discreta bidimensional (X, Y ) con rango RXY . Claramente los
componentes individuales X e Y son variables aleatorias unidimensionales. Las distribuciones de
probabilidades de los componentes individuales, X e Y , pueden derivarse de la distribución de
probabilidad conjunta de (X, Y ). Las distribuciones individuales se denominan distribuciones
marginales.
Considere una variable aleatoria bidimensional discreta con rango RXY , y una función de prob-
abilidad puntual conjunta p(x, y). Las distribuciones marginales de X e Y están dadas por:
X
pX (xi ) = P {X = xi } = p(xi , yj ) (8.5)
{j:(xi ,yj )∈Rxy }
X
pY (yj ) = P {Y = yj } = p(xi , yj ) (8.6)
{i:(xi ,yj )∈Rxy }
Nota: Observar que en (8.5) se fija el indice i (es decir, de toma un xi especı́fico) y se suma
sobre todos los posibles valores de j. Similarmente, en (8.6), se fija j y se suma sobre todos los
posibles valores de i.
Ejemplo 8.7. Considere una variable aleatoria bidimensional (X, Y ) con la función de prob-
abilidad conjunta dada en la Tabla 8.2. Las distribuciones marginales de X e Y , están dadas
respectivamente en la última fila y en la última columna de la tabla.
Considere ahora una variable aleatoria bidimensional continua (X, Y ) con rango RXY y función
de densidad conjunta f (x, y). Las funciones de densidad marginales de X e Y están dadas por:
Tabla 8.2:
x/y 0 1 2 3 pX (xi )
0 0.1 0.1 0.05 0 0.25
1 0.05 0.2 0.05 0.1 0.4
2 0.2 0 0.1 0.05 0.35
pY (yj ) 0.35 0.3 0.2 0.15
Z
fX (x) = f (x, y)dy (8.7)
{y:(x,y)∈Rxy }
Z
fY (y) = f (x, y)dx (8.8)
{x:(x,y)∈Rxy }
Nota: Observar que en(8.7) se fija un valor X = x, y se integra sobre todos los valores posibles
de Y para ese valor x especı́fico. En (8.8) se hace lo contrario. Los ejemplos siguientes ilustran
el concepto.
(
1
240 xy si 4 ≤ x ≤ 6, 4 ≤ y ≤ 8
f (x, y) = .
0 de otra manera
entonces, Z 8
1 1
fX (x) = xydy = x 4≤x≤6 (8.9)
4 240 10
Z 6
1 1
fY (y) = xydx = y 4≤y≤8 (8.10)
4 240 24
Ejemplo 8.9. Sea (X, Y ) una variable aleatoria bidimensional con:
(
8xy si 0 ≤ x ≤ 1, x ≤ y ≤ 1
f (x, y) = ,
0 de otra manera
entonces, Z 1
fX (x) = 8xydy = 4x(1 − x2 ) 0≤x≤1 (8.11)
x
Z y
fY (y) = 8xydx = 4y 3 0≤y≤1 (8.12)
0
Figura 8.4: Rango de (X, Y ) en el Ejemplo 8.8
Figura 8.5: Rango de (X, Y ) en el Ejemplo 8.9
Comparando (8.9) y (8.11) se observa que los lı́mites de integración en (8.9) son constantes,
pero los lı́mites de integración en (8.11) dependen de x. Esto es una consecuencia de la forma
de los rangos respectivos (vea la Figura 8.4 y la Figura 8.5). En el Ejemplo 8.8, para cualquier
valor de X, los valores posibles de Y van de 4 a 8 (4 ≤ y ≤ 8). En el Ejemplo 8.9 para X = x
fijo, Y va desde x a 1 (x ≤ y ≤ 1). Un análisis similar se puede hacer para (8.10) y (8.12).
Nota: Como se sugiere en el comentario anterior, en muchos problemas relacionados con vari-
ables aleatorias bidimensionales, es fundamental graficar el rango de (X, Y ) en el plano Euclid-
iano.
Nota: Las distribuciones marginales son útiles cuando queremos cacular esperanzas o prob-
abilidades de varios sucesos relacionados a un componente único de una variable aleatoria
multi-dimensional.
Ejemplo 8.10. Considere nuevamente la variable aleatoria del Ejemplo 8.8. Se tiene:
Z 6 Z 6
1 11
P {X ≥ 5} = fX (x)dx = xdx =
5 5 10 20
Z 6 Z 6
1 5
P {4 ≤ Y ≤ 6} = fY (y)dy = ydy =
4 4 24 12
Z 6 Z 6 Z 6
1 1 2
E(X) = xfX (x)dx = x xdx = x dx = 5.066
4 4 10 4 10
Ejemplo 8.11. Considere nuevamente la variable aleatoria del Ejemplo 8.9. Se tiene:
Z 1 Z 1
P {X ≥ 0.5} = fX (x)dx = 4x(1 − x2 )dx = 0.56
0.5 0.5
Z 0.8 Z 0.8
P {0.2 ≤ Y ≤ 0.8} = fY (y)dy = 4y 3 dy = 0.6
0.2 0.2
Z 1 Z 1 Z 1
3
E(Y ) = yfY (y)dy = y4y dy = 4y 4 dy = 0.8
0 0 0
8.4. Distribuciones Condicionales
Considere una variable aleatoria bidimensional (X, Y ), las distribuciones marginales permiten
hacer cálculos de probabilidad relacionados con una de las variable, independiente del valor que
tome la otra variable. El interés en esta sección se centra en el cálculo de probabilidades rela-
cionadas con una variable, por ejemplo X, cuando se sabe que la otra variable, Y , toma un valor
especı́fico Y = y. Con este propósito se introduce el concepto de distribuciones condicionales.
Definición 8.9. Sea (X, Y ) una variable aleatoria bidimensional discreta con rango RXY y fun-
ción de probailidad puntual conjunta p(x, y). Se define la función de probabilidad puntual
condicional de X dado Y = yj , como sigue:
p(xi , yj )
pX/Y =yj (xi ) = P {X = xi /Y = yj } = para todo xi (8.13)
pY (yj )
Similarmente, la función de probabilidad puntual condicional de Y dado X = xi , se define por
p(xi , yj )
pY /X=xi (xj ) = P {Y = yj /X = xi } = para todo yj (8.14)
pX (xi )
Nota: Observe que en (8.13), yj está fijo. Por tanto, puede definirse una distribución condi-
cional para cada valor posible yj de Y . Lo mismo sucede en (8.14)
Ejemplo 8.12. Considere la variable bidimensional discreta descrita en el Ejemplo (8.1). La

distribución condicional de X dado Y = 2 se obtiene de la siguiente manera.
0.05
pX/Y =2 (0) = P {X = 0/Y = 2} = = 0.25
0.2
0.05
pX/Y =2 (1) = P {X = 1/Y = 2} = = 0.25
0.2
0.1
pX/Y =2 (2) = P {X = 2/Y = 2} = = 0.5
0.2
Note que pX/Y =2 (0) + pX/Y =2 (1) + pX/Y =2 (2) = 1, esto muestra que pX/Y =2 (x) es una distribu-
ción de probabilidad válida. Otras distribuciones condicionales están dadas en las tablas (8.3) y
(8.4). Observe que cada fila de las tablas representa una distribución de probabilidad diferente.
Las columnas, en cambio, no tienen un significado especı́fico.
Tabla 8.3:
X 0 1 2
pX/Y =0 (xi ) 2/7 1/7 3/7
pX/Y =1 (xi ) 1/3 2/3 0
pX/Y =2 (xi ) 0.25 0.25 0.5
pX/Y =3 (xi ) 0 2/3 1/3
Tabla 8.4:
y 0 1 2 3
pY /X=0 (yj ) 2/5 2/5 1/5 0
pY /X=1 (yj ) 1/8 1/2 1/8 1/4
pY /X=2 (yj ) 4/7 0 2/7 1/7
Definición 8.10. Sea (X, Y ) una variable aleatoria bidimensional continua con rango espacial
RXY y función de densidad conjunta f (x, y). Se define la función de densidad condicional
de X dado Y = y, como sigue
f (x, y)
fX/Y =y (x) = para x ∈ RX/Y = {x : (x, y) ∈ RXY } (8.15)
fY (y)
Similarmente la distribución condicional de Y dado X = x se define por
f (x, y)
fY /X=x (y) = para y ∈ RY /X = {x : (x, y) ∈ RXY } (8.16)
fX (x)
Nota: Como en el caso discreto, en (8.15) y está fija, por lo tanto cada valor posible y de Y
induce a una distribución condicional fX/Y =y (x) de X distinta.
Nota: Las distribuciones condicionales tienen todas las propiedades de las distribuciones gen-
erales. En particular, Z
fX/Y =y (x)dx = 1
RX/y
Ejemplo 8.13. Considere la variable aleatoria (X, Y ) descrita en el Ejemplo (8.9). Recuerde
que: (
8xy si 0 ≤ x ≤ 1, x ≤ y ≤ 1
f (x, y) = ,
0 otro caso
fX (x) = 4x(1 − x2 ), 0≤x≤1y

3
fY (y) = 4y , 0≤y≤1
Por lo tanto,
8xy 2x
fX/Y =y = 3
= 2 0≤x≤1
4y y
8xy 2y
fY /X=x = 2
= x≤y≤1
4x(1 − x ) 1 − x2
Note que la manera más fácil de encontrar RX/y es utilizando el gráfico de RXY (Figura (8.2)).
Observe también que cada una de las expresiones anteriores provee una descripción general de
una familia de distribuciones condicionales. Asignando diferentes valores numéricos a y (re-
spectivamente, x) obtendremos diferentes distribuciones condicionales especı́ficas para X (re-
spectivamente, Y). Por ejemplo:
2x
fX/Y =0.5 = = 8x 0 ≤ x ≤ 0.5
0.52
2x
fX/Y =0.8 = = 3.125x 0 ≤ x ≤ 0.8
0.82
2y
fY /X=0.4 = = 2.5y 0.4 ≤ y ≤ 1
1 − 0.42
El lector puede verificar que en cada caso la integral sobre el rango condicional equivale a 1.
En los siguientes ejemplos se muestra el tipo de cálculos que puede efectuarse utilizando las
distribuciones condicionales:
Z 0.3 Z 0.3
P {X ≤ 0.3/Y = 0.5} = fX/Y =0.5 (x)dx = 8xdx = 0.36
0 0
Z 0.8 Z 0.8
P {X ≥ 0.5/Y = 0.8} = fX/Y =0.8 (x)dx = 3.125xdx = 0.61
0.5 0.5
Z 0.9 Z 0.9
P {0.6 ≤ Y ≤ 0.9/X = 0.4} = fY /X=0.4 (y)dy = 2.5ydy = 0.56
0.6 0.6
8.5. Valor Esperado Condicional
Como en el caso de la Sección 5.5 , si se tiene una distribución condicional, resulta natural
definir el valor esperado condicional. Esto es, por ejemplo, el valor esperado de X dado que
conocemos que Y toma un valor especı́fico Y = y.
Definición 8.11. Sea (X, Y ) una variable aleatoria bidimensional, definimos el valor esperado
condicional de X dado que Y = y como:
a) Si (X, Y ) es discreta X
E(X/Y = yj ) = xi pX/Y =yj (xi ) (8.17)
RX/y
Z
E(X/Y = y) = xfX/Y =y (x)dx (8.18)
RX/y
El valor esperado de Y dado X = x se define de forma similar.

Ejemplo 8.14. Considere nuevamente (X, Y ) como se definió en el Ejemplo (8.9) y (8.13).
Entonces Z y Z y Z y 2
2x 2x 2
E(X/Y = y) = xfX/Y =y (x) = x 2 dx = 2
dx = y
0 0 y 0 3y 3
Note que E(X/Y = y) es una función de y, de modo que valores de y generan diferentes valores
esperados condicionale. Por ejemplo,
1
E(X/Y = 0.5) = (2/3) · 0.5 =
3
8
E(X/Y = 0.8) = (2/3) · 0.8 =
15
El lector puede verificar que estos valores son los mismos obtenidos al integrar las respectivas
distribuciones condicionales dadas en el Ejemplo 8.13. Por ejemplo:
Z 0.5
E(X/Y = 0.5) = 1/3 = x · 8xdx.
0
Observe que como E(X/Y = y) es una función de y, e y es un valor de la variable aleatoria

Y , entonces E(X/Y ) es una función de Y , y por lo tanto es también una variable aleatoria. El
siguiente teorema es análogo al Teorema 5.4 (de la Esperanza Total).
Teorema 8.2. Sea (X, Y ) una variable aleatoria bidimensional. Entonces
E(X) = E(E(X/Y )) (8.19)
Nota: Observe que para el caso en que (X, Y ) es continua (8.19) implica
Z
E(X) = E(X/Y = y)fy (y)dy
RY
El lector puede encontrar una expresión similar para el caso discreto.
8.6. Independencia y Correlación
Definición 8.12. Sea (X, Y ) una variable aleatoria bidimensional, se dice que X e Y son
independientes si
p(xi , yj ) = pX (xi ) · pY (yj ) para todo (xi , yj ) ∈ RXY (8.20)
f (x, y) = fX (x) · fY (y) para todo (x, y) ∈ RXY (8.21)
Teorema 8.3. Sea (X, Y ) una variable aleatoria bidimensional, si X e Y son independientes,
entonces
pX/Y =yj (xi ) = pX (xi )

para todo (xi , yj ) ∈ RXY .
pY /X=xi (yj ) = pY (yj )
fX/Y =y (x) = fX (x)

para todo (x, y) ∈ RXY .
fY /X=x (y) = fY (y)
Nota: La Definición 8.12 es una formalización del mismo concepto de independencia que hemos
utilizado anteriormente. Dice que dos variables aleatorias X e Y son independientes si un evento
asociado con X es independiente de cualquier evento relacionado con Y .
Ejemplo 8.15. Considere (X, Y ) como en el Ejemplo (8.8). Claramente:
1 1 1
f (x, y) = xy = x · y = fX (x)fY (y).
240 10 24
Por lo tanto X e Y son independientes.
Ejemplo 8.16. Considere (X, Y ) como en el Ejemplo (8.9). Note que:
f (x, y) = 8xy 6= 4x(1 − x2 ) · 4y 3 = fX (x)fY (y).
Por lo tanto X e Y no son independientes.
Cuando dos variables aleatorias X e Y no son independientes, es deseable medir el ”grado de

asociación entre X e Y . Las siguientes definiciones permiten hacer esto.
Definición 8.13. Sea (X, Y ) una variable aleatoria bidimensional. Definimos la covarianza
entre X e Y como:
Cov(X, Y ) = E[(X − E(X))(Y − E(Y ))] = E(XY ) − E(X)E(Y ) (8.22)
Nota: De la Propiedad V4. de la Varianza en la Sección 5.2 tenemos que:
V (X + Y ) = V (X) + V (Y ) − 2E[(X − E(X))(Y − E(Y ))] = V (X) + V (Y ) + 2Cov(X, Y )
Teorema 8.4. Si X e Y son independientes, entonces E(XY ) = E(X)E(Y ) (Propiedad E6.

del valor esperado en la Sección 5.1), y Cov(X, Y ) = 0.
Nota: Lo contrario del Teorema (8.4) no es cierto en general, es decir, Cov(X, Y ) = 0 no

implica que X e Y sean independientes.
Definición 8.14. Sea (X,Y) una variable aleatoria bidimensional. Sedefine el coeficiente de
correlación entre X e Y como:
Cov(X, Y )
ρXY = (8.23)
σX σY
Se puede demostrar que el coeficiente de correlación satisface −1 ≤ ρXY ≤ 1. ρXY puede

interpretarse como una medida de dependencia lineal entre X e Y , como sigue: Un valor de
ρXY cercano a +1 o −1 implica que la relación entre X e Y es cercana a la lineal. Un valor
de ρXY cercano a cero implica que la relación entre X e Y es distinta a la lineal. De hecho,
ρXY = 1 si y sólo si Y = aX + b, con a > 0, y ρXY = −1 si y sólo si X = aY + b, con a < 0
Nota: Covarianza y la correlación son conceptos clave en Estadı́stica. Particularmente en

tópicos como regresión y diseño experimental.

Gatica Ricardo - Probabilidades

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Gatica Ricardo - Probabilidades

Caricato da

Copyright:

Formati disponibili

Probabilidad Para Ingenieros

Ricardo Gatica Escobar, Ph.D.

1.1. Definiciones y Conceptos Básicos

Fenómeno: Cualquier ocurrencia o hecho en la naturaleza que es observable y medible.

Fenómeno Determinı́stico: Su comportamiento (resultado) está completamente deter-

Fenómeno Aleatorio (no-determinı́stico, estocástico, probabilı́stico): Su comportamien-

En esta clase estudiaremos fenómenos que presentan dos caracterı́sticas importantes:

Nota: Observe que la regularidad estadı́stica no implica que el resultado de la n-ésima

¿Fenómenos aleatorios o Modelos aleatorios?

¿Qué es Teorı́a de la Probabilidad?

Teorı́a de la Probabilidad v/s Estadı́stica

Ejemplo 1.9. Basados en el número de fumadores observado en una encuesta (normalmente

1.2. Conceptos básicos en Teorı́a de la Probabilidad

Definición 1.1. Sea E un experimento, se define el espacio muestral de E, denotado S,

Ejemplo 1.11. Si una moneda es lanzada exactamente dos veces, entonces S =

Ejemplo 1.12. Cuando se testea la duración de una ampolleta, S = {t |t ≥ 0} = <+ .

Cardinalidad del espacio muestral

Cardinalidad se refiere al número de elementos en el espacio muestral.

Definición 1.3. Se dice que un espacio muestral es continuo si su cardinalidad es no-contable.

Ejemplo 1.17. El espacio muestral descrito en el Ejemplo 1.12 es continuo.

Definición 1.4. Sea E un experimento, S un espacio muestral asociado con E, y A ⊆ S. Se

Ejemplo 1.20. Si el experimento E consiste en lanzar dos dados diferentes

Algebra de los eventos

9. A0 = S − A ⊆ S. A0 is denominado como el evento complementario de A.

Definición 1.5. Se dice que dos eventos A y B don mutuamente excluyentes si A ∩ B = ∅.

Definición 1.6. Un conjunto A1 , A2 , . . . , An de eventos es una partición del espacio muestral

Sea E un experimento y S un espacio muestral asociado con E. Sean A y B dos eventos en S.

Definición 1.7. La Frecuencia Relativa del evento A se define como na /n =: fA (también

Propiedades de la frecuencia relativa

f2. fA = 1 si y solo si A ocurre en todas las repeticiones.

f3. fA = 0 si y solo si A no ocurre.

f4. fA∪B = fA + fB − fA∩B .

f5. fA∪B = fA + fB si y solo si A y B son mutuamente excluyente.

1.3. Definiciones de Probabilidad

Definición 1.8. (clásica) Si un experimento tiene asociado un espacio muestral S compuesto

La equación 1.1 es comúnmente expresada de la siguiente manera:

La definición clásica de probabilidad tiene dos limitaciones importantes: Primero, es circular en

P (A) = suma de las probabilidades de los resultados en A (1.3)

Ejemplo 1.23. Sea E el experimento de lanzar un dado balanceado, y A el evento de obtener

La definición de probabilidad basada en el concepto de frecuencia relativa provee una herramien-

P4. Para un set A1 , A2 , . . . , Ak de eventos mutuamente excluyentes,

P (A1 ∪ A2 ∪ . . . ∪ Ak ) = P (A1 ) + P (A2 ) + . . . + P (Ak )

P5. P (A0 ) = 1 − P (A)

P6. P (A ∪ B) = P (A) + P (B) − P (A ∩ B)

P7. Si A ⊆ B, entonces P (A) ≤ P (B)

Interpretación subjetiva de probabilidad

La definición Axiomática de probabilidad constituye un set no ambiguo de propiedades que una

Definición 1.11. Dado un experimento E, se denomina Espacio de Probabilidad a un

Tabla 1.1: Espacio de probabilidad Ejemplo 1.25

Espacios de Probabilidad Finitos y

2.1. Espacios de Probabilidad Finitos

Si un espacio muestral consiste en un número finito de elementos, la Ecuación (1.3) implica

1. Un espacio muestral de la forma S = {s1 , s2 , . . . , sn }

2. Un conjunto {p1 , p2 , . . . , pn }, denominado distribución de probabilidad, que satisface las

donde pi = P ({si }).

La probabilidad de un evento A = {s[1] , s[2] , . . . , s[k] }, k ≤ n es entonces calculada por

P (A) = p[1] + p[2] + . . . + p[k] (2.1)

Observe que agregando la definición P (∅) = 0, la descripción anterior es completamente con-

P (B) = .1 + .3 + .05 + .1 = .55

P (C) = .05 + .15 + .1 + .1 = .4

A ∪ B = {a, b, c, d, f } y P (A ∪ B) = .1 + .2 + .3 + .05 + .1 = .75

2.2. Espacios de Probabilidad Finitos Uniformes

Quiz: Encuentre la distribución de probabilidades asociada al espacio muestral descrito en el