Sei sulla pagina 1di 108

Probabilidad Para Ingenieros

Apuntes EII-346

Ricardo Gatica Escobar, Ph.D.

5 de noviembre de 2003
Capı́tulo 1

Introducción

1.1. Definiciones y Conceptos Básicos

Definiciones

Fenómeno: Cualquier ocurrencia o hecho en la naturaleza que es observable y medible.

Fenómeno Determinı́stico: Su comportamiento (resultado) está completamente deter-


minado por las condiciones en las que el fenómeno ocurre.

Ejemplo 1.1. La distancia (D) recorrida por un móvil que se desplaza a velocidad con-
stante es D = vt, donde v representa la velocidad y t representa el tiempo de desplaza-
miento.

Ejemplo 1.2. La orbita que describe la Tierra alrededor del Sol es una función compleja
de las masas, posiciones, formas y velocidades de todos los cuerpos del Sistema Solar.

Fenómeno Aleatorio (no-determinı́stico, estocástico, probabilı́stico): Su comportamien-


to no está completamentamente determinado por las condiciones en las que el fenómeno
ocurre. Dadas ciertas condiciones iniciales (entradas) y ciertas acciones, el resultado es
incierto, puede ser cualquier elemento de un set de posibles resultados.

Ejemplo 1.3. Al lanzar una moneda al aire, parece ser el caso que no existen condiciones
iniciales o información alguna que perimita predecir si el resultado será cara o sello.

Ejemplo 1.4. ¿Puede Ud. predecir la duración de una ampolleta, o el tiempo entre dos
fallas sucesivas de un automóvil, o el tiempo exacto que toma el viaje de casa a la uni-
versidad cada dı́a?

1
Ricardo Gatica E. Probabilidad para Ingenieros 2

En esta clase estudiaremos fenómenos que presentan dos caracterı́sticas importantes:


Espacio muestral fijo: El set de posibles resultados es el mismo para toda ocurrencia
del fenómeno.
Regularidad Estadı́stica: Suponga que un fenómeno puede ser observado bajo las
mismas condiciones un número ilimitado de veces, entonces la secuencia de resultados
generados presenta cierta “regularidad” o “estabilidad” que permite construir modelos
matemáticos para representar el fenómeno y hacer inferencias probabilı́sticas respecto de
su comportamiento.
Ejemplo 1.5. Si una moneda balanceada es lanzada repetidamente, la proporción de
veces que se obtiene cara tiende a estar alrededor del 50 % a medida que el número de
lanzamientos se incrementa.
Ejemplo 1.6. Si un dado no cargado es lanzado repetidamente, la proporción de 10 s que
se obtiene es cercana a 1/6.

Nota: De hecho, no todos los fenómenos aleatorios parecen satisfacer las condiciones
anteriores. Por ejemplo, el número de personas que visita un parque de entretenciones
(el fenómeno) no es el mismo todos los dı́as de la semana (ocurrencias del fenómeno),
el tiempo entre fallas de una máquina tiende a disminuir en la medida que aumenta el
tiempo de uso (edad) de la máquina. Muchas veces, redefinir el fenómeno en estudio es
suficiente para evitar este problema. En otras, sin embargo, modelos más sofisticados se
hacen necesarios. Para nuestros propósitos, si un fenómeno no satisface estas condiciones,
trataremos sus ocurrencias como diferentes fenómenos.
Ejemplo 1.7. Considere otra vez un parque de entretenciones. En general, esperarı́amos
que el número de personas que asisten en fines de semana es significativamente mayor que
en dı́as de semana. Por lo tanto, es aconsejable considerar diferentes dı́as de la semana
como diferentes fenómenos. Es tambien razonable esperar, por ejemplo, que todos los lunes
asistirá aproximadamente el mismo número de personas, por lo tanto asumimos que los
lunes de diferentes semanas son distintas ocurrencias del mismo fenómeno.

Nota: Observe que la regularidad estadı́stica no implica que el resultado de la n-ésima


repetición de un fenómeno se hace mas predecible a medida que n se incrementa.
Modelo Matemático: Es una representación matemática de un fenómeno, desarrollado
con el objeto de estudiar el fenómeno. Las caracterı́sticas del modelo no solo dependen de
la naturaleza del fenómeno, sino también, en un grado importante, en el objetivo especı́fico
del estudio. Esto implica que pueden existir muchos modelos diferentes asociados al mismo
fenómeno.
Experimento: Es la repetición de un fenómeno bajo condiciones controladas (para los
propósitos de este curso no haremos distinción entre un experimento y una ocurrencia
natural del fenómeno).
Ricardo Gatica E. Probabilidad para Ingenieros 3

¿Fenómenos aleatorios o Modelos aleatorios?

¿Existen los fenómenos aleatorios en el mundo real?. La respuesta parece simple. Nuestra vida
está llena de situaciones en que experimentamos la incertidumbre. Los ejemplos 1.3 y 1.4 son
una pequeña muestra. Para los matemáticos y estadı́sticos, sin embargo, la respuesta es menos
clara. Algunos de ellos creen que la aleatoriedad es una propiedad intrı́nseca de la naturaleza.
Esto implica que para algunos fenómenos, incluso el conocimiento exacto y completo de las
condiciones iniciales no es suficiente para predecir el resultado en forma exacta. Otros piensan
que el mundo es completamente determinı́stico y que el concepto de incertidumbre solo refleja
nuestra falta de conocimiento respecto de los factores y relaciones (por ejemplo, las leyes fı́sicas)
que gobiernan la evolución de los distintos procesos que ocurren en la naturaleza.

Afortunadamente, la Teorı́a de la Probabilidad (el objeto de este curso) ha mostrado ser útil
para modelar sistemas complejos, independientemente de cual de la visiones reseñadas en el
párrafo anterior es correcta. Desde un punto de vista práctico, la selección entre un modelo
determinı́stico o un modelo aleatorio esta fuertemente influenciada por el objetivo de estudio.
Un fenómeno supuestamente aleatorio puede ser representado por un modelo determinı́stico si
sólo se necesitan estimadores gruesos de una medida de desempeño. Por otro lado, un mode-
lo aleatorio puede ser apropiado para representar un sistema determı́nistico extremadamente
complejo.

Es prudente establecer que este curso se concentra en modelos aleatorios más que en fenómenos
aleatorios, sin embargo, no profundizaremos mayormente en la diferencia entre estos conceptos.

¿Qué es Teorı́a de la Probabilidad?

Teorı́a de la Probabilidad es la rama de las matemáticas que ha sido desarrollada para lidiar con
el concepto de aleatoriedad o incertidumbre. Provee el soporte matemático, los fundamentos
conceptuales, las leyes y un lenguaje común para modelar fenómenos (o experimentos) aleato-
rios. A un nivel muy básico, el propósto de estos modelos es entender y analizar la estructura
de probabilidades de los diferentes resultados posibles del fenómeno.

Ejemplo 1.8. Un modelo para calcular la probabilidad que al lanzar simultáneamente n mon-
edas balanceadas, en exactamente k de ellas se obtenga cara es
n!
k!(n − k)!

Teorı́a de la Probabilidad v/s Estadı́stica

La Estadı́stica es la disciplina relacionada con los métodos cientificos para la recolección, organi-
zación, presentación y análisis de un set de datos (generalmente, observados bajo incertidunbre),
con el objeto de obtener conclusiones que sean útiles en un proceso de toma de decisiones.
Ricardo Gatica E. Probabilidad para Ingenieros 4

La Teorı́a de la Probabilidad provee los fundamentos para la ciencia estadı́stica, como también
para varias otras disciplinas, tales como Teorı́a de la Confiabilidad, Teorı́a de Colas, Procesos
Estocásticos, Análisis de Riesgo Financiero, etc.

Por otro lado, la gran mayorı́a de las veces, los modelos probabilı́sticos se basan en ciertos
valores numéricos denominados parámetros, que son caracterı́sticos del fenómeno estudiado.
Con frecuencia, en la vida real, los valores de estos parámetros son desconocidos. La inferencia
estadı́stica es utilizada en estos casos para estimar los valores de los parámetros a partir de
datos observados de la realidad.

Ejemplo 1.9. Basados en el número de fumadores observado en una encuesta (normalmente


hecha a solo una muestra de la población), podemos utilizar un modelo estadı́stico para estimar
la fracción de fumadores en la población. Conociendo este parámetro, utilizamos un modelo
de probabilidad para estimar el contenido probable de cualquier muestra o subconjunto de la
población sin necesidad de nuevas encuestas.

1.2. Conceptos básicos en Teorı́a de la Probabilidad

Espacio muestral

Definición 1.1. Sea E un experimento, se define el espacio muestral de E, denotado S,


como el set de todos los resultados posibles de E.

Ejemplo 1.10. Si un experimento consiste en lanzar una moneda exactamente una vez, en-
tonces S = {cara, sello} = {C, T }.

Ejemplo 1.11. Si una moneda es lanzada exactamente dos veces, entonces S =


{(C, C), (C, T ), (T, C), (T, T )}.

Quiz: ¿Cual es el espacio muestral si dos monedas diferentes son lanzadas simultáneamente?.
¿Como se modifica su respuesta si las monedas son indistinguibles?.

Ejemplo 1.12. Cuando se testea la duración de una ampolleta, S = {t |t ≥ 0} = <+ .

Ejemplo 1.13. Si E consite en lanzar dos dados diferentes y registrar los valores respectivos,
entonces  
 (1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6)

 



 (2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6)



 

 (3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6)
S=


 (4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6)


 



 (5, 1), (5, 2), (5, 3), (5, 4), (5, 5), (5, 6)



 
(6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6)
Ricardo Gatica E. Probabilidad para Ingenieros 5

Ejemplo 1.14. Si dos dados son lanzados y se registra la suma de los resultados respectivos,
S = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}.

Estos ejemplos muestran que el espacio muestral no es una caracterı́stica del objeto utilizado en
el experimento, sino que depende de la definición completa del experimento a realizar. Observe
como dos experimentos esencialmente iguales pueden definir espacios muestrales diferentes. Es
por eso que estrictamente hablando debe decirse “un espacio muestral asociado al experimento
E”, y no “el espacio muestral del experimento E”. En la Sección ?? veremos como el con-
cepto de variable aleatoria permite relacionar dos espacios muestrales asociados con un mismo
experimento.

Cardinalidad del espacio muestral

Cardinalidad se refiere al número de elementos en el espacio muestral.

Definición 1.2. Se dice que un espacio muestral es discreto, si sus elementos pueden colocarse
en relacion 1-1 con el set de números naturales. Es decir, si su cardinalidad es finita o infinita-
contable.

Ejemplo 1.15. Los espacios muestrales descritos en los ejemplos 1.10-1.11 y 1.13-1.14 son
todos discretos.

Ejemplo 1.16. Asuma que el experimento E consiste en lanzar una moneda repetı́damente
hasta obtener cara, y registrar el número de lanzamientos. Observe que aunque nuestra intu-
ición indica que el número de lanzamientos tiene que ser finito, es decir, en algun instante
necesariamente se obtendrá cara, no podemos establecer a priori un número máximo de lanza-
mientos. El espacio muestral en este caso es entonces S = {1, 2, 3, . . .}. note que S es discreto
pero infinito.

Definición 1.3. Se dice que un espacio muestral es continuo si su cardinalidad es no-contable.


En general en este caso, el espacio muestral corresponde a uno o varios intervalos en <.

Ejemplo 1.17. El espacio muestral descrito en el Ejemplo 1.12 es continuo.

Nota: Comúnmente, los espacios muestrales continuos están relacionados con tiempo, distan-
cias, masa u otra cantidad de medida no contable.

Ejemplo 1.18. Suponga que se desea estudiar las fallas de una máquina. Cada vez que la
máquina falla se registra el tipo de falla y el tiempo que toma la reparación. Observe que el
set de posibles resultados asociados al tipo de falla es discreto, pero el tiempo de reparación es
continuo. En este caso debe decidirse si estos aspectos serán estudiados en forma independiente
o conjunta. La decisión depende del objetivo de estudio. Si, por ejemplo, se desea saber como el
tipo de falla influencia el tiempo de reparación, la segunda opción es la adecuada. En tal caso,
tendrı́amos un espacio muestral de dos dimensiones, una de ellas discreta y la otra continua.
Se dice que un experimento de este tipo tiene un espacio muestral mixto.
Ricardo Gatica E. Probabilidad para Ingenieros 6

Eventos

Definición 1.4. Sea E un experimento, S un espacio muestral asociado con E, y A ⊆ S. Se


dice que A es un evento en S, o cuando no hay confusión posible, que A es un evento en E.

En palabras, un evento es cualquier subconjunto del espacio muestral. Un evento agrupa los
resultados que comparten una propiedad de interés. Un resultado individual es en ocasiones
denominado evento elemental. Por definición ∅ y S son también eventos.

Ejemplo 1.19. Si una moneda es lanzada exactamente dos veces (Ejemplo 1.11), el evento de
obtener al menos una cara es A = {(C, C), (C, T ), (T, C)}.

Ejemplo 1.20. Si el experimento E consiste en lanzar dos dados diferentes


(Ejemplo 1.13), el evento de obtener dos pares o suma mayor a 10 es A =
{(2, 2), (2, 4), (2, 6), (4, 2), (4, 4), (4, 6), (6, 2), (6, 4), (6, 6)}, (5, 6), (6, 5)}.

Ejemplo 1.21. El evento que una ampolleta dure más de r unidades de tiempo puede expresarse
como A = {t |t > r}.

Algebra de los eventos

Todas las propiedades y operaciones asociadas con conjuntos aplican a espacios muestrales y
eventos. En particular, si A, B y C son eventos en un espacio muestral S, se cumple que:

1. A ∪ B ⊆ S (A ∪ B es también un evento).

2. A ∩ B ⊆ S

3. A ∪ S = S

4. A ∩ S = A

5. A ∪ B = B ∪ A

6. A ∩ B = B ∪ A

7. A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)

8. A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)

9. A0 = S − A ⊆ S. A0 is denominado como el evento complementario de A.

10. (A ∪ B)0 = A0 ∩ B 0

11. (A ∩ B)0 = A0 ∪ B 0

12. (A0 )0 = A
Ricardo Gatica E. Probabilidad para Ingenieros 7

Definición 1.5. Se dice que dos eventos A y B don mutuamente excluyentes si A ∩ B = ∅.


Un conjunto A1 , A2 , . . . , An de eventos es mutuamente excluyentes si Ai y Aj son mutuamente
excluyentes para todo 1 ≤ i, j ≤ n, i 6= j (ver figura 1.1).

Definición 1.6. Un conjunto A1 , A2 , . . . , An de eventos es una partición del espacio muestral


S si S = A1 ∪ A2 ∪ . . . ∪ An , y A1 , A2 , . . . , An son mutuamente excluyentes.

Ejemplo 1.22. Sea S = {1, 2, . . . , 10}, A1 = {1, 2, 3, 4}, A2 = {5, 7, 9} y A3 = {6, 8, 10}.
Entonces A1 , A2 y A3 representan un partición de S.

Frecuencia Relativa

Sea E un experimento y S un espacio muestral asociado con E. Sean A y B dos eventos en S.


Suponga que E es repetido n veces y defina nA y nB como el número de veces que se obtiene
A y B, respectivamente (observe que en general, A y B pueden ocurrir simultáneamente).

Definición 1.7. La Frecuencia Relativa del evento A se define como na /n =: fA (también


denotada f (A)).

Propiedades de la frecuencia relativa

f1. 0 ≤ fA ≤ 1.

f2. fA = 1 si y solo si A ocurre en todas las repeticiones.

f3. fA = 0 si y solo si A no ocurre.

f4. fA∪B = fA + fB − fA∩B .

f5. fA∪B = fA + fB si y solo si A y B son mutuamente excluyente.

f6. fA0 = 1 − fA .

f7. lı́mn→∞ fA existe. Es decir, fA converge cuando n tiende a infinito. Esta es una conse-
cuencia de la regularidad estadı́stitica mencionada anteriormente.

1.3. Definiciones de Probabilidad

Definición 1.8. (clásica) Si un experimento tiene asociado un espacio muestral S compuesto


por n (finito) elementos igualmente probables, entonces la probabilidad de un evento A en S
está dada por
número de resultados en A nA
P (A) = = (1.1)
número de resultados totales n
Ricardo Gatica E. Probabilidad para Ingenieros 8

La equación 1.1 es comúnmente expresada de la siguiente manera:


resultados favorables
P (A) = (1.2)
resultados totales

La definición clásica de probabilidad tiene dos limitaciones importantes: Primero, es circular en


el sentido que asume que los posibles resultados del experimento son igualmente “probables”
(tienen la misma probabilidad). Segundo, no aplica cuando el número de resultados en el espacio
muestral es infinito. Sin embargo, a pesar de estas limitaciones, esta definición provee una
herramienta útil en muchos casos, y una intuición general acerca de concepto de probabilidad.

Una generalización, aunque también circular, de la Definición 1.8 esta dada por

P (A) = suma de las probabilidades de los resultados en A (1.3)

Ejemplo 1.23. Sea E el experimento de lanzar un dado balanceado, y A el evento de obtener


un resultado mayor a 4, entonces
resultados favorables 2
P (A) = =
resultados totales 6
o equivalentemente,
1 1
P (A) = P ({5}) + P ({6}) = +
6 6
Ejemplo 1.24. Suponga que para un experimento S = [10, 20] (el intervalo de los reales entre
10 y 20), y que todos los resultados son igualmente probables. Si se define A = [12, 16], parece
intuitivamente razonable que
resultados favorables 16 − 12 4
P (A) = = =
resultados totales 20 − 10 10
Veremos en secciones posteriores, que este es efectivamente el caso.
Definición 1.9. (basada en el concepto de frecuencia relativa) Suponga un experimento E que
puede ser repetido bajo las mismas condiciones un número indefinido de veces. Se define la
probabilidad del evento A como
P (A) = lı́m fA . (1.4)
n→∞

Obsevar que la existencia del lı́mite está garantizado por la propiedad f7. de la frecuencia
relativa.

La definición de probabilidad basada en el concepto de frecuencia relativa provee una herramien-


ta empı́rica para estimar probabilidades asociadas con diferentes eventos cuando los resultados
no son igualmente probables. En particular, si el espacio muestral es finito, puede usarse la
Ecuación 1.4 para estimar la probabilidad de cada uno de los posibles resultados, y después la
Ecuación 1.3 para calcular la probabilidad de un evento cualquiera.
Ricardo Gatica E. Probabilidad para Ingenieros 9

La principal limitación de este enfoque es que solo aplica a fenómenos que son repetibles. Incluso
cuando ese es el caso, la definición no provee ningún criterio respecto de que tan grande debe
ser el número de repeticiones par obtener un “buen” estimador de P (A). De hecho este es un
problema de carácter estadı́stico.

La siguiente es una definición abstracta que soslaya las dificultades de los enfoques anteriores y
provee un marco matemático preciso para calcular y operar con probabilidades. Además, bajo
las condiciones respectivas, ambos enfoques pueden interpretarse en el contexto de este marco.

Definición 1.10. (axiomática) Sea E un experimento. Sea S un espacio muestral asociado con
E. Se denomina función de probabilidad, o simplemente probabilidad, a la función P ( ) que
asocia con cada evento A en S, un número real P (A) que satisface las siguientes propiedades:

P1. 0 ≤ P (A) ≤ 1

P2. P (S) = 1

P3. P (∅) = 0

P4. Para un set A1 , A2 , . . . , Ak de eventos mutuamente excluyentes,

P (A1 ∪ A2 ∪ . . . ∪ Ak ) = P (A1 ) + P (A2 ) + . . . + P (Ak )

Puede demostrarse fácilmente que P1., P2. y P4 implican P3. Otras propiedades son las sigu-
ientes:

P5. P (A0 ) = 1 − P (A)

P6. P (A ∪ B) = P (A) + P (B) − P (A ∩ B)

P7. Si A ⊆ B, entonces P (A) ≤ P (B)

Interpretación subjetiva de probabilidad

La definición Axiomática de probabilidad constituye un set no ambiguo de propiedades que una


función de probabilidades debe satisfacer. Sin embargo, no provee orientación alguna respecto de
como estas probabilidades pueden ser calculadas o interpretadas. En algunos casos, la definición
clásica y la basada en frecuencia relativa proveen tal orientación. Pero ¿qué sucede si el fenómeno
no puede repetirse bajo las mismas condiciones y el espacio muestral no es finito o equiprobable?.
En algunos casos, se pueden hacer supuestos repecto del comportamiento del fenómeno basados
en consideraciones fı́sicas, o alguna teorı́a previa. Pero en muchos otros, la probabilidad solo
puede ser intepretada como un grado de convicción personal respecto de las posibilidades de
ocurrencia de un evento. En estos casos, se habla de “probabilidades subjetivas”, y tı́picamente
se las expresa en términos de porcentaje.
Ricardo Gatica E. Probabilidad para Ingenieros 10

Por ejemplo, asuma que Ud. piensa que la probabilidad que el señor A gane las próximas
elecciones municipales es a. Suponga que Ud. tiene la posibilidad de participar en el siguiente
juego: Si el señor A gana las elecciones, Ud. gana X pesos, en otro caso, Ud. paga 1 peso. Parece
razonable que si a es muy pequeño, X debe ser muy grande para que Ud. decida jugar. Por otro
lado, si X es grande, implica, que la persona que diseño el juego estima que la probabilidad que
gane A es muy pequeña. ¿Puede X ser calculada desde a, o viceversa?. En secciones posteriores,
veremos que la respuesta a esta pregunta es en cierto sentido afirmativa. Mientras tanto, ¿le
parece razonable que si a = 10 %, entonces debe X ≥ 9 para que Ud. participe en el juego?.

Espacio de probabilidad

Definición 1.11. Dado un experimento E, se denomina Espacio de Probabilidad a un


espacio muestral S junto con una asignación de probabilidad para todos los eventos contenidos
en S. Formalmente, si F es la familia de todos los eventos en S, y P ( ) es una función de
probabilidad, el espacio de probabilidad es la terna (S, F, P ).

Ejemplo 1.25. Sea S = {a, b, c}. Se tiene F = {{∅}, {a}, {b}, {c}, {a, b}, {a, c}, {b, c}, {a, b, c}}.
El espacio de probabilidad (asumiendo resultados equiprobables) es descrito en el Tabla 1.1.

Tabla 1.1: Espacio de probabilidad Ejemplo 1.25

Evento Probabilidad
{∅} 0
{a} 1/3
{b} 1/3
{c} 1/3
{a,b} 2/3
{a,c} 2/3
{b,c} 2/3
{a,b,c} 1

Nota: Observe que, en principio, la descripción del espacio de probabilidad asociado con un
experimento requiere el listado completo de todos los posibles eventos con sus probabilidades
respectivas. Afortunadamente, veremos en secciones posteriores que, en la mayorı́a de los casos,
existe una forma mucho más compacta de representar el espacio de probabilidad.
Capı́tulo 2

Espacios de Probabilidad Finitos y


Técnicas de Enumeración

2.1. Espacios de Probabilidad Finitos

Si un espacio muestral consiste en un número finito de elementos, la Ecuación (1.3) implica


que la probabilidad de cualquier evento puede calcularse como la suma de las probabilidades
individuales de los resultados que constituyen el evento. En otra palabras, la función de proba-
bilidad queda especificada por las probabilidades de los eventos elementales. Más formalmente,
un espacio de probabilidad finito puede describirse completamente por

1. Un espacio muestral de la forma S = {s1 , s2 , . . . , sn }

2. Un conjunto {p1 , p2 , . . . , pn }, denominado distribución de probabilidad, que satisface las


siguientes propiedades:

pi ≥ 0, i = 1, 2, . . . , n
p1 + p 2 + . . . + pn = 1

donde pi = P ({si }).

La probabilidad de un evento A = {s[1] , s[2] , . . . , s[k] }, k ≤ n es entonces calculada por

P (A) = p[1] + p[2] + . . . + p[k] (2.1)

Observe que agregando la definición P (∅) = 0, la descripción anterior es completamente con-


sistente con la definición axiomática de probabilidad (Definición 1.10).

11
Ricardo Gatica E. Probabilidad para Ingenieros 12

Ejemplo 2.1. Sea S = {a, b, c, d, e, f, g} y sea {.1, .2, .3, .05, .15, .1, .1} la distribución de prob-
abilidades de S. Sea A = {a, b, f }, B = {a, c, d, f } y C = {d, e, f, g}. Se tiene que:

P (A) = .1 + .2 + .1 = .4

P (B) = .1 + .3 + .05 + .1 = .55

P (C) = .05 + .15 + .1 + .1 = .4

A ∪ B = {a, b, c, d, f } y P (A ∪ B) = .1 + .2 + .3 + .05 + .1 = .75

A ∩ B = {a, f } y P (A ∩ B) = .1 + .1 = .2

A ∩ B ∩ C = {f } y P (A ∩ B ∩ C) = .1

C 0 = {a, b, c} y P (C 0 ) = .6

2.2. Espacios de Probabilidad Finitos Uniformes

Una tarea básica cuando se analiza un espacio de probabilidad finito es evaluar las probabil-
idades de los resulatados individuales. En el Capı́tulo 1 vimos que el concepto de frecuencia
relativa provee una herramienta para estimar estas probabilidades cuando el experimento puede
repetirse un número ilimitado de veces. Sin embargo, en el caso más general, debe hacerse al-
gunos supuestos para evaluarlas.

Un supuesto común es que todos los resultados son igualmente probables. Aunque de hecho
existe una gran viariedad de fenómenos y experimentos que satisfacen esta propiedad, este no
deja de ser un supuesto muy restrictivo, y no puede hacerse sin una justificación cuidadosa.

Cuando los resultados son igualmente probables, se dice que el espacio de probabilidad
es equi-probable o uniforme. En este caso, utilizado la definición de probabilidad clásica
(Ecuación (1.1)), se tiene que

1
pi = , para todo i = 1, 2, . . . , n
n
k
P (A) = , donde k es el número de elementos en A
n
Ejemplo 2.2. Si se lanza un dado balanceado, se tiene un espacio de probabilidad uniforme
con S = {1, 2, 3, 4, 5, 6} y p1 = p2 = p3 = p4 = p5 = p6 = 1/6.
Ejemplo 2.3. Si el experimento consiste en lanzar dos dados balanceados distinguibles , se
tiene un espacio de probabilidad uniforme con S = {(i, j) : i, j = 1, 2, . . . , 6} y pij = 1/36 para
todo i, j.
Ricardo Gatica E. Probabilidad para Ingenieros 13

Ejemplo 2.4. Si el experimento consiste en lanzar dos dados balanceados distinguibles y regis-
trar la suma de los resultados, se tiene que S = {2, 3, . . . , 12}. En este caso se puede verificar,
por ejemplo, que P ({2}) = 1/36 y P (({5}) = 4/36. Por lo tanto el espacio de probabilidad no
es uniforme.

Quiz: Encuentre la distribución de probabilidades asociada al espacio muestral descrito en el


Ejemplo 2.4.

2.3. Técnicas de Enumeración

La tarea principal cuando se calcula la probabilidades de un evento A asociado a un espacio


muestral finito uniforme S, es calcular el número de resultados en A (resultados favorables) y
el numero total de resultados en S (resultados totales). Esto es trivial si la cardinalidad del
espacio muestral es pequeña (una enumeración total, o un diagrama de árbol es normalmente
suficiente) como en los ejemplos anteriores. En la medida que el tamaño del espacio muestral se
incrementa, esta tarea se vuelve cada vez más difı́cil. En esta sección presentamos una colección
de herramientas que nos permiten abordar esta dificultad. Estas herramientas son conocidas
como técnicas de enumeración, o más informalmente como técnicas de conteo.

1. Diagramas de Arbol

Un diagrama de árbol permite enumerar todas las formas alternativas en que puede resultar
un experimento que consite en k etapas secuenciales. Es útil cuando la cardinalidad del espacio
muestral es pequeña.

Para construir un diagrama de árbol se parte de un punto denominado raı́z y se agrega un


número de ramas equivalentes al número de resultados posibles de la primera etapa. Entonces
se toma cada rama generada en la primera etapa y se divide en tantas ramas como resultados
posibles existen para la segunda etapa si la primera etapa resulta en la forma representada por
la rama que se está examinando. Procediendo de esta manera, para j = 2, 3, . . . , k, tomamos
cada rama generada en la etapa j − 1 y la dividimos en tantas ramas como resultados posibles
existen para la etapa j si las etapas 1 a j − 1 resultan de la forma representada por la ruta
desde la raı́z hasta la rama actual. El número total de resultados del experimento es el número
total de ramas generadas en la etapa k.

Ejemplo 2.5. Suponga que se tiene un estante con tres cajones, cada cajón tiene dos com-
partimientos. En un cajón hay dos monedas de oro (una en cada compartimiento). En el otro
cajón, hay dos monedas de plata. En el último cajón hay una moneda de oro y una de plata. Si
se selecciona aleatoriamente un cajón y un compartimiento, ¿cuál es la probabilidad de encon-
trar una moneda de oro?. Si la moneda encontrada es oro, ¿cuál es la probabilidad que el otro
compartimiento del mismo cajón contenga una moneda de plata?.
Ricardo Gatica E. Probabilidad para Ingenieros 14

Figura 2.1: Diagrama de árbol Ejemplo 2.5

La mayorı́a de los principiantes responden “1/2” a ambas preguntas (¿entiende Ud. la lógica
de estas respuestas?). La respuesta correcta puede obtenerse utilizando un diagrama de árbol.
En este caso, el experimento consiste en dos etapas. la primera etapa es seleccionar un cajón,
y la segunda es seleccionar un compartimiento. El diagrama se muestra en la Figura 2.5.

Si P (oro) es la respuesta a la primera pregunta, y P (plata/oro) es la respuesta a la segunda


pregunta, se tiene
número de compartimientos con una moneda de oro 3 1
P (oro) = = =
número total de compartimientos 6 2
número de comps. con oro que tienen plata en el comp. adyacente 1
P (plata/oro) = =
número de comps. con oro 3

Nota: Este es un ejemplo complicado, donde la intuición normal generalmente falla. La segunda
probabilidad es un ejemplo de lo que denominaremos probabilidad condicional. En el Capı́tu-
lo ??, presentaremos el Theorema de Bayes, que proporciona una manera elegante de resolver
el problema.

2. Principio de Multiplicación

Suponga que un experimento consiste en k procedimientos o etapas. Suponga también que:

El primer procedimiento tiene n1 resultados posibles

Para j = 2, 3, . . . , k, independientemente del resultado de los procedimientos 1 a j − 1, el


procedimiento j tiene nj resultados posibles.

Entonces, el número total de resultados del experimento es

n1 n2 . . . n k

Nota: Observe que sólo se requiere que el número de resultados de un procedimiento no dependa
del resultado obtenido en los procedimientos anteriores. No se requiere que los nj resultados
posibles del procedimiento j sean los mismos independientemente de los resultados anteriores.

Ejemplo 2.6. El número máximo de placas de patente consistentes en dos letras y dos números
que pueden ser emitidas es 26 ∗ 26 ∗ 10 ∗ 10 ∗ 10 ∗ 10 = 6760000.

Quiz: ¿Cuál es número máximo de placas de patente que empiezan con un 2?.
Ricardo Gatica E. Probabilidad para Ingenieros 15

Ejemplo 2.7. El número de palabras de tres letras empezadas en vocal, que pueden formarse
utilizando las letras de la palabra “música” es 3 ∗ 5 ∗ 4 = 60.

Quiz: Repita el Ejemplo 2.7 utilizando las letras de la palabra “musicólogo”.

3. Principio de Adición

Suponga que un experimento puede realizarse de k formas alternativas y excluyentes. Suponga


además que si el experimento se realiza de la forma j, hay nj resultados posibles. Entonces el
número total de resultados posibles para el experimento es

n1 + n2 + . . . + nk .

Ejemplo 2.8. Si una carta es seleccionada al azar de un mazo inglés, el número de formas
posibles de obtener un rojo impar o un trebol es número de corazones impar+número de
diamantes impar+número de tréboles= 7 + 7 + 13 = 27.

Nota: El principio de Adición es análogo a la propiedad P4. de la función de probabilidad (ver


la Definición 1.10).

Los principios de multiplicación y adición permiten construir técnicas de conteo bastante más
sofisticadas. A continuación se presentan tres conceptos claves en análisis combinatorial. En
todos ellos suponemos que se extraen sucesivamente k objetos de un set the n objetos. La
selección es al azar, es decir, cada vez que se extrae un objeto, todos los objetos todavı́a
disponibles en el set tienen la misma probabilidad de ser seleccionadas. Si cada vez que se
extrae un objeto este es devuelto al set, se dice que las extracciones son con reemplazo, en caso
contrario, las extracciones son sin reemplazo.

4. Permutaciones

Una permutación de k desde n objetos es una selección ordenada de k objetos tomados sin
reemplazo de un set de n objetos distinguibles. Esto es equivalente a seleccionar k objetos
simultáneamente y luego ordenarlos.

El número total de permutaciones de k desde n objetos se denota por Pkn y está dado por

n!
Pkn = (2.2)
(n − k)!

Para derivar (2.2), suponga que se tiene k casilleros para ser llenados y n objetos para elegir.
El primer casillero puede ser llenado con cualquiera de los n objetos. Una vez llenado el primer
casillero, hay n − 1 objetos disponibles, cualquiera de los cuales puede usarse para llenar el
segundo casillero. Después de llenar el segundo casillero, quedan n − 2 objetos disponibles, y
Ricardo Gatica E. Probabilidad para Ingenieros 16

ası́ sucesivamente. Para el k-ésimo casillero habrá n − k + 1 objetos disponibles. Aplicando el


principio de multiplicación, se tiene
n!
Pkn = n(n − 1)(n − 2) . . . (n − k + 1) =
(n − k)!

Observe que si k = n, entonces Pnn = n! es el número total de maneras de ordenar un set de n


objetos.

Ejemplo 2.9. El número total de permutaciones de 5 cartas tomadas de un mazo de 52 cartas


es 52!/47! = 52 ∗ 51 ∗ 50 ∗ 49 ∗ 48 = 311875200.

Nota: Una selección ordenada de k objetos tomados con reemplazo de un set de n objetos es
en ocasiones llamada permutación con reemplazo. El principio de multiplicación implica que el
número total de permutaciones con reemplazo de k desde n objetos es nk (¿por qué?).

5. Combinaciones

Una combinación de k desde n objetos es una selección o subconjunto de k objetos tomados sin
reemplazo de un set de n objetos distinguibles, sin ninguna consideración de orden. El número
total de combinaciones de k desde n objetos se denota Ckn y está dado por

n!
Ckn = (2.3)
k!(n − k)!

Observe que la diferencia clave entre el concepto de permutación y el concepto de combinación


es que las permutaciones consideran el orden en que los objetos son extraı́dos, mientras las
combinaciones sólo consideran el contenido de la selección. Por ejemplo, suponga que se tiene
los objetos A, B, C y D, y se quiere seleccionar tres objetos sin importar el orden (esto es una
combinación de 3 desde 4 objetos). Las únicas alternativas son ABC, ABD, ACB y BCD. Se
concluye que existen solo cuatro combinaciones de tres objetos. Considere ahora, por ejemplo,
la combinación ABC y observe que puede ser ordenada de las siguientes 3! = 6 maneras: ABC,
ACB, BAC, BCA, CAB y CBA. Estos ordenamientos representan diferentes permutaciones de
la misma combinación. Repitiendo el argumento para todas las combinaciones, se concluye que
hay C34 ∗ 3! = 24 permutaciones de 3 desde 4 objetos. Generalizando, se tiene

Ckn k! = Pkn ,

o equivalentemente,
Pkn n!
Ckn = =
k! k!(n − k)!
Ejemplo 2.10. El número e comités de tres miembros que pueden formarse en un grupo de
ocho personas es C38 = 8!/(3! ∗ 5!) = 56.
Ricardo Gatica E. Probabilidad para Ingenieros 17

Quiz: ¿cuántos comités de cinco personas pueden formarse?

Los números Ckn son también denotados por (nk ), y tienen, entre otras, las siguientes propiedades:

a) Ckn = Cn−k
n

n−1
b) Ckn = Ck−1 + Ckn−1

Una forma intuitiva de entender la propiedad a) es mediante la simple observación que selec-
cionar k objetos de un total de n es equivalente a descartar n − k objetos. La interpretación
de b) es un poco más complicada. Considere un objeto especı́fico en el set, denominado a1 .
Este objeto puede estar incluı́do en la selección, o puede estar excluı́do, pero no pueden ocurrir
ambas cosas. Si a1 esta incluı́do, deben seleccionarse k1 objetos adicionales de un total de n − 1
disponibles. Si a1 no esta incluı́do, entonces deben seleccionarse k objetos de un total de n − 1
disponibles. Como las opciones son excluyentes, el principio de adición implica que el número
n−1
total de maneras de seleccionar los k objetos es Ck−1 + Ckn−1 .

Quiz: Demostrar las propiedad a) y b) algebraicamente.

Quiz: Demostrar la relación Pkn = Pkn−1 + k!Pk−1


n−1

6. Permutaciones con objetos repetidos

Previamente consideramos sets en que todos los objetos eran distinguibles. Ahora suponga
que algunos de los objetos son idénticos. Más precisamente, suponga que tenemos un set de n
objetos, de los cuales n1 son tipo 1, n2 son tipo 2,. . . y nr son tipo r. Por supuesto, se tiene
n1 + n2 + . . . + nr = n. Objetos del mismo tipo son indistinguibles entre si. El número de
permutaciones (distintas) de los n objetos es

n!
n1 !n2 ! . . . nr !
Ejemplo 2.11. El número de permutaciones diferentes de la palabra MISSISSIPPI
es 11!/(1! ∗ 4! ∗ 4! ∗ 2!) = 34650.

2.4. Ejercicios Propuestos

2.1. Un comité de cinco personas debe ser seleccionado de un set de quince candidatos. En-
cuentre el número de maneras que esto puede ser hecho si el comité consiste en:

a) cinco miembros de igual autoridad


b) presidente, vice-presidente, secretario, tesorero y delegado
c) presidente, vice-presidente, y tres directores (directores tienen la misma autoridad)
Ricardo Gatica E. Probabilidad para Ingenieros 18

2.2. Suponga que Ud. tiene tres libros de gramática, cinco de matemáticas, y cuatro de historia.
Asumiendo que todos los libros son diferentes, encuentre el número de maneras que los libros
pueden ordenarse en un estante si:

a) sin condición
b) los libros de cada materia deben permanecer juntos
c) sólo los libros de matemáticas deben permanecer juntos
d) un libro de gramática debe ser el primero
e) un libro de gramática debe ser el primero, y un libro de matemáticas debe ser el último
f ) repetir a)-e) asumiendo que los libros de una misma materia son indistinguibles
2.3. Encuentre la probabilidad que una mano de cinco cartas tomadas de un naipe inglés:

a) no contenga corazones
b) contenga al menos un corazón
c) contenga sólo corazones
d) contenga la reina de hoja
e) no contenga la reina de hoja
f ) contenga el As de hoja y el As de diamante
g) contenga el As de hoja, el As de diamante, y ningún otro As
h) contenga dos corazones, dos hojas y un trébol impar
i) contenga todas las cartas de la misma pinta
2.4. Hay siete iglesias en el pueblo. Tres visitantes escogen una iglesia al azar para asistir a
misa. Encuentre la probabilidad que:

a) los tres visitantes elijan la misma iglesia


b) no todos elijan la misma iglesia
c) todos elijan diferentes iglesia
d) al menos dos de ellos elijan la misma iglesia
2.5. Encuentre la probabilidad que una mano de cuatro cartas contenga dos pares diferentes.
2.6. Encuentre la probabilidad que una mano de cinco cartas contenga:

a) dos ases y dos reyes (y no tres ases o tres reyes)


b) dos ases o dos reyes
c) a lo más dos hojas
d) exactamente dos hojas y a lo más un corazón
e) exactamente dos hojas y al menos un corazón
2.7. Encuentre el número de maneras que cinco americanos y cinco chilenos pueden sentarse

a) en una fila
b) en un circulo (rotaciones se consideran como el mismo ordenamiento

si no puede haber dos americanos ni dos chilenos juntos.


Ricardo Gatica E. Probabilidad para Ingenieros 19

2.8. Un comité de seis personas es seleccionado desde una población de 4 rusos, 7 franceses y
6 chilenos. Encuentre la probabilidad que el comité contenga al menos un ruso y un chileno.

2.9. Una caja contiene 10 bolas blancas, 20 rojas y 30 verdes. Si se extraen 5 bolas sin reemplazo,
encuentre la probabilidad que la selección contenga:

a) 3 blancas o 2 rojas o 5 verdes


b) todas la bolas del mismo color
c) exactamente una roja y al menos una blanca
d) ninguna roja o sólo rojas

2.10. Explique por qué el siguiente procedimiento para contar el número de palabras de siete
letras con tres veces la letra A es incorrecto, y provea el correcto.

- escoja una posición para la primera A


- escoja una posición para la segunda A
- escoja una posición para la tercera A
- complete las posiciones restantes con letras diferentes de A
Respuesta: 7 ∗ 6 ∗ 5 ∗ 254 (equivocada).

2.11. Una caja contiene M bolas. R bolas son rojas y M − R son verdes. Si se extraen exacta-
mente k (k > R) bolas sin reemplazo, encuentre la probabilidad que las dos últimas bolas rojas
sean seleccionadas en las últimas dos extracciones.

2.12. Una caja contiene 20 bolas rojas, 20 verdes y 20 azules. Si se extraen 10 bolas sin reem-
plazo, encuentre la probabilidad que al menos un color no esté incluı́do en la selección.

2.13. Si una moneda balanceada es lanzada doce veces, encuentre la probabilidad que se obtengan
exactamente cinco caras.

2.14. Una caja contiene 3 bolas rojas, 5 verdes y 2 blancas. Si se extraen 3 bolas sin reemplazo,
encuentre la probabilidad que las tres sean de diferentes colores.

2.15. Un closet contiene ocho pares de zapatos. Si cinco zapatos son seleccionados al azar,
encuentre la probabilidad que la selección contenga:

a) ningun par
b) exactamente un par
c) exactamente dos pares
Capı́tulo 3

Probabilidad Condicional e
Independencia de Eventos

3.1. Ejemplo Introductorio

Considere un experimento que consiste en seleccionar una persona al azar de un grupo de 250
personas agrupadas de la siguiente manera:

Hombres Mujeres
Fumadores 55 35
No Fumadores 75 85

Defina los siguientes eventos:

H = {la persona es hombre}


M = {la persona es mujer}
F = {la persona fuma}
N = {la persona no fuma}

Preguntas:

a) ¿Cuál es la probabilidad que la persona sea una mujer fumadora?


b) ¿Cuál es la probabilidad que la persona sea mujer?
c) ¿Si la persona resulta ser hombre, cuál es la probabilidad que sea fumador?

Como todas las personas del grupo tienen la misma posibilidad de ser escogidas, contestaremos
estas preguntas utilizando la Ecuación (1.1) para espacios muestrales.

Nota: Utilizaremos notación que definiremos más adelante.

20
Ricardo Gatica E. Probabilidad para Ingenieros 21

Respuestas:

número de mujeres fumadoras 35


a) P (M ∩ F ) = total de personas = 250 (Probabilidad Conjunta)
# mujeres fumadoras + # mujeres no fumadoras 35+85
b) P (M ) = total de personas = 250 (Probabilidad Total)
número de hombres fumadores 55
c) P (F/H) = total de hombres = 55+75 (Probabilidad Condicional)

Observe que en c) ya se sabe que la persona es hombre, entonces, al aplicar (1.1) se reduce el
número total de resultados (el denominador) al número total de hombres (en vez del número
total de personas como en a) y b)). En este caso se dice que el espacio muestral ha sido reducido
al evento {la persona es hombre}.

3.2. Probabilidad Conjunta y Condicional

Probabilidad Conjunta

Definición 3.1. Sean A y B dos eventos arbitrarios en el espacio muestral S. La probabilidad


conjunta de A y B es la probabilidad del evento A ∩ B, es decir, la probabilidad de que el
resultado esté contenido en A y B simultáneamente.

Probabilidad Condicional

Definición 3.2. Sean A y B dos eventos arbitrarios en el espacio muestral S, tal que P (B) > 0.
Definiremos la probabilidad condicional de A dado B, denotada P (A/B), como:

P (A/B) = P (A ∩ B)/P (B) (3.1)

P (A/B) es la probabilidad que el resultado pertenezca a A, si se sabe que pertenece a B.


En otras palabras, P (A/B) es la probabilidad de A dado que se tiene la información que B
ocurrió. Formalmente, se dice que P (A/B) es la probabilidad de A cuando el espacio muestral
es reducido desde S a B (ver Figura 3.1). De este modo, se puede pensar en P (A) como P (A/S).
Para verificar esto observe que

P (A/S) = P (A ∩ S)/P (S) = P (A)/1 = P (A).

Nota: A/B no es un evento.


Ricardo Gatica E. Probabilidad para Ingenieros 22

Figura 3.1: Esquema Probabilidad Condicional

Ejemplo 3.1. Considere un experimento que consiste en extraer dos artı́culos sin reemplazo
de un conjunto de diez artı́culos. Siete de los objetos no son defectuosos, y tres de ellos son
defectuosos. Defina los siguientes eventos:

A ={el primer objeto es defectuoso}


A0 ={el primer objeto no es defectuoso}
B ={el segundo objeto es defectuoso}

Entonces:

P(A)=3/10

P(A’)=7/10

P (B ∩ A) = C23 /C210 = 1/15

P (B ∩ A0 ) = 21/90 (¿por qué?)

P (B/A) = P (B ∩ A)/P (A) = (1/15)/(3/10) = 2/9

P (B/A0 ) = P (B ∩ A0 )/P (A0 ) = (21/9)/(7/10) = 3/9

Observe que estos resultados son intuitivos. Si el primer artı́culo resulta ser defectuoso, en-
tonces el segundo objeto debe ser seleccionado de un conjunto de 9 objetos con 2 defectuosos.
Similarmente, si el primer objeto no es defectuoso, el segundo objeto debe ser seleccionado de
un conjunto de 9 objetos con 3 defectuosos. Además observe que éste es el mismo razonamiento
que se utilizó anteriormente al aplicar el Principio de Multiplicación.

Quiz: Repita el ejemplo asumiendo que los objetos se extraen con reemplazo. ¿Comentarios?.
Ricardo Gatica E. Probabilidad para Ingenieros 23

Propiedades de la Probabilidad conjunta y condicional

Sean A y B dos eventos arbitriarios en un espacio muestral S. Entonces:

C1. Si A y B son mutuamente excluyentes, entonces P (A ∩ B) = P (A/B) = P (B/A) = 0


C2. Si A ⊆ B, entonces P (B/A) = P (B ∩ A)/P (A) = P (A)/P (A) = 1
C3. P (·/A) es una función de probabilidad. Esto significa que, para una condición fija A, las
probabilidades condicionales satisfacen todas las propiedades (P1. a P7.) de una función
de probabilidad.
C4. Si A1 , A2 , . . . , Ak son eventos mutuamente excluyentes en S, entonces
P (A1 ∪ A2 ∪ . . . ∪ Ak /B) = P (A1 /B) + P (A2 /B) + . . . + P (Ak /B)

Nota: Esto es consecuencia directa de C3.


C5. Teorema de la Multiplicación de las Probabilidades
P (A/B)P (B) = P (B/A)P (A) = P (A ∩ B)
(Por qué?)
C6. Teorema de la Probabilidad Total
Sea A1 , A2 , . . . , Ak una partición de S, entonces
P (B) = P (B ∩ A1 ) + P (B ∩ A2 ) + . . . + P (B ∩ Ak ), (3.2)

o equivalentemente,
P (B) = P (B/A1 )P (A1 ) + P (B/A2 )P (A2 ) + . . . + P (B/Ak )P (Ak ). (3.3)

Nota: Comúnmente, cuando se calcula utilizando las ecuaciones (3.2) o (3.3), P (B) es
referida como la probabilidad total o marginal de B.
Nota: Observe que, en particular, A y A0 representan una partición de S. Por lo tanto el
Teorema de la Probabilidad Total implica
P (B) = P (B ∩ A) + P (B ∩ A0 ). (3.4)

C7. Sea A1 , A2 , . . . , Ak una partición de S, entonces:


P (B∩A) = P (B∩A1 )+P (B∩A2 )+. . .+P (B∩Ak ) = P (B/A1 )P (A1 )+. . .+P (B/Ak )P (Ak ).

Quiz: Comprobar la propiedad C7.

Nota: En C1. a C7. asuma P (A) > 0, P (B) > 0 y/o P (Ai ) > 0 según sea necesario.
Ricardo Gatica E. Probabilidad para Ingenieros 24

Figura 3.2: Teorema de la Probabilidad Total

3.3. Independencia de Eventos

Definición 3.3. Sean A y B dos eventos arbitrarios en un espacio muestral S. A y B son


independientes si
P (A ∩ B) = P (A)P (B) (3.5)

Propiedad 3.1. Si A y B son eventos independientes, entonces:

a) P (A/B) = P (A)

b) P (B/A) = P (B)

Nota: En efecto (3.5), a) y b) son equivalentes, es decir, cualquiera de ellas implica las otras
dos.

La independencia de los eventos A y B implica que la información relativa a la ocurrencia o


no ocurrencia de uno de ellos no provee información adicional respecto de la probabilidad de
ocurrencia del otro.

Ejemplo 3.2. Considere un experimento que consiste en lanzar dos dados balanceados distin-
guibles. Defina los siguientes eventos en el espacio muestral usual (36 pares ordenados):

A ={el primer dado es par}


B ={el segundo dado es 1 o 6}

Parece intuitivamente obvio que el resultado de un lanzamiento no influencia (no aporta infor-
mación) sobre el resultado del otro lanzamiento, en consecuencia A y B debieran ser independi-
entes. Para comprobarlo, verifique mediante enumeración (recordemos que estamos trabajando
en el espacio muestral de 36 pares)que:
Ricardo Gatica E. Probabilidad para Ingenieros 25

P (A) = 18/36 = 1/2

P (B) = 12/36 = 1/3

P (A ∩ B) = 6/36 = 1/6 = 1/2 ∗ 1/3 = P (A)P (B)

Por lo tanto, nuestra intuición es correcta. Note además que:

P (A/B) = P (A ∩ B)/P (B) = (1/6)/(1/3) = 1/2 = P (A)

P (A/B) = P (A ∩ B)/P (B) = (1/6)/(1/3) = 1/2 = P (A)

lo que verifica la propiedad 3.1.

Ejemplo 3.3. Considere nuevamente el Ejemplo 3.1. Utilizando el Teorema de la Probabilidad


Total, tenemos:

P (B) = P (B ∩ A) + P (B ∩ A0 ) = 1/15 + 21/90 = 3/10

Dado que P (B/A) = 2/9 6= P (B), se concluye que A y B no son independientes. Observe,
sin embargo, que P(A)=P(B), es decir, la probabilidad no condicional (o total) que el segundo
objeto sea defectuoso es la misma que la probabilidad que el primero sea defectuoso. Este ejemplo
demuestra que este hecho no puede ser interpretado como independencia. Observe además, que
la dependencia entre A y B puede concluirse del hecho que P (B/A) 6= P (B/A0 ) (¿Por qué?).

Nota: En general, cuando extraemos objetos sin reemplazo desde un conjunto de objetos, la
probabilidades no condicionales o totales asociada con la primera, segunda,. . . , etc., extracción
son las mismas que las probabilidad asociada a la primera extracción.

Nota: Observe que en general, si dos sucesos A y B son mutuamente excluyentes, no son
independientes. En efecto, P (A/B) = 0 y P (B/A) = 0, por lo tanto, la ocurrencia de uno
de estos eventos, previene la ocurrencia del otro. Esto implica, que descontando el caso trivial
cuando P (A) = P (B) = 0, A y B son altamente dependientes.

Definición 3.4. Para k ≥ 3, se dice que k eventos A1 , A2 , . . . , Ak , son mutuamente indepen-


dientes si cada subconjunto de k − 1 eventos son mutuamente independientes y

P (A1 ∩ A2 ∩ . . . ∩ Ak ) = P (A1 )P (A2 ) . . . P (Ak ).

Ejemplo 3.4. Considere un experimento que consiste en lanzar dos dados balanceados distin-
guibles. Defina los siguientes eventos en el espacio muestral uniforme usual (36 pares ordena-
dos):
Ricardo Gatica E. Probabilidad para Ingenieros 26

A ={El primer dado es par}


B ={El segundo dado es par}
C ={La suma de los dados es par}

Como los resultados son equiprobables, es fácil verificar por enumeración (tarea para el lector)
que:

P (A) = P (B) = 1/2

P (C) = 18/36 = 1/2

P (A ∩ B) = 1/4 = 1/2 · 1/2 = P (A)P (B) ⇒ A y B son independientes

P (A ∩ C) = 1/4 = P (A)P (C) ⇒ A y C son independientes

P (B ∩ C) = 1/4 = P (B)P (C) ⇒ B y BC son independientes

Observe que P (C/A) = P (B) y P (C/B) = P (A) (¿por qué?). Entonces P (A ∩ C) y P (B ∩ C)


pueden ser calculados también como:

P (A ∩ C) = P (A)P (C/A) = P (A)P (B) = 1/2 · 1/2 = 1/4


P (A ∩ B) = P (B)P (C/B) = P (B)P (A) = 1/2 · 1/2 = 1/4.

Pero A, B y C no son mutuamente independientes. Puede verificarse por enumeración que

P (A ∩ B ∩ C) = 1/4 6= P (A)P (B)P (C).

El problema surge del hecho que (A ∩ B) ⊆ C, lo que implica que P (C/A ∩ B) = 1 6= P (C).

3.4. El Teorema de Bayes

Teorema 3.1. Sea B1 , B2 , . . . , Bk una partición del espacio muestral S, y sea A un evento
arbitrario en S, con P (A) > 0, entonces

P (Bj /A)P (A) P (Bj ∩ A) P (A/Bj )P (Bj )


P (Bj /A) = = = Pk (3.6)
P (A) P (A) i=1 (P (A/Bi )P (Bi ))
Ricardo Gatica E. Probabilidad para Ingenieros 27

Nota: Observe que en (3.6) simplemente aplicamos el Teorema de la Multiplicación de las


Probabilidades (Propiedad C5.) al numerador, y el Teorema de la Probabilidad Total (Propiedad
C6.) al denominador.

El Teorema de Bayes es útil para calcular las llamadas probabilidades a posteriori. Cuando
dos eventos A y B pueden ser lógicamente ordenados (generalmente utilizando una relación de
tiempo), y el orden está dado por (A,B), entonces P(B/A) se llama probabilidad a priori, y
P(A/B) se llama probabilidad a posteriori.

Ejemplo 3.5. Dos máquinas distintas M1 y M2 producen artı́culos idénticos. 10 % de los artı́cu-
los producidos por M1 son defectuosos, y 95 % de los producidos por M2 son no defectuosos. Un
grupo de 120 artı́culos contiene 40 artı́culos provenientes de M1 y 80 de M2. Si se selecciona
un artı́culo al azar y resulta ser defectuoso, ¿cuál es la probabilidad que el artı́culo provenga de
M1?. ¿Y de M2?.

Defina los siguientes eventos:

M 1 ={el artı́culo proviene de M1}


M 2 ={el artı́culo proviene de M2}
D ={el artı́culos es defectuoso}
N ={el artı́culos no es defectuoso}

Se tiene la siguiente información:

P (M 1) = 40/120 = 1/3

P (M 2) = 80/120 = 2/3

P (D/M 1) = 0.1

P (N/M 2) = 0.95 ⇒ P (D/M 2) = 0.05.

Entonces

P (D/M 1)P (M 1) 0.1 · 1/3 1


P (M 1/D) = = =
P (D/M 1)P (M 1) + P (D/M 2)P (M 2) 0.1 · 1/3 + 0.05 · 2/3 2

Ejemplo 3.6. Considere nuevamente el Ejemplo 2.5 (este ejemplo fue utilizado para ilustrar
los diagramas de árbol). El enunciado es el siguiente: Suponga que se tiene un estante con tres
cajones, cada cajón tiene dos compartimientos. En un cajón hay dos monedas de oro (una en
cada compartimiento). En el otro cajón, hay dos monedas de plata. En el último cajón hay una
moneda de oro y una de plata. Si se selecciona al azar un cajón y un compartimiento, ¿cuál es
Ricardo Gatica E. Probabilidad para Ingenieros 28

la probabilidad de encontrar una moneda de oro?. Si la moneda encontrada es oro, ¿cuál es la


probabilidad que el otro compartimiento del mismo cajón contenga una moneda de plata?.

Definamos los siguientes eventos:

C1 ={se selecciona el cajón con 2 monedas de oro}


C2 ={se selecciona el cajón con 2 monedas de plata}
C3 ={se selecciona el cajón con 1 moneda de oro y una de plata}
O ={se encuentra una moneda de oro}
Q ={se encuentra una moneda de plata}

Se tiene la siguiente información:

P (C1) = P (C2) = P (C3) = 1/3

P (O/C1) = 1

P (Q/C2) = 1

P (O/C3) = P (Q/C3) = 1/2

Entonces,

P (O) = P (O/C1)P (C1) + P (O/C2)P (C2) + P (O/C3)P (C3) = 1 · 1/3 + 0 · 1/3 + 1/2 · 1/3 = 1/2

La segunda probabilidad puede ser interpretada como:

P (C3 ∩ O) P (O/C3)P (C3) 1/2 · 1/3 1


P (C3/O) = = = =
P (O) P (O) 1/2 3

3.5. Ejercicios

3.1. Encuentre la probabilidad de que una carta sacada de un mazo de cartas sea un rey, si Ud.
ya sabe que es una figura.

3.2. Dos cartas son extraı́das de un mazo inglés. Encuentre la probabilidad que:

a) la segunda carta sea una reina dado que la primera es una reina
b) la segunda carta sea una reina dado que la primera es un As
c) se obtenga exactamente un As dado que la primera fue As
d) se obtenga al menos un As dado que la primera fue As
Ricardo Gatica E. Probabilidad para Ingenieros 29

3.3. Dos dados son lanzados. Encuentre la probabilidad que:

a) el primer dado sea 6 dado que la suma es 8.


b) el primer dado sea impar dado que la suma es 8
c) un dado sea 6 dado que la suma es 8.

3.4. Una caja contiene dos bolas rojas y una azul. Se extrae una bola de la caja y se reemplaza
por una bola azul, luego se extrae una segunda bola. Encuentre la probabilidad que la segunda
bola sea azul.

3.5. La probabilidad de que un misil destruya el blanco es de 0.8. Los misiles son disparados
independientemente al blanco hasta que el blanco es destruı́do. Encuentre la probabilidad de que
se necesiten más de tres misiles para destruir el blanco.

3.6. Asuma que usted saca cartas de un mazo de una a la vez. Encuentre la probabilidad de
obtener un corazón antes que una carta negra.

3.7. Un dado cargado tiene P (1) = 0.2, P (2) = 0.3, P (3) = P (4) = P (5) = P (6) = 0.125. Si
usted lanza el dado repetidas veces, encuentre la probabilidad de obtener:

a) un número mayor que dos en el primer intento


b) un número par en el segundo intento
c) un número par en el segundo intento dado que obtuvo un número mayor que dos en el
primero.
d) un número impar en el quinto intento si en el primero y segundo intento obtuvo un 3.
e) un 2 antes que un 1.

3.8. Una moneda cargada tiene probabilidad p de obtener cara, y 1 − p de obtener sello. Si la
moneda es lanzada 5 veces, encuentre la probabilidad de obtener:

a) 5 sellos.
b) a lo menos una cara.
c) la secuencia sello, sello, cara, cara, sello
d) cualquier secuencia especı́fica conteniendo exactamente dos caras y tres sellos
e) dos caras y tres sellos en cualquier orden
f ) al menos tres sellos.

3.9. La moneda 1 tiene probabilidad .5 de obtener cara. La moneda 2 tiene probabilidad .25 de
obtener cara. Encuentre la probabilidad de obtener dos caras si:

a) una moneda es seleccionada al azar y lanzada dos veces


b) Una moneda es seleccionada y lanzada una vez, y luego el proceso se repite.

3.10. Sean A, B y C eventos tales que P (A ∪ B) = 0.7, P (C) = 0.3, P (A/B) = P (B/A) y
P (A ∩ B/C) = P (C/A ∩ B). Encuentre P (A) y P (B).
Ricardo Gatica E. Probabilidad para Ingenieros 30

3.11. Asuma que el 0.5 % de una población tiene cáncer. Un exámen médico diagnostica cáncer
en el 99 % de las personas que efectivamente tienen cáncer, y en el 3 % en las personas que no
tienen cáncer. Marı́a ha sido diagnosticada con cáncer. Encuentre la probabilidad de que ella
no tenga cáncer.

3.12. Si una máquina está bien ajustada, solo el 4 % de los artı́culos que produce son defec-
tuosos. Pero si la máquina no está bien ajustada, el 10 % de los artı́culos son defectuosos.
La máquina está bien ajustada el 90 % de las veces. Encuentre la probabilidad que la máquina
esté bien ajustada si:

a) se tomó una muestra de 10 artı́culos y no se encontró ninguno defectuoso


b) se tomó una muestra de 10 artı́culos y 2 resultaron defectuosos (Recuerde el Ejercicio ??)
c) los artı́culos fueron inspeccionados de a uno y el primer defectuoso se encontró en la décima
inspección.

3.13. AlwaysCola Ltda. tiene dos productos: A-cola y B-cola. Basados en los resultados de una
encuesta reciente, la compañı́a ha proporcionado las siguientes estimaciones:

Producto Hombres Mujeres


A-cola 66 %
B-cola 30 % 50 %
Ambas 14 %
Ninguna

Los números en la tabla representan el porcentaje de personas que consumen el respectivo pro-
ducto (por ejemplo: El 66 % de los hombres consume A-cola). La encuesta también reveló que
el 45 % de los consumidores de A-cola son mujeres, y que el 21 % de las personas consume solo
B-cola. Si el porcentaje de hombres en la población es 50 %, complete la tabla y encuentre el
porcentaje de consumidores de AlwaysCola.

3.14. Suponga P (A) = 0.3, P (B) = 0.5 y P (A/B 0 ) = 0.4. Encuentre:

a) P (B 0 )
b) P (A ∩ B 0 )
c) P (A ∩ B)
d) P (A ∪ B)
Capı́tulo 4

Variables Aleatorias y Funciones de


Probabilidad

4.1. Ejemplo Introductorio

Considere los siguientes experimentos:

Experimento 1: Lanzar dos dados distinguibles y registrar los resultados respectivos.

Experimento 2: Lanzar dos dados distinguibles y registrar la suma de los resultados.

Sean S1 y S2 los espacios muestrales asociados al experimentos 1 y 2, respectivamente. En


ejemplos anteriores se ha establecido que

S1 = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), (2, 2), . . . , (6, 6)} y
S2 = {2, 3, . . . , 12}.

La idea en este ejemplo es relacionar estos dos experimentos y sus espacios de probabilidad.
Asumiendo que los dados son balanceados, se sabe que los resultados en S1 son equi-probables.
Observar que para calcular la distribución de probabilidades de S2 , puede verse los elementos
de S2 como eventos en S1 . La Tabla 4.1 presenta estos cálculos.

Sea F1 la familia de todos los eventos posibles en S1 . La Tabla 4.1 muestra que S2 ⊂ F1 . Por
lo tanto el espacio de probabilidad asociado con el Experimento 1 provee toda la información
necesaria para definir el espacio de probabilidad del Experimento 2. Notar que S1 * F2 , lo
que implica que esta no es una relación de equivalencia, es decir, no es posible calcular la
distribución de probabilidades del Experimento 1 utilizando la distribución de probabilidades
del Experimento 2.

31
Ricardo Gatica E. Probabilidad para Ingenieros 32

Tabla 4.1: Distrinución de Probabilidades Experimento 2.


Resultado en S2 Evento en S1 Resultados Probabilidad
favorables
2 (1,1) 1 1/36
3 (1,2), (2,1) 2 2/36
4 (1,3), (2,2), (3,1) 3 3/36
5 (1,4), (2,3), (3,2),(4,1) 4 4/36
6 (1,5), (2,4), (3,3), (4,2), (5,1) 5 5/36
7 (1,6), (2,5), (3,4), (4,3), (5,2), (6,1) 6 6/36
8 (2,6), (3,5), (4,4), (5,3), (6,2) 5 5/36
9 (3,6), (4,5), (5,4), (6,3) 4 4/36
10 (4,6), (5,5), (6,4) 3 3/36
11 (5,6), (6,5) 2 2/36
12 (6,6) 1 1/36

Para entender la relación descrita en el parrafo anterior, puede pensarse que el Experimento 2
está compuesto de 2 fases. La primera fase consiste en lanzar los dados y registrar los resultados
individuales. La segunda fase consiste en calcular y registrar la suma de los resultados. Obser-
var, que de hecho, la primera fase corresponde al Experimento 1. Además, la segunda fase es
simplemente una operación determinı́stica. En otras palabras, puede pensarse en S2 como un
segundo espacio muestral asociado con el Experimento 1.

Nota: En general, puede definirse un experimento como compuesto por una fase aleatoria y
una fase determinı́stica. Si dos experimentos tienen la misma fase aleatoria, puede pensarse en
ellos como el mismo experimento con dos espacios muestrales distintos asociados. Observar que
esto no implica la equivalencia de sus espacios de probabilidad.

Para formalizar la relación entre S1 y S2 , se procede como sigue: Sea P1 la función de probabili-
dad asociada con el Experimento 1, y P2 la función de probabilidad asociada con el Experimento
2. Sea X : S1 → S2 una función definida por X(i, j) = i + j. Entonces, se tiene que para todo
k ∈ S2
P2 ({k}) = P1 ({(i, j) ∈ S1 : X(i, j) = k}) = P1 ({(i, j) ∈ S1 : i + j = k}).

Observar que la función X es una representación matemática de la segunda fase del Experi-
mento 2. Muchas otras funciones podrı́an definirse en S1 , generando una variedad de espacios
muestrales asociados con el experimento. Este tipo de funciones son llamadas variables aleato-
rias. Notar que el carácter aleatorio de X viene del hecho que su dominio es un espacio muestral,
y no de su naturaleza funcional (la que es determinı́stica).
Ricardo Gatica E. Probabilidad para Ingenieros 33

Figura 4.1: Ilustración del concepto de variable aleatoria

4.2. Variables Aleatorias

Definición 4.1. Sea E un experimento, y S un espacio muestral asociado con E. Una función
X que asigna a cada elemento s ∈ S un número real X(s) se denomina variable aleatoria
(v.a.)1 .

Nota: Implı́cito en la definición de variable aleatoria esta el requerimiento que X(s) esté definido
para todo s ∈ S, y que X(s) ∈ <.
Definición 4.2. El rango de una variable aleatoria X, denotado RX , es el conjunto de todos
los valores posibles de X.
Ejemplo 4.1. Considere el experimento de lanzar una moneda tres veces consecutivas. Ento-
ces S = {CCC, CCT, CT C, T CC, CT T, T CT, T T C, T T T }. Sea X el número de caras que se
obtienen, entoces el rango de X es RX = {0, 1, 2, 3}.

Cuando se piensa en RX como un nuevo espacio muestral asociado con S, aparece como natural
asociarle los conceptos de evento y probabilidad. Se dice que B es un evento en RX , o en una
forma menos precisa que B es un evento de X, si B ⊆ RX . Para definir una función de
probabilidad en RX se introduce el concepto se eventos equivalentes.
Definición 4.3. Sea E un experimento y S un espacio muestral asociado con E. Sea X una
variable aleatoria definida en S. Sea A ⊆ S y B ⊆ RX . Se dice que A y B son equivalentes si

A = {s ∈ S : X(s) ∈ B}.

En palabras, A y B son equivalentes si A contiene todos y solo los elementos cuya imagen,
después de aplicar la función X, está contenida en B (ver Figura 4.2).
1
Comúnmente se usara “v.a.” para abreviar “variable aleatoria”.
Ricardo Gatica E. Probabilidad para Ingenieros 34

Figura 4.2: Ilustración eventos equivalentes.

Ejemplo 4.2. En el ejemplo introductorio de la Sección 4.1, {X = 5} es equivalente a


{(1, 4), (2, 3), (3, 2), (4, 1)}.

Ejemplo 4.3. En el ejemplo introductorio de la Sección 4.1, {X ≤ 4} es equivalente a


{(1, 1), (1, 2), (1, 3), (2, 1), (2, 2), (3, 1)}.

Definición 4.4. Sea E un experimento y S un espacio muestral asociado con E. Sea X una
variable aleatoria definida en S. Se define la función de probabilidad de X como sigue: Si A ⊆ S
y B ⊆ RX tal que A y B son equivalentes, entonces

PX (B) = PS (A) = P ({s ∈ S : X(s) ∈ B}).

En palabras, la probabilidad de un evento en RX es la probabilidad de su evento equivalente en


S. El lector puede verificar que PX (·) satisface las propiedades de una función de probabilidad
(ver Definición 1.10).

Ejemplo 4.4. En el ejemplo introductorio de la Sección 4.1, {X ≤ 4}=6/36=1/6.

Ejemplo 4.5. En el Ejemplo 4.1, P {X = 2} = P {CCT, CT C, T CC} = 3/8.

Notación: Es convencional utilizar letras mayúsculas, tales como X, Y , Z, etc., para denotar
variables aleatorias, y letras minúsculas, tales como x, y, z, etc., para denotar los valores que
una v.a. puede tomar (es decir, elementos del rango de la v.a.).

Notación: Observe que hemos utilizado la notación PX para especificar que la función de
probabilidad está definida en el rango de X, y PS cuando esta definida en el espacio muestral
original. Con frecuencia, cuando no hay posibilidad de inducir a errores los subı́ndice X y S
se omiten. También, cuando un evento es expresado por comprensión o extensión, la notación
P ({.....}) será reemplazada por P {.....}.
Ricardo Gatica E. Probabilidad para Ingenieros 35

4.3. Variables Aleatorias Discretas

Definición 4.5. Se dice que una variable aleatoria X es discreta (denotado X es v.a.d.) si su
rango RX es finito o infinito-contable. Es decir, el rango de X puede escribirse de la forma
RX = {x1 , x2 , . . .}.

Función de Probabilidad Puntual

Definición 4.6. Sea X una variable aleatoria discreta. La función de probabilidad puntual
(f.p.p.) de X es la función p(·) que asocia a cada elemento xi ∈ RX un valor real pi = p(xi ) =
P {X = xi }.
El valor pi es conocido como la probabilidad puntual de xi . Se denominada distribución de
probabilidades de X a la coleccion de pares (xi , pi )2 .

Observar que, por definición, RX contiene todos los valores posibles de la v.a. X. Además, como
los eventos {X = xi }, i = 1, 2, . . ., son claramente excluyentes, estos constituyen una partición
del espacio muestral S asociado con X. Por lo tanto se tiene que:

pi ≥ 0, (4.1)
X
pi = 1. (4.2)
xi ∈RX

Usando un argumento similar, la probabilidad de un evento B = {x[1] , x[2] , . . . , x[k] } ⊆ RX es


calculada como
Xk
P (B) = P {xi ∈ B} = p[i] .
i=1

Notación: Como en casos anteriores, se utiliza la notación pX (xi ) cuando es necesario especi-
ficar que la v.a. es X.

Ejemplo 4.6. Considere nuevamente el Ejemplo 4.1, la f.p.p. de X está dada por p0 = 1/8,
p1 = 3/8, p2 = 3/8 y p3 = 1/8.

Ejemplo 4.7. (La Distribución Geométrica) Suponga que una moneda no balanceada tiene
probabilidad p de salir cara. Sea E un experimento que consiste en lanzar la moneda repetida-
mente hasta obtener cara. Defina X como el número total de lanzamientos. La función de
probabilidad puntual de X esta dada por la expresión

pk = P {X = k} = (1 − p)k−1 p, para k = 1, 2, . . . . (4.3)


2
Observar las similitudes con las definiciones de la Sección 2.1
Ricardo Gatica E. Probabilidad para Ingenieros 36

Para derivar (4.3), observar que RX = {1, 2, . . .}, y que el evento {X = k} es equivalente a {se
obtienen k − 1 sellos sucesivos y después una cara}. El resultado se confirma por el hecho que
los lanzamientos son independientes. La condición (4.1) es claramente satisfecha. Para verificar
(4.2), observar que
∞ ∞ ∞
X X X p
pk = (1 − p)k−1 p = p (1 − p)i = = 1.
1 − (1 − p)
k=1 k=1 i=0

Se dice que una variable aleatoria con f.p.p dada por (4.3) tiene una distribución geométrica, o
que es una variable aleatoria geométrica con parámetro p.

Notación: Cuando el rango de una v.a.d. es el set de números naturales, es convencional utilizar
la notación k en lugar de xk para denotar los elementos del rango de la variable.

Ejemplo 4.8. (La Distribución Binomial) Suponga que una moneda no balanceada tiene
probabilidad p de salir cara. Sea E un experimento que consiste en lanzar la moneda exactamente
n veces. Sea X el número de caras que se obtienen. Entonces la función de probabilidad puntual
de X está dada por
 
n k
pk = P {X = k} = p (1 − p)n−k , para k = 0, 1, . . . , n. (4.4)
k

Para derivar (4.4), observar que hay nk formas de obtener exactamente k caras y n − k sellos,


y cada una de esas formas ocurre con probabilidad pk (1 − p)n−k (ver Ejercicio 3.8).

Se dice que una variable aleatoria con f.p.p. dada por (4.4) tiene distribución bimomial, o es
una variable aleatoria binomial con parámetros n y p.

Quiz: Demuestre que la distribución binomial satisface (4.2).

4.4. Variables Aleatorias Continuas

Definición 4.7. Se dice que una variable aleatoria X es continua (denotado Xes v.a.c.) si su
rango RX consiste en uno o más intervalos en <.

Función de Densidad de Probabilidades

Definición 4.8. Sea X una variable aleatoria continua. La función de densidad de probabil-
idades (f.d.p) de X es una función f definida en RX que permite representar el espacio de
probabilidades de X, y satisface:
Ricardo Gatica E. Probabilidad para Ingenieros 37

D1. f (x) ≥ 0 para todo x ∈ RX .


Z
D2. f (x)dx = 1.
RX
Z
D3. P (A) = f (x)dx, para todo A ⊆ RX .
A

Se denomina distribución de probabilidades de X al conjunto {(x, f (x)), x ∈ RX }.

Nota: Puede verificarse que la función P (·) definida en D3. satisface todas la propiedades de
una función de probabilidad.

Nota: Con frecuencia, para simplificar la notación, la f.d.p. es definida en todo el conjunto <,
de la siguiente manera: (
f¯(x) si x ∈ RX
f (x) =
0 otro caso.
Por ejemplo, con esta notación D2. puede escibirse
Z Z ∞
f (x)dx = f (x)dx = 1.
RX −∞

También, si A = {X ≤ a}, se tiene que


Z Z Z a
P (A) = f (x)dx = f (x)dx = f (x)dx
A {x∈RX :x≤a} −∞

Notación: Como en casos anteriores, se utiliza la notación fX (·) en lugar de f (·) cuando es
necesario especificar que la v.a. es X.

La definición 4.8 sugiere varias observaciones: Primero, f (x) no es la probabilidad de x. De


hecho, para cualquier valor fijo a
Z Z a
P {X = a} = f (x)dx = f (x)dx = 0.
{X=a} a

Es decir, la probabilidad de cualquier valor especı́fico en RX es cero. Sin embargo, esto parece
contradictorio, pues si a ∈ RX , entonces por definición a es un valor posible para X. Para
analizar este tipo de situaciones, se utiliza la siguiente terminologı́a [Ash]: Un evento A es seguro
si contiene todos los elementos de RX (A ⊇ RX ). La probabilidad de un evento seguro es uno.
Un evento es imposible si no contiene ningún elemento de RX (A ∩ RX = ∅). La probabilidad
de un evento imposible es cero. Existen, sin embargo, eventos con probabilidad uno que no son
seguros, y eventos con probabilidad cero que no son imposibles. Para referirse a esos casos, se
dice que el evento A ocurre (P (A) = 1) o no ocurre (P (A) = 0) “casi seguramente”.
Ricardo Gatica E. Probabilidad para Ingenieros 38

Ejemplo 4.9. Suponga que Ud. lanza una moneda balanceada repetı́damente. Sea X el número
de lanzamientos hasta obtener cara por primera vez. En tonces es posible pensar que Ud, sigue
lanzando la moneda por siempre sin nunca obtener cara. La probabilidad de tal evento es, sin
embargo, .5∞ = 0. Por lo tanto se dice que X es finita casi “casi seguramente”. Note que esto
no implica que el rango de X pueda ser acotado por algún valor finito.

Segundo, si A = [a, b] = {x : a ≤ x ≤ b}, entonces P (A) es


Z Z b
P (A) = f (x)dx = f (x)dx = 0,
A a

lo que puede ser interpretado como el área bajo la curva de la f.d.p. entre a y b (ver figura 4.3).
Uniendo esto a la primera observación, se tiene que la función de probabilidad, en el caso de
v.a.c. no distingue entre intervalos abiertos y cerrados. Más especı́ficamente,

P {a ≤ X ≤ b} = P {a ≤ X < b} = P {a < X ≤ b} = P {a < X < b}.

Figura 4.3: Representación gráfica de las probabilidades de una v.a.c.


Ricardo Gatica E. Probabilidad para Ingenieros 39

Figura 4.4: Interpretación de la f.d.p

La tercera y última observación se refiere a al interpretación de la f.d.p.: Sea δ suficientemente


pequeña, tal que f (x) es aproximadamente constante en el intervalo [a − δ/2, a + δ/2]. Se tiene
Z a+δ/2
P {a − δ/2 ≤ x ≤ a + δ/2} = f (x)dx ≈ f (a)δ.
a−δ/2

La función f (x) puede ser interpretado entonces, como la “tasa de probabilidad” de X en una
vecindad de x (ver Figura 4.4). Usando esta interpretación, se tiene, por ejemplo que f (a)/f (b)
es la razón de las probabilidades que X se encuentre en una vecindad infinitesimal alrededor
de a y b, respectivamente.

Ejemplo 4.10. Sea X una v.a.c. con RX = [0, 1]. Suponga que Ud. tiene la idea algo ambigua
pero justificada que la probabilidad que X tome un valor cercano a x es directamente proporcianal
a x. Parece entonces razonable asumir que la f.d.p. de X esta dada por

f (x) = kx, para 0 ≤ x ≤ 1.

Utilizando la propiedad D2. en la Definición 4.8, se tiene


1
1
kx2
Z
k
kxdx = = = 1 ⇒ k = 2.
0 2 0 2

La probabilidad que X esté en el intervalo [a, b] es


Z b
b
2xdx = x = b2 − a2 .
2

P {a ≤ x ≤ b} =
a a

Ejemplo 4.11. Sea X una v.a.c. con RX = [a, b]. Suponga ahora que los resultados son todos
equiprobables, entonces
f (x) = k, para a ≤ x ≤ b.
Ricardo Gatica E. Probabilidad para Ingenieros 40

Utilizando la propiedad D2. en la Definición 4.8, se tiene


Z b b
1
kdx = kx = k(b − a) = 1 ⇒ k = .
a a b−a
La probabilidad que X esté en el intervalo [c, d] es
Z d d
1 x c−d
P {a ≤ x ≤ b} = dx = = .
c b−a b−a c b−a

Se dice que una variable aleatoria con f.d.p. como la descrita en el Ejemplo 4.11 tiene distribución
uniforme entre a y b. Observe que en este caso, la probabilidad que X esté en un intervalo
arbitrario [c, d] es directamente proporcional al largo del intervalo.
Ejemplo 4.12. Suponga que Ud. encontro en su contestadora automática un mensaje de un
correo privado diciendo que hay un paquete para Ud., y que lo entregarán en su domicilio entre
las 15:00 y la 18:00. Ud. no va a llegar a casa hasta la 16:00, y quiere estimar la probabilidad
que pueda recibir el paquete. Sin Información adicional, parece razonable asumir que el tiempo
de arribo del cartero está uniformemente distribuı́do entre las 15:00 y las 18:00. La probabilidad
que Ud. se encuentre en casa al momento del arribo, serı́a entonces 120/180 = 2/3.

Información útil para mejorar esta estimación puede ser, por ejemplo, si Ud. supiera que la
empresa de entregas programa ventanas de tiempo de una hora, pero que a los clientes da
ventanas de tres horas para cubrirse de inprevistos. En ese caso, serı́a más probable que el
paquete llegara entre la 16:00 y las 17:00.

El Ejemplo 4.12 muestra que la distribución uniforme representa un nivel de conocimiento muy
pequeño respecto del comportamiento de un fenómeno. Por esa razón, esta distribución no es
muy común en el mundo real. La regla general es que a mayor conocimiento se tenga de un
fenómeno, mejor es el modelo que se puede contruir para representar su conducta probabilı́stica.

4.5. Función de Distribución Acumulada

Definición 4.9. Sea X una variable aleatoria. Se define como la función de distribución acu-
mulada(f.d.a.) de X a la función F (·) que asigna a cada x ∈ < el valor
F (x) = P {X ≤ x} = P {w ∈ RX : w ≤ x}.
Teorema 4.1. Sea X una variable aleatoria.

1. Si X es una v.a.d., entonces


X
F (x) = P {xi ∈ RX : xi ≤ x} = pi .
{i:xi ≤x}
Ricardo Gatica E. Probabilidad para Ingenieros 41

Figura 4.5: Función de Distribución Acumulada Ejemplo 4.13


.

2. Si X es una v.a.c., entonces


Z Z x
F (x) = f (w)dw = f (w)dw.
{w≤x} −∞

Ejemplo 4.13. Considere un experimento que consiste en lanzar una moneda balanceada exac-
tamente tres veces. Sea X el número de caras obtenidas. La f.p.p. de X está dada por p0 = 1/8,
p1 = 3/8, p2 = 3/8 y p3 = 1/8. La f.d.a. de X está dada por (ver Figura 4.5)


 0 si x < 0

1/8 si 0 ≤ x < 1



F (x) = 4/8 si 1 ≤ x < 2 .

7/8 si 2 ≤ x < 3





1 si 3 ≤ x

Ejemplo 4.14. Sea X una v.a.c. con f.d.p. f (x) = 2x, 0 ≤ x ≤ 1. La f.d.a. de X es (ver
Figura 4.14) 
0
 si x < 0
F (x) = x2 si 0 ≤ x < 1 .

1 si 1 ≤ x

Nota: Observar que F (·) se define siempre en todo <, no solo en RX . Si X es una v.a.d.,
entonces F (·) es una función escalonada, con discontinuidades de magnitud pi en xi . Si X es
una v.a.c, entonces F (·) es una función continua.
Ricardo Gatica E. Probabilidad para Ingenieros 42

Figura 4.6: Función de Distribución Acumulada Ejemplo 4.14


.

Propiedades de la Función de Distribución Acumulada


Propiedad 4.1. Sea X una v.a. con f.d.a F (·), Se tiene:

F1. F (·) es no-decreciente. Es decir, si x1 < x2 , entonces F (x1 ) ≤ F (x2 ).


F2. lı́mx→−∞ F (x) = 0 y lı́mx→∞ F (x) = 1.
F4. Si X es v.a.d. con RX = {x1 , x2 , . . .}, entonces p1 = F (x1 ) y pi = F (xi ) − F (xi−1 ), para
i = 2, 3, . . ..
∂F (x)
F4. Si X es v.a.c., entonces f (x) = , y P {a ≤ x ≤ b} = F (b) − F (a).
∂x

Nota: Es muy importante destacar que tanto la función de distribución acumulada como la
distribución de probabilidades (f.p.p. o f.d.p., según corresponda) proveen información completa
respecto de la propiedades probabilisticas de la variable aleatoria. Por tanto, cualquiera de ellas
puede utilizarse para describir en forma compacta el espacio de probabilidad asociado, evitando
ası́ la necesidad de expresarlo en forma explı́cita.

Quiz: ¿Cómo se imagina Ud. una variable aleatoria mixta discreta-continua?

4.6. Funciones de Variables Aleatorias

En esta sección se estudian funciones de variables aleatorias de la forma Y = H(X). Si E es un


experimento, S un espacio muestral asociaso con E, y X una variable aleatoria definida en S,
entonces Y es también una variable aleatoria, pues Y asigna a cada valor s ∈ S, un valor real
y = H(X(s)). Esto se muestra gráficamente en la Figura 4.7. Se define el rango de Y, denotado
RY , como el set de todos los valores posibles de Y .
Ricardo Gatica E. Probabilidad para Ingenieros 43

Figura 4.7: Ilustración funciones de variables aleatorias

Definición 4.10. Sea E un experimento y S un espacio muestral asociado con E. Sea X una
variable aleatoria definida en S, Y = H(X). Sea C ⊆ RY , B ⊆ RX y A ⊆ S. Si

B = {x ∈ RX : H(x) ∈ C},

se dice que B y C son equivalentes. Si además

A = {s ∈ S : X(s) ∈ B},

se dice que A, B y C son equivalentes.

Al igual que con RX , puede pensarse en RY como un nuevo espacio muestral asociado con S, y
asignar probabilidades a los diferentes eventos en RY . Si A, B y C satisfacen las condiciones de la
Definición 4.10, se tiene por la Definición 4.4 que P (C) := P (B) := P (A). Más especı́ficamente,

PY (C) = PX {x ∈ RX : H(x) ∈ C} = PS {s ∈ S : X(s) ∈ B} = PS {s ∈ S : H(X(s)) ∈ C}.

Es decir, se puede calcular la probabilidad de un evento en RY como la probabilidad de su


evento equivalente en RX , o como la probabilidad de su evento equivalente en S.

Nota: Observar que todo evento C ⊆ RY tiene un evento equivalente en RX , pero si la función
no es H(·) no es invertible, un evento B ⊆ RX puede no tener un evenmto equivalente en RY .

4.6.1. Distribución de probabilidad de una función de una variable aleatoria

Caso 1: X es v.a.d.

Es intuitivamente obvio que si X es una variable aleatoria discreta, entonces Y = H(X) es


también discreta.
Ricardo Gatica E. Probabilidad para Ingenieros 44

Tabla 4.2: Distribución de Probabilidades Ejemplo 4.15

yj Evento en RX pY (yj )
0 {X = 2} 3/8
1 {X = 1 ó X = 3} 1/2
2 {X = 0} 1/8

Sea X una v.a.d. e Y = H(X). Suponga que RX = {x1 , x2 , . . .} y RY = {y1 , y2 , . . .}. Sea
Ωj = {xi ∈ RX : H(xi ) = yj }, entonces la distribución de probabilidades de Y esta dada por
X
pY (yj ) = P {Y = yj } = PX (Ωj ) = pX (xi ), para j = 1, 2, . . . .
xi ∈Ωj

Ejemplo 4.15. Sea X una v.a. con distribución de probabilidades {(0, 81 ), (1, 38 ), (2, 38 ), (3, 18 )}.
Sea Y = |X −2|. Se tiene que RY = {0, 1, 2}. La distribución de probabilidades de Y se presenta
en la Tabla 4.2.

Caso 2: X es v.a.c, Y es v.a.d.

Sea X una v.a.c. con f.d.p f (·). Sea Y = H(X) y asuma que Y es discreta. Sea Ωj = {x ∈ RX :
H(x) = yj }, entonces la distribución de probabilidades de Y esta dada por
Z
pY (yj ) = P {Y = yj } = PX (Ωj ) = f (x)dx, para j = 1, 2, . . . .
Ωj

Ejemplo 4.16. Sea X una v.a.c. con f.d.p. f (x) = x/20, 3 ≤ x ≤ 7. Sea Y = bx/2c, entonces
RY = {1, 2, 3}. La distribución de probabilidades de Y se presenta en la Tabla 4.3.

Tabla 4.3: Distribución de Probabilidades Ejemplo 4.16

yj Evento en RX pY (yj )
1 {3 ≤ X < 4} 7/40
2 {4 ≤ X < 6} 20/40
3 {6 ≤ X ≤ 7} 13/40

Quiz: Calcule las probabilidades de la Tabla 4.3.

Caso 3: X es v.a.c, Y es v.a.c.

Sea X una v.a.c. con f.d.p f (·). Sea Y = H(X) y asuma que H(·) es una función continua, en-
tonces Y es una v.a.c. La f.d.p. de Y , denotada fY (·) puede determinarse utilizando el siguiente
procedimiento [Meyer]:
Ricardo Gatica E. Probabilidad para Ingenieros 45

Figura 4.8: Representación v.a. Y en Ejemplo 4.17

Paso 1: Obtener el rango de Y .

Paso 2: Obtener FY (y) = P (Y ≤ y) = P {x ∈ RX : H(x) ≤ y}.


∂FY (y)
Paso 3: Obtener fY (y) = .
∂y

Nota: El punto clave en este procedimiento es con frecuencia la adecuada definición del evento
en RX equivalente a {Y ≤ y}.

Ejemplo 4.17. Sea X una v.a.c con fX (x) = .05, 10 ≤ x ≤ 30, y sea Y = (X − 20)2 . Para
encontrar fY (·) se procede como sigue:

Paso 1: Puede verificarse en la Figura 4.8 que RY = [0, 100].

Paso 2:
FY (y) = P {Y ≤ y} = PX {(X − 20)2 ≤ y}

= PX {|X − 20| ≤ y}
√ √
= PX {− y ≤ X − 20 ≤ y}
√ √
= PX {20 − y ≤ X ≤ 20 + y}

= .05 ∗ 2 y

= .1 y

Paso 3:
∂FY (y) .05
fY (y) = =√ .
∂y y
Ricardo Gatica E. Probabilidad para Ingenieros 46

Teorema 4.2. Sea X una v.a.c. con f.d.p. f (·). Sea Y = H(X) con H(·) una función diferen-
ciable y monótona (por lo tanto invertible). Entonces

∂H −1 (y)
fY (y) = f (H −1 (y)| |
∂y

Ejemplo 4.18. Sea X una v.a.c. con fX (x) = .05x, 3 ≤ x ≤ 7. Sea Y = X 2 (observar que
H(x) = x2 es una función diferenciable y creciente en el intervalo [3, 7]). Se tiene:

RY
= [9, 49]
−1 √
H (y) = y
−1
∂H (y) 1
= √
∂y 2 y

Por lo tanto,
√ 1
fY (y) = (.05 y)| √ | = .025.
2 y
Se concluye que fY (y) = 0.025, 9 ≤ y ≤ 49, es decir, Y es una variable aleatoria uniforme en
el intervalo [9, 49].

Funciones de varias variables aleatorias

Sean X y Z variables aleatorias. Se han definido en la presente sección, las funciones de una
variable aleatoria individual de la forma Y = H(X). Sin embargo, nada impide definir funciones
de varias variables aleatorias, por ejemplo, W = H(X, Z). Claramente, W también es una
variable aleatoria. Este tópico será discutido en el Capı́tulo 8. En este capı́tulo, simplemente se
busca establecer la existencia de tales funciones.

Un caso especial de funciones de varias variables aleatorias que se presentará con cierta fre-
cuencia en capı́tulos posteriores es el siguiente: Sea X1 , X2 , . . . , Xk , un conjunto de variables
aleatorias, y sean α1 , α2 , . . . , αk , números reales. Se dice que Y es una combinación lineal de
X1 , X2 , . . . , Xk , si

Y = α1 X1 + α2 X2 + . . . + αk Xk .

4.7. Ejercicios

4.1. Suponga que una estación de servicio vende gasolina de un solo tipo. La estación recibe
los envı́os desde el proveedor una vez a la semana. El volumen de venta semanal (en miles de
barriles) es una v.a. X con f (x) = k(1 − x)4 , 0 ≤ x ≤ 1. ¿Qué capacidad debiera tener el
déposito de la estación para asegurar que la probabilidad de déficit sea a lo más 1 %.
Ricardo Gatica E. Probabilidad para Ingenieros 47

4.2. Sea X una v.a.d. con f.p.p. P {X = j} = aj (1 − a), j = 0, 1, 2, . . .

a) ¿Para qué valores de “a” la f.p.p. descrita es válida?


b) Provea una interpretación de X.
c) Encuentre una expresión para P {X > s} y P {X ≥ s}, con s un entero no-negativo.
d) Demuestre que P {X > s + t/x > s} = P {X ≥ t}.
4.3. Un experimento consiste en seleccionar un número desde una distribución dada por P {I =
i} = .5i , i = 1, 2, . . ., y después lanzar una moneda cargada con probabilidad e−I de obtener
cara. Si el experimento es realizado y se obtiene cara, encuentre la probabilidad que el número
seleccionado fue 2.
4.4. Sea X una v.a.c. con la siguiente f.d.p.:

ax
 si 0 ≤ x ≤ 1
f (x) = a si 1 < x ≤ 2 .

a(3 − x) si 2 < x ≤ 3

a) Determine el valor de la constante a.


b) Determine y grafique la f.d.a. de X.
c) Encuentre P {X > 1/X < 2}
d) Encuentre P {X < 2.5/X ≥ .5}.
4.5. Un punto es seleccionado al azar desde un intervalo de largo L, dividiendo ası́ el intervalo
en dos segmentos. Encuentre la probabilidad que la razón entre el segmento más corto y el más
largo sea menor a .25.
4.6. La vida útil de cierto componente electrónico es una v.a.c. con f (x) = 100/x2 , x > 100.

a) Encuentre la probabilidad que el componente dure menos de 200 hrs., si se sabe que está aún
en condiciones operativas despues de 150 hrs.
b) Si tres de tales componentes son instalados en una máquina, encuentre la probabilidad que
exactamente uno de ellos deba ser reemplazado antes de 150 hrs.
c)Encuentre el mı́nimo número de componentes que debe ser instalados en una máquina de
manera que la probabilidad que al menos un componente dure más 150 hrs. sea igual o superior
a .95.
4.7. Sea X una variable aleatoria con la siguiente f.d.a.:



 0 si x<0

x/3 si 0≤x<1
F (x) = .
x/2 si

 1≤x<2

1 si 2≤x

a) Grafique F (·).
b) ¿Es X discreta o continua?.
Ricardo Gatica E. Probabilidad para Ingenieros 48

c) Encuentre P {.5 ≤ X ≤ 1.5}.


d) Encuentre P {1 < X < 2}.
e) Encuentre P {1 ≤ X ≤ 2}.
f ) Encuentre P {X = 1}.
g) Encuentre P {X < 1}.

4.8. Sean X, Y y Z variables aleatorias independientes con la misma f.d.a. F (w) = 1 − e−w .
Encuentre:

a) P {máx(X, Y, Z) ≤ 5}
b) P {mı́n(X, Y, Z) ≥ 3}
c) P {mı́n(X, Y, Z) ≥ 3 y máx(X, Y, Z) ≤ 5}
d) P {mı́n(X, Y, Z) ≤ 3 y máx(X, Y, Z) ≤ 5}

4.9. Un blanco consiste en cuatro cı́rculos concéntricos de radios 1, 2, 3 y 5 cm., respectiva-


mente. Los disparos que impactan en el interior del cı́rculo central tienen 10 puntos, disparos
en el primer anillo tienen 5 puntos, en el segundo anillo tienen 2 puntos, y en el tercer anillo
no tienen puntaje. El punto de impacto de los disparos es una variable aleatoria distribuida
uniformemente en toda el área del blanco. Impactos fuera del blanco tienen probabilidad cero.
Encuentre la f.p.p. y la f.d.a del puntaje total después de un disparo, y despues de dos disparos.
Los disparos se asumen independientes.

4.10. Considere el siguiente juego: Un jugador selecciona un punto al azar desde el cuadrado
0 ≤ x ≤ 1, 0 ≤ y ≤ 1. El jugador gana si las coordenadas del punto son ambas mayores que b.
Encuentre b de tal manera que el juego tenga probabilidad .5 de éxito.

4.11. Sea X una v.a.c. con f (x) = kx, −1 ≤ x ≤ 3, e Y = X 2 . Encuentre:

a) El valos de k.
b) P {X < 2}
c) P {Y < 1}
d) P {Y < 2}
e) P {Y > 1, X < 2}
f ) P {Y > 1/X < 2}
g) P {X < 0/Y < 1}
h) P {X < 0/Y < 2}
i) La f.d.a. y la f.d.p. de Y .

4.12. Sea X una v.a.c. con f (x) = kx, −1 ≤ x ≤ 3, e Y = 9 − X 2 . Encuentre:

a) P {Y < 8.5}
b) P {Y < 8/X > 0}
c) P {X > 0/Y > 8}
d) La f.d.a. y la f.d.p. de Y .
Capı́tulo 5

Principales Caracterı́sticas de las


Variables Aleatorias

En este capı́tulo se presentan varias medidas que se utilizan para describir en forma resumida
la distribución de probabilidad de una variables aleatoria.

5.1. Valor Esperado

El concepto de promedio o media de un conjunto de números nos es P familiar. Si tenemos n


valores x1 , x2 , . . . , xn , entonces la media aritmética se define como x̄ = ni=1 (xi /n). Por ejemplo,
suponga que usted participa en el siguiente juego: Una moneda balanceada es lanzada 3 veces
o hasta obtener cara (lo que suceda primero). Si se obtiene cara en el primer, segundo o tercer
lanzamiento usted ganará $2, $4 u $8, respectivamente. Si no obtiene cara, usted perderá $20. De
este modo, si X es la variable aleatoria que representa la ganancia neta, entonces la distribución
de probabilidad de X está dada por {(2, 1/2), (4, 1/4), (8, 1/8), (−20, 1/8)}. Si ud juega n veces
y define Xi como la cantidad de dinero que usted gana en la ronda i, entonces X̄ representará el
promedio ganado por juego (note que X̄ es una combinación lineal de variables aleatorias, por
lo tanto es una variable aleatoria).

En general, parece razonable que usted estará dispuesto a participar en el juego si existen
“buenas posibilidades” que la ganancia promedio por juego sea positiva. Si se define n0 como
el número de veces que no obtenemos cara, y para i = 1, 2, 3, ni como el número de veces que
obtenemos cara en el i-ésimo lanzamiento, se tiene que:
2n1 + 4n2 + 8n3 − 20no n1 n2 n3 n0
Ganancia promedio = = 2 +4 +8 −20 = 2f1 +4f2 +8f3 −20f0
n n n n n

49
Ricardo Gatica E. Probabilidad para Ingenieros 50

donde fi representa las frecuencias relativas respectivas. Como lı́mn→∞ fi = pi , se tiene que:

lı́m Ganancia promedio = 2p1 + 4p2 + 8p3 − 20p0 = 2 · 1/2 + 4 · 1/4 + 8 · 1/8 − 20 · 1/8 = 0.5
n→∞

La propiedad de regularidad nos dice que la ganancia promedio por juego va a tender a este
valor luego de muchos, muchos juegos.

Definición 5.1. Sea X una variable aleatoria con cierta distribución de probabilidad. Se define
el Valor Esperado(también llamado media o esperanza) de X, denotado por E(X), como:

1. Si X es una variable aleatoria discreta


X
E(X) = pi xi (5.1)
xi ∈Rx

2. Si X es una variable aleatoria continua


Z
E(X) = xf (x)dx (5.2)
Rx

Nota: Observe que E(X) no necesita ser un valor en RX (como muestra el ejemplo introduc-
torio).

Nota: El valor esperado de una variable aleatoria no es una variable aleatoria, es una constante,
es una caracterı́stica numérica de la distribución de probabilidad.

Notación: Comúnmente, E(X) se denota también por µX , o, cuando no existe posibilidad de


confusión, simplemente por µ.

Sea E un experimento y X una variable aleatoria asociada a E. Como se ha indicado anterior-


mente, si E se repite n veces
P y se difine Xi como la variable aleatoria asociada con la i-ésima
repetición. Entonces X̄ = ni=1 (Xi /n) tiende a E(X) a medida que n aumenta. Veremos más
adelante que La Ley de los Grandes Números permite modelar esta tendencia.

Observar que el concepto de valor esperado es análogo al concepto de “centro de masa” en


mecánica. En este sentido, el valor esperado representa el “centro” de la distribución de proba-
bilidad. Por esta razon, se dice que E(X) es una medida de tendencia central. En un sentido
general, se espera que los valores de la variable aleatoria se concentren alrededor de E(X).

Ejemplo 5.1. Sea E un experimento que consiste en lanzar dos dados balanceados, y sea X la
variable aleatoria que representa la suma de los valores de los dados. Entonces:
1 2 3 4 5 6 5 4 3 2 1
E(X) = 2 · + 3 · + 4 · + 5 · + 6 · + 7 · + 8 · + 9 · + 10 · + 11 · + 12 · =7
36 36 36 36 36 36 36 36 36 36 36
Ricardo Gatica E. Probabilidad para Ingenieros 51

Ejemplo 5.2. (La Distribución Geométrica) Si X es una variable aleatoria geométrica


(ver Ejemplo 4.7), entonces el valor esperado de X está dado por:
∞ ∞
X X h 1−p i 1
E(X) = i(1 − p)i−1 p = p(1 − p)−1 i(1 − p)i = p(1 − p)−1 =
(1 − (1 − p))2 p
i=1 i=1

Ejemplo 5.3. (La Distribución Uniforme): Si X ∼ U [a, b] (Ejemplo 4.11), entonces


b
x2 b b2 − a2
Z
x b+a
E(X) = dx = = =
a b−a 2(b − a) a 2(b − a) 2

Ejemplo 5.4. Sea X una variable aleatoria continua con f (x) = 2x, 0 ≤ x ≤ 1. Entonces

1 1
2x3 1 2
Z Z
E(X) = x · 2xdx = 2x2 dx = =
0 0 3 0 3

Propiedades del valor Esperado [Nelson]

Sean X e Y variables aleatorias, y sea c una constante, entonces:

E1. E(X + Y ) = E(X) + E(Y )

E2. E(cX) = c · E(X)

E3. E(X + c) = E(X) + c

E4. E(c) = c

E5. E(X) ≤ E(|X|)

E6. E(XY ) = E(X)E(Y ) si X e Y son independientes.

Nota: Para comprender totalmente la propiedad E6., se necesita el concepto de variables


aleatorias independientes. Este concepto se estudiará formalmente en el Capı́tulo 8. En
este punto se provee un definición más bien intuitiva: Dos variables aleatorias X e Y son
independientes si el valor adquirido por una de ellas no influencia de ninguna manera el valor
adquirido por la otra. De este modo, conocer el valor de, por ejemplo, X no proporciona
información respecto del valor de Y .
Ricardo Gatica E. Probabilidad para Ingenieros 52

Valor Esperado de una Función de una Variable Aleatoria

Como se estableció en la Sección 4.6, si X es una variable aleatoria e Y = H(X), entonces


Y también es una variable aleatoria. Si se quiere evaluar E(Y ),puede hacerse directamente
utilizando la Definición 5.1. Pero esto requerirı́a conocer la distribución de probabilidad de Y .
Encontrar la distribución de probabilidad de Y puede ser una tarea difı́cil, especialmente si
H(X) es una función complicada. El Teorema 5.1 provee una forma alternativa (usualmente
más fácil) para calcular E(Y ).

Teorema 5.1 (Meyer). Sea X una variable aleatoria y sea Y = H(X). Se tiene que:

a) Si X es una variable aleatoria discreta con distribución de probabilidad {(xi , p(xi )), i =
1, 2 . . .}, entonces X
E(Y ) = H(xi )p(xi ) (5.3)
x∈Rx

b) Si X es una variable aleatoria continua con f.d.p. f (x), entonces:


Z
E(Y ) = H(x)f (x)dx (5.4)
Rx

Ejemplo 5.5. Sea X ∼ U [10, 30] e Y = (X − 20)2 . Entonces


30
(x − 20)3 30 2000
Z
1
E(Y ) = (x − 20)2 dx = = = 33.33
10 20 60 10 60

Quiz: Calcular E(Y ) utilizando la definición 5.1 (vea fY (y) en el Ejemplo 4.17).

5.2. Varianza

Suponga que usted quiere decidir entre dos marcas de ampolletas, la marca A y la marca B.
Ambas, A y B aseguran que la duración de sus ampolletas tiene un valor esperado de 1000
horas. Esto implica que la duración promedio de muchas ampolletas va a ser cercana a 1000
horas en ambos casos. Pero esta información es incompleta, no indica cuán lejano de este valor
puede ser la vida útil de una ampolleta en particular. Por ejemplo, asuma que la duración de
una ampolleta de tipo A está uniformemente distribuida entre 900 y 1100, y que la duración de
una ampolleta B es casi siempre 700 horas, pero de vez en cuando hay una ampolleta que dura
más de 2000 horas (para que en total promedien 1000), ¿cuál escogerı́a Ud.?

La varianza es una medida cuantitativa que nos ayudará a distinguir entre estas situaciones. Es
una medida de la dispersión de la variables aleatoria alrededor del valor esperado.
Ricardo Gatica E. Probabilidad para Ingenieros 53

Definición 5.2. Sea X una variable aleatoria. Se define la varianza de X, donotada por V (X),
como
V (X) = E[(X − E(X))2 ] = E[(X − µ)2 ] (5.5)

Definición 5.3. Se define la Desviación Estandar de X como:


p
σX = V (X) (5.6)

Nota: Observar que V (X) se expresa en unidades cuadradas de X y σx se expresa en las


mismas unidades que X

Nota: Observar que:

V (X) = E[(X − E(X))2 ] = E[X 2 − 2XE(X) + (E(X))2 ]


= E(X 2 ) − E(2XE(X)) + (E(X)2 )
= E(X 2 ) − 2E(X)E(X) + (E(X)2 )
= E(X 2 ) − (E(X)2 )

Nota: Observe que (X − E(X))2 es simplemente una función de X. Por lo tanto V (X) es sólo
el valor esperado de una función de X.
2 , o simplemente σ 2 .
Notación: Comúnmente, la varianza se denota también por σX

Ejemplo 5.6. Sea X la suma de dos dados (vea el Ejemplo 5.1), entonces:
1 2 3 4
E(X) = (−5)2 · + (−4)2 · + (−3)2 · + (−2)2 ·
36 36 36 36
2 5 6 2 5 2 4 3 2 1
+ (−1) · +0· +1 · +2 · + 32 · + 42 · + 52 · = 5.8333
36 36 36 36 36 36 36
Ejemplo 5.7. Sea X ∼ U [a, b], entonces
b
(x − (a + b)/2)2 (b − a)2
Z
V (X) = dx =
a b−a 12

Quiz: Considere X como en el Ejemplo 5.4. Encuentre la varianza de X.

Propiedades de la Varianza.

Sean X e Y variables aleatorias, y c una constante, entonces:

V1. V (c) = 0
Ricardo Gatica E. Probabilidad para Ingenieros 54

Figura 5.1: Localización v/s Dispesión

V2. V (cX) = c2 V (X)

V3. V (X + c) = V (X)

V4. V (X + Y ) = V (X) + V (Y ) − 2E[(X − E(X))(Y − E(Y ))]

V5. V (X + Y ) = V (X) + V (Y ), si X e Y son independientes.

V6. V (X) = E[(X − c)2 ] − [E(X − c)]2

El coeficiente de la Variación (Nelson)

El valor esperado y la varianza proveen dos caracterizaciones diferentes de una variables aleato-
ria X. Puede pensarse en E(X) como una medida de la “localización” de X, mientras que V (X)
proporciona información respecto de la “dispersión” de X. Estas medidas son independientes
en el sentido de que el valor esperado no contiene información respecto de la dispersión, y la
varianza no da referencia alguna respecto de la localización de la variable. Observe, por ejemplo,
que si X es desplazada en c unidades (se suma la constante c a X), el valor esperado se modifica
a E(X + c) = E(X) + c, pero la varianza permanece inalterada, es decir, V (X + c) = V (X).
La Figura 5.1 ilustra los conceptos de localización y dispersión.

Otra caracterı́stica cualitativa de una variable aleatoria se denomina “Variabilidad”. Suponga


que X ∼ U [50, 150] e Y ∼ U [9950, 10050]. Observe que V (X) = V (Y ) = 833, 33. Sin embargo,
parece razonable decir que X es más “variable” que Y , porque en términos porcentuales pod-
edemos hacer una predicción mucho más precisa de Y que la que podemos hacer de X (¿por
qué?). Esto motiva la definición de una medida que compare el valor esperado y la varianza.

Definición 5.4. Sea X una variable aleatoria. Se define el Coeficiente de Variación de X como:
σX
CX =
E(X)
Ricardo Gatica E. Probabilidad para Ingenieros 55

Ası́ mismo, se define el Coeficiente de Variación cuadrado como:

2 V (X)
CX =
[E(X)]2

Observe que en el ejemplo del párrafo anterior CX = 0, 288 y CY = 0, 0288.

Varianza de una Función de Variable Aleatoria

Como en el caso del valor esperado, si X es una variable aleatoria e Y = H(X), V (Y ) puede
calcularse usando la Definición 5.2, o usando el Teorema 5.1 de la siguiente manera:

V (Y ) = E[(Y − E(Y ))2 ] = E[(H(X) − E(H(X)))2 ] = E[(H(X))2 ] − [E(H(X))]2

Quiz: Encuentre V (Y ) para Y definida en el ejemplo 5.5.

5.3. Dos Teoremas Fundamentales

Teorema 5.2 (La Desigualdad de Markov). [Nelson] Si X es una variable aleatoria y h(x)
es una función no-negativa y no-decreciente, entonces:

E(h(X))
P (X ≥ x) ≤
h(x)

En particular, si X es no-negativa, entonces P (X ≥ x) ≤ E(X)/x.

Ejemplo 5.8. Si el tiempo esperado de respuesta de un sistema computacional es 1 segundo, la


Desigualdad de Markov nos dice que a lo más el 10 % de los usuarios espera más de 10 segundos.

Teorema 5.3 (La Desigualdad de Chebyshev). Sea X una variable aleatoria con E(X) =
µ, c una constante y ε una constante positiva, entonces:

P {|X − c| ≥ ε} ≤ E[(X − c)2 ]/ε2 (5.7)

Dos consecuencias obvias de (5.7) son:


V (X)
a) Si c = µ, se obtiene P {|X − µ| ≥ ε} ≤
ε2
1
b) Si c = µ y ε = kσX , entonces P {|X − µ| ≥ kσX } ≤
k2
Ricardo Gatica E. Probabilidad para Ingenieros 56

Ejemplo 5.9. Una consecuencia de b) es que cualquier variable aleatoria tiene una probabilidad
de a lo más 11 % de estar alejada más de 3 desviaciones estandar desde el valor esperado (hacer
los cálculos).

La Desigualdad de Chebyshev es muy útil para calcular cotas asociadas a la probabiidad de


eventos, cuando no tenemos la distribución de probabilidades exacta de una variable aleatoria,
pero conocemos el valor esperado y su varianza. En particular, la consecuencia a) muestra como
la varianza mide el “grado de concetración” de X alradedor de E(X), nos dice que grandes
desviaciones desde E(X) son improbables si V (X) es pequeña.

Nota: En efecto, la Desigualdad de Chebyshev es una consecuencia de la Desigualdad de


Markov.

Quiz: Demuestre la Desigualdad de Chebyshev utilizando la Desigualdad de Markov.

5.4. Momentos

El Valor esperado y la Varianza son las caracterı́sticas principales de una variable aleatoria.
Ellas pertenecen a un conjunto más amplio de medidas numéricas, denominadas momentos, que
caracterizan completamente la distribución de probabilidades de una variable aleatoria. Esto
quiere decir, que el conjunto de todos los momentos determinan inequı́vocamente la distribución,
y viceversa.

Definición 5.5. Sea X una variable aleatoria. El r-ésimo momento de X alrededor del origen se
defina como σr = E(X r ), y el r-ésimo momento central de X se define como µ0r = E[(X − µ)r ].

Nota: Observe que E(X) = µ1 y V (X) = µ02 .

Nota: Cualquiera de los dos conjuntos de momentos, {µ0i } o {µi }, basta para describir la
distribucion de probabilidades de la variable aleatoria.

En las primeras secciones de este capı́tulo se ha indicado qué tipo de información es proporciona-
da por E(X) y V (X). Otros momnetos también poseen una fácil interpretación. Por ejemplo
µ03 = E[(X − µ)3 ] se asocia con la simetrı́a de la distribución. Si la distribución presenta un
único valor máximo, se tiene que:

µ03 > 0 ⇒ La distribución es asimétrica negativa.


µ03 = 0 ⇒ La distribución es simétrica.
µ03 < 0 ⇒ La distribución es asimétrica positiva.
Ricardo Gatica E. Probabilidad para Ingenieros 57

Figura 5.2: Simetrı́a de una Distribución

5.5. Distribuciones Condicionales y Valor Esperado Condi-


cional

Distribución Condicional

Sean A y B eventos en un espacio muestral S. En el Capı́tulo 3 se definió la Probabilidad


Condicional de A dado B (P (A/B)) como la probabilidad del evento A dado que se sabe que
el resultado del experimento está en B (B ya ocurrió). También se indicó en el Capı́tulo 3
que la función P (·/B) es una función de probabilidad y, consecuentemente, satisface todas las
propiedades de una función general de probabilidad.

Cuando A y B son eventos asociados con una variable aleatoria X, la definición permanece igual,
pero necesitamos reemplazar S por RX . La función P (·/B) en este caso induce la definición de
Distribución Condicional.
Definición 5.6. Sea X una variable aleatoria discreta con distribución de probabilidad
{(xi , p(xi )), i = 1, 2, . . .} y B ⊆ Rx con P (B) 6= 0. Se define la función de probabilidad condi-
cional puntual de X dado B como
(
p(xi )/P (B) si xi ∈ B,
pX/B (xi ) = P {X = xi /B} = para i = 1, 2, . . . . (5.8)
0 en otro caso.

Notación: Cuando no hay posibilidad de confusión, se utiliza la notación pA (Xi ) = pX/A (xi ).
Definición 5.7. Sea X una variable aleatoria continua con p.d.f. f (x), y B ⊆ Rx con P (B) 6=
0. Se define la función de densidad de la probabilidad condiconal de X dado B como:
(
f (x)/P (B) si x ∈ B,
fX/B (x) = (5.9)
0 en otro caso.
Ricardo Gatica E. Probabilidad para Ingenieros 58

Notación: Cuando no hay posibilidad de confusión, se utiliza la notación fA (x) = fX/A (x).


Quiz: Demuestre que fX/B (x) = (P {X ≤ x/B})
∂x
Valor Esperado Condicional

Luego de definir el concepto de distribuciones condicionales, parece natural definir el valor


esperado condicional, esto es, el valor esperado de la variable aleatoria X cuando el rango del
espacio se reduce de RX a B.
Definición 5.8. Sea X una variable aleatoria y B ⊆ RX , con P (B) 6= 0. Se define el Valor
Esperado Condicional de X dado B como:

a) Si X es una variable aleatoria discreta con distribución de probabilidad {(xi , p(xi )), i =
1, 2, . . .}, X
E(X/B) = xi pX/B (xi ) (5.10)
xi ∈B

b) Si X es una variable aleatoria continua con f.d.p. f(x),


Z
E(X/B) = xfX/B (x) (5.11)
x∈B

Nota: Las definición de Valor esperado Condicional de una función de una variable aleatoria
es análoga.

Quiz: Encuentre una expresión para la varianza condicional de X dado B.


Teorema 5.4 (El Teorema del Valor Esperado Total). Sea B1 , B2 , . . . , Bk una partición
de Rx . Entonces,
Xk
E(X) = E(X/Bi )P (Bi ) (5.12)
i=1

Ejemplo 5.10. Sea X una variable aleatoria continua con f (x) = 2x, 0 ≤ x ≤ 1 (recuerde los
ejemplos 4.10, 4.14 y 5.4). Sea A = {X > 0.5}, entonces:

P (A) = P (X > 0.5) = F (1) − F (0.5) = 0.75


P (A0 ) = P (X ≤ 0.5) = F (0.5) = 0.25

2x 8x
fX/A (x) = = , 0.5 < x ≤ 1
0.75 3
2x
fX/A0 (x) = = 8x, 0 ≤ x ≤ 0.5
0.25
Ricardo Gatica E. Probabilidad para Ingenieros 59

Z 1 Z 1 Z 1
8 8 2 8 1 7
E(X/A) = xfX/A (x)dx = x( x)dx = x dx = x3 =
0.5 0.5 3 .5 3 9 0.5 9

Z 0.5 Z 0.5 Z 5
0 8 5 1
E(X/A ) = xfX/A0 (x)dx = x(8x)dx = 8x2 dx = x3 =
0 0 0 3 0 3

7 1 2
E(X) = E(X/A)P (A) + E(X/A0 )P (A0 ) = · 0.75 + · 0, 25 =
9 3 3

Notar que este es el mismo resultado obtenido en el ejemplo 5.4.

Nota: Puede verificarse en el Ejemplo 5.10 que


Z 1 Z 1
8 8x2 1
fX/A (x)dx = xdx = = 1.
0.5 0.5 3 6 0,5

Como obviamente fX/A ≥ 0, puede comprobarse que se satisfacen las propiedades D1. y D2. de
la Definición 4.8. Esto es cierto en general. Es decir, las distribuciones condicionales satisfacen
todas las propiedades de una distribución general de probabilidad.

Distribuciones Condicionales en general.

Reconsidere las definiciones 5.6 y 5.7. Sea E un experimento y S un espacio muestral asociado
con E. Asuma que X es una variable aleatoria definida en S. Sea B ⊆ S un evento en S (no
necesariamente en Rx ) con P (B) 6= 0. Entonces todavı́a tenemos que P (·/B) es una función
de probabilidad y, por lo tanto, induce a una Distribución Condicional para X, esto es,
la Distribución de Probabilidad de X dado que el espacio muestral se redujo de S
a B. El problema en este caso es que pX/B (·) o fX/B (·) (dependiendo de la naturaleza de X)
no pueden encontrarse utilizando (5.8) o (5.9) y por lo tanto, deben ser tomadas como dadas.
Sin embargo, la Definicion 5.8, y el Teorema 5.4, siguen siendo completamente válidos. El
Ejemplo 5.11 ilustra este concepto.

Notación: RX/B denotará el espacio del rango condicional de X dado que el espacio muestral
se reduce de S a B.

Nota: En el Teorema 5.4, B1 , B2 , . . . , Bk debe ser un partición de S. En la definición 5.8, la


sumatoria y la integral deben hacerse en RX/B , en vez de sobre B.

Ejemplo 5.11. Un estudiante tiene 3 alternativas para resolver un problema. El método A


demora una cantidad de tiempo que se distribuye uniformemente entre 2 y 3 horas, el método
B toma un tiempo al azar cuya f.d.p está dada por f (x) = x/4, 1 ≤ x ≤ 3, y el método 3 toma
una cantidad de tiempo cuya f.d.p está dada por f (x) = 0.5e−0.5x , x ≥ 0. Se busca el tiempo
esperado que el estudiante demorará en resolver el problema.
Ricardo Gatica E. Probabilidad para Ingenieros 60

Observar primero que, en este caso, las distribuciones condicionales son dadas. Si
X es el tiempo que el estudiante demora en resolver el problema, y se de-
fine A = {el estudiante escoge el método A}, B = {el estudiante escoge B}, y C =
{el estudiante escoge C}, se tiene que:
5
fX/A (x) = 1, 2 < x < 3 y E(X) = ,
2
R3 26
fX/B (x) = x/4, 1 ≤ x ≤ 3 y E(X/B) = 1 (x2 /4)dx = ,
12
R∞
fX/B (x) = 0.5e−0.5x , x ≥ 0 y E(X/C) = 0 0.5xe−0.5x dx = 2.

Luego, asumiendo que le estudiante escoge al azar entre los métodos A,B y C, se tiene,
5 1 26 1 1 20
E(X) = E(X/A)P (A) + E(X/B)P (B) + E(X/C)P (C) = · + · +2· = .
2 3 12 3 3 9

5.6. Ejercicios

5.1. Una moneda balanceada es lanzada 3 veces. Encuentre el valor esperado y la varianza del
número de caras obtenidas.

5.2. Una moneda balanceada es lanzada 3 veces o hasta que se obtiene cara. Encuentre:
a) El valor esperado y la varianza del número de caras
b) El valor esperado y la varianza del número de sellos
c) El valor esperado y la varianza del número total de lanzamientos.

5.3. Una caja contiene 3 bolas blancas y 7 rojas. Encuentre el valor esperado del número de de
bolas blancas en una selección de 4 bolas.
a) Con reemplazo
b) Sin reemplazo

5.4. Un experimento tiene un costo de prueba de $100, y probabilidad 0.2 de ser exitoso. Hay
un presupuesto de $1000 y el experimento será repetido hasta que sea exitoso o se acabe el
presupuesto. Si el experimento es exitoso se obtiene una ganancia de $2000. Encuentre el valor
esperado de la ganancia neta.

5.5. Sean X e Y dos variables aleatorias independientes tal que E(X) = 10, σX = 2, E(Y ) = 6
y E(Y 2 ) = 52. Encuentre:
a) E(10X + 4)
b) V (3X + 100)
c) E(−X)
d) V (−X)
e) E(X 2 )
Ricardo Gatica E. Probabilidad para Ingenieros 61

f ) V (Y )
g) E(X  +Y) 
3X + 2Y
h) E
 4 
3X + 2Y
i) V
4
j) E(X − Y )
k) V (X − Y )
l) V (2X − 3Y )
5.6. Sea X una variable aleatoria continua con la siguiente f.d.p.

ax
 0 ≤ x ≤ 1,
f (x) = a 1 ≤ x ≤ 2,

a(3 − x) 2 ≤ x ≤ 3.

a) Encuentre E(X).
b) Encuentre V (X).
c) Encuentre E(X/X < 1).
d) Encuentre E(X/X > 2).
5.7. Cuando se procesa petróleo, la temperatura de destilado T (en grados centı́grados) es crucial
para la calidad del producto final. Si T es menos de 200, el producto se conoce como nafta, y
genera una ganancia neta de $0.2 por galón. Si 200 ≤ T ≤ 220, se conoce como petróleo refinado
de alta calidad, y genera una ganancia neta de $0.5 por galón. Si T ≥ 220, el producto se
conoce como petróleo refinado y genera una ganancia neta de $0.3 por galón. Si T se distribuye
uniformemente entre 150 y 300, encuentre la ganancia esperada por galón.
5.8. La vida útil de un aparato eléctrico, en años, es una variable aleatoria continua X, con
f (x) = 0.5e−0.5x , x ≥ 0. El costo de manufactura es $50, y el precio de venta es de $120. El
fabricante asegura la devolución total del dinero si el aparato dura menos de 1 año. Encuentre
el valor esperado y la varianza de la ganancia del fabricante por unidad.
5.9. Se sabe que una caja contiene 2 objetos defectuosos y 4 no-defectuosos. Los objetos se
inspeccionan de uno a la vez hasta que se identifican los 2 defectuosos. Encuentre el número
esperado de inspecciones que se debe realizar.
5.10. El radio R de una esfera es una v.a.c. con f (r) = 6r(1 − r), 0 < r < 1. Encuentre el
coeficiente de variación del volumen de la esfera.
5.11. Sea X una variable aleatoria continua con f (x) = 1/x2 , x ≥ 1, e Y otra variable aleatoria
continua definida de la siguiente manera:
(
X 3 si X ≤ 2,
Y =
8 si X > 2.
Encuentre E(X) y E(Y).
Ricardo Gatica E. Probabilidad para Ingenieros 62

5.12. La demanda diaria de pan fresco en una panaderı́a, en miles de kilos, es una variable
aleatoria continua D, con f (d) = ae−ad , d ≥ 0 y a = 1/1000. La producción diaria es de
1100 kilos. El dueño de la panaderı́a envı́a el pan que no se vende a una institución benéfica.
Encuentre:
a) La probabilidad de que la institución reciba pan fresco en un dı́a cualquiera.
b) La probabilidad de que en el lapso de una semana, en por lo menos 6 dı́as, la institución
reciba más de 50 kilos de pan.
c) La demanda esperada diaria.
d) La cantidad esperada de pan que la institución recibe diariamente.
e) La cantidad esperada de pan que la institución recibe semanalmente.
5.13. La cantidad demandada mensual de cierto producto es una variable aleatoria continua D
con f (d) = kd, 20 ≤ d ≤ 30. El costo unitario del producto es de $3 y el precio de venta es de
$7. Debido a que el producto se vuelve obsoleto muy rápidamente, todo lo que no se ha vendido
para el final del mes, debe descartarse a un costo de $1 por unidad. Asuma que le productor
fabrica Q unidades mensualmente.
a) Encuentre una expresión para la ganancia del productor, en función de Q y de D.
b) Encuentre el valor esperado de la ganancia del productor en función de Q y de D.
c) Determine la producción mensual que maximiza la ganancia esperada.
5.14. Un dado se lanza 10 veces. Si se obtienen exactamente 6 unos, encuentre el valor esperado
de números dos que se obtiene.
5.15. Sea X una variable aleatoria continua con f (x) = 3x2 /28, −1 ≤ x ≤ 3, e Y = X 2 .
Encuentre:
a) E(Y ) y V (Y ).
b) E(Y /X > 1).
c) E(X/Y < 1).
5.16. Un estudiante que trabaja en un problema tiene 3 métodos para resolverlo. El método
A le toma una cantidad de tiempo que se distribuye uniformemente entre 2 y 3 horas, y que
no soluciona el problema. Utilizando el método B el estudiante se da por vencido sin haber
solucionado el problema luego de un perı́odo de tiempo que es una variable aleatoria continua
con f (x) = x/4, 1 ≤ x ≤ 3. El método C resuelve le problema luego de una cantidad de
tiempo aleatorio cuya f.d.p. es f (x) = 0.5e−0.5x , x ≥ 0. El estudiente escoge un método al azar
entre éstos, pero sin duda, descarta aquellos que ya ha intentado sin éxito. Encuentre el tiempo
esperado que el estudiante necesita para resolver el problema.
5.17. Diez parejas casadas (20 personas) se sientan al azar en 20 asientos en las siguinetes
configuraciones:
a) En cı́rculo
b) En fila
Encuentre, en cada caso, el número esperado de esposas que están sentadas al lado de su marido.
5.18. Sean X, Y y Z, variables aleatorias independientes tal que: E(X) = 10, E(X 2 ) =
164, E(Y ) = 12, V (Y ) = 10, y E(X · Z) = 80. Encuentre:
Ricardo Gatica E. Probabilidad para Ingenieros 63

a) V (X)
b) E(4X + 5Y )
c) V (4X + 5Y )
d) E(5X − 2Y )
e) V (5X − 2Y )
f ) E(Z)
g) E(X/Y )
Capı́tulo 6

Proceso Bernoulli y Proceso Poisson

Un proceso estocástico es un modelo matemático de un experimento que evoluciona o se repite


en el tiempo, generando una secuencia de variables aleatorias. Ejemplos de procesos estocásticos
son los siguientes:

El precio diario de una acción.

La demanda mensual de cierto producto.

El tiempo entre fallas de una máquina.

El número de clientes que arriban a un banco en cada hora de la jornada bancaria.

Es este capı́tulo se estudiarán el proceso Bernoulli y el proceso Poisson. Estos procesos generan
algunas de las variables aleatorias más frecuentemente usadas en la práctica para representar
un variedad de fenómenos. Además, en cierto sentido, estos procesos son análogos, el primero
en un ambiente de tiempo discreto (el tiempo se mide en periodos) y el segundo en un ambiente
de tiempo continuo.

6.1. El Proceso Bernoulli

La Distribución Bernoulli

Definición 6.1. Sea X una variable aleatoria discreta con RX = {0, 1}, y f.p.p. dada por
P {X = 1} = p y P {X = 0} = 1 − p. Se dice que X tiene distribución Bernoulli, o que X es
una variable aleatoria Bernoulli, con parámetro p.

64
Ricardo Gatica E. Probabilidad para Ingenieros 65

Las variables Bernoulli, tı́picamente aparecen en el siguiente contexto: Si E un experimento y


S en espacio muestral asociado con X. sea A ⊆ S un evento con P (A) = p. Si se define
(
1 si A ocurre
X=
0 si A0 ocurre ,
entonces X es una v.a. Bernoulli.
Ejemplo 6.1. Sea E un experimento que consiste en lanzar una moneda balanceada exacta-
mente una vez. Sea X = 1 si se obtiene cara y X = 0 si se obtiene sello. Entonces X es v.a.
Bernoulli con parámetro p = .5.
Ejemplo 6.2. Sea E un experimento que consiste en lanzar un dado balanceado exactamente
una vez. Sea X = 1 si se obtiene un número mayor a 4, y sea X = 0 en otro caso. Entonces,
X es v.a. Bernoulli con p = 1/3.

En el contexto descrito más arriba, cada una de las repeticiones del experimento E es llamada
un ensayo de Bernoulli, y los eventos A y A0 son referidos como éxito y fracaso, respectivamente.
Propiedad 6.1. Sea X una variable aleatoria Bernoulli con parámetro p. Entonces:

1. E(X) = p
2. V (X) = p(1 − p)
Definición 6.2. Considere una sequencia de ensayos de Bernoulli que satisface:

a) Los essayos son mutuamente independientes.


b) Todos los ensayos tienen el mismo parámentro p.

Para i = 1, 2, . . ., sea Xi la variable aleatoria Bernoulli asociada con el i-ésimo ensayo. Se


denomina proceso Bernoulli a la secuencia X1 , X2 , . . ..

Nota: Informalmente, se denomina también proceso Bernoulli a la secuencia de ensayos de


Bernoulli.

Varias caracterı́sticas de un proceso Bernoulli pueden estudiarse a través de variables aleatorias


discretas. A continuación se estudian tres de ellas. Las dos primeras corresponden a la distribu-
ción Geométrica y a la distribución Binomial, que se introdujeron en los ejemplos 4.7 y 4.8,
respectivamente.

La Distribución Geómétrica

Considere un proceso de Bernoulli con parámetro p, y defina X como el número de ensayos nece-
sarios para obtener el primer éxito. Entonces la distribución de probabilidades de X está dada
por
P {X = k} = (1 − p)k−1 p, k = 1, 2, . . . . (6.1)
Ricardo Gatica E. Probabilidad para Ingenieros 66

Definición 6.3. Se dice que una variable aleatoria discreta X con RX = {1, 2, . . .} y f.p.p dada
por (6.1), es una variable aleatoria Geométrica, o que tiene una distribución Geométrica con
parámetro p, lo que se denota X ∼ Geo(p).

Observe que dado un n, la secuencia Xn+1 , Xn+2 , . . ., es también un proceso Bernoulli, y es


independiente de X1 , X2 , . . . , Xn . Por esta razón, la distribución Geométrica no solo permite
modelar el número de ensayos hasta el primero de todos los éxitos del proceso, sino también
que el número de ensayos necesarios para obtener un éxito empezando en cualquier instante de
tiempo. En particular, permite modelar el número de ensayos entre dos éxitos sucesivos, esto
es el número de ensayos entre un éxito y el siguiente, excluyendo el primero e incluyendo el
segundo. Esto es una consecuencia directa del hecho que los ensayos son independientes, lo que
permite asumir que el proceso se reinicia cada vez que ocurre un éxito.
Propiedad 6.2. Sea X una variable aletoria Geométrica con parámetro p. Entonces:

1
1. E(X) = .
p
1−p
2. V (X) = .
p2

Quiz: Demuestre la Propiedad 6.2.

Quiz: Encuentre la función de distribución acumulada de un a v.a. Geométrica.


Teorema 6.1 (La propiedad de no-memoria de la distribución Geométrica). Sea X
una variable aleatoria Geométrica con parámetro p. Se cumple que

P {X > s + t/X > s} = P {X > t}.

Además, la distribución Geométrica es la única distribución discreta con esta propiedad.

El Teorema 6.1 establece que si el evento A (éxito) no ocurre en los primeros s ensayos, la
probabilidad que no ocurra en los próximos t ensayos es igual a la probabilidad que no ocurra
en los primeros t ensayos. En este sentido, se dice que la distribución Geométrica no tiene
memoria, el modelo olvida lo que ha pasado hasta el instante actual para hacer cálculos de
probabilidad respecto de los ensayos futuros.

La Distribución Binomial

Considere un proceso Bernoulli con parámetro p. Sea X el número de éxitos en un set cualquiera
de n ensayos del proceso (tı́picamente se supone que estos ensayos son sucesivos, pero esto no
es necesario). La función de probabilidad puntual de X está dada por
 
n k
P {X = k} = p (1 − p)n−k , k = 0, 1, . . . , n. (6.2)
k
Ricardo Gatica E. Probabilidad para Ingenieros 67

Observar que si para i = 1, 2, . . . , n, Zi representa la variable Bernoulli asociada al i-ésimo


ensayo en consideración, entonces

X = Z1 + Z2 + . . . + Zn . (6.3)

Definición 6.4. Se dice que una variable aleatoria discreta X con RX = {0, 1, . . . , n} y f.p.p
dada por (6.2), es una variable aleatoria Binomial, o que tiene una distribución Binomial con
parámetros n y p, lo que se denota X ∼ b(n, p).

Propiedad 6.3. Sea X una variable alatoria Binomial con parámetros n y p, entonces:

1. E(X) = np.

2. V (X) = np(1 − p).

Quiz: Utilice (6.3) para demostrar la Propiedad 6.3.

Teorema 6.2 (Propiedad reproductiva de la distribución Binomial). Sean Yi ∼ b(ni , p),


para i = 1, 2, . . . , k, y sea X = Y1 + Y2 + . . . + Yk . Se tiene que X ∼ (n1 + n2 + . . . + nk , p).

El Teorema 6.2 establece que la suma de un conjunto de variables aleatorias binomiales con
el mismo parámetro p (el parámetro n puede variar), es también una variable aleatoria Bino-
mial. Las distribuciones que cumplen este tipo de propiedad se dice que tienen la propiedad
reproductiva.

La Distribución Pascal

Considere un proceso Bernoulli con parámetro p. Sea X el número de ensayos necesarios para
obtener el r-ésimo éxito. La distribución de probabilidades de X está dada por
 
k−1 r
P {X = k} = p (1 − p)k−r , k = r, r + 1, . . . . (6.4)
r−1

Para derivar (6.4), observe que el evento {X = k} es equivalente al evento {se producen r − 1
éxitos en los primeros k − 1 ensayos, y el k-ésimo ensayo es un éxito}. La primera parte de
este evento corresponde a una probabilidad binomial y la segunda parte corresponde a una
probabilidad Bernoulli. Como los ensayos son independientes, se tiene
 
k − 1 r−1
P {X = k} = P {r − 1 éxitos en k − 1 ensayos}P {éxito} = p (1 − p)k−r p.
r−1

Definición 6.5. Se dice que una variable aleatoria discreta X con RX = {r, r + 1, . . .}, y
f.p.p. dada por (6.4), es una variable aleatoria Pascal, o que tiene una distribución Pascal con
parámetros r y p, lo que se denota X ∼ bn(r, p).
Ricardo Gatica E. Probabilidad para Ingenieros 68

Nota: La distribución Pascal es también conocida como la distribución Binomial negativa.

Nota: La notación propuesta para las distribuciones Geométrica y Pascal no es estándar en la


literatura. De hecho, no existe una notación estándar para estas distribuciones, como si es el
caso para ela Binomial.
Propiedad 6.4. Sea X una variable aleatoria Pascal con parámetros r y p. Se tiene:

r
1. E(X) = .
p
r(1 − p)
2. V (X) = .
p2

Un argumento similar al usado en el caso de la Geométrica permite concluir que la distribución


Pascal no solo permite modelar el número de ensayos hasta el r-ésimo éxito en el proceso
Bernoulli, sino que también el número de ensayos necesarios para obtener el r-ésimo éxito
empezando en cualquier instante de tiempo.

Claramente, cuando r = 1, la distribución Pascal se reduce a la Geométrica. Es decir, la


Geométrica es un caso particular de la distribución Pascal. La relación entra ambas, sin embargo
es más profunda. Para observar esta relación, comsidere un proceso Bernoulli con parámetro p.
Sea

Y1 = número de ensayos hasta el primer éxito (incluı́do).


Yi = número de ensayos desde el (i − 1)-ésimo (excluı́do) hasta el i-ésimo (incluı́do) éxito.

Se tiene que Y1 , Y2 , . . ., son variables aleatorias Geométricas independientes, todas con


parámetro p. Si X = Y1 + Y2 + . . . + Yr , entonces X es el número de ensayos hasta el r-ésimo
éxito, por tanto X es Pascal con parámetros r y p. Usando esta observación se tiene:
1 r
E(X) = E(Y1 ) + E(Y2 ) + . . . + E(Yr ) = r = , y
p p
1−p r(1 − p)
V (X) = V (Y1 ) + V (Y2 ) + . . . + V (Yr ) = r 2
= ,
p p2
lo que demuestra la Propiedad 6.4.

La relación entre las distribuciones Geométrica, Binomial y Pascal, en el contexto del proceso
Bernoulli, se muestra en la Figura 6.1.
Ejemplo 6.3. Suponga que los ı́tems producidos por una máquina son inspeccionados uno a
uno. La probabilidad que un ı́tem sea defectuoso es .04.

a) Encuentre la probabilidad que 100 ı́tems sucesivos sean todos no-defectuosos.


Sea X el número de defectuosos en 100 ı́tems, entonces X ∼ b(100, .04), y P {X = 100} =
.96100 .
Ricardo Gatica E. Probabilidad para Ingenieros 69

Figura 6.1: El proceso Bernoulli

b) Encuentre el valor esperado de ı́tems defectuosos en un lote de 100 ı́tems.


E(X) = 100 · .04 = 4.

c) ¿Cada cuántos ı́tems se espera obtener un defectuoso?


Sea Y el número de inspecciones necesarias para obtener el primer defectuoso, entonces
Y ∼ Geo(.04), y E(Y ) = 1/.04 = 25.

d) Encuentre la probabilidad que el quinto ı́tem defectuoso se encuentre exactamente en la


30-ésima inspección.
Sea Z el número de inspecciones
 necesarias
 para obtener el quinto defectuoso, entonces
29
Z ∼ bn(5, .04), y P (Z = 30) = .045 (.96)25 .
4
Teorema 6.3. Sea X ∼ b(n, p) e Y ∼ bn(r, p). Se tiene:

1. P {Y ≤ n} = P {X ≥ r}.

2. P {Y > n} = P {X < r}.

Demostración. Para verificar 1., observar que {X ≥ r} implica que hay al menos r éxitos en
n ensayos, por lo tanto, se necesitan a lo más n ensayos para obtener r éxitos. La parte 2. se
demuestra en forma similar.
Ejemplo 6.4. Considere una moneda cargada con probabilidad de obtener cara igual a 0.4. Se
desea encontrar la probabilidad que se necesiten más de 10 lanzamientos para obtener dos caras.
Si se define Y = bn(2, .4), la probabilidad buscada es
∞  
X k−1
P {Y > 10} = .42 .6k−2 .
1
k=11
Ricardo Gatica E. Probabilidad para Ingenieros 70

Si se define X ∼ b(10, .4), usando el Teorema 6.3 se tiene que


 
10
P {Y > 10} = P {X < 2} = P {X = 0} + P {X = 1} = .610 + .4 · .69 .
1

6.2. El proceso Poisson

La Distribución Poisson
Definición 6.6. Sea λ > 0. Si X es una variable aleatoria discreta con RX = {0, 1, . . .}, y
f.p.p. dada por
e−λ λk
P {X = k} = , k = 0, 1, . . . , (6.5)
k!
se dice que X es una variable aleatoria Poisson, o que tiene distribución Poisson, con parámetro
λ, lo que se denota X ∼ P s(λ).

La distribución Poisson es usada frecuentemente para representar el número de ocurrencias de


un fenómeno en un intervalo de tiempo. Por ejemplo, el número de clientes que entran a un
centro de servicio en un dı́a, el número de llamadas telefónicas recibidas por un operador en
una hora, la demanda semanal por cierto producto, etc. También se usa para modelar algunos
fenómenos espaciales como, por ejemplo, el número de defectos en una pieza de algun material,
o el número de errores tipográficos por página en un libro.

Observar que a diferencia de la distribuciones asociadas al proceso Bernoulli, no se ha descrito


un experimento en que la distribución Poisson emerge naturalmente. Esto implica que cada vez
que se quiera usar, se necesita verificar que efectivamente la distribución Poisson es una aprox-
imación válida para el fenómeno en estudio. Esto se hace normalmente utillizando información
pasada y algún tipo de test estadı́stico. Los ejemplos del párrafo anterior representan casos en
que tı́picamente estos test resultan positivos.
Propiedad 6.5. Sea X una variable aleatoria Poisson con parámetro λ. Se tiene:

1. E(X) = λ.

2. V (X) = λ.

Ejemplo 6.5. Sea X el número de buques que arriban al puerto de Valparaı́so diariamente.
Asuma que X ∼ P s(2).

a) La probabilidad que en un dı́a en particular lleguen exactamente 3 naves es


e−2 23
P {X = 3} = .
3!
Ricardo Gatica E. Probabilidad para Ingenieros 71

b) La probabilidad que en un dı́a cualquiera llegue al menos un barco es


P {X ≥ 1} = 1 − P {X = 0} = 1 − e−2 .

c) El número esperado de narcos que llegan en un dı́a cualquiera es E(X) = 2.

c) La varianza del número de narcos que llegan en un dı́a cualquiera es V (X) = 2.

Teorema 6.4 (Propiedad reproductiva de la distribución Poisson). Sean


X1 , X2 , . . . , Xk , variables aleatorias independientes. Asuma Xi ∼ P s(λi ), i = 1, 2, . . . , k. Sea
Z = X1 + X2 + . . . + Xk , entonces X ∼ P s(λ1 + λ2 + . . . + λk ).
Ejemplo 6.6. Sea X1 ∼ P s(50) el número de llamadas locales recibidas por un operador en un
dı́a tı́pico. Similarmente, sea X2 ∼ P s(40) el número de llamadas de larga distancia. Entonces
Z = X1 + X2 es el número total de llamadas recibidas por el operador, y Z ∼ P s(90).
Teorema 6.5. Sea X ∼ P s(λ). Asuma que X representa el número de ocurrencias de cierto
evento A. Suponga que una fracción p de los eventos tienen la propiedad B, es decir, B ⊆ A y
P(B/A)=p. Sea Y el número de ocurrencias del evento B, entonces Y ∼ P s(λp).
Ejemplo 6.7. El número total de clientes que entran un dı́a domingo a una tienda por departa-
mentos es una variable aleatoria X ∼ P s(400). Se sabe que en promedio el 10 % de las personas
que entran a la tienda efectivamente compran. Sea Y el número de clientes que efectivamente
hacen un compra,. entoces Y ∼ P s(40).

Observar que el Teorema 6.5 no implica que Y = pX. De hecho dado que X toma cierto valor
x, el número de ocurrencias del evento B es una variable aletoria Binomial con parámetros x y p.
En el caso del Ejemplo 6.7, se tiene que si se sabe que X = 300, la distribucióncondicional
 de Y
300
es binomial con parámetros n = 300 y p = .1, es decir P {Y = k/X = 300} = .1k .9300−k .
k
Teorema 6.6 (Aproximación Poisson a la distribución Binomial). Sea X ∼ b(n, p).
Asuma que n tiende a infinito y p tiende a cero. Se cumple que

e−np (np)k
P {X = k} ≈ .
k!

El Teorema 6.6 establece que si n es grande y p es pequeño, una variable aleatoria Binomial
con parámetros n y p puede ser aproximada por una variable aleatoria Poisson con parámetro
np.
Ejemplo 6.8. La probabiliad que un ı́tem sea defectuoso es .0001. Se desea encontrar la prob-
abilidad que un lote de 10000 ı́tems contenga exactamente 12 defectuosos. Sea X el número
de defectuosos en el lote, entonces X ∼ b(10000, .0001). Por el Teorema 6.6, X puede ser
aproximada por una variable aletoria Poisson con parámetro 10000 × .0001 = 10. Por lo tanto,
e−10 1012
P {X = 12} = .
12!
Ricardo Gatica E. Probabilidad para Ingenieros 72

Figura 6.2: La distribución Exponencial

La Distribución Exponencial
Definición 6.7. Sea λ > 0. Si X es una variable aleatoria continua con RX = [0, ∞), y f.d.p.
dada por
f (x) = λe−λx , x ≥ 0, (6.6)
se dice que X es una variable aleatoria Exponencial , o que tiene distribución Exponencial, con
parámetro λ, lo que se denota X ∼ Exp(λ).

La Figura 6.2 muetra la forma genérica de la f.d.p. de una variable aleatoria Exponencial.

La distribución Exponencial es a menudo utilizada para representar tiempos de servicio, tiempos


de proceso, tiempos entre arrivos a un centro de servicio, vida útil de artı́culos electrónicos,
tiempos entre fallas de máquinas, etc.
Propiedad 6.6. Sea X una variable aleatoria Exponencial con parámetro λ. Se cumple:

1
1. E(X) = .
λ
1
2. V (X) = .
λ2
(
1 − e−λx si x ≥ 0
3. F (x) = .
0 otro caso

Teorema 6.7 (No-memoria de la distribución Exponencial). Sea X ∼ Exp(λ), y sean


s y t dos números no-negativos cualesquiera. Se cumple que

P {X > s + t/X > s} = P {X > t}.

Además, la Exponencial es la única distribución continua con esta propiedad.


Ricardo Gatica E. Probabilidad para Ingenieros 73

Demostración. Para demostrar la primera parte observar que

P {X > s + t} e−λ(s+t)
P {X > s + t/X > s} = = = e−λt .
P {X > s} e−λs

La demostración de la segunda parte del teorema escapa al alcance de este texto.


Ejemplo 6.9. Suponga que el tiempo (en minutos) entre llegadas a una estación de servicio
es una variable aleatoria X ∼ Exp(.5).

a) Si la estación esta vacı́a en el instante actual, la probabilidad que continúe vacı́a despues
de 5 minutos es P {X > 5} = e−2.5 . Similarmente, la probabilidad que el próximo vehı́culo
llegue antes de 3 minutos es P {X < 3} = 1 − e−1.5 . Note que en ninguno de los casos
se considera el tiempo transcurrido desde la última llegada. Esto se debe al hecho que la
distribución exponencial no tiene memoria.

b) El tiempo esperado hasta la próxima llegada es E(X) = 2 minutos.

Las distribuciones Gamma y Erlang


Definición 6.8. Para k > 0, se define la función Gamma como
Z ∞
Γ(k) = xk−1 e−x dx.
0

En particular, si k es entero, se tiene Γ(k) = k!.


Definición 6.9. Sea k > 0 y λ > 0. Si X es una variable aleatoria continua con RX = [0, ∞),
y f.d.p. dada por
λk xk−1 e−λx
f (x) = , x ≥ 0, (6.7)
Γ(k)
se dice que X es una variable aleatoria Gamma, o que tiene distribución Gamma, con parámet-
ros λ y k.
Propiedad 6.7. Sea X una variable aleatoria Gamma con parámetros λ y k. Se cumple:

k
1. E(X) = .
λ
k
2. V (X) = .
λ2

Observe que si k = 1, la Ecuación (6.7) se reduce a (6.6), lo que implica que la distribucı́ón Ex-
ponencial es un caso particular de la Gamma. La siguiente definición provee otro caso particular
de la distribución Gamma, el cual también incluye la Exponencial.
Ricardo Gatica E. Probabilidad para Ingenieros 74

Definición 6.10. Sea λ > 0 y k un entero positivo. Si X es una variable aleatoria continua
con RX = [0, ∞), y f.d.p. dada por

λk xk−1 e−λx
f (x) = , x ≥ 0, (6.8)
k!
se dice que X es una variable aleatoria Erlang, o que tiene distribución Erlang, con parámetros
λ y k.

Observe que para k entero, la reducción desde (6.7) a (6.8) es directa. Consecuentemente, el valor
esperado y la varianza de una variable aleatoria Erlang están también dado por la Propiedad 6.7.
El Teorema 6.8 establece una relación importante entre las distribuciones Exponencial y Erlang.
Teorema 6.8. Sean X1 , X2 , . . . , Xk variables aleatorias independientes e identicamente dis-
tribuidas (iid) con Xi ∼ Exp(λ). Sea Z = X1 + X2 + . . . + Xk , entonces Z es una variable
aleatoria Erlang con parámetros λ y k.

El Teorema 6.8 dice que la suma de un conjunto de variables Exponencial idénticas tiene una
distribución Erlang. Este resultado se usará más adelante para mostrar que la relación entre las
distribuciones Exponencial y Gamma es análoga a la relación entre las distribuciones Geométrica
y Pascal.

El Proceso Poisson

El proceso Bernoulli, descrito en la Sección 6.1, permite modelar la ocurrencia de un evento (éxi-
to) en una secuencia de ensayos de Bernoulli. En este contexto, La terna Binomial-Geométrica-
Pascal permite analizar tres caracterı́sticas importantes del proceso: el número de éxitos en un
conjunto de n ensayos, el número de ensayos entre dos exitos sucesivos, y el número de ensayos
necessarios para obtener r éxitos.

El proceso Bernoulli puede entenderse en una base temporal, donde el tiempo avanza en periodos
discretos (por ejemplo dı́as) y a cada periodo corresponde un único ensayo de Bernoulli. Por
ejemplo, el proceso podrı́a contar los dı́as en que cierto ı́ndice de contaminación es excedido en
la ciudad de Santiago, o el número de semanas sin accidentes en una planta manufacturera, etc.

Sin embargo, muchas veces es mucho más realista pensar que el fenómeno evoluciona en tiem-
po continuo. Por ejemplo, en general, interesa el instante preciso en que una máquina falla y
la duración del desperfecto, y no si la máquina falla o no en un dı́a determinado. El proce-
so Poisson puede ser visto como un análogo al proceso Bernoulli, pero en una base tempo-
ral continua. En este caso la terna Bimomial-Geométrica-Pascal es reemplazada por la terna
Poisson-Exponencial-Erlang.
Definición 6.11. Sea X1 , X2 , . . ., una secuencia de variables aleatorias independientes e idénti-
camente distribuidas (iid). Suponga que Xi representa el tiempo transcurrido entre la (i − 1)-
ésima y la i-ésima ocurrencia del cierto evento. Defina
Ricardo Gatica E. Probabilidad para Ingenieros 75

S0 = 0
Sn = X 1 + X 2 + . . . + X n , para n = 1, 2, . . ..

Sn representa el instante de la n-ésima ocurrencia del evento. Se define como proceso de con-
teo a la familia de variables aleatorias {N (t), t ≥ 0}, donde N (t) es el número de ocurrencias
del evento en el intervalo (0, t], esto es

N (t) = máx{n ≥ 0 : Sn ≤ t}, t ≥ 0. (6.9)

Se difine además N (s, t] como el número de ocurrencias del evento en el intervalo (s, t], es decir
N (s, t] = N (t) − N (s) para todo 0 < s < t.
Definición 6.12. Sea X1 , X2 , . . ., una secuencia de variables aleatorias independientes e
idénticamente distribuidas. Si Xi ∼ Exp(λ), i = 1, 2, . . ., se dice que el proceso de conteo
{N (t), t ≥ 0} es un proceso Poisson con tasa λ.
Ejemplo 6.10. Si el tiempo, en minutos, entre llamadas recibidas en una estación telefónica
se distribuye exponencial con parámetro λ = 5, y N (t) es el número de llamadas recibidas hasta
el tiempo t, entonces {N (t), t ≥ 0} es un proceso Poisson con tasa 5 llamadas/minutos.
Ejemplo 6.11. Si el tiempo, en horas, entre llegadas de vehı́culos a una estación de servicio es
Exp(30), y N (t) es el número de vehı́culos que llegan hasta el tiempo t, entonces {N (t), t ≥ 0}
es un proceso Poisson con tasa 30 vehı́culos/hora.

Notación: Si {N (t), t ≥ 0} es un proceso Poisson con tasa λ, se utilizará la notación compacta


N (t) ∼ P P (λ).
Teorema 6.9. Sea {N (t), t ≥ 0} un proceso Poisson con parámetro λ. Se tiene:

1. Para todo t > 0, N (t) es una variable aleatoria Poisson con parámetro λt. Es decir,

e−λt (λt)k
P {N (t) = k} = , k = 0, 1, . . . .
k!

2. N (s, s + t] es una variable aleatoria Poisson con parámetro λt.

3. Para todo s < t ≤ u < v, N (s, t] y N (u, v] son variables aleatorias independientes.

Nota: La parte 3. del Teorema 6.9 dice que el número de ocurrecias del evento en intervalos
de tiempo disjuntos son variables independientes.

Nota: Observar que la parte 1. del Teorema 6.9 es un caso particular de la parte 2.

Nota: El recı́proco del Theorema 6.9 es también cierto. Es decir, si 1., 2. y 3. se cumplen,
entonces {N (t), t ≥ 0} es un proceso Poisson.
Ricardo Gatica E. Probabilidad para Ingenieros 76

La demostración del Theorema 6.9 escapa al alcance de este texto. Sin embargo, para proveer
un poco de intuición al respecto, se examinará la relación entre el número de ocurrencias y el
tiempo entre ocurrencias del evento en un proceso Poisson: Considere el instante de tiem-
po de la primera ocurrencia del evento, X1 = S1 , y observe que el evento {X1 > t} =
{el primer evento ocurre despues de t} es equivalente a {N (t) = 0} = {ocurren cero eventos
entre 0 y t}. Por lo tanto, se tiene

FX1 (t) = P {X1 ≤ t} = 1 − P {X1 > t} = 1 − P {N (t) = 0} = 1 − e−λt .

Por la Propiedad 6.6 parte .3, se sabe que FX1 (·) corresponde a la distribución acumulada de
una variable aleatoria Exponencial con parámetro λ. Usando el Theorema 6.9, puede verificarse
que X2 , X3 , . . . son también Exponenciales con parámetro λ. Consecuentemente, el Teorema 6.8
implica que Sn es una variable aleatoria Erlang con parámetros λ y n. Usando la propiedad de no
memoria de la distribución Exponencial, se tiene que el tiempo necesario para tener n ocurren-
cias del evento, empezando en cualquier instante de tiempo es tambien Erlang con parámetros
λ y n. De esta manera, se completa la analogı́a entre las ternas Binomial-Geométrica-Pascal y
Poisson-Exponencial-Erlang.

Quiz: Use la f.d.p. de la distribución Erlang para demostrar la parte 1. del Teorema 6.9.

Nota: Con frecuencia se utilizara la expresión ”el n-ésimo evento”en lugar de ”la n-ésima
ocurrencia del evento.
Ejemplo 6.12. Los clientes llegan a un estación de servicio de acuerdo a un proceso Poisson
con tasa 30 vehı́culos/hora. Suponga es actualmente 8:00 A.M.

a) La probabilidad que el próximo vehı́culo llegue después de las 8:10 se obtiene de la siguiente
manera: Sea X el tiempo hasta la próxima llegada, entonces X ∼ Exp(30). Se busca

P {X > 1/6} = e−30·1/6 = e−5 .

Alternativamente, se puede definir Y como el número de llegadas entre las 8:00 y las 8:10,
en tal caso se tiene que Y = N (1/6) ∼ P s(30/6), y

P {X > 1/6} = P {Y = 0} = e−5 .

b) La probabilidad que exactamente 20 vehı́culos lleguen entre 8:30 y 9:00 es

e−15 1520
P {N (8.5, 9] = 20} = .
20!
c) La probabilidad que 20 vehı́culos lleguen entre 8:00 y 9:00, 50 vehı́culos lleguen entre 9:00
y 11:00, y no lleguen vehı́culos entre 11:00 y 12:00 es

e−30 3020 e−60 6050 −30


P {N (8, 9] = 20}P {N (9, 11] = 50}P {N (11, 12]} = · ·e .
20! 50!
Ricardo Gatica E. Probabilidad para Ingenieros 77

d) La probabilidad que 40 vehı́culos lleguen entre 9:00 y 10:00, dado que solo 10 llegaron
entre 8:00 y 9:00 es simplemente

e−30 3040
P {N (9, 10] = 40} = ,
40!
debido a la independencia del número de llegadas en intervalos disjuntos.

En la parte e) se explotará la siguiente consecuencia del Teorema 6.9:

P {N (s + t) = n, N (s) = k}
P {N (s + t) = n/N (s) = k} =
P {N (s) = k}
P {N (s) = k, N (s, s + t] = n − k}
=
P {N (s) = k} (6.10)
P {N (s) = k}P {N (s, s + t] = n − k}
=
P {N (s) = k}
= P {N (s, s + t] = n − k}

e) La probabilidad que 65 vehı́culos lleguen entre 9:00 y 10:30, dado que 40 llegaron entre
9:00 y 10:00 es

e−15 1525
P {N (9, 10.5] = 65/ N (9, 10] = 40} = P {N (10, 10.5] = 25} = .
25!

Superposición y Separación de Procesos Poisson

En esta sección se examinan dos consecuencias importantes de los teoremas 6.4 y 6.5.

Superposición es la operación de juntar dos o más procesos de conteo para generar un nuevo
proceso. Por ejemplo, en un banco, el conteo de clientes puede superponerse al conteo de no-
clientes para formar el proceso de conteo del total de personas que demandan servicio. La
propiedad reproductiva de la distribución Poisson permite concluir que la superposición de
procesos Poisson es tambı́en un proceso Poisson.
Teorema 6.10. Sean {Ni (t), t ≥ 0}, i = 1, 2, . . . , k, procesos Poisson independientes. Sea λi
la tasa de proceso i. Defina

N (t) = N1 (t) + N2 (t) + . . . + Nk (t).

Entoces {N (t), t ≥ 0} es proceso Poisson con tasa λ = λ1 + λ2 + . . . + λk .


Ejemplo 6.13. Los trabajos enviados para su ejecución en un computador central están divi-
didos en tres clases de prioridad. Los trabajos de prioridad baja llegan de acuerdo a un proceso
Poisson con tasa 15 trabajos/minuto. Similarmente,los trabajos de prioridad media llegan de
acuerdo a u P P (10) y los de prioridad alta de acuerdo a un P P (5).
Ricardo Gatica E. Probabilidad para Ingenieros 78

a) Sea {N (t), t ≥ 0} el proceso de llegada total, entonces N (t) ∼ P P (30).


b) La probabilidad que lleguen exactamente 50 trabajos en los próximos 2 minutos es
e−60 6050
P {N (2) = 50} = .
50!
Teorema 6.11. Sean {N (t), t ≥ 0} y {Ni (t), t ≥ 0}, i = 1, 2 . . . , k, procesos Poisson definidos
como el el Teorema 6.10. Defina Zn = j si el n-ésimo evento (llegada) en el proceso total
{N (t), t ≥ 0} proviene del proceso {Nj (t), t ≥ 0}. Entonces, Zn , n = 1, 2, . . ., es una secuencia
de variables aleatorias iid con f.p.p. dada por
λi
P {Zn = i} =, i = 1, 2, . . . , k.
λ
Ejemplo 6.14. Considere nuevamente el Ejemplo 6.13. Se desea calcular la probabilidad que
entre las primeras 50 llegadas, se encuentren exactamente 5 trabajos de prioridad alta. El Teo-
rema 6.11 implica que la probabilidad que cualquier trabajo sea de prioridad alta es 5/30 = 1/6.
Por tanto, si X es el número de trabajos de prioridad alta entre las 50 primeras llegadas, se
tiene que X ∼ b(50, 1/6), y
   5  45
50 1 5
P {X = 5} = .
5 6 6

Separación es la operación de generar dos o más procesos de conteo a partir de un proceso


total. La separación ocurre tı́picamente cuando se desea dividir un flujo de llegada en diferentes
clases de acuerdo a alguna propiedad de las entidades que llegan. El siguiente es una extesión
del Teorema 6.5, y establece que después de separar un proceso Poisson, cada proceso individual
es también Poisson.
Teorema 6.12. Sea {N (t), t ≥ 0} un P P (λ). Suponga que N (t) cuenta el número de ocur-
rencias de cierto evento A. Suponga que A puede clasificarse en k categorı́as excluyentes
A1 , A2 , . . . , Ak con probabilidades p1 , p2 , . . . , pk , respectivamente. Es decir, A1 , A2 , . . . , Ak es
una partición de A y P (Ai /A) = pi . Para i = 1, 2, . . . , k, sea {Ni (t), t ≥ 0} el proceso de conteo
de los eventos Ai . Se cumple que {Ni (t), t ≥ 0} es proceso Poisson con tasa λi = λpi . Además
los k procesos individuales son mutuamente independientes.
Ejemplo 6.15. La llegada de vehı́culos a una estación de servicio es un proceso Poisson con
λ = 60 vehı́culos/hora. El 70 % de los vehı́culos son automóviles y el 30 % son camionetas. Si
N (t) denota el proceso de llegada total, N1 (t) la llegada de automóviles y N2 (t) la llegada de
camionetas:

a) {N1 (t), t ≥ 0} es P P (42), y {N2 (t), t ≥ 0} es P P (18).


b) La probabilidad que 25 automóviles lleguen en un periodo de una hora es
e−42 4225
P {N1 (1) = 25} = .
25!
Ricardo Gatica E. Probabilidad para Ingenieros 79

c) La probabilidad que 25 automóviles lleguen en un periodo de una hora, dado que 60


camionetas llegaron en el mismo periodo es P {N1 (1) = 25/N2 (1) = 60} = P {N1 (1) =
25}, debido a la independencia de los procesos indivuales.

d) La probabilidad que 80 vehı́culos lleguen en una hora dado que 20 automóviles llegaron en
el mismo periodo es

P {N (1) = 80, N1 (1) = 20}


P {N (1) = 80/N1 (1) = 20} =
P {N1 (1) = 20}
P {N1 (1) = 20, N2 (1) = 60}
=
P {N1 (1) = 20}
P {N1 (1) = 20} P {N2 (1) = 60}
=
P {N1 (1) = 20}
= P {N2 (1) = 60}
e−18 1860
= .
60!

6.3. Ejercicios

6.1. El número de barcos que llega al Puerto de Valparaı́so en un dı́a cualquiera es una v.a.
Poisson con λ = 2. En la actualidad el puerto puede atender solo tres naves por dı́a. Si llegan
más de tres naves, la diferencia es desviada al puerto de San Antonio.

a) Encuentre la probabilidad que en un dı́a cualquiera, el puerto deba desviar naves a San
Antonio.
b) Encuentre la probabilidad que en un periodo de un mes (30 dı́as), el puerto deba desviar
naves a San Antonio en al menos tres ocasiones.
c) Encuentre el numero esperado de dı́as que el puerto desvı́a naves a San Antonio en un periodo
de un mes.
d) ¿Cada cuántos dı́as en promedio, el puerto desvı́a naves?
e) Encuentre el número esperado de naves que llegan por dı́a.
f ) Encuentre el número esperado de naves que llegan por mes.
g) Encuentre el número esperado de naves atendidas por dı́a.
h) Encuentre le número esperado de naves desviadas a San Antonio por dı́a.
i) ¿En cuánto debieran crecer las instalaciones, de manera que que el puerto atienda todas la
naves que llegan, al menos el 90 % de los dı́as?
6.2. Las estadı́sticas muestran que aproximadamente el 0.1 % de la población está involucrada
en cierto tipo de accidente cada año. Una empresa aseguradora tiene 10000 clientes asegurados
(seleccionados aleatoriamente de la población). Encuentre la probabilidad que no más de 5 de
los clientes efectivamente sufran el accidente.
Ricardo Gatica E. Probabilidad para Ingenieros 80

6.3. EL número de fallas de transistores en un computador sigue un proceso Poisson con tasa
0.1 fallas por hora. Cierto cálculo requiere 20 horas de computación para completarse. El cálculo
se interrumpe si tres o más transistores fallan. Encuentre la probabilidad que el el cálculo no
termine.
6.4. Una fuente radioactiva emite partı́culas de acuerdo a un proceso Poisson con tasa 10
partı́culas por hora. El aparato que cuenta las emisiones falla en registrar una partı́cula con
probabilidad 0.1.

a) Encuentre la distribución de probabilidades del número de partı́culas registradas en un periodo


de una hora, en un periodo de tres horas, y en un periodo de un dı́a.
b) Encuentre el número esperado de partı́culas registradas en un periodo de una hora, en un
periodo de tres horas, y en un periodo de un dı́a.
c) Actualmente es 2:00 pm, encuentre la probabilidad que 40 partı́culas sean registradas entre
4:00 y 7:00.
d) Encuentre la probabilidad que 40 partı́culas sean registradas entre 4:00 y 7:00, dado que 16
particulas fueron registradas entre 2:00 y 4:00.
e) Si 50 partı́culas son emitidas entre 4:00 y 7:00, encuentre el número esperado de partı́culas
registradas en el mismo periodo.
f ) Encuentre la distribución de probabilidades y el valor esperado del tiempo que transcurre
entre dos emisiones no registradas sucesivas.
g) Encuentre la probabilidad que entre las 5:00 y las 7:00 todas las emisiones sean registradas.
h) Encuentre la probabilidad que 15 partı́culas sean registradas entre 2:00 y 5:00, si 5 partı́culas
son registradas entre 2:00 y 3:00.
i) Encuentre la probabilidad que 9 partı́culas sean registradas en un periodo de una hora, si 12
particulas son emitidas en el mismo periodo.
j) Encuentre la probabildiad que 10 partı́culas sean registradas enter 2:00 y 4:00, dado que solo
2 partı́culas son emitidas entre 2:00 y 3:00.
k) Encuentre la probabilidad que 12 partı́culas fueron emitidas entre 6:00 y 7:00, dado que 9
partı́culas fueron registradas en el mismo periodo.
6.5. La demanda mensual por cierto ı́tem tiene una distribución Poisson con parámetro λ = 8
unidades. Los ı́tems que no han sido vendidos al final del mes deben ser descartados. EL precio
de venta del ı́tem es $10 y el costo de producción es $3. Si la producción mensual es de 10
unidades, encuentre la valor esperado de la utilidad obtenida por el fabricante.
6.6. El tiempo de servicio (en minutos) por cliente de un cajero de banco es exponencial con
parámetro λ = .2. Considere una sucursal con un solo cajero.

a) Un cliente ha empezado en este instante su servicio, y Ud. está primero en la fila. Encuentre
la probabilidad que Ud. tenga que esperar entre 3 y 8 minutos.
b) Suponga ahora que Ud. ya lleva 5 minutos el principio de la fila. Encuentre la probabilidad
que tenga de esperar entre 3 y 8 minutos adicionales.
c) Suponga que hay 3 clientes antes que Ud. en la fila (incluyendo al que está siendo atendido).
Encuentre la probilidad que tenga que esperar al menos 10 minutos antes de empezar su servicio.
Ricardo Gatica E. Probabilidad para Ingenieros 81

6.7. Suponga que Ud. está en la fila de un banco. El banco tiene dos cajeros. Cada cajero tiene
un tiempo de servicio (en minutos) con distribución Exponencial con parámetro λ = .2. Ud.
está primero en la fila, y los dos cajeros están ocupados con otros clientes.

a) Encuentre la probabilidad que Ud. tenga que esperar más de 3 minutos para iniciar su ser-
vicio.
b) Encuentre la probabilidad que Ud. tenga que esperar entre 3 y 7 minutos.
c) Encuentre la distribución y el valor esperado del tiempo de espera.
6.8. Suponga que los autos llegan a una estación de servicio de acuerdo a un proceso Poisson
con tasa 30 autos/hora. Similarmente, las camionetas llegan de acuerdo a un proceso Poisson
con tasa 20 camionetas/hora.

a) Encuentre el valor esperado del número total de vehı́culos que llegan en un periodo de dos
horas.
b) Encuentre la probabilidad que 60 vehı́culos lleguen a la estación de servicio en las próximas
dos horas.
c) Si 15 autos llegan en la próxima hora, encuentre le número esperado de vehı́culos que llegarán
en el mismo periodo.
d) Considere una llegada cualquiera, ¿cuál es la probabilidad que el vehı́culo sea auto?.
e) Si en un periodo de una hora llegan 100 vehı́culos, encuentre el valor esperado del número
de autos que llegan en el mismo periodo.
6.9. Asuma que en promedio el 10 % de las personas que entran a una tienda efectivamente
realiza una compra. Encuentre:

a) La probabilidad que entre las 50 primeras personas que entran a la tienda, se produzcan
exactamente 5 ventas.
b) El número esperado de ventas entre los primeras 50 personas que entran a la tienda.
c) La probabilidad que la sexta compra la realice el 50-ésimo cliente potencial.
d) El número esperado de personas que se necesita que entren a la tienda pra realizar 6 ventas.
e) La probabilidad que se necesiten más de 10 clientes potenciales para realizar 2 ventas.
6.10. Los casos de emergencia llegan a un hospital de acuerdo a un Proceso Poisson con tasa
6 pacientes por hora. El 30 % de los paciemtes son mujeres. En este instante es 8:00 am.

a) La probabilidad que la primera emergencia llegue antes de las 8 : 15.


b) La probabilidad que la segunda emergencia llegue antes de las 8 : 15.
c) La probabilidad que se produzcan 20 emergencias entre 8:00 y 11:00, dado que se produjeron
10 entre 8:00 y 9:00.
d) La probabilidad que 3 mujeres lleguen entre 8:00 y 9:00.
e) La probabilidad que 3 mujeres lleguen entre 8:00 y 9:00, dado que se producen 10 emergencias
en total en ese periodo.
f ) El valor esperado del instante de llegada de la tercera mujer.
Ricardo Gatica E. Probabilidad para Ingenieros 82

6.11. Suponga que los autos, camionetas y motos, llegan a una estación de servicio de acuerdo a
procesos Poisson independientes con tasas 30 autos/hora, 20 camionetas/hora y 10 motos /hora,
respectivamente. En este instante es 10:00 am. El último vehı́culo llegó a las 9:55. Encuentre:

a) La distribución y el valor esperado del número total de vehı́culos que llegan en un periodo de
2 horas.
b) La probabilidad que exactamente 100 vehı́culos lleguen en un periodo de 2 horas.
c) La probabilidad que 15 autos, 25 camionetas y 5 motos lleguen en un periodo de una hora.
d) La probabilidad que el primer auto llegue despues de 5 minutos.
e) La probabilidad que 80 vehı́culos lleguen entre 10:00 y 11:00, dado que 30 vehı́culos llegaron
entre 10:00 y 10:30.
f ) La probabilidad que 30 vehı́culos lleguen entre 10:00 y 10:30, dado que 80 vehı́culos llegan
entre 10:00 y 11:00.
6.12. Considere los mismos procesos Poisson del Ejercicio 6.11. Suponga que 20 % de los autos
y 10 % de las camionetas son marca Mazda (suponga que Mazda no fabrica motos). Encuentre:

a) La tasa de llegada de autos y camionetas marca Mazda.


b) La distribución y el valor esperado del número de vehı́culos marca Mazda que llegan a la
estación en un periodo de una hora.
c) La probabilidad que 5 autos marca Mazda lleguen entre 10:00 y 11:00, dado que en total
llegan 30 autos en el mismo periodo.
d) Los valores esperado del tiempo de llegada del próximo y del quinto auto marca Mazda.
e) El número esperado de vehı́culos marca Mazda que llegan entre 11:00 y 13:00, si en el mismo
periodo llegan en total 40 autos, 40 camionetas, y 20 motos.
Capı́tulo 7

La distribución Normal y los


Teoremas de Lı́mite

7.1. La Distribución Normal

La distribución normal es considerada como la distribución continua más importante. Se dice


que es la piedra fundamental de la inferencia estadı́stica. Su importancia proviene de las sigu-
ientes caracterı́sticas:

a) Se ha demostrado empı́ricamente que muchas poblaciones y fenómenos reales pueden


modelarse a través de una distribución normal, o una de sus distribuciones relacionadas.

b) Muchas variables aleatorias continuas y discretas se pueden aproximar mediante una


distribución normal.

c) Debido al Teorema del Lı́mite Central (que se introducirá más adelante), la distribución
normal se utiliza para aproximar la suma y el promedio de un número grande de variables
aleatorias con cualquier distribución. En particular, si un fenómeno puede modelarse como
el resultado de muchas contribuciones pequeñas e (aproximadamente) independientes,
entonces puede ser aproximado por una distribución normal. De hecho, es este principio
el que en muchos casos justifica las dos propiedades anteriores.

d) La distibución normal tiene muchas propiedades matemáticas útiles, que facilitan su ma-
nipulación algebraica.

Definición 7.1. Se dice que una variable aleatoria continua X con RX = (−∞, ∞) y función
de densidad de probabilidades dada por

83
Ricardo Gatica E. Probabilidad para Ingenieros 84

Figura 7.1: f.d.p. de la distribucón Normal

1 (x−µ)2
f (x) = √ e− 2σ2 , −∞ < x < ∞ (7.1)
2πσ

es una variable aleatoria normal con parámetros µ y σ 2 , lo que se denota X ∼ N (µ, σ 2 ). Los
parámetros µ y σ 2 deben satisfacer −∞ < µ < ∞ y σ > 0.
Teorema 7.1. Sea X ∼ N (µ, σ 2 ). Entonces

E(X) = µ (7.2)
V (X) = σ 2 (7.3)

La distribución normal tiene la conocida forma de campana que se presenta en la Figura 7.1.
La campana está centrada, y es simétrica respecto a la media µ.

Nota: Cuando sea necesario para evitar ambiguedad, se utilizará la notación: µX = E(X) y
2 = V (X).
σX
Teorema 7.2. Sea X ∼ N (µ, σ 2 ), e Y = aX + b, entonces Y ∼ N (aµ + b, a2 σ 2 ).

Teorema 7.3 (Propiedad reproductiva de la distribución normal). Sean X1 , X2 . . . Xk


variables aleatorias independientes tal que Xi ∼ N (µi , σi2 ), para i = 1, 2, . . . , k. Sea Y = X1 +
X2 + . . . + Xk . Entonces Y ∼ N ( ki=1 µi , ki=1 σi2 )
P P

Observar que al combinar el Teorema 7.2 y el Teorema 7.3, se tiene que cualquier combinación
lineal de un número finito de variables aleatorias es también una variables aleatoria normal.
La media y la varianza de la nueva variable aleatoria se calculan utilizando las propiedades
generales del valor esperado y de la varianza, discutidas en el Capı́tulo 5. De esta manera, si
Ricardo Gatica E. Probabilidad para Ingenieros 85

X1 , X 2 . P
. . Xk se definenP
como en el Teorema 7.3, e Y = a1 X1 + a2 X2 + . . . + ak Xk + b. Entonces
Y ∼ N ( ki=1 ai µi + b, ki=1 a2i σi2 ).

La distribución normal estándar


Definición 7.2. Si X es una variable aleatoria normal con µ = 0 y σ 2 = 1, se dice que X
tiene una distribución normal estándar. La f.d.p de X se denota por φ(x), y está dada por

1 x2
φ(x) = √ e− 2 , −∞ ≤ x ≤ ∞. (7.4)

La función de densidad de la distribución normal no puede integrarse de manera exacta. Con-


secuentemente, la distribución acumulada de una variable aleatoria normal no tiene una forma
conocida y todos los cálculos de probabilidad deben hacerse utilizando aproximaciones numéri-
cas. Las calculadoras modernas pueden realizar estos cálculos sin problemas. Sin embargo,
tradicionalmente, las probabilidades se obtenı́an de tablas para la distribución acumulada de
la distribución normal estandar, denotada por Φ(x), utilizando el Teorema 7.2 de la siguiente
manera: Sea X ∼ N (µ, σ 2 ), entonces:
 
a−µ x−µ b−µ
P {a ≤ x ≤ b} = P ≤ ≤
σ σ σ
 
a−µ b−µ
=P ≤ N (0, 1) ≤
σ σ
   
b−µ a−µ
=Φ −Φ
σ σ

Notación: Para α < 0.5, el percentil 100(1 − α) de la distribución normal se denota por zα .
Es decir, P {N (0, 1) ≤ zα } = Φ(zα ) = 1 − α.
Ejemplo 7.1. El diámetro en milı́metros X de un cable eléctrico se distribuye normal con
media 0.5 y desviación estandar 0.005. Las especificaciones dicen que el diámetro debe ser entre
0.49 y 0.51. Entonces la probabilidad que el cable satisfaga las especificaciones es:
   
0.51 − 0.5 0.49 − 0.5
Φ −Φ = Φ(2) − Φ(−2) ≈ 0.95
0.005 0.005

El Ejemplo 7.1 sugiere el siguiente problema: Si la distribución normal tiene un rango de todos
los números reales (incluyendo los negativos), ¿cómo puede el diámetro del cable, que debe
ser positivo, ser modelado como una variable aleatoria normal?. La validez del modelo viene
dada por el hecho que P (X < 0) = Φ(−0.5/0.005) = Φ(−100) ∼ = 0. Es decir, la probabilidad
teórica que la variable aleatoria tome un valor negativo es prácticamente cero. En general, puede
verificarse que Φ(−3) ≈ 0.0015 y Φ(−4) ≈ 0. De este modo, la probabilidad que una variable
aleatoria normal tome un valor negativo es despreciable si σ ≤ µ/4 (¿por qué?). En dichos casos,
Ricardo Gatica E. Probabilidad para Ingenieros 86

modelar un valor no-negativo utilizando una variable aleatoria normal, es perfectamente válido.
Incluso para el caso σ ≤ µ/3, la distribución normal puede todavı́a ser una buena aproximación.
Ejemplo 7.2. Un administrador de inventarios ha estimado que el tiempo de reaprovision-
amiento (el tiempo que pasa desde el instante en que él da una orden a su proveedor hasta
que los productos ordenados llegan a la bodega) de cierto producto se distribuye normal con
media 8 dı́as y desviación estandar 1.5. Utilizando esta información, el administrador desea
calcular cuántos dı́as antes de la fecha en que el stock actual se acabe, debe poner una orden de
reaprovisionamiento para que la probabilidad de quedar en déficit sea a lo más 0.02.

Sea X ∼ N (8, 1.52 ) el tiempo de reaprovisionamiento. Se busca un valor R tal que P (X > R) ≤
0.02. Entonces, de
   
X −8 R−8 R−8
P {X > R} = P > =1−Φ ≤ 0.02
1.5 1.5 1.5

se tiene que
R−8
≥ z0.02 ,
1.5
o equivalentemente que
R ≥ 1.5z0.02 + 8 = 11.08.
De este modo, si el administrador pone una orden de reemplazo 12 dı́as antes que el inventario
actual se acabe, la probabilidad de déficit será a lo más 0.02.
Ejemplo 7.3. El radio de un pistón es una variable aleatoria X ∼ N (30, 0.052 ). El radio
interior del cilindro es una variable aleatoria Y ∼ N (30.25, 0.062 ). El espacio entre el cilindro
y el pistón está dado por Z = X − Y . Se tiene que E(Z) = 30.25 − 30.00 = 0.25, y V (Z) =
0.052 + 0.062 = 0.0061, y por tanto, Z ∼ N (0.25, 0.061). La probabilidad que un pistón tomado
al azar encaje en un cilindro está dada por:

 
−0.25
P (Z ≥ 0) = 1 − P (Z < 0) = 1 − Φ √ = 0.9993
0.0061
.

Quiz Considere el Ejemplo 7.3. Si Ud. tiene 80 pares pistón-cilindro seleccionados al azar,
encuentre la probabilidad que exactamente 75 pares calzen (que el pistón entre en el cilindro).
¿Piensa Ud. que esta probabilidad es la misma que la probabilidad de obtener 75 pares que
calzen desde un grupo de 80 pistones y 80 cilindros?.
Ricardo Gatica E. Probabilidad para Ingenieros 87

7.2. Distribuciones Aproximadas por la Distribución Normal

Teorema 7.4. Sea X ∼ b(n, p). Si n es grande, X puede ser aproximada por una distribución
Normal con parámetros µ = np y σ 2 = np(1 − p). Es decir, para n grande se cumple que
!
x − np
P {X ≤ x} ≈ P {N (np, np(1 − p)) ≤ x} = Φ p .
np(1 − p)

Nota: Una expresion más formal para el Teorema 7.4 está dada por
( )
X − np
lı́m P p < z = Φ(z).
n→∞ np(1 − p)

Teorema 7.5. Sea X ∼ P (λ). Entonces, si λ es grande, X puede ser aproximada por un
distribución Normal con parámetros µ = λ y σ 2 = λ.

Nota: Si se considera una proceso Poisson con tasa λ, entonces el Teorema 7.5 implica que el
número de eventos en un intervalo de tiempo largo (λt debe ser gande) se distribuye aproxi-
madamente normal con parámetros µ = λt y σ 2 = λt.

Muchas otras distribuciones importantes pueden aproximarse por la distribución normal, en


particular, todas aquellas que pueden representarse como la suma de variables aleatorias inde-
pendientes. Esto es una consecuencia del Teorema del Lı́mite Central que se presentará en la
Sección 7.4. Entre las distribuciones con esta caracterı́tica, ya se han visto la distribución Pas-
cal (que puede ser modelada como la suma de variable aleatorias Geométricas independientes)
y la distribución Gamma/Erlang (que puede ser modelada como una suma de variables
aleatorias Exponenciales independientes).

7.3. La Ley de los Grandes Números

La Media y la Varianza del Promedio Muestral

Considere una secuencia de variables aleatorias X1 , X2 , . . . , Xn , entonces P


la media aritmética
(o simplemente la media) de X1 , X2 , . . . , Xn es la variable aleatoria X̄ = ni=1 Xni . Utilizando
las propiedades del valor esperado y de la varianza, se puede verificar que:

n
X E(Xi )
E(X̄) = (7.5)
n
i=1
Ricardo Gatica E. Probabilidad para Ingenieros 88

n
X V (Xi )
V (X̄) = , si X1 , X2 , . . . , Xn son independientes. (7.6)
n2
i=1

Si X1 , X2 , . . . , Xn son variables aleatorias independientes e idénticamente distribuidas (iid) con


E(Xi ) = µ, y V (Xi ) = σ 2 , para todo i = 1, 2, . . . , n. Entonces se dice que X1 , X2 , . . . , Xn es
una muestra y que X̄ es el promedio muestral. En este caso, (7.5) y (7.6) se reducen a:

E(X̄) = µ (7.7)

σ2
V (X̄) = (7.8)
n

Las muestras comúnmente aparecen en el siguiente contexto: Considere un experimento E que


puede ser repetido muchas veces bajo exactamente las mismas condiciones. Sea X una variable
aleatoria genérica asociada con E. Considere n repeticiones independientes del experimeto y
sea Xi la variable aleatoria asociada con la i-ésima repetición, entonces X1 , X2 , . . . Xn es una
muestra de la variable aleatoria genérica X. Se dice que el número n es el tamaño de la muestra.

Por ejemplo, asuma, como en el Ejemplo 7.3, que X ∼ N (30, 0.05) es el radio de un pistón (la
variable aleatoria genérica) y tenemos un conjunto de 80 de tales pistones numerados 1, 2, . . . , 80.
Para i = 1, 2, . . . , 80, sea Xi el radio del pistón i, entonces X1 , X2 , . . . , X80 es una muestra
de tamaño 80. Se ha asumido en este ejemplo que la precisión de la máquina que produce los
pistones no cambia entre cada pistón. En este sentido, el experimento ”producir un pistón”puede
ser repetido muchas veces bajo las mismas condiciones.

Nota: El término muestra también se usa para referirse a la secuencia x1 , x2 , . . . , xn de valores


especı́ficos tomados por las variables aleatorias X1 , X2 , . . . , Xn . Informalmente también se usa
para referirse al conjunto de objetos desde el cual se va a extraer X (los 80 pistones en el
ejemplo anterior). El concepto de muestra es un concepto clave en Estadı́stica.
Teorema 7.6. La Ley de los Grandes Números: Asuma que X1 , X2 , . . . , Xn , es una
muestra de variables aleatorias independientes e idénticamente distribuı́das, con E(Xi ) = µ
y V (Xi ) = σ 2 , para todo i = 1, 2, . . . , n. Entonces, por la Desigualdad de Chebyshev se tiene

σ2
P (|X̄ − µ| < ε) ≥ 1 − , (7.9)
nε2

lo que implica,
lı́m P (|X̄ − µ| < ε) = 1 (7.10)
n→∞
Ricardo Gatica E. Probabilidad para Ingenieros 89

Observar que el Teorema 7.6 es en cierta forma, una declaración formal de la propiedad de regu-
laridad estadı́stica mencionada anteriormente. El teorema dice que medida que el tamaño de
la muestra (el número de reticiones del experimento) crece, el promedio muestral tiende, prob-
abilı́sticamente, a ser cada vez más cercano al valor esperado de la variable aleatoria genérica
X. Esto es una consecuencia del hecho que mientras más grande es n menor es la varianza del
promedio muestral (ver Ecuación (7.8)).

Quiz: Aplique la Desigualdad de Chebyshev para derivar una “versión Bernoulli” de la Ley de
los Grandes Números. Esto es, demuestre que lı́mn→∞ P (|fA − P (A)| < ε) = 1, donde fA y
P (A) son la frecuencia relativa y la probabilidad del evento A, respectivamente.
Ejemplo 7.4. Asuma que X es una variable aleatoria con E(X) = 30 y V (X) = 25. Se busca
el tamaño de muestra requerido para tener un 96 % de seguridad que el promedio muestral no
difiere del valor esperado en más de dos unidades. De (7.9) se tiene que P (|X̄ − 30| ≤ 2) ≥
1 − 25/4n. Resolviendo 1 − 25/4n ≥ 0.96, se obtiene n ≥ 157. Observe que este resultado no
depende en lo absoluto de E(X). Depende solamente de la varianza.

Quiz: Repita el Ejemplo 7.4 asumiendo X ∼ N (30, 25)

7.4. El Teorema del Lı́mite Central (TLC)

Las aproximaciones descritas en la Seccion 7.2 son casos particulares de un resultados mucho
más general, importante y notable en la Teorı́a de la Probabilidad y en Estadı́stica: El Teorema
del Lı́mite Central. A grandes rasgos, este teorema dice que la suma de un gran número de
variables aleatorias, con cualquier tipo de distribución, se distribuye aproximadamente Normal.
Teorema 7.7 (Teorema del Lı́mite Central). Considere una secuencia X1 , X2 , . . . , Xn de
variables aleatorias independientes con E(Xi ) = µi y V (Xi ) = σi2 , para i = 1, 2, . . . , n. Sea
Y = X1 + X2 + . . . + Xn . Entonces, bajo
Pnciertas condiciones
Pn generales, Y tiene una distribución
2 2
aproximadamente Normal con µY = i=1 µi , y σY = i=1 σi . Formalmente,
 
Y − µY
lı́m P ≤ y = Φ(y).
n→∞ σY

Las condiciones generales referidas en el Teorema 7.7 básicamente requieren que cada variable
aleatoria individual contribuya con una cantidad despreciable a la suma total. Esto es, cada
variable individual tiene una varianza pequeña y es incapaz de influenciar significativamente el
valor total de la suma.

Un caso particular del Teorema 7.7 se obtiene cuando la secuencia X1 , X2 , . . . , Xn representa


una muestra iid. En esta caso Y es aproximadamente N (nµ, nσ 2 ) y X̄ es aproximadamente
N (µ, σ 2 /n).
Ricardo Gatica E. Probabilidad para Ingenieros 90

Ejemplo 7.5. Asuma que una mujer chilena tı́pica tiene una altura promedio de 65 pulgadas,
con una varianza de 9 pulgadas cuadradas.

a) Se busca la probabilidad que la altura promedio en una muestra promedio de 30 mujeres


está entre 64 y 66.
Sea X la variable aleatoria que representa la altura de una mujer. Por el Teorema del
Lı́mite Central (TLC), se tiene que X̄ ∼ N (65, 0.3). Por tanto,
 
 64 − 65 X̄ − 65 66 − 65
P 64 ≤ X̄ ≤ 66 = P √ ≤ √ ≤ √
0.3 0.3 0.3
= P {−1.82 ≤ N (0, 1) ≤ 1.82}
= Φ(1.82) − Φ(−1.82) = 0.931.

b) Se busca el tamaño de muestra requerido para asegurar que el promedio muestral esté entre
64.5 y 65.5 con un 95 % de probabilidad. Nuevamente por el TLC, se tiene que X̄ ∼
N (65, 9/n). Por lo tanto,
( )
64.5 − 65 X̄ − 65 65.5 − 65
P {64.5 ≤ X̄ ≤ 65.5}) = P p ≤ p ≤ p
9/n 9/n 9/n
√ √
= Φ(0.167 n) − Φ(−0.167 n)

= 1 − 2Φ(−0.167 n)
√ √
Resolviendo 1 − 2Φ(−0.167 n) ≥ 0.95, se tiene Φ(−0.167 n) ≤ 0.025, lo que implica

−0.167 n ≤ −z0.025 = −1.96 o, equivalentemente, n ≥ 138.
Ejemplo 7.6. La vida útil (en dı́as) de una ampolleta tiene media 10 y varianza 16. Cuando
una ampolleta se quema es reemplazada por una similar. Se busca la probabilidad que en los
próximos tres años (1095 dı́as) se necesiten más de 100 ampolletas. Para i = 1, 2, . . . , 100,
sea Xi la variable aleatoria que representa la vida útil de la i-ésima ampolleta. Entonces Y =
X1 + X2 + . . . + X100 representa el tiempo total cubierto por las primeras 100 ampolletas. Por
el TLC, Y ∼ N (1000, 1600). Se desea calcular
 
Y − 1000 1095 − 1000
P {Y < 1095} = P √ < √
1600 1600
= Φ(2.38)
= 0.9913.

7.5. Ejercicios

7.1. El número de barcos que llegan a una refinerı́a cada dı́a es una variable aleatoria Poisson
con parámetro λ = 3. Las instalaciones actuales del puerto permiten el servicio de 3 naves
Ricardo Gatica E. Probabilidad para Ingenieros 91

diarias. Si llegan más de 3 naves, los que sobrepasan este número deben ser enviados a otro
puerto.

a) Encuentre la distribución del número de naves que llegan al puerto en un perı́odo de 6 meses
(180 dı́as).
b) Encuentre la probabilidad que en un perı́odo de 6 meses lleguen entre 340 y 400 naves al
puerto.
c) Encuentre la probabiliadd que en un dı́a particular el puerto deba mandar naves a otro puerto.
d) Encuentre la probabilidad que en un perı́odo de 6 meses el puerto mande naves a otro puerto
en no más de 80 dı́as.
e) Encuentre la probabilidad que en un periodo de 6 meses, se atiendan entre 250 y 300 naves.

(Ayuda: Usted debe utilizar las aproximaciones normales a las otras distribuciones en este
problema )
7.2. El grosor de una placa de metal hecha por una máquina se distribuye normalmente con
media 4.3 mm y desviación estandar 0.12 mm. Si se ponen juntas 12 placas:

a) ¿Cuál es la distribucion del grosor total de las 12 placas?


b) Encuentre la probabilidad que el grosor total esté entre 51 y 52 mm.
c) Encuentre el mı́nimo número de placas requeridas para que el grosor promedio esté entre
4.25 y 4.35 mm con probabilidad de al menos 99.7 %.
Capı́tulo 8

Variables Aleatorias
Multidimensionales

En los capı́tulos 4 y 5 se estudió el concepto de variables aleatorias unidimensionales. Esto


es variables aleatorias que representan una caracterı́stica numérica única de un experimento o un
fenómeno. El interés se centra ahora en estudiar el comportamiento de dos o más caracterı́sticas
numéricas de un experimento en forma simultánea. Por ejemplo; la altura y el peso de una
persona: el volumen y el peso de los paquetes recibidos en la oficina de correos; la inflación
y la tasa de desempleo en una economı́a; el precio, calidad y demanda de cierto producto; el
ingreso, costos de educación y costos de alimentación de las familias chilenas, etc. En cada uno
de estos ejemplos parece intuitivamente obvio que las dimensiones que hay que estudiar no son
independientes. La discusión se concentra en el caso bidimensional. Esto no representa limitación
alguna, pues todos los conceptos y herramientas presentados son fácilmente extendibles al caso
de más de dos dimensiones.

8.1. Variables Aleatorias Bidimensionales y Distribuciones de


Probabilidad Conjunta

Definición 8.1. Sea E un experimeto y S un espacio muestral asociado con E. Sean X e Y


dos funciones que asignan a cada elemento s ∈ S números reales X(s) e Y (s), respectivamente.
Se denomina variable aleatoria bidimensional al par ordenado (X, Y ).
Definición 8.2. El rango (X, Y ), denotado por RXY , es el conjunto de todos los valores posibles
del par (X, Y ).
Definición 8.3. Sea E un experimento y S un espacio muestral asociado con E. Sean X1 =
X1 (s), X2 = X2 (s), . . . , Xn = Xn (s), n funciones, cada una de las cuales asigna un número

92
Ricardo Gatica E. Probabilidad para Ingenieros 93

real a cada elemento s ∈ S . Se denomina variable aleatoria n-dimensional al vector


(X1 , X2 , . . . , Xn ) (también llamado vector aleatorio n-dimensional).

Como en el caso unidimensional, se busca asociar el concepto de probabilidad con la vari-


able aleatoria bidimensional (X, Y ). Nuevamente, la distribución de probabilidad de (X, Y )
será derivada de las probabilidades asociadas con el espacio muestral original utilizando el
concepto de eventos equivalentes.
Definición 8.4. Sea E un experimento y S un espacio muestral asociado con E. Sea (X, Y )
una variable aleatoria bidimensional definida en S. Sea B ⊆ RXY y A ⊆ S. Se dice que A y B
son equivalentes si
A = {s ∈ S : (X(s), Y (s)) ∈ B}.
Si A y B son equivalentes, la probabilidad del evento B está dada por

P (B) = P (A) = P {s ∈ S/(X(s), Y (s)) ∈ B}.

De manera análoga al Capı́tulo 4, se distinguirá entre dos tipos básicos de variables aleatorias
bidimensionale: discretas y continuas.
Definición 8.5. Se dice que una variable aleatoria bidimensional (X, Y ) es discreta si el rango
RXY es finito o infinito contable. Es decir, RXY puede ser escrito como RXY = {(xi , yj ), i =
1, 2, . . . , j = 1, 2, . . .}.
Definición 8.6. Sea (X, Y ) una variable aleatoria bidimensional discreta. La función de proba-
bilidad puntual conjunta (f.p.p.) de (X, Y ) es la función p(·, ·) que asocia a cada (xi , yj ) ∈ RXY
un valor pij = p(xi , yj ) = P {X = xi , Y = yj } que satisface:

a) pij ≥ 0

PP
b) (xi ,yj )∈Rxy pij = 1

La colección de trı́os (xi , yj , pij ), se denomina distribuición de probabilidad de (X, Y ).

En forma similar al caso unidimensional, puede verificarse que la probabilidad de un evento


B ⊆ RXY está dada por

XX
P (B) = pij (8.1)
(xi ,yj )∈B

Ejemplo 8.1. Considere una variable aleatoria bidimensional discreta (X, Y ) con función de
probabilidad conjunta dada en la Tabla 8.1. Se tiene:
Ricardo Gatica E. Probabilidad para Ingenieros 94

a) P {X = 2, Y = 3} = p2,3 = 0.05

b) P {X ≤ 1, Y = 2} = p0,2 + p1,2 = 0.05 + 0.05 = 0.1

c) P {X ≤ 1, Y ≥ 2} = p0,2 + p1,2 + p0,3 + p1,3 = 0.05 + 0.05 + 0 + 0.1 = 0.2

d) P {Y = 0} = p0,0 + p1,0 + p2,0 = 0.1 + 0.05 + 0.2 = 0.35

e) P {X = Y } = p0,0 + p1,1 + p2,2 = 0.1 + 0.2 + 0.1 = 0.4

f ) P {X > Y } = p1,0 + p2,0 + p2,1 = 0.05 + 0.2 + 0 = 0.25

Tabla 8.1: Distribución de probabilidad Ejemplo 8.1

x/y 0 1 2 3
0 0.1 0.1 0.05 0
1 0.05 0.2 0.05 0.1
2 0.2 0 0.1 0.05

Ejemplo 8.2 (La distribución trinomial). Considere un experimento E con tres posibles
resultados. Sean p1 , p2 y p3 las probabilidades de los resultados 1, 2 y 3, respectivamente (p1 +
p2 + p3 = 1). Suponga que ud. repite el experimento n veces y defina Xi como el número de
veces que el resultado del experimento es i. Note que para i = 1, 2, 3, Xi ∼ b(n, pi ). Sin embargo,
X1 , X2 y X3 no son independientes, porque X1 +X2 +X3 = n. La función de probabilidad puntual
conjunta de la variable aleatoria tridimensional (X1 , X2 , X3 ), está dada por:

 n! pi pj pk

si i+j+k=n,
pijk = P {X1 = i, X2 = j, X3 = k} = i!j!k! 1 2 3 (8.2)
0 de otra manera

Se dice que una variable aleatoria tridimensional con f.p.p conjunta dada por 8.2 tiene una
distribución trinomial, o que es una variable aleatoria trinomial con parámetros n, p1 , p2
y p3 .

Quiz: Derive la expresion 8.2.

Quiz: Considere el Ejemplo 8.2. Encuentre la distribución conjunta de la variable aleatoria


bidimensional (X1 , X2 ).
Definición 8.7. Se dice que una variable aleatoria bidimensional (X, Y ) es continua si el rango
RXY es un subconjunto no contable del espacio Euclidiano.
Definición 8.8. Sea (X, Y ) una variable aleatoria continua bidimensional. La Función de
densidad de probabilidad conjunta (f.d.p) de (X, Y ) es una función f (·, ·) definida en RXY
que permite representar el espacio de probabilidades de (X, Y ) y satisface:
Ricardo Gatica E. Probabilidad para Ingenieros 95

Figura 8.1: Ilustración Ejemplo 8.3d)

a) f (x, y) ≥ 0, para todo (x, y) ∈ RXY

ZZ
b) f (x, y)dxdy = 1
RXY
ZZ
c) P (A) = f (x, y)dxdy, para todo A ⊆ RXY
A

Ejemplo 8.3. Sea (X, Y ) una variable aleatoria bidimensional con


(
1
xy si 4 ≤ x ≤ 6, 4 ≤ y ≤ 8
f (x, y) = 240
0 otro caso

Z 5Z 6 Z 5Z 6
1
a) P {X ≤ 5, Y ≤ 6} = f (x, y)dydx = xydydx = 0.1875
4 4 4 4 240
Z 5Z 7 Z 5Z 7
1
b) P {X ≤ 5, 5 ≤ Y ≤ 7} = f (x, y)dydx = xydydx = 0.225
4 5 4 5 240
Z 5Z 8 Z 5Z 8
1
c) P {X ≤ 5} = P {X ≤ 5, 4 ≤ Y ≤ 8} = f (x, y)dydx = xydydx = 0.45
4 4 4 4 240
Z 6Z x Z 6Z x
1
d) P {X > Y } = f (x, y)dydx = xydydx = 0.5365 (ver Figura 8.1)
4 4 4 4 240

Ejemplo 8.4. Sea (X, Y ) una variable aleatoria bidimensional con


(
8xy si 0 ≤ x ≤ 1, x ≤ y ≤ 1
f (x, y) =
0 otro caso
Ricardo Gatica E. Probabilidad para Ingenieros 96

Figura 8.2: Ilustración Ejemplo 8.4

Z .5 Z .6 Z .5 Z .6
a) P {X ≤ .5, Y ≤ .6} = f (x, y)dydx = 8xydydx = 0.1175
0 x 0 x
(ver Figura 8.2a)
Z .5 Z 1 Z 1Z 1 Z .5 Z .5
b) P {Y ≥ .5} = 8xydydx + 8xydydx = 1 − 8xydydx = 0.9375
0 .5 .5 x 0 x
(ver Figura 8.2b)

Ejemplo 8.5. Sea (X, Y ) una variable aleatoria bidimensional definida en RXY ⊆ R2 . Si
(
1
para (x, y) ∈ RXY
f (x, y) = Area(RXY )
0 otro caso

Se dice que (X, Y ) tiene una distribución uniforme en RXY , o lo que es equivalente, que es una
variable aleatoria uniforme en RXY . En este caso, para cada A ⊆ RXY ,

Area(A)
P (A) = .
Area(Rxy )

8.2. Probabilidades y Valor Esperado de una Función de una


Variable Aleatoria Bidimensional

Sea (X, Y ) una variable aleatoria bidimensional, y sea Z = H(X, Y ). De la misma manera que
en el caso unidimensional, es claro que Z es una variable aleatoria. También como en el caso
unidmensional, en la mayorı́a de las situaciones no es necesario encontrar la distribución de
probabilidad de Z. Los cálculos de probabilidad asociados con Z pueden realizarse utilizando
el concepto de eventos equivalentes de la siguiente manera:
Ricardo Gatica E. Probabilidad para Ingenieros 97

P {Z ∈ B} = P {(x, y) ∈ RXY : H(x, y) ∈ B}

Similarmente, el valor esperado de Z puede encontrarse utilizando la siguiente extensión directa


del Teorema 5.1.
Teorema 8.1. Sea (X, Y ) una variable aleatoria bidimensional, y sea Z = H(X, Y ). Entonces

a) Si (X, Y ) es discreta
XX
E(Z) = E(H(X, Y )) = H(xi , yj )p(xi , yj ) (8.3)
xi ,yj ∈RXY

b) Si (X, Y ) es continua
ZZ
E(Z) = E(H(X, Y )) = H(x, y)f (x, y)dxdy (8.4)
RXY

Nota:
RR Observe que si se define H(X, Y ) = X, entonces el Teorema 8.1 dice que E(X) =
RXY xf (x, y)dydx para (X, Y ) continua (el caso de (X, Y ) discreta se deja como ejercicio).
De manera similar podemos calcular E(Y ). Otra forma de calcular E(X) y E(Y ), es utilizando
la distribución marginal de X e Y , que serán definidas en la siguiente sección.
Ejemplo 8.6. Sea (X, Y ) una variable aleatoria bidimensional con
(
1
xy si 4 ≤ x ≤ 6, 4 ≤ y ≤ 8
f (x, y) = 240 ,
0 otro caso

entonces

Z 6Z 8 Z 6Z 8 Z 6Z 8
1 1 2
E(X) = xf (x, y)dydx = x xydydx = x ydydx = 5.066.
4 4 4 4 240 4 4 240

Sea Z = X + Y , entonces (ver Figura 8.3)

Z 6 Z 10−x
1
P {Z ≤ 10} = P {X + Y ≤ 10} = xydydx.
4 4 240

Z 6Z 8 Z 6Z 8
1
E(Z) = E(X + Y ) = (x + y)f (x, y)dydx = (x + y)xydydx.
4 4 4 4 240

Quiz: Complete los cálculos anteriores.


Ricardo Gatica E. Probabilidad para Ingenieros 98

Figura 8.3: Ilustración Ejemplo 8.6

8.3. Distribuciones Marginales

Considere una variable aleatoria discreta bidimensional (X, Y ) con rango RXY . Claramente los
componentes individuales X e Y son variables aleatorias unidimensionales. Las distribuciones de
probabilidades de los componentes individuales, X e Y , pueden derivarse de la distribución de
probabilidad conjunta de (X, Y ). Las distribuciones individuales se denominan distribuciones
marginales.

Considere una variable aleatoria bidimensional discreta con rango RXY , y una función de prob-
abilidad puntual conjunta p(x, y). Las distribuciones marginales de X e Y están dadas por:

X
pX (xi ) = P {X = xi } = p(xi , yj ) (8.5)
{j:(xi ,yj )∈Rxy }

X
pY (yj ) = P {Y = yj } = p(xi , yj ) (8.6)
{i:(xi ,yj )∈Rxy }

Nota: Observar que en (8.5) se fija el indice i (es decir, de toma un xi especı́fico) y se suma
sobre todos los posibles valores de j. Similarmente, en (8.6), se fija j y se suma sobre todos los
posibles valores de i.
Ejemplo 8.7. Considere una variable aleatoria bidimensional (X, Y ) con la función de prob-
abilidad conjunta dada en la Tabla 8.2. Las distribuciones marginales de X e Y , están dadas
respectivamente en la última fila y en la última columna de la tabla.

Considere ahora una variable aleatoria bidimensional continua (X, Y ) con rango RXY y función
de densidad conjunta f (x, y). Las funciones de densidad marginales de X e Y están dadas por:
Ricardo Gatica E. Probabilidad para Ingenieros 99

Tabla 8.2:
x/y 0 1 2 3 pX (xi )
0 0.1 0.1 0.05 0 0.25
1 0.05 0.2 0.05 0.1 0.4
2 0.2 0 0.1 0.05 0.35
pY (yj ) 0.35 0.3 0.2 0.15

Z
fX (x) = f (x, y)dy (8.7)
{y:(x,y)∈Rxy }

Z
fY (y) = f (x, y)dx (8.8)
{x:(x,y)∈Rxy }

Nota: Observar que en(8.7) se fija un valor X = x, y se integra sobre todos los valores posibles
de Y para ese valor x especı́fico. En (8.8) se hace lo contrario. Los ejemplos siguientes ilustran
el concepto.
Ejemplo 8.8. Sea (X, Y ) una variable aleatoria bidimensional con

(
1
240 xy si 4 ≤ x ≤ 6, 4 ≤ y ≤ 8
f (x, y) = .
0 de otra manera
entonces, Z 8
1 1
fX (x) = xydy = x 4≤x≤6 (8.9)
4 240 10

Z 6
1 1
fY (y) = xydx = y 4≤y≤8 (8.10)
4 240 24
Ejemplo 8.9. Sea (X, Y ) una variable aleatoria bidimensional con:

(
8xy si 0 ≤ x ≤ 1, x ≤ y ≤ 1
f (x, y) = ,
0 de otra manera
entonces, Z 1
fX (x) = 8xydy = 4x(1 − x2 ) 0≤x≤1 (8.11)
x

Z y
fY (y) = 8xydx = 4y 3 0≤y≤1 (8.12)
0
Ricardo Gatica E. Probabilidad para Ingenieros 100

Figura 8.4: Rango de (X, Y ) en el Ejemplo 8.8

Figura 8.5: Rango de (X, Y ) en el Ejemplo 8.9

Comparando (8.9) y (8.11) se observa que los lı́mites de integración en (8.9) son constantes,
pero los lı́mites de integración en (8.11) dependen de x. Esto es una consecuencia de la forma
de los rangos respectivos (vea la Figura 8.4 y la Figura 8.5). En el Ejemplo 8.8, para cualquier
valor de X, los valores posibles de Y van de 4 a 8 (4 ≤ y ≤ 8). En el Ejemplo 8.9 para X = x
fijo, Y va desde x a 1 (x ≤ y ≤ 1). Un análisis similar se puede hacer para (8.10) y (8.12).

Nota: Como se sugiere en el comentario anterior, en muchos problemas relacionados con vari-
ables aleatorias bidimensionales, es fundamental graficar el rango de (X, Y ) en el plano Euclid-
iano.

Nota: Las distribuciones marginales son útiles cuando queremos cacular esperanzas o prob-
abilidades de varios sucesos relacionados a un componente único de una variable aleatoria
multi-dimensional.
Ejemplo 8.10. Considere nuevamente la variable aleatoria del Ejemplo 8.8. Se tiene:
Ricardo Gatica E. Probabilidad para Ingenieros 101

Z 6 Z 6
1 11
P {X ≥ 5} = fX (x)dx = xdx =
5 5 10 20

Z 6 Z 6
1 5
P {4 ≤ Y ≤ 6} = fY (y)dy = ydy =
4 4 24 12

Z 6 Z 6 Z 6
1 1 2
E(X) = xfX (x)dx = x xdx = x dx = 5.066
4 4 10 4 10
Ejemplo 8.11. Considere nuevamente la variable aleatoria del Ejemplo 8.9. Se tiene:

Z 1 Z 1
P {X ≥ 0.5} = fX (x)dx = 4x(1 − x2 )dx = 0.56
0.5 0.5

Z 0.8 Z 0.8
P {0.2 ≤ Y ≤ 0.8} = fY (y)dy = 4y 3 dy = 0.6
0.2 0.2

Z 1 Z 1 Z 1
3
E(Y ) = yfY (y)dy = y4y dy = 4y 4 dy = 0.8
0 0 0

8.4. Distribuciones Condicionales

Considere una variable aleatoria bidimensional (X, Y ), las distribuciones marginales permiten
hacer cálculos de probabilidad relacionados con una de las variable, independiente del valor que
tome la otra variable. El interés en esta sección se centra en el cálculo de probabilidades rela-
cionadas con una variable, por ejemplo X, cuando se sabe que la otra variable, Y , toma un valor
especı́fico Y = y. Con este propósito se introduce el concepto de distribuciones condicionales.
Definición 8.9. Sea (X, Y ) una variable aleatoria bidimensional discreta con rango RXY y fun-
ción de probailidad puntual conjunta p(x, y). Se define la función de probabilidad puntual
condicional de X dado Y = yj , como sigue:
p(xi , yj )
pX/Y =yj (xi ) = P {X = xi /Y = yj } = para todo xi (8.13)
pY (yj )
Similarmente, la función de probabilidad puntual condicional de Y dado X = xi , se define por
p(xi , yj )
pY /X=xi (xj ) = P {Y = yj /X = xi } = para todo yj (8.14)
pX (xi )
Nota: Observe que en (8.13), yj está fijo. Por tanto, puede definirse una distribución condi-
cional para cada valor posible yj de Y . Lo mismo sucede en (8.14)
Ricardo Gatica E. Probabilidad para Ingenieros 102

Ejemplo 8.12. Considere la variable bidimensional discreta descrita en el Ejemplo (8.1). La


distribución condicional de X dado Y = 2 se obtiene de la siguiente manera.

0.05
pX/Y =2 (0) = P {X = 0/Y = 2} = = 0.25
0.2
0.05
pX/Y =2 (1) = P {X = 1/Y = 2} = = 0.25
0.2
0.1
pX/Y =2 (2) = P {X = 2/Y = 2} = = 0.5
0.2

Note que pX/Y =2 (0) + pX/Y =2 (1) + pX/Y =2 (2) = 1, esto muestra que pX/Y =2 (x) es una distribu-
ción de probabilidad válida. Otras distribuciones condicionales están dadas en las tablas (8.3) y
(8.4). Observe que cada fila de las tablas representa una distribución de probabilidad diferente.
Las columnas, en cambio, no tienen un significado especı́fico.

Tabla 8.3:
X 0 1 2
pX/Y =0 (xi ) 2/7 1/7 3/7
pX/Y =1 (xi ) 1/3 2/3 0
pX/Y =2 (xi ) 0.25 0.25 0.5
pX/Y =3 (xi ) 0 2/3 1/3

Tabla 8.4:
y 0 1 2 3
pY /X=0 (yj ) 2/5 2/5 1/5 0
pY /X=1 (yj ) 1/8 1/2 1/8 1/4
pY /X=2 (yj ) 4/7 0 2/7 1/7

Definición 8.10. Sea (X, Y ) una variable aleatoria bidimensional continua con rango espacial
RXY y función de densidad conjunta f (x, y). Se define la función de densidad condicional
de X dado Y = y, como sigue

f (x, y)
fX/Y =y (x) = para x ∈ RX/Y = {x : (x, y) ∈ RXY } (8.15)
fY (y)

Similarmente la distribución condicional de Y dado X = x se define por

f (x, y)
fY /X=x (y) = para y ∈ RY /X = {x : (x, y) ∈ RXY } (8.16)
fX (x)
Ricardo Gatica E. Probabilidad para Ingenieros 103

Nota: Como en el caso discreto, en (8.15) y está fija, por lo tanto cada valor posible y de Y
induce a una distribución condicional fX/Y =y (x) de X distinta.

Nota: Las distribuciones condicionales tienen todas las propiedades de las distribuciones gen-
erales. En particular, Z
fX/Y =y (x)dx = 1
RX/y

Ejemplo 8.13. Considere la variable aleatoria (X, Y ) descrita en el Ejemplo (8.9). Recuerde
que: (
8xy si 0 ≤ x ≤ 1, x ≤ y ≤ 1
f (x, y) = ,
0 otro caso

fX (x) = 4x(1 − x2 ), 0≤x≤1y


3
fY (y) = 4y , 0≤y≤1

Por lo tanto,
8xy 2x
fX/Y =y = 3
= 2 0≤x≤1
4y y
8xy 2y
fY /X=x = 2
= x≤y≤1
4x(1 − x ) 1 − x2

Note que la manera más fácil de encontrar RX/y es utilizando el gráfico de RXY (Figura (8.2)).
Observe también que cada una de las expresiones anteriores provee una descripción general de
una familia de distribuciones condicionales. Asignando diferentes valores numéricos a y (re-
spectivamente, x) obtendremos diferentes distribuciones condicionales especı́ficas para X (re-
spectivamente, Y). Por ejemplo:

2x
fX/Y =0.5 = = 8x 0 ≤ x ≤ 0.5
0.52
2x
fX/Y =0.8 = = 3.125x 0 ≤ x ≤ 0.8
0.82
2y
fY /X=0.4 = = 2.5y 0.4 ≤ y ≤ 1
1 − 0.42

El lector puede verificar que en cada caso la integral sobre el rango condicional equivale a 1.

En los siguientes ejemplos se muestra el tipo de cálculos que puede efectuarse utilizando las
distribuciones condicionales:

Z 0.3 Z 0.3
P {X ≤ 0.3/Y = 0.5} = fX/Y =0.5 (x)dx = 8xdx = 0.36
0 0
Ricardo Gatica E. Probabilidad para Ingenieros 104

Z 0.8 Z 0.8
P {X ≥ 0.5/Y = 0.8} = fX/Y =0.8 (x)dx = 3.125xdx = 0.61
0.5 0.5
Z 0.9 Z 0.9
P {0.6 ≤ Y ≤ 0.9/X = 0.4} = fY /X=0.4 (y)dy = 2.5ydy = 0.56
0.6 0.6

8.5. Valor Esperado Condicional

Como en el caso de la Sección 5.5 , si se tiene una distribución condicional, resulta natural
definir el valor esperado condicional. Esto es, por ejemplo, el valor esperado de X dado que
conocemos que Y toma un valor especı́fico Y = y.
Definición 8.11. Sea (X, Y ) una variable aleatoria bidimensional, definimos el valor esperado
condicional de X dado que Y = y como:

a) Si (X, Y ) es discreta X
E(X/Y = yj ) = xi pX/Y =yj (xi ) (8.17)
RX/y

b) Si (X, Y ) es continua
Z
E(X/Y = y) = xfX/Y =y (x)dx (8.18)
RX/y

El valor esperado de Y dado X = x se define de forma similar.


Ejemplo 8.14. Considere nuevamente (X, Y ) como se definió en el Ejemplo (8.9) y (8.13).
Entonces Z y Z y Z y 2
2x 2x 2
E(X/Y = y) = xfX/Y =y (x) = x 2 dx = 2
dx = y
0 0 y 0 3y 3
Note que E(X/Y = y) es una función de y, de modo que valores de y generan diferentes valores
esperados condicionale. Por ejemplo,

1
E(X/Y = 0.5) = (2/3) · 0.5 =
3
8
E(X/Y = 0.8) = (2/3) · 0.8 =
15

El lector puede verificar que estos valores son los mismos obtenidos al integrar las respectivas
distribuciones condicionales dadas en el Ejemplo 8.13. Por ejemplo:
Ricardo Gatica E. Probabilidad para Ingenieros 105

Z 0.5
E(X/Y = 0.5) = 1/3 = x · 8xdx.
0

Observe que como E(X/Y = y) es una función de y, e y es un valor de la variable aleatoria


Y , entonces E(X/Y ) es una función de Y , y por lo tanto es también una variable aleatoria. El
siguiente teorema es análogo al Teorema 5.4 (de la Esperanza Total).
Teorema 8.2. Sea (X, Y ) una variable aleatoria bidimensional. Entonces

E(X) = E(E(X/Y )) (8.19)

Nota: Observe que para el caso en que (X, Y ) es continua (8.19) implica
Z
E(X) = E(X/Y = y)fy (y)dy
RY

El lector puede encontrar una expresión similar para el caso discreto.

8.6. Independencia y Correlación

Definición 8.12. Sea (X, Y ) una variable aleatoria bidimensional, se dice que X e Y son
independientes si

a) Si (X, Y ) es discreta

p(xi , yj ) = pX (xi ) · pY (yj ) para todo (xi , yj ) ∈ RXY (8.20)

b) Si (X, Y ) es continua

f (x, y) = fX (x) · fY (y) para todo (x, y) ∈ RXY (8.21)

Teorema 8.3. Sea (X, Y ) una variable aleatoria bidimensional, si X e Y son independientes,
entonces

a) Si (X, Y ) es discreta

pX/Y =yj (xi ) = pX (xi )


para todo (xi , yj ) ∈ RXY .
pY /X=xi (yj ) = pY (yj )
Ricardo Gatica E. Probabilidad para Ingenieros 106

b) Si (X, Y ) es continua

fX/Y =y (x) = fX (x)


para todo (x, y) ∈ RXY .
fY /X=x (y) = fY (y)

Nota: La Definición 8.12 es una formalización del mismo concepto de independencia que hemos
utilizado anteriormente. Dice que dos variables aleatorias X e Y son independientes si un evento
asociado con X es independiente de cualquier evento relacionado con Y .
Ejemplo 8.15. Considere (X, Y ) como en el Ejemplo (8.8). Claramente:
1 1 1
f (x, y) = xy = x · y = fX (x)fY (y).
240 10 24
Por lo tanto X e Y son independientes.
Ejemplo 8.16. Considere (X, Y ) como en el Ejemplo (8.9). Note que:

f (x, y) = 8xy 6= 4x(1 − x2 ) · 4y 3 = fX (x)fY (y).

Por lo tanto X e Y no son independientes.

Cuando dos variables aleatorias X e Y no son independientes, es deseable medir el ”grado de


asociación entre X e Y . Las siguientes definiciones permiten hacer esto.

Definición 8.13. Sea (X, Y ) una variable aleatoria bidimensional. Definimos la covarianza
entre X e Y como:

Cov(X, Y ) = E[(X − E(X))(Y − E(Y ))] = E(XY ) − E(X)E(Y ) (8.22)

Nota: De la Propiedad V4. de la Varianza en la Sección 5.2 tenemos que:

V (X + Y ) = V (X) + V (Y ) − 2E[(X − E(X))(Y − E(Y ))] = V (X) + V (Y ) + 2Cov(X, Y )

Teorema 8.4. Si X e Y son independientes, entonces E(XY ) = E(X)E(Y ) (Propiedad E6.


del valor esperado en la Sección 5.1), y Cov(X, Y ) = 0.

Nota: Lo contrario del Teorema (8.4) no es cierto en general, es decir, Cov(X, Y ) = 0 no


implica que X e Y sean independientes.
Definición 8.14. Sea (X,Y) una variable aleatoria bidimensional. Sedefine el coeficiente de
correlación entre X e Y como:
Cov(X, Y )
ρXY = (8.23)
σX σY
Ricardo Gatica E. Probabilidad para Ingenieros 107

Se puede demostrar que el coeficiente de correlación satisface −1 ≤ ρXY ≤ 1. ρXY puede


interpretarse como una medida de dependencia lineal entre X e Y , como sigue: Un valor de
ρXY cercano a +1 o −1 implica que la relación entre X e Y es cercana a la lineal. Un valor
de ρXY cercano a cero implica que la relación entre X e Y es distinta a la lineal. De hecho,
ρXY = 1 si y sólo si Y = aX + b, con a > 0, y ρXY = −1 si y sólo si X = aY + b, con a < 0

Nota: Covarianza y la correlación son conceptos clave en Estadı́stica. Particularmente en


tópicos como regresión y diseño experimental.

Potrebbero piacerti anche