Procesos Estocasticos

Apuntes del curso de Procesos
Estocásticos
Curso dictado en la UNEFA- Núcleo San Tome
Departamento de Ingeniería de Sistemas
Revisión: 25/enero/2008
Autor: Prof. José Loreto Romero Palma

Prefacio
El presente material surgió originalmente para ser utilizado como texto principal de
consulta para el curso de Procesos Estocásticos de la carrera de Ingeniería de Sistemas
que dicto en la UNEFA. Aún cuando existe abundante bibliografía y material disponible
en Internet sobre este tema, considero que existen sobradas razones para justificar la
elaboración de estos apuntes. En primer lugar, los libros que versan sobre el tema están
pensados para un público matemáticamente más maduro, generalmente para estudiantes
a nivel de postgrado. Sin mencionar que, por ser estos libros muy especializados, son
demasiado escasos en las librerías venezolanas. Por otro lado, navegar a través del
Internet en búsqueda de bibliografía en línea puede resultar una tarea hercúlea para el
estudiante de pregrado cuya primera exposición al tema es ésta. En fin, la bibliografía
existente es muy dispersa, escasa y no adecuada a las necesidades del estudiante de
ingeniería de sistemas, por lo cual considero que este texto viene a llenar un vacío.
El aporte original en el presente tratamiento del tema es el énfasis en la simulación

estocástica. Incorporar el aspecto de la verificación empírica del método científico en la
exposición de un tema de la matemática, que es una ciencia netamente teórica, puede
parecer un disparate. No obstante, se piensa que este enfoque puede rendir muchos
dividendos, sobre todo instruccionales. Con los abundantes ejemplos de simulación en
código R se pretende familiarizar al estudiante con un lenguaje de programación de libre
distribución que está adquiriendo cada vez más relevancia en el mundo de la
investigación estocástica. Por otro lado, con la exposición del alumnado a herramientas
de software libre se pretende hacer un modesto aporte hacía el logro de la soberanía
tecnológica nacional.
El texto esta organizado en seis capítulos. En el primer capítulo se da un repaso de la

teoría de las probabilidades y se pretende explicar de una vez qué son las simulaciones
estocásticas y para qué sirven. El segundo capitulo es quizás el más abstracto de todo
el texto. Comienza con la definición de lo que es un proceso estocástico y prepara todo
el andamiaje conceptual para caracterizar sus tipos y propiedades. En el tercer capitulo
se aborda el estudio de las caminatas aleatorias y el problema de la ruina del jugador. En
el cuarto y quinto capitulo se tratan los procesos de Poisson, tanto el homogéneo como
otras variantes que se obtienen a partir de éste modificando un poco los axiomas que lo
definen. Por último, en el sexto capítulo, se tratan las cadenas de Markov de parámetro
discreto.
i
El nivel de conocimientos previo requerido por parte del alumno equivale al de un
estudiante que haya cursado alguna asignatura de probabilidad elemental y los
respectivos cursos de matemáticas del ciclo básico de ingeniería, que abarcan temas de
cálculo diferencial, integral, series y ecuaciones diferenciales. Compensar las fallas en el
proceso de aprendizaje de la teoría de las probabilidades e introducir una mayor
rigurosidad de estos temas a fin de preparar al alumno para el resto del contenido es
justamente el objetivo del primer capítulo. Este primer capítulo esta intencionalmente
redactado en un lenguaje más formal – es una suerte de “bautismo por fuego” para templar
a mis alumnos en su proceso de formación como futuros profesionales. En compensación
incluyo como apéndice una sección con tips sobre demostraciones matemáticas (las
cuales surgen en buena parte de los problemas propuestos) y sobre una miscelánea de
otros temas matemáticos tales como las antes mencionadas series. Dicha sección esta
libremente inspirada en la obra de Polya titulada “Como Resolverlo” y con ella se pretende
motivar al alumno para dejar de ser un mero calculista que solo sabe aplicar las fórmulas
que le son dadas y convertirse en un analista de sistemas que entiende cabalmente los
conceptos matemáticos y que sabe cuando y cuales herramientas aplicar para resolver
problemas de la vida real. Mi recomendación general al estudiante es estudiar
detenidamente los problemas resueltos y la implementación de las simulaciones en el
texto para posteriormente realizar los problemas propuestos.
Desde una perspectiva más amplia, el contenido de este texto esta enmarcado dentro de
un componente importante en el pensum de la ingeniería de sistemas y de las ciencias de
la computación. Me refiero al conglomerado de materias tales como investigación de
operaciones, matemáticas discretas, probabilidades y estadística, métodos numéricos y
simulación y modelos matemáticos. A mi juicio, dicho componente es medular para la
formación integral de un analista de sistemas, quién debe apuntar más allá de ser un
simple tecnócrata operario de TICs (Tecnologías de Información y Comunicación). Más
bien – y esto es algo que le cuesta trabajo entender a las personas no iniciadas en el tema
– el analista de sistemas debe estar en capacidad de analizar cualquier sistema, sea éste
una empresa, una red de tráfico vehicular, la economía nacional o la sociedad. Con las
materias de este componente se pretende dotar al estudiante de herramientas para el
análisis matemático de los sistemas, cuyo fin ulterior es el de apoyar la toma racional de
decisiones y permitir medir el desempeño del decisor en aras de lograr progresivamente
un mayor bienestar colectivo. En un país como Venezuela, es verdaderamente acuciante
capacitar profesionales con estas destrezas; nuestro desarrollo como nación depende de
ello.
Quiero en estas líneas agradecer a los profesores y autores que de manera directa o
indirecta contribuyeron en mi propia formación. En particular, extiendo mis
agradecimientos a Luis A. Azocar Bates, quien fue mi profesor en la Universidad Nacional
Abierta, así como también a mis colegas y compañeros docentes, Elaine J. Pérez Bracho,
José T. Gomez Barreto y Rafael A. Rofriguez Toledo, quienes además han contribuido
con importantes sugerencias en la redacción de este material. Debo incluir palabras de
reconocimiento y de agradecimiento a mis alumnos de la UNEFA, quienes han contribuido
también con sugerencias y a quienes este libro está dedicado. Aspiro inculcar en ellos
una pasión por los temas de la investigación de operaciones y el modelamiento
matemático para que sean ellos mismos los que sigan investigando, formándose y
siempre estando a la vanguardia en esta Era de la Información. Que su nivel de
conocimientos rebase muchas veces el mío propio, que éstos sirvan al bienestar de
nuestra nación y que ésta reconozca la importancia del saber que ellos portan son mis
deseos.
iii
Tabla de contenido
Prefacio..............................................................................................................................i
Capitulo 1- Preeliminares sobre teoría de probabilidades y simulaciones........................1
1.1 Experimento aleatorio. Espacio muestral. Eventos elementales.
Probabilidad 1
1.2 Variable aleatoria. Distribución de probabilidad. Tipos de variables
aleatorias. Densidad de probabilidad..1.3. Valores esperados: esperanza y
varianza. ...................................................................................................... 6
1.4. Función característica y función generatriz. Propiedades y tablas.
................................................................ 7
Tabla 1.1. Leyes de probabilidad discretas más frecuentes y sus
características..................................................... 10
Tabla 1.2. Leyes de probabilidad continuas más frecuentes y sus
características.................................................... 12 1.5. Variables aleatorias
bidimensionales y n-dimensionales. Función de distribución conjunta. Función de
densidad
conjunta........................................................................................................................
.............................. 14
1.6. Variables aleatorias independientes y su caracterización. Covarianza.
Distribución de la suma de dos o más variables aleatorias independientes.
Convolución............................................................................................. 17 Ejemplo
para las secciones 1.5 y
1.6......................................................................................................................... 21
1.7. Introducción a la simulación estocástica mediante el lenguaje R.
................................................................. 25
Problemas Propuestos................................................................................................32
Capitulo 2- Introducción a los procesos estocásticos. Terminología y nociones
preeliminares ..................................................................................................................35
2.1. Definición y ejemplos de procesos

estocásticos............................................................................................ 35
2.2. Probabilidad y esperanza condicional. Definiciones y propiedades.
............................................................ 38
2.3. Caracterización de los procesos aleatorios: valor medio y núcleo de
covarianza. ........................................ 43
2.4. Incrementos independientes y estacionarios. Procesos
estacionarios......................................................... 45
2.5. Algunos tipos de procesos aleatorios: caminata aleatoria, martingalas,
procesos de Markov, procesos de
Poisson, procesos de Wiener
...........................................................................................................................
......... 48
Problemas Resueltos ..................................................................................................51
Capitulo 3- Procesos estocásticos basados en el proceso de Bernoulli y caminatas
aleatorias ........................................................................................................................57
3.1 El proceso de Bernoulli

..................................................................................................................................
57
3.2 La cantidad de éxitos. Caminatas aleatorias basadas en procesos de
Bernoulli. ........................................ 58
3.3. La cantidad de ensayos hasta r éxitos: más sobre las caminatas
aleatorias basadas en procesos de
Bernoulli........................................................................................................................
............................................. 60
3.5. La ruina del
jugador..........................................................................................................................
.............. 63
3.6. Duración promedio del juego y otras consideraciones sobre el problema
de la ruina del jugador ................ 70
Problemas Resueltos ..................................................................................................76
Capitulo 4- El proceso de Poisson homogéneo..............................................................82
4.1 El proceso de Poisson como caso límite de la caminata aleatoria binomial.
................................................. 82 Tabla 4.1. Calculo de las probabilidades de
recibir k llamadas en 3 minutos mediante aproximaciones sucesivas por medio del
modelo
Binomial........................................................................................................................
................ 83
iv
4.2. Derivación axiomática del proceso de
Poisson.............................................................................................. 87
4.3. Procesos de Poisson
espaciales.................................................................................................................... 93
4.4. Distribución del tiempo inter-
eventos............................................................................................................. 98 4.5.
La distribución uniforme de los tiempos de ocurrencia de sucesos en un proceso de
Poisson................... 102
Problemas Resueltos ................................................................................................109
Problemas Propuestos..............................................................................................113
v
vi
Capitulo 1- Preeliminares sobre teoría de
probabilidades y simulaciones
1.1 Experimento aleatorio. Espacio muestral. Eventos

elementales. Probabilidad
El objetivo fundamental de la teoría de la probabilidad es la descripción matemática de

experimentos aleatorios, que son procesos cuyos resultados no se pueden predecir con
exactitud. Las dificultades en manejar matemáticamente algo que es por naturaleza
impredecible se superan si abordamos la identificación de todos los resultados posibles
que puede arrojar un experimento aleatorio. Con esto habremos definido el espacio
muestral. El espacio muestral es un conjunto, en el sentido matemático de la palabra, y
sus elementos constituyentes son los resultados posibles del experimento aleatorio, que
también se conocen como eventos elementales. Usualmente se denota el espacio
muestral mediante la letra griega omega mayúscula (Ω) y los eventos elementales
mediante la omega minúscula con algún subíndice (ωi si Ω es un conjunto numerable)
para distinguirlos entre sí. Para mantener la consistencia en la notación, se aclara que
por evento elemental se entiende cada resultado posible del experimento aleatorio (los
elementos constituyentes de Ω) o los subconjuntos unitarios de Ω formados por los
elementos de Ω correspondientes. Es de notar que la colección de eventos
elementales, bajo la acepción de subconjuntos unitarios, forman una partición de Ω: su

unión es el conjunto Ω y son mutuamente disjuntos dos a dos.
Los eventos elementales se pueden componer mediante uniones para formar eventos,
que son subconjuntos del espacio muestral. La colección de eventos del espacio muestral
es un álgebra de conjuntos, porque es cerrada bajo uniones finitas y
A B y A son
complementos. En términos más sencillos, si A y B son dos eventos,
A B es el evento que se verifica cuando se verifica el evento A o el
eventos también.
1
(
evento B y A es el evento que se verifica cuando no se verifica A. Como A B = A ∪B
), el álgebra de eventos es cerrada bajo las intersecciones finitas también. Denotaremos

por ℑ la clase de todos los eventos, o álgebra del espacio muestral.
Por razones que van más allá del alcance teórico de este recuento, es preciso exigir una
condición adicional sobre ℑ: Si {An }⊂ ℑ es una sucesión numerable de eventos, entonces
su unión infinita también es un evento –
∞ = An ∈ℑ.
n1
Un álgebra que satisface esta condición más fuerte se denomina σ-álgebra. Por ejemplo,
{∅,Ω} y ℘(Ω) (se lee “partes de omega”, que es la clase de todos los subconjuntos
posibles de Ω) son σ-álgebras. En resumen, se ha asociado a un experimento aleatorio
un conjunto de resultados posibles y una estructura matemática para definir todos los
eventos posibles.
A modo de ejemplo, si el experimento aleatorio consiste en escoger al azar una persona

y observar su día de cumpleaños, para definir el espacio muestral debemos identificar
cada día del año de una forma conveniente. Se podría asociar el 1 al primero de enero, el
2 al segundo de enero y así sucesivamente. Descartando el caso de las personas nacidas
el 29 de febrero, el espacio muestral esta definido por el conjunto de números naturales
del 1 al 365 y Ω= {1,2 ,365}. Podemos observar que el espacio muestral es un conjunto
,
numerable y finito. Si estamos interesados en el evento “la persona es nacida en el mes
de enero”, este evento se podría definir como E ={1,2 ,31}.

,
Análogamente, si estamos interesados en el evento “la persona es de signo acuario en el

zodiaco” (21 de enero al 19 de febrero), este se definiría por A ={21,22 ,50} .
,
Las bases matemáticas de la teoría de probabilidades moderna se deben a elaboraciones

sobre la teoría de la medida, que primordialmente se ocupa de cómo asignar cantidades
2
numéricas a cada conjunto de una σ-álgebra. En nuestro caso esto es muy oportuno
porque nos preocupa asociar probabilidades a eventos, y las probabilidades son valores
numéricos que cuantifican el grado de certidumbre sobre la ocurrencia de algún evento en
la realización de un experimento aleatorio. En el lenguaje de la teoría de la medida, la
probabilidad es una medida, o función que le asigna a cada conjunto de una σ-álgebra un
valor real positivo o nulo:
Definición (Axiomas de Kolmogorov): Sea (Ω,ℑ) un espacio muestral con su respectiva σ-

álgebra de eventos. Una función P: ℑ→[0,1] es una medida de probabilidad si satisface
las condiciones siguientes:
a. P(Ω)=1
b. Si {An}⊂ℑ es una sucesión de conjuntos disjuntos dos a dos, entonces
∞ ∞
⎛  ⎞ ∑
P ⎜ An ⎟ = P(An )
⎝ n=1 ⎠ n= 1
Esta es la propiedad de σ-aditividad.
En este caso se dice que (Ω,ℑ,P) es un espacio de probabilidad.
1.2 Variable aleatoria. Distribución de probabilidad. Tipos de variables aleatorias.

Densidad de probabilidad.
El concepto de variable aleatoria es substancial y de mucha utilidad en el estudio

matemático de los fenómenos aleatorios porque es un mecanismo para “traducir” los
objetos del espacio muestral, que no necesariamente se identifican de forma numérica, a
elementos de algún conjunto numérico. Esto facilita enormemente la cuantificación en el
estudio de la aleatoriedad, y conlleva eventualmente a establecer características
3
importantes que resumen numéricamente el comportamiento del fenómeno aleatorio,
como la esperanza y la varianza.
Definición (Variable Aleatoria): Sea (Ω,ℑ,P) un espacio de probabilidad. La variable

aleatoria X(ω) es una función X: Ω→ R que asigna a cada elemento del espacio
muestral un valor real. Adicionalmente, la variable aleatoria es una función medible,

{
porque deber verificar que ωX(ω)<α ∈ℑ. }
Aún cuando esta característica de las variables aleatorias como funciones medibles no se
menciona en los textos elementales de probabilidades con los que probablemente
estudiaste esta materia, se incluye en la definición anterior porque es justamente esta
característica la que posibilita el cálculo de probabilidades asociadas a intervalos reales,
la definición de funciones de distribución de probabilidad y consecuentemente, la función
de densidad de probabilidad.
La variable aleatoria traduce eventos en el espacio muestral a intervalos o subconjuntos

numéricos con la finalidad de calcular la probabilidad asociada a estos subconjuntos
numéricos. Es decir, convierte la medida de probabilidad de eventos a distribuciones de
probabilidad en conjuntos numéricos, definiendo así la llamada función de distribución de
probabilidad:
Definición (Función de Distribución de Probabilidad): Sea (Ω,ℑ,P) un espacio de

probabilidad y X(ω) una variable aleatoria definida sobre este espacio. La función de
distribución F(x) de una variable aleatoria se define como sigue:
F(x)= P{X ≤ x}= P{ωX(ω)≤ x}
Habiendo hecho esta definición, se esclarece el comentario anterior sobre la propiedad
{ }
de la variable aleatoria como función medible - si ωX(ω)<α ∉ℑ, dicho evento no tendría
probabilidad asociada y por lo tanto se indefiniría la función de distribución de probabilidad,
4
porque solo tienen probabilidad aquellos eventos definidos en ℑ. Entre algunas
propiedades de la función de distribución de probabilidad, que también se
denomina a veces función acumulada de probabilidad, se mencionan:
i. F es una función creciente que toma valores en [0,1].
ii. F(-∞)=0 y F(∞)=1.
Según la naturaleza del conjunto de valores que toma X, se tienen dos tipos de variables
aleatorias. Las variables aleatorias discretas se caracterizan por ser el conjunto de valores
de X finito o por lo menos numerable. Si el conjunto de valores de X es infinito e
innumerable, X es una variable aleatoria continua. Esta distinción es muy importante
porque determina la forma en que definimos las probabilidades puntuales: para una
variable aleatoria discreta, P{X=x} es un valor positivo si x esta dentro del rango de valores
{ }
donde el evento ωX(ω)= x asume probabilidad positiva. En cambio, si X es una
variable continua, P{X=x} es invariablemente igual a cero para cualquier valor x porque si
X toma valores en un conjunto infinito, ninguna probabilidad puntual puede ser distinta de
cero.
Cuando X es una variable aleatoria, podemos definir su función de probabilidad del modo
usual:
p(x)= P{X = x}= P{ωX(ω)= x}
La función de probabilidad de una variable discreta es mayor o igual a cero para todo x y
verifica que la suma de las probabilidades puntuales a través del conjunto imagen de X es
igual a uno:
∀x ∈Rp
x=− ∞
A veces, p(x) se denota por px, para enfatizar la naturaleza discreta de la variable aleatoria
(si p tiene un subíndice, los valores posibles de X son numerables). Si X es una variable
continua, no tiene sentido hablar de probabilidades puntuales porque todas son iguales a
5
cero. Se define entonces la función de densidad de probabilidad f, que se corresponde a
la derivada Radon-Nikodym de la función de distribución. Una variable aleatoria que tiene
asociada una tal función de densidad se denomina absolutamente continua, y dicha
función de densidad f(x) verifica lo siguiente:
x
f (x)≥ 0 para todo x y F( ) dt
Es de notar que en el caso continuo, f(x) no representa una probabilidad puntual, pues ya
hemos establecido que las probabilidades puntuales son necesariamente iguales a cero;
en cambio f(x) puede asumir valores positivos.
Una vez establecidas las definiciones básicas de variable aleatoria, distribución de

probabilidad, función de probabilidad y función de densidad de probabilidad, es preciso
mencionar que en la teoría de la probabilidad se estudian diversas distribuciones o leyes
de probabilidad que pretenden modelar una amplia gama de fenómenos aleatorios. El
estudiante que haya cursado cualquier curso elemental de probabilidades conoce algunas
de estas leyes de probabilidad y sus características más importantes. En las tablas 1.1 y
1.2 se describen las leyes de probabilidad más usuales.
1.3. Valores esperados: esperanza y varianza.
Dos características importantes de una variable aleatoria son su tendencia central y su

dispersión media con respecto a la tendencia central. Ambas están dadas por la
esperanza y la varianza respectivamente. La esperanza matemática de una variable
aleatoria, también conocida como momento de orden uno o valor medio, se define del
siguiente modo:
Para el caso de la variable absolutamente continua se tiene que su esperanza es:

∞
E[X]= ∫ x ⋅f (x)dx
−∞ en donde los límites de integración se definen convenientemente según el
espacio de valores donde f(x) es positiva. La esperanza matemática de una variable
aleatoria discreta con función de probabilidad p(x) se define como:
6
E
k=0
en donde, una vez más, los límites de integración se definen de forma conveniente. El
valor esperado de una variable aleatoria, su media poblacional, frecuentemente se
designa mediante la letra μ del alfabeto griego. A continuación se enuncian sin
demostración algunas propiedades importantes de la esperanza:
• Si X es una variable aleatoria degenerada (que asume un valor constante C con

probabilidad uno), entonces E[X]=C.
• Sea C una constante y X una variable aleatoria, entonces E[CX]=C⋅E[X].

• Sea X una variable aleatoria y sea Y=h(X) otra variable aleatoria que es función de
X. entonces, el valor esperado de Y es:
observando que los límites de integración se redefinen de acuerdo a los límites de

integración para la variable X y en atención a la función h. Si la variable X es
discreta, Y también lo es y su esperanza se define mediante una sumatoria.
La varianza, que indica el grado de dispersión de una variable aleatoria respecto a su

media, también es un valor esperado. De hecho, la varianza de una variable aleatoria X
es el valor esperado de la diferencia cuadrática de X respecto a su media y en su cálculo
interviene la fórmula anterior:
Algunas de sus propiedades notables son:
• Para toda variable aleatoria X, V[X] ≥ 0 • Si C es una constante, V[CX]=
C2V[X].
• Si A es una constante, V[X + A]=V[X].
7
• [ ]
V[X]= E X 2 − E2[X]. Esta última formula es particularmente útil para el
cálculo de la varianza.
Finalmente, como última nota en este aparte, se menciona la cota de Tchebyschev, que
involucra la esperanza y la varianza de una variable y es de utilidad para acotar de forma
muy aproximada ciertas probabilidades cuando no se tiene ningún conocimiento sobre la
ley de probabilidad de una variable aleatoria. Este resultado se da en sus dos formas sin
demostración:
P[X −μ ≥ε]≤ V[X2 ] y, recíprocamente, P[X −μ <ε] >1− V[X2 ] ε

ε
probabilidad de la variable compuesta a través del análisis de su función característica o

generadora.
La función característica de una variable aleatoria X tiene una definición bastante sencilla:
es la esperanza de eiuX, en donde u es una variable real. Se tiene, pues:
eiuxdF(x)
−∞
1 .4. Función característica y función generatriz. Propiedades y tablas.
El interés en la Estadística de la función generatriz de una variable discreta y la función

característica de una variable discreta o continua radica en el cálculo de los momentos y
en el cálculo de las distribuciones muestrales, siendo estas particularmente útiles para el
cálculo de la suma de n variables aleatorias independientes e idénticamente distribuidas.
Otro caso donde son de utilidad es cuando se tiene una composición de variables
aleatorias de distintas distribuciones- ahí entonces se puede deducir la ley de
8
Como eiuX = cosux + i ⋅senux , esta función es integrable para cada u y
consecuentemente, ϕ(u) posee una parte real y una parte imaginaria. ϕX(u) también es
conocida como la transformada de Fourier de F(x). Si la variable X es absolutamente
continua, entonces
eiuxf(x)dx , con los límites de integración definidos donde f(x) sea positiva.
−∞
Si X es una variable aleatoria discreta, se tiene por definición que ϕX (u)= ∑e iux
p(x) , con
los límites de la sumatoria definidos en aquellos puntos donde la función de probabilidad

p(x) sea positiva.
Las funciones características de algunas variables aleatorias discretas y continuas más

comunes se dan en las tablas 1.1 y 1.2. Es importante recalcar que la función
característica depende del parámetro u, por lo tanto, cuando se hable de su derivada de
orden k subsecuentemente, se refiere a la diferenciación con respecto a u. Por los
momentos se indican algunas propiedades de la función característica que son de utilidad,
aclarando que en lo sucesivo omitimos el subíndice X en ϕX(u) para ganar claridad
tipográfica.
Sea X una variable aleatoria con función característica ϕ (u), entonces: ϕ(0)=1
ϕ(t) ≤1
E i
Esta última propiedad es particularmente útil, podemos calcular el momento de orden k
de una variable X derivando k veces su función característica, evaluándola en cero y
dividiendo entre ik. Generalmente, en este tipo de cálculos surgen indeterminaciones de
tipo 0/0 que se pueden resolver mediante el respectivo límite y la regla de L’Hospital.
Otra propiedad interesante de la función característica es que existe una correspondencia

unívoca entre ésta y la ley de probabilidad de la variable aleatoria subyacente. Existen
9
varias fórmulas de “inversión” que sirven a tales efectos, como el teorema de Levy. Dichas
formulas se establecen en lo que sigue sin demostración2:
Sean F(x) y ϕ (u) la función de distribución y la función característica de una variable

aleatoria X respectivamente. Si x1 y x2 son dos puntos de continuidad de F(x) se tiene:
1 T e−iux1 − e−iux 2
∫
F(x2)− F(x1)=limT →∞ 2π− T iu ϕ(u)du
Como consecuencia de este teorema, se tienen los siguientes resultados: T
lim 1 −iux (u)du . Si X es

discreta, entonces pX (x)= 2T − ∫T eϕ
T →∞
En el caso continuo, la función de densidad de X es dada por fX du .
Por último es importante notar, aún adelantándose a la exposición de la independencia

estocástica y la convolución de variables aleatorias, que la función característica sirve para
obtener la distribución de una suma de variables independientes. Esto se desprende del
hecho de que el valor esperado de un producto de variables aleatorias independientes es
igual al producto de los valores esperados de las variables respectivas, pero este punto
se tratará en mayor detalle posteriormente.
En el caso en que la variable aleatoria X sea discreta y tome valores positivos, se puede
definir su función generatriz del siguiente modo:
∞ g(u) =
[ ]
E u X = ∑ p(k)u k
k=o
Siempre y cuando u este dentro del radio de convergencia de dicha serie infinita.
2 RIOS, pp. 96-97
10
Algunas propiedades notables de la función generatriz son las siguientes:
p(k) = g (kk)! (0) , para k =

0,1,2, i.
ii. E[X(X −1)(X − k +1)]= g (k )

(1), para k =1,2,.
)
La expresión E[X(X −1 (X −k +1)] se conoce como momento factorial de
orden k para la variable X.
Como la función característica la función generatriz determina unívocamente la ley de

probabilidad de una variable aleatoria y también sirve a efectos de determinar la
distribución de la suma de variables aleatorias independientes. Las funciones
generatrices de diversas variables aleatorias discretas se dan en la tabla 1.1.
Tabla 1.1. Leyes de probabilidad discretas más frecuentes y sus características
Bernoulli – En un ensayo de Bernoulli se observa un éxito con probabilidad p o un fracaso

con probabilidad q=1-p.
0 ≤ p ≤1
Función de probabilidad: Valores esperados:
pX (x) = ⎧⎨1− p x = 0 para x ∈{0,1} E[X]= p V[X]= pq

⎩p x =1
Función generadora y función característica:
g(z)=q+pz ϕX (u)=q+peiu
Binomial- Es la suma de n variables aleatorias de Bernoulli independientes e

idénticamente distribuidas con parámetro p. Representa también el número de éxitos en
n ensayos independientes.
11
0≤p≤1, q=1−p, n∈N+
⎧ ⎛n⎞ xq n−x x {0,,n} E[X]= np V[X]= npq pX (x) =

⎪⎨⎜⎜⎝x⎟⎟⎠p ∈
⎪
0 x ∉{0,,n}
⎩
g(z)= (q+pz)n (
ϕX (u)= q+peiu ) n
Geométrica- La variable aleatoria geométrica es el número de ensayos de tipo Bernoulli

que se requieren hasta observar el primer éxito.
0≤p≤1, q=1−p
pX (x) = ⎧⎨0pq x−1 xx ∈∉N N ++ E[X]= p1 V[X]= pq2
⎩
Función generadora y función
característica: pz peiu
g(z) = − ϕX (u) = 1− qeiu
1 qz
Binomial Negativa- La variable aleatoria binomial negativa representa el número de

ensayos hasta observar la r-ésima ocurrencia de un éxito (r es un número fijo).
pX (x) = ⎧⎨⎛⎜⎝xr −−11⎞ ⎠ r q x−r x ≥ r E[X]= pr V[X]= prq2

⎪⎜ ⎟⎟p
12
⎪
0 x< r
⎩
pz ⎞r ⎛ peiu ⎞r
g(z)= ⎛⎜⎜⎝1− qz ⎟⎟⎠ ϕX (u)= ⎜⎜⎝1− qeiu ⎟⎟⎠
Poisson- La variable aleatoria Poisson representa el número de eventos que ocurren en

un instante de tiempo de amplitud fija cuando la tasa media de eventos en ese intervalo
de tiempo es λ
⎧ −λλx E[X]= λ V[X]=λ

⎪e x∈N≥0
⎪
pX (x)=⎨ x! 0 x<0
⎩
g(z)=eλ(z−1) ϕX(u)=eλ(eiu −1)
Tabla 1.2. Leyes de probabilidad continuas más frecuentes y sus características
Uniforme – Es la variable aleatoria continua uniformemente distribuida sobre un intervalo (a,b).

La probabilidad de que la variable aleatoria uniforme se encuentre dentro de algún subintervalo
de (a,b) es proporcional a la amplitud de dicho subintervalo.
Función de densidad: Valores esperados:
⎧ 1 a + b (b − a)2
fX (x) = ⎪⎨b − a a<x<b E [X ]= 2 V[X]= 12
13
⎪0 en caso contrario
⎩
Función característica:
eiub eiua
−
ϕX (u) =
iu(b − a)
Normal- El número de éxitos en n ensayos independientes de Bernoulli obedece

aproximadamente una ley Normal a medida que n tiende a infinito. Según el teorema central del
límite, toda suma n variables independientes e idénticamente distribuidas es normal cuando n
tiende a infinito. La ley normal modela adecuadamente una amplia gama de fenómenos aleatorios
porque generalmente, las desviaciones de una variable con respecto a un punto central se deben
a la suma de una cantidad indefinidamente grande de perturbaciones aleatorias idénticamente
distribuidas e independientes entre sí.
σ,μ∈R σ > 0
1 ⎛ 1
fX (x) = exp⎜⎜− 2⎛⎜⎝ xσ−μ⎞⎟⎠2 ⎟⎟ ⎞ ⎠ E[X]= μ V[X]=σ2
σ 2π ⎝
⎛ ⎞
ϕX (u) = exp ⎜iuμ− u2σ2 ⎟
1
⎝ 2 ⎠
Exponencial- La variable aleatoria exponencial juega un papel análogo en el caso

continuo a la geométrica y representa el tiempo que transcurre hasta que falla un
componente. Como la geométrica, la variable aleatoria exponencial tiene la propiedad de
no poseer memoria: el haber esperado una cantidad de tiempo determinado sin que haya
ocurrido la falla o el suceso en cuestión no condiciona el tiempo adicional de espera en el
14
futuro. El único parámetro de esta distribución λ esta relacionado con la tasa media de
eventos por unidad de tiempo y tiene la restricción de ser un valor positivo.
⎧ λe−xλ x > 0 E[X]= V [X ]= fX (x) = ⎨
⎩0 en caso contrario
−1
ϕX (u) = ⎛⎜1− iu ⎞⎟
⎝ λ⎠
Gamma- La variable aleatoria gamma representa el tiempo de espera hasta la r-ésima
ocurrencia de un fallo o evento cuando los eventos ocurren independientemente entre sí
con una tasa promedio de λ por unidad de tiempo, con los tiempos inter-eventos
distribuidos exponencialmente con el mismo parámetro. Un caso especifico de la gamma
es la distribución de Erlang, que representa la suma de r variables aleatorias
independientes distribuidas exponencialmente (en este caso, r es un número entero
positivo). La distribución ji-cuadrado, la Weibull y la exponencial también se pueden definir
como casos particulares de la gamma. Las restricciones sobre los parámetros son λ,r >
0
⎧λ r −1 −λx x > 0 E [X ]= r V[X]= r2
X ⎪⎨ (λx) e λ λ
f (x) = Γ(r )
⎪
0 en caso contrario
⎩
−r
ϕX (u) = ⎛⎜1− iu ⎞⎟
⎝ λ⎠
Nota: La función Γ(r) es la función gamma, que se define a continuación:
15
udu, r>0
Esta función tiene las siguientes propiedades:
i. Γ(n +1) = nΓ(n), n>0
ii. Γ(n +1) = n! si n es un entero positivo

1.5. Variables aleatorias bidimensionales y n-dimensionales. Función de
distribución conjunta. Función de densidad conjunta.
Sucede muy comúnmente que estamos interesados en investigar las relaciones que hay
entre dos o más características de los individuos de una población- esto da pie a la
definición de las variables aleatorias bidimensionales y, de forma más general, a las
ndimensionales. Este concepto pretende dar respuestas a preguntas tales como: ¿Cuál
relación existe entre la estatura y el peso corporal de cada persona? ¿Existe algún vínculo
entre el grado de desarrollo tecnológico y el porcentaje de la población que son científicos
en un país? Es importante recalcar que las variables aleatorias conjuntas se refieren a
dos o más características que se observan simultáneamente en cada individuo de una
población; están, pues, asociadas al mismo espacio muestral (ver Fig. 1.1). Así por
ejemplo, si estamos interesados en comparar las destrezas matemáticas de estudiantes
de uno y otro liceo a partir de las notas de matemática de una muestra de veinte alumnos
de cada liceo, no se puede instituir en base a esto una variable aleatoria bidimensional
porque los alumnos no provienen de la misma población (dos liceos) ni tampoco un par
de notas se refieren al mismo individuo.
Definición (Variable aleatoria bidimensional y n-dimensional): Sea (Ω,ℑ,P) un espacio de

probabilidad y X=X(ω) e Y= X(ω) dos variables aleatorias definidas sobre ese mismo
espacio probabilizado. El par (X,Y) constituye una variable aleatoria bidimensional, a
veces denominada vector aleatorio. Análogamente, si X1=X1(ω), …, Xn=Xn(ω) son n
variables aleatorias definidas sobre el mismo espacio, entonces (X1, , X n ) es una

variable aleatoria n-dimensional (vector aleatorio n-dimensional).
16
Fig. 1.1 – Las variables aleatorias conjuntas están asociadas al mismo espacio muestral.
Como en el caso unidimesional, las variables aleatorias multidimensionales
(ndimensionales) son discretas o continuas y poseen función de distribución y función de
probabilidad o función de densidad de probabilidad según sea el caso. Los vectores
aleatorios son discretos si el producto cartesiano X1 × × X n es un conjunto finito o
numerable; en caso contrario, el vector aleatorio es continuo. Sin más preámbulos, se
especifican seguidamente las particularidades salientes de los vectores aleatorios:
Función de probabilidad conjunta en caso discreto: Al vector aleatorio discreto
(X1, , X n ) se asocia una función de probabilidad p(x1,,xn ) que representa la respectiva

{ }
probabilidad P ω X1(ω) = x1 , Xn(ω) = xn definida en el espacio
,
probabilizado y que cumple las siguientes condiciones:
i. p(x1,,xn)≥ 0 para todo (x1, ,xn)
ii. ( ,,xn)=1
x1=−∞ x2=− ∞
La segunda condición establece que la masa de probabilidad total sumada a través de
la región de valores donde p(x1 ,xn ) > 0 es igual a uno. Como en el caso unidimensional,
,
esta condición es de hecho la que caracteriza a cualquier función de probabilidad o de

densidad.
17
Función de densidad de probabilidad conjunta (caso continuo): Al vector aleatorio continuo
(X1, , Xn) se asocia una función de densidad de probabilidad f (x1,,xn) que, asumiendo
valores positivos en alguna región R del espacio n-dimensional, cumple las siguientes
condiciones:
i. f (x1 ,xn)≥ 0 para todo (x1, ,xn)

,
ii. ∫ ∫f(x ,,x )dx dx

1 n 1 n =1
R
Función de distribución de probabilidad conjunta: Un vector aleatorio (X1, , Xn) basado en
un espacio de probabilidad (Ω,ℑ,P) tiene una función de distribución conjunta definida del
siguiente modo:
FX1,,Xn (x1, ,xn) = P{ω X1(ω) ≤ x1 , Xn(ω) ≤ xn}

,
Calculándose esta expresión mediante sumatorias o integrales múltiples según sea el
vector aleatorio discreto o continuo respectivamente. Las expresiones para los momentos
de los vectores aleatorios se obtienen de forma análoga al caso unidimensional. Cabe
destacar por último la expresión para la función característica de un vector aleatorio:
Función característica conjunta: Sea (X1, , Xn) un vector aleatorio basado en un espacio
de probabilidad (Ω,ℑ,P). Su función característica conjunta esta dada por: ϕX1,,Xn (u1,
,un)= E[expi(u1X1 + + un Xn)]=
∫ ∫expi(u1x1 + + unxn)f (x1,,xn)dx1dxn

R
Ha de entenderse la última integral de esta expresión como una sumatoria en el caso en

que (X1, , Xn) sea un vector aleatorio discreto.
18
Como último punto en este aparte, cabe observar que cada una de las variables aleatorias
que conforman el vector aleatorio (X1, , Xn) está asociada a un mismo espacio
X
i
probabilizado, por lo cual cada una de estas variables tiene su propia función de
probabilidad (de densidad de probabilidad, si es continua). En el contexto de las variables
aleatorias multidimensionales, la función de probabilidad (o de densidad) de cada variable
aleatoria por separado se conoce como función de probabilidad (densidad) marginal y se
obtiene a partir de la función de probabilidad conjunta sumando (o integrando) a través de
las variables aleatorias restantes.
Así por ejemplo, si tenemos el vector aleatorio (X,Y ) con su función de probabilidad
conjunta p(x,y) (o función de densidad f (x,y) si (X,Y ) es continua), podemos obtener la
función de probabilidad marginal del siguiente modo:
pX (x) = ∑ p(x,y) (o fX (x) = ∫f (x,y)dy si (X,Y ) es continua)

y∈RangoY RangoY
En el caso de variables aleatorias de más de dos dimensiones, tendremos sumatorias o

integrales múltiples, a fin de sumar a través de las variables aleatorias restantes.
1.6. Variables aleatorias independientes y su caracterización. Covarianza.
Distribución de la suma de dos o más variables aleatorias independientes.
Convolución.
El análisis de las relaciones entre las variables aleatorias de un modelo probabilístico tiene
mucho que ver con el concepto de la independencia entre variables aleatorias.
Intuitivamente, decimos que dos variables aleatorias son independientes si el resultado
observado de una variable no afecta la ocurrencia del valor observado en la otra variable.
Otra manera intuitiva de abordar la idea es considerando que si dos variables aleatorias
son independientes, la distribución de probabilidades de una de ellas permanece igual a
través de todos los posibles valores que asuma la otra variable, lo cual guarda relación
directa con la posibilidad de factorizar la función de probabilidad conjunta como el
producto de las respectivas funciones de probabilidad marginales.
19
A modo de ilustrar, se considera el siguiente ejemplo: en una población, se observa la
raza o grupo étnico de cada persona conjuntamente con su nivel de inteligencia medida a
través del coeficiente intelectual. Si el nivel de inteligencia de un individuo es
independiente de su grupo racial u origen étnico, se observará que las proporciones de
individuos inteligentes, normales y subnormales permanecerán iguales sin importar el
grupo racial o étnico considerado. Valga este ejemplo para señalar otro aspecto
importante sobre las relaciones de dependencia entre variables aleatorias: la estadística
se limita a discernir si ciertos niveles de una variable van acompañados por ciertos niveles
de otra variable- las técnicas estadísticas clásicas no permiten discernir sobre las
relaciones de causalidad de unas variables sobre otras. En nuestro ejemplo, si
encontrásemos que el origen racial no es independiente del nivel de inteligencia de un
individuo, no por esto pudiésemos concluir que ciertas razas son “más inteligentes” que
otras o dicho de otro modo, que el origen racial de un individuo explica su bajo o alto
coeficiente intelectual. Más bien, en este caso, el investigador debería evaluar si el
instrumento de medición de la inteligencia está o no diseñado de forma sesgada para
favorecer a los individuos de cierta raza por sobre los individuos de otras razas. En todo
caso, si la dependencia estocástica es equivalente a la causalidad, eso es algo que debe
responderse fuera del ámbito probabilístico.
Otro error común en cuanto al concepto probabilístico de independencia, por lo menos en

base a la experiencia docente del autor, es aquel de señalar dos eventos mutuamente
excluyentes como aquellos que son independientes entre sí. De hecho, se da justamente
lo contrario: si dos eventos son mutuamente exclusivos, la ocurrencia de uno determina la
no ocurrencia del otro, por lo cual jamás pueden considerarse eventos independientes.
Es importante aclarar todos estos puntos en torno a la noción de independencia
estocástica porque un aspecto importante en el análisis de los procesos estocásticos es
determinar si el estado del proceso en un instante de tiempo es independiente de su
estado en otro instante. Como se verá, la suposición de la independencia entre los
estados del sistema en distintos instantes de tiempo simplifica bastante el análisis del
proceso estocástico.
Seguidamente se dan algunas caracterizaciones de la independencia de las variables

aleatorias conjuntamente distribuidas:
i. Caracterización de la independencia en términos de sus funciones de probabilidad
20
Un conjunto de variables aleatorias conjuntamente distribuidas se dice ser
independiente si y solo si su función de probabilidad conjunta se puede factorizar
como el producto de las funciones de probabilidad de cada variable:
p(x1,,xn ) = pX1(x1)⋅ ⋅ pXn (xn )
Si el vector aleatorio es continuo, se intercambia “función de probabilidad” por

“función de densidad” en esta caracterización.
ii. Caracterización de la independencia en términos de sus funciones de distribución
Para toda n-pla de valores (x1, ,xn ), se tiene que
FX1,,Xn(x1, ,xn )= FX1(x1)⋅⋅FXn(xn )
iii. Caracterización de la independencia en términos de la esperanza matemática
Para toda n-pla de funciones (g1, , n )

g donde existan los respectivos valores
esperados en la siguiente ecuación:
E[g1(X1)⋅⋅ gn(Xn)] = E[g1(X1)]⋅⋅E[gn(Xn)]

En palabras: la esperanza del producto de variables aleatorias conjuntamente
distribuidas es igual al producto de los valores esperados de cada variable. De
esta caracterización de independencia se deduce que la varianza de la suma de
variables aleatorias conjuntamente distribuidas e independientes es igual a la
[ ] [ ]
suma de las respectivas varianzas: V X1 ++ Xn =V X1 ++V Xn [ ]
iv. Caracterización de la independencia en términos de su función característica

La función característica de un vector aleatorio conjuntamente distribuido es igual
al producto se las funciones características de cada variable aleatoria respectiva
cuando estas son independientes. Dicha caracterización se infiere de la propiedad
anterior para el valor esperado del producto de variables aleatorias
independientes.
21
ϕX1,,Xn(u1, ,un ) =ϕX1(u1)⋅⋅ϕXn(un )
Esta caracterización de independencia es muy útil. Permite por ejemplo concluir
que la suma de n variables exponenciales idénticamente distribuidas e
independientes es una variable aleatoria gamma
Según las distintas caracterizaciones de independencia vistas, se tiene que dos variables
aleatorias, o son independientes o no lo son. Pero si hemos de establecer un grado o la
magnitud de la dependencia entre dos variables, una medida sería la covarianza, cuya
definición es:
cov[X,Y ]= E[(X − E[X])(Y − E[Y ])]= E[X ⋅Y ]− E[X]⋅E[Y ]
Es de notar que si dos variables aleatorias X e Y son independientes, las esperanzas en

la expresión del extremo derecho de estas igualdades se cancela- consecuentemente, si
dos variables aleatorias son independientes, su covarianza es cero, aunque no podemos
establecer de modo general la implicación contraria. La covarianza puede ser negativa o
positiva, sin embargo, a fin de acotar la covarianza y establecer comparaciones entre los
grados de dependencia de dos o más pares de variables aleatorias se define a partir de la
covarianza el coeficiente de correlación:
ρ[X,Y ]= cov[X,Y ] V[X]⋅V[Y]
el cual se puede demostrar que está acotado entre -1 y 13. En realidad, el coeficiente de
correlación mide el grado de linealidad en la relación de dos variables. Si ρ es -1, se tiene
que entre X e Y existe una relación lineal decreciente perfecta: una variable se puede
expresar como función afín de la otra y si una variable crece, la otra decrece. En cambio
ρ=1 representa una relación lineal creciente perfecta: una variable aleatoria es función afín
de la otra y ambas decrecen o crecen simultáneamente. Si ρ es cero, no existe ninguna
relación de linealidad entre una y otra variable, pero como ya se dijo anteriormente, esto
no implica necesariamente que las variables en cuestión sean independientes. Dicho sea
3 Ver la demostración del Teorema 7.11 en MEYER, p. 145 3

Ver el capitulo 9 de SPIEGEL.
22
de paso, existen otras medidas de correlación un tanto más robustas que no toman la
linealidad en cuenta, como por ejemplo el coeficiente de correlación de rango de
Spearman y el coeficiente de correlación de rango τ de Kendall entre otros3.
El concepto de independencia entre dos variables y sus caracterizaciones en términos de

la esperanza matemática de su producto tienen como consecuencia un método sencillo
para obtener la distribución de probabilidad de la suma de dos o más variables aleatorias.
Se puede demostrar que si X e Y son dos variables aleatorias continuas e independientes
entonces su función de densidad está dada por:
∞ fX +Y (y) = ∫fX
(x)⋅fY (y − x)dx
−∞
Para el caso continuo, la función de probabilidad de X+Y para dos variables

independientes es:
pX +Y (y) = ∑ pX (x)⋅ pY (y − x)
x
Integrales como la de arriba se denominan bajo el nombre de convolución. En algunos

textos de matemáticas la convolución de dos funciones f y g se escribe f∗g, de modo que
f
X +Y (y) = fX ∗fY . El cálculo de tales integrales (o sumatorias en el caso discreto) puede
resultar algo tedioso- es de este punto de donde las funciones características derivan su
importancia. Ya que la esperanza del producto de dos variables aleatorias independientes
es igual producto de sus respectivas esperanzas, se tiene que: E eiu(X+Y [ )

]= E[eiuX
] [ ] [ ]
⋅eiuY = E eiuX ⋅E eiuY
y en consecuencia ϕX+Y(u) =ϕX(u)⋅ϕY(u). En base a esta fórmula, se puede

determinar la distribución de la suma de variables aleatorias independientes observando
la función característica de la suma. Con este resultado, se explica fácilmente porqué la
23
suma de variables exponenciales independientes de idéntico parámetro tiene una
distribución gamma, por ejemplo. Esta formula será de utilidad en el análisis de ciertos
procesos estocásticos.
Ejemplo para las secciones 1.5 y 1.6
A fin de consolidar tu aprendizaje de los conceptos expuestos en las secciones anteriores

sobre variables multidimensionales e independencia, considera el problema a
continuación:
Se lanzan dos dados y en atención al resultado, se definen las dos variables aleatorias
siguientes-
X – representa la suma de las dos caras resultantes en el lanzamiento de los dados. Y –

es una variable aleatoria dicotómica que asume el valor de 1 si la cara del primer dado es
divisible entre 2 o 3, y 0 si no lo es.
Determina la función de probabilidad conjunta de la variable aleatoria bidimensional (X,Y

) así como la funciones de probabilidad marginales de X y de Y. Adicionalmente, indica
si las dos variables aleatorias en cuestión son mutuamente independientes.
Solución:
Primero, debemos identificar el espacio muestral subyacente al experimento aleatorio
asociado al lanzamiento de los dos dados. Dicho espacio muestral se puede definir (o
modelar, si prefieres) mediante el siguiente conjunto de pares ordenados:
Ω= {(d1,d2)d1,d2 ∈N, 1≤ d1,d2 ≤ 6}
En palabras, Ω es el conjunto de todos los pares ordenados de números tal que cada
número representa una de las posibles seis caras del dado respectivo. Dicho conjunto
24
tiene 36 elementos y asumiendo que los dados son justos y que el lanzamiento de un dado
no condiciona el lanzamiento del otro, cada uno de estos 36 eventos elementales del
espacio muestral tiene una probabilidad asociada de 136 . Traducción al castellano: los
posibles resultados de lanzar dos dados son equiprobables.
A partir de este conjunto Ω definimos las dos variables aleatorias como en el enunciado
del problema. Estas variables pueden considerarse como características numéricas que
estarán asociadas a cada evento elemental o individuo de la población. En conjunto, se
esquematiza todo esto en una tabla:
i ωi X(ωi ) Y(ωi ) i ωi X(ωi ) Y(ωi ) i ωi X(ωi ) Y(ωi )

1 (1,1) 2 0 13 (3,1) 4 1 25 (5,1) 6 0
2 (1,2) 3 0 14 (3,2) 5 1 26 (5,2) 7 0
3 (1,3) 4 0 15 (3,3) 6 1 27 (5,3) 8 0
4 (1,4) 5 0 16 (3,4) 7 1 28 (5,4) 9 0
5 (1,5) 6 0 17 (3,5) 8 1 29 (5,5) 10 0
6 (1,6) 7 0 18 (3,6) 9 1 30 (5,6) 11 0
7 (2,1) 3 1 19 (4,1) 5 1 31 (6,1) 7 1
8 (2,2) 4 1 20 (4,2) 6 1 32 (6,2) 8 1
9 (2,3) 5 1 21 (4,3) 7 1 33 (6,3) 9 1
10 (2,4) 6 1 22 (4,4) 8 1 34 (6,4) 10 1
11 (2,5) 7 1 23 (4,5) 9 1 35 (6,5) 11 1
12 (2,6) 8 1 24 (4,6) 10 1 36 (6,6) 12 1
Observamos que la v.a. X asume valores entre 2 y 12 (11 posibles valores), mientras que
Y asume dos posibles valores- 0 y 1. Para obtener las probabilidades conjuntas,
construimos una tabla de 11 columnas (cada columna representa un posible valor de X )
y 2 filas (los dos posibles valores de Y ). En cada celda, se indica la probabilidad
respectiva con que ocurre el valor (x,y). Estas probabilidades se obtienen a partir de la
tabla anterior. Por ejemplo, el par (X,Y ) = (8,1) ocurre 4 veces en 36 casos. Por lo tanto
su probabilidad es igual a 4 36 y este valor es el que colocamos en la celda respectiva.
25
Para variables aleatorias bidimensionales discretas, dicha tabla se conoce como tabla de
contingencia:
X
2 3 4 5 6 7 8 9 10 11 12
0 1/36 1/36 1/36 1/36 2/36 2/36 1/36 1/36 1/36 1/36 0
Y
1 0 1/36 2/36 3/36 3/36 4/36 4/36 3/36 2/36 1/36 1/36
A esta tabla de contingencia podemos agregarle las respectivas funciones de probabilidad

f (x) y f (y)) totalizando las probabilidades de las celdas y de las
marginales (que son X Y
columnas:
X Totales
2 3 4 5 6 7 8 9 10 11 12 fY (y)
0 1/36 1/36 2/36 2/36 1/36 1/36 1/36 1/36 0 12/36
1/36 1/36
Y
1 0 1/36 3/36 4/36 4/36 3/36 2/36 1/36 1/36 24/36
2/36 3/36
fX (x) 1/36 2/36

3/36 4/36
5/36 6/36 5/36 4/36 3/36 2/36 1/36 1
Con las funciones de probabilidad marginales de X e Y podemos verificar si estas

variables son independientes. Recordemos que una de las definiciones o
caracterizaciones de independencia requiere que la función de probabilidad conjunta sea
factorizable por las respectivas funciones de probabilidad marginales, es decir, que se
cumpla p(x,y) = pX (x)⋅ pY (y) para todo x,y.
Si tomamos, por ejemplo, x=3 e y=0, tenemos
26
p(x,y) = p(3,0) = , pero pX y claramente se tiene que
p(x,y) ≠ pX (x)⋅ pY (y) y por lo tanto X e Y no son independientes.
Han podido considerarse otras instancias de x e y, pero bástese que no se cumpla p(x,y)
= pX (x)⋅ pY (y) para una instancia para que el par X,Y no sea independiente.
Este resultado tiene una lectura intuitiva: para que la suma X sea 2, es necesario que D1
no sea divisible entre 2 o 3. Por otro lado, para que X sea 12, es necesario que D1 sea
divisible entre 2 y 3, porque tanto D1 como D2 son necesariamente iguales a 6. Por lo
tanto, vemos que la divisibilidad de D1 por 2 o 3 condiciona la suma X; de hecho, se
observa que para distintos valores de X las proporciones de las probabilidades conjuntas
para los casos Y=0 o Y=1 son distintas. Todo esto confirma que X e Y son mutuamente
dependientes, aunque el grado de dependencia no es total.
Otra cosa que seguramente habrás notado es la razón por la cual las funciones de
probabilidad individuales de X y de Y se denominan funciones de probabilidad marginales:
siendo totales de columnas y de filas, se especifican en los márgenes de la tabla de
contingencia.
27
1.7. Introducción a la simulación estocástica mediante el lenguaje R.
El uso de la teoría de la probabilidad para deducir algunas propiedades de un modelo

aleatorio entraña cierta dificultad- se presenta casos en donde el análisis teórico de un
matemático experimentado sobre alguna situación que involucra el azar es errado. Si
además nuestra formación teórica sobre las probabilidades es deficiente
(lamentablemente este es el caso más común), entonces esto dificulta aún más el
abordaje de ciertos problemas. Pero teniendo una computadora, contamos con un
instrumento epistemológico que nos permite obtener conocimiento sobre el modelo
aleatorio de forma experimental- este es el objetivo fundamental de la denominada
simulación.
La simulación, como la programación misma, es un arte. No existe un procedimiento

mecánico para hacer simulaciones. Lo que se requiere del analista es determinar
detalladamente las reglas y la secuencia de acciones que rigen el comportamiento de los
componentes del sistema a simular. Se deben establecer bien las relaciones de
dependencia entre los componentes y deslindar aquellos comportamientos de
componentes que son independientes de los demás comportamientos. Esta secuencia
de acciones y comportamientos conforma un ciclo, análogo a una partida de un juego.
Como en las simulaciones se pretende determinar las probabilidades o los valores
esperados, se deben realizar muchas iteraciones de estos ciclos para ver cual es su
comportamiento “a la larga”. Es en este punto donde estriba el poder del computador
como instrumento epistemológico- el computador realiza esta miríada de cálculos
rápidamente, obteniendo la probabilidad o el valor esperado deseado a través de la fuerza
de computo bruto.
Existen diversos lenguajes o paquetes para la investigación estocástica. Entre estos, se

escogió el lenguaje R como el principal para desarrollar los ejemplos y trabajos prácticos
de este curso. El lenguaje R es un sistema para el análisis estadístico y gráfico, a la vez
un entorno de programación y aplicación basado en el lenguaje S desarrollado por los
Laboratorios AT&T Bell 4. Uno de los atractivos principales de R es que se distribuye
libremente5 bajo los términos de la GNU General Public License.
4PARADIS, p. 3
5Los binarios para la instalación de R, con la documentación correspondiente se pueden
descargar a través de http://cran.r-project.org/
28
Aunado a esto, existen muchos programas en S disponibles a través del Internet que se
pueden ejecutar directamente bajo R6. El lenguaje R, siendo un lenguaje de programación
orientado a objetos, incorpora sentencias básicas de bucles y condicionamiento junto con
herramientas sofisticadas de alto nivel para el análisis estadístico, lo cual le da una enorme
flexibilidad. Por todas estas razones, el lenguaje R tiene cada vez más preponderancia
en el mundo académico y en la investigación estocástica.
A modo de ilustrar lo que es una simulación, se comienza con un ejemplo extraído de un

concurso en un programa de televisión británico que consiste en lo siguiente: el
concursante se encuentra ante tres puertas entre las cuales debe escoger una. Detrás de
una de las puertas se encuentra un carro y detrás de cada una de las otras dos un
apestoso animal (una cabra). El trato es el siguiente, el animador (que sabe donde se
encuentra el carro) abre una puerta obviamente diferente a la que el jugador escogió y a
la que contiene el carro, revelando una flamante cabra. Luego se le pregunta al
concursante si desea abrir otra puerta o mantiene su elección. ¿Que es más ventajoso
para el concursante? ¿Cuál es la probabilidad de ganar si el jugador cambia de puerta?
Muchas personas, inclusive matemáticos, concluyen erróneamente que no es

particularmente más ventajoso cambiar de puerta razonando que una vez que el animador
abre una de las puertas que no contiene el carro, las probabilidades de ganar o perder son
iguales (1/2) si se cambia de puerta o no. Sin embargo, un análisis cuidadoso de las
probabilidades demuestra que la probabilidad de ganar cambiando de puerta es de 2/3.
Se deja como tarea verificar esto de forma teórica. En lo que sigue nos interesa más bien
simular la situación. Para esto debemos especificar lo más detalladamente posible la
secuencia de pasos en cada juego:
El Juego de Monty Hall
• Primero, se esconde el carro detrás de una de las tres puertas (al azar).
• El jugador selecciona una de las tres puertas (escoge al azar)
• El animador (Monty Hall), sabiendo donde está el carro, escoge una puerta que no sea la
que optó el concursante ni la que contiene el carro y la abre, revelando que hay una cabra
6 Consultar en http://stat.cmu.edu/S/
29
detrás de esa puerta. Si queda una sola puerta elegible con esas condiciones, Monty la
escoge. De lo contrario, si hay dos puertas elegibles, Monty escoge cualquiera de las dos al
azar.
• Como en la simulación queremos determinar la probabilidad de ganar si el concursante
cambia de puerta, hacemos que el jugador opte una segunda vez por la puerta que no
seleccionó la primera vez ni por la puerta que acaba de abrir Monty.
• Si la segunda puerta que escogió el concursante es igual a la puerta detrás de la cual
estaba el carro el concursante gana.
Este ciclo se repite un número N arbitrariamente elevado de veces a fin de determinar la

proporción de veces que el concursante gana. Según la ley de los grandes números, si el
número de iteraciones es lo bastante elevado, esta proporción se acercará a la
probabilidad verdadera de 2/3. A continuación se indica el código en R para esta
simulación junto con el resultado arrojado por la misma, que es de 0.6688, lo cual como
se podrá apreciar, se acerca bastante a 2/3.
#simulación del concurso de Monty Hall

#problema descrito en el aparte 1.7. de los apuntes del curso
#"Procesos Estocásticos", dictado en la UNEFA San Tomé
#Autor: Prof. José L. Romero P. fecha: 10/8/2007
#------------------------------------------------------
cnt<-0 puertas=c(1,2,3) N=10000 for (i in 1:N) {
puerta.premio=sample(puertas,size=1,replace=TRUE)
primera.puerta.jugador=sample(puertas,size=1,replace=TRUE)
otras.puertas=setdiff(puertas,union(puerta.premio,primera.puerta.jugador))
ifelse((length(otras.puertas)==1),monty.abre.puerta<-otras.puertas,
monty.abre.puerta<-sample(otras.puertas,size=1,replace=TRUE))
segunda.puerta.jugador=setdiff(puertas,union(primera.puerta.jugador,
monty.abre.puerta))
if (segunda.puerta.jugador==puerta.premio) cnt<-cnt+1
}
cat("La probabilidad de ganar en N=",as.character(N)," ensayos del juego es ",
cnt/N,".\n")
La probabilidad de ganar en N=10000 ensayos del juego es 0.6688.
Otro ejemplo de cómo determinar probabilidades mediante simulaciones se desarrolla a

partir del siguiente problema:
30
El Encuentro
Dos hombres de negocios deciden

encontrarse en algún lugar entre las 10
y 11am, cada uno acordando no esperar
más de 10 minutos por el otro. ¿Cuál es
la probabilidad de que se encuentren si
cada uno llega independientemente del otro y en cualquier instante
aleatorio en el lapso de esa hora?
Para comenzar, denotemos por X e Y el instante de tiempo dentro de una hora a la cual
llega cada empresario respectivamente. Según la última parte del enunciado que
establece que “cada uno llega independientemente del otro y en cualquier instante
aleatorio en el lapso de esa hora”, se desprende que tanto X como Y son variables
aleatorias continuas independientes y uniformemente distribuidas entre 0 y 60 (se
trabajará el problema en base al lapso de 60 minutos). Para que los empresarios se
encuentren, la diferencia en valor absoluto de los tiempos de llegada de uno y otro debe
{
ser menor o igual a 10 minutos. Es decir, se quiere calcular P X −Y≤10 . }
Claramente, esta diferencia en valor absoluto varia entre 0 y 60 minutos, pero aún no se
ha determinado la distribución de probabilidad de X −Y.
Se supone que en este nivel, debes haber podido realizar el análisis del problema hasta
ese punto, aunque quizás no sepas como proceder a partir de ahí- es precisamente en
ayudar a dilucidar este tipo de situaciones en que radica la valía de una simulación. Para
el problema en cuestión, esta va a consistir básicamente en generar una distribución
empírica de un número suficientemente grande de valores X −Y
basados en números aleatorios uniformemente distribuidos según lo expuesto en el
análisis previo. Sin más preámbulos, se da el código de la simulación en R a continuación:
#Problema: dos personas deciden encontrarse entre las 10 y 11am, acordando
#que quien llegue primero no esperará más de 10 minutos por el otro. Si ambas
#personas llegan al azar independientemente de la otra, determinar la #probabilidad
de que se encuentren. (Problema en el aparte 1.7 del texto) #Solución por
simulación:
31
#(Autor: Prof. José L. Romero P. - 18/08/2007)
N=1000000
#¿cual es la distribución de |X-Y| si X e Y son Unif(0,60) e independientes?
x<-abs(runif(n=N,min=0,max=60)-runif(n=N,min=0,max=60))
obhist=hist(x,br=60,right=FALSE,plot=FALSE) pdf(file="encuentro.pdf")
plot(obhist,freq=FALSE, main="Histograma de frecuencia",ylab="denisdad de
probabilidad empírica") abline(a=(60/1800),b=-1/1800,col="red")
legend(x=25,y=0.033,legend="Función de densidad teorica",fill="red")

#¿cual es la probabilidad requerida? plot.new() x<-as.integer(x<=10)
probabilidad<-mean(x) text(0,1,"Cálculo mediante simulación de los
valores requeridos", adj=c(0,0),cex=1.1)
text(0,0.9,paste("Probabilidad de que las dos personas se encuentren: ",
probabilidad),adj=c(0,0),cex=0.8) lines(c(0,1),c(0.98,0.98))
Dicha simulación generó la siguiente salida- el histograma …
y la probabilidad teórica:
¿Cómo lo hizo y que significa la línea roja en el histograma? En primer lugar, se genero
una muestra de N=1000000 de valores X −Y aleatorios. Seguidamente, se
graficó el histograma de frecuencias con los métodos “hist” y “plot” de R. Esto
32
generó un histograma como el de la página anterior, sin la línea roja aún. Obsérvese que
los rectángulos son levemente irregulares, pero sus alturas decrecen en forma
sorprendentemente regular y lineal. La línea roja, como función de densidad teórica,
parece ajustarse bien, por lo menos intuitivamente, a lo observado. En este punto nos
damos cuenta que la función de densidad de X −Y debe ser un segmento de recta
decreciente entre 0 y 60 como la línea roja en el grafico. Un análisis más profundo revela
lo siguiente:
La función de densidad de probabilidad de X −Y esta dada por
60−d
−
f X −Y 1 60 d , donde d asume valores entre 0 y 60.
La motivación de dicha fórmula viene de notar que el evento

correspondiente a “la diferencia X −Y es exactamente igual a d” se
verifica para X ∈[0,60 − d], Y = X + d
(suponiendo X mayor o igual a Y), la integral viene a representar la masa de probabilidad

total para cada uno de estos casos. El factor de 2 a la izquierda de la integral se debe a
que X ≥Y o Y ≥ X . Dicha función evidencia ser una función de densidad legítima pues
su integral a través de los valores posibles de d es igual a uno: 60 60 2 60
60 − z z z
∫0 f X −Y (z)dz = ∫0 1800 dz = 30 − 3600 0 =1
Observando el código R de la simulación, se evidencia que el segmento lineal rojo trazado
sobre el histograma de frecuencias empíricas se corresponde a la función lineal f X −Y (d),
a partir de la cual se puede calcular fácilmente la probabilidad deseada:

10 2
10 1 1 11 z z
P{X −Y≤10}= ∫f X −Y (z)dz = 30 − 3600 0 = 3 − 36 = 36 = 0,3055

0
33
Como se puede ver, el resultado de la simulación (0,305779) se corresponde con bastante
exactitud al resultado teórico.
En este curso se hará un uso intensivo de simulaciones como estas para apoyar los
resultados sobre los procesos estocásticos deducidos teóricamente. La discusión
detallada sobre la sintaxis del lenguaje R o las técnicas de simulación per se son
marginales a los objetivos principales de curso- por esto incluyo un breve apéndice sobre
lenguaje R y la documentación disponible como anexo de este material. Lo importante es
que sigas con detenimiento la exposición de cada uno de los ejemplos de implementación
de simulaciones y trates de compaginar esto con el desarrollo teórico de cada problema.
Así mismo, te invito a dilucidar cualquier otro aspecto teórico de la teoría de la probabilidad
y de los procesos estocásticos por ti mismo implementando simulaciones.
34
Problemas Propuestos
1) Define, en tus propias palabras, los siguientes conceptos:

a) Espacio muestral
b) Evento
c) Variable aleatoria
d) Función de distribución de probabilidad
e) Función de probabilidad
f) Función de densidad
2) Define el espacio muestral asociado al siguiente experimento aleatorio: Un lote

contiene 10 artículos, 3 de los cuales son defectuosos. Se extrae un artículo a la vez
de este lote, sin reemplazo, hasta haber obtenido todos los artículos defectuosos y
se observa la cantidad de artículos que quedan en el lote.
3) Un jugador italiano expresó su sorpresa a Galileo por observar que al jugar con tres
dados, la suma 10 aparece con más frecuencia que la 9. Según el jugador los casos
favorables al 9 y al 10 serían respectivamente:
Casos favorables a 9: Casos favorables a 10:
1 2 6 1 3 6
1 3 5 1 4 5
1 4 4 2 2 6
2 2 5 2 3 5
2 3 4 2 4 4
3 3 3 3 3 4
Pero Galileo, en su libro Considerazione sopra il giuoco dei dadi, vio que estas
combinaciones no se pueden considerar igualmente probables. Explica por qué y
calcula las correspondientes probabilidades. ¿Como dilucidarías el problema
mediante una simulación?
35
4) Define “independencia entre eventos” y “eventos mutuamente excluyentes”. ¿Cuál
es la diferencia entre estos dos conceptos?
5) En una línea de producción de una fábrica en China se produce cierto tipo de artículo
y de esta producción, el 10% de los artículos salen defectuosos. Debido a la
naturaleza del proceso de fabricación, esta probabilidad es constante para cada
artículo individual en la línea de producción. Un inspector de calidad visita la fabrica
y toma una muestra aleatoria de 4 artículos. ¿Cuál es la probabilidad de que
encuentre uno o más artículos defectuosos?
6) En la republica Bolivariana de Venezuela se producen en promedio 200 casos de

corrupción administrativa semanalmente, según un proceso de Poisson. De estos
casos de corrupción, solo el 1% concluye en cárcel para los culpables. ¿Cuál es la
probabilidad de que en la próxima semana se produzcan 2 o más delitos de
corrupción punibles?
7) Sea T el tiempo de vida en horas de un componente distribuido exponencialmente

con tiempo de vida promedio de 5 horas. Calcula las siguientes probabilidades: a)
P[T > 3]
b) P[T = 5]
c) P[4 ≤ T < 6]
8) Dos bolas idénticas se distribuyen en tres urnas numeradas. Este experimento

aleatorio tiene 6 resultados posibles cuyas probabilidades se dan respectivamente
(cada elemento en los vectores de resultados representan la cantidad de bolas en la
urna correspondiente):
Resultado Probabilidad Resultado Probabilidad

(2,0,0) 1/9 (0,1,1) 2/9
(1,1,0) 2/9 (0,2,0) 1/9
(1,0,1) 2/9 (0,0,2) 1/9
36
Elabora un programa en R que calcule de forma aproximada la probabilidad de
observar el resultado (2,0,0). Dicho programa debe simular el experimento aleatorio
descrito un numero N suficientemente grande de veces y estimar dicha probabilidad
mediante la proporción de veces que se obtiene el resultado (2,0,0) con respecto al
número total de ensayos N.
9) Se efectúa un curioso duelo con pistolas entre tres personas, cada uno con una
determinada probabilidad de acertar el tiro según se indica a continuación:
participante A : 0,3 participante B : 1 participante C: 0,5

En este duelo, comienza el participante A, luego le toca el turno a B y por ultimo a C.
Comienza la ronda nuevamente en el mismo orden hasta que quede un solo hombre
en pié, eliminando sucesivamente a aquellos que reciban un tiro.
El participante A debe escoger entre dos estrategias al comienzo del duelo: disparar
a B o disparar al aire. Si dispara al aire, no elimina a nadie. Tocándole el turno a B,
este elimina a C y cuando le toque el turno a A nuevamente, este tiene una
probabilidad de 0,3 de eliminar a B y así ganar el duelo. Si le dispara primero a B,
podría eliminarlo e intercambiar disparos indefinidamente con C hasta eliminarlo.
¿Cuál es la probabilidad de que A gane el duelo si emplea esta segunda estrategia?
¿Es menor o mayor que la probabilidad de ganar disparando al aire la primera vez?
Determina esta probabilidad analíticamente y mediante una simulación en R.
Capitulo 2- Introducción a los procesos estocásticos.

Terminología y nociones preeliminares
2.1. Definición y ejemplos de procesos estocásticos.
Los procesos estocásticos son básicamente fenómenos cuyo comportamiento se

desarrolla en el tiempo y se rige por las leyes de las probabilidades 7. Ejemplos de tales
7La palabra “estocástico” es de origen griego, proviene de “stokhos”, que significa objetivo, o
blanco en el juego de dardos. “Stokhastikos”, como adjetivo, alude a apuntar bien, a quién es
37
fenómenos son: el movimiento browniano de una partícula, el crecimiento de una
población tal como una colonia bacterial, el tamaño de una cola en una estación
cliente/servidor, la recepción de una señal en presencia de ruido o perturbaciones, los
precios de un bien en un lapso de tiempo, las fluctuaciones de fortuna en un juego de azar,
etc. Existen caracterizaciones de procesos estocásticos cuya variable no es el tiempo,
sino la ubicación espacial. Ejemplos de estos procesos estocásticos espaciales son la
distribución geográfica de especies de plantas o animales y es estudio de epidemias,
donde el contagio de una enfermedad en un sitio depende de su proximidad con otros
sitios infectados. El interés principal de este curso es más bien sobre los procesos
estocásticos temporales y no sobre los espaciales.
Otro concepto relacionado es el de series cronológicas- estas se refieren a las

observaciones, o realizaciones en el tiempo de un proceso estocástico implícito y son
objeto de estudio para los economistas principalmente. Habiendo hecho la suposición
que una serie cronológica (correspondiente a los precios de una acción en la bolsa de
valores, por ejemplo) es una realización de un proceso estocástico, los investigadores
tratan de inferir estadísticamente a partir de las observaciones, las leyes que gobiernan el
proceso a fin de predecir ciclos o valores futuros.
Para efectos matemáticos, un proceso estocástico es una sucesión de variables

aleatorias, cada una de las cuales describe el estado del sistema en un instante de tiempo
dado. Esta definición es adecuada porque abarca los siguientes aspectos: 1) el estado
del sistema en un tiempo determinado es variable, y su variabilidad se debe a mecanismos
aleatorios, 2) la variable aleatoria del estado del sistema es una función que depende del
tiempo y en consecuencia, su distribución está determinada por el instante de tiempo que
se considere, 3) si se consideran los estados de un sistema en distintos instantes de
tiempo conjuntamente, se puede conceptuar un proceso estocástico como un vector
aleatorio n-dimensional. Resumiendo:
Definición (Proceso estocástico) – Un proceso estocástico es una sucesión o conjunto de

variables aleatorias {X(t), t ∈T} definidas sobre un espacio de probabilidad común
hábil para conjeturar. El adjetivo “estocástico” fue incorporado al lexico matemático en 1953- no
está del todo claro como adquirió la acepción pertinente a “aleatorio” usada hoy en día
(REBOLLEDO, 5)
38
(Ω,ℑ,P) .
En esta definición, t es el parámetro de tiempo, el cuál toma valores en un conjunto T

denominado conjunto índice. Según sea T un conjunto numerable o no, el proceso
estocástico será de parámetro discreto o continuo, respectivamente. Usualmente, el valor
ínfimo de T es 0, pues se analizarán los procesos estocásticos a partir de un instante de
tiempo 0. Los procesos estocásticos de parámetro discreto se denotan por {X i , i =
0,1,2,}. Las variables aleatorias X(t) toman valores en un espacio medible llamado
espacio de estados (state-space en ingles). Si se tiene un proceso estocástico y se fija
X (ω) se llama trayectoria del proceso estocástico
algún ω∈Ω, la función t → t
X. Para aclarar un poco estos conceptos, considérese el siguiente ejemplo: se cuenta el

número de personas que entran a un banco entre las 9 y 10 am. Definimos el conjunto
índice como el conjunto de todos los posibles instantes de tiempo entre las 9 y 10am- el
proceso estocástico es por lo tanto de parámetro continuo. Considerando que estamos
interesados en la cantidad de personas que han entrado en cierto instante de tiempo,
definiríamos el espacio de estados como el conjunto de todos los valores enteros no
negativos. Por último, si consideramos una realización del proceso estocástico antes
descrito para un día especifico, digamos el 29 de agosto de este año, tendríamos una
trayectoria del proceso.
Dado un conjunto finito de n índices en T {t1 ,tn }, (X(t1),, X(tn )) es un vector aleatorio
,
n-dimensional que genera la función de distribución en Rn dada a continuación:
Ft1,,tn (x1,,xn )=P{X(t1)≤ x1,, X(tn )≤ xn }
Tales funciones de distribución se conocen como las funciones de distribución

finitodimensionales del proceso estocástico y generalmente, un proceso estocástico se
determina conociendo todas sus funciones de distribución finito dimensionales, aunque
esto no es siempre cierto, como se evidencia en el siguiente contraejemplo- Sea Ω =
[0,1] y P la distribución uniforme en [0,1], de modo que el experimento básico consiste en
39
escoger un número al azar en [0,1]. Sobre este espacio de probabilidades se definen dos
procesos:
a. {X(t),t ∈[0,1]} definido por X(t,ω) = 0 para todo t,ω.
b. {Y(t),t ∈[0,1]} definido por X(t,ω) = ⎧⎨0 si t ≠ω
⎩1 si t =ω
Y(t) se puede considerar como un proceso que da un salto discontinuo en un instante de
tiempo aleatorio marcando la ocurrencia de algún evento en ese instante, tal como por
ejemplo una explosión. Se puede ver intuitivamente que ambos procesos X e Y tienen las
mismas funciones de distribución finito dimensionales y sin embargo, no son el mismo
proceso.
En la práctica, es muy difícil, sino imposible, obtener las funciones finito-dimensionales
para todo conjunto de índices {t1,,tn } y todo n, por lo cual se definen las funciones de
distribución de primer y segundo orden. La función de distribución de primer orden se
corresponde a la distribución de la variable aleatoria en un tiempo determinado:
Ft0(x0)=P{X(t0)≤ x0 }
Si estamos interesados en relacionar el comportamiento de un proceso estocástico en dos

instantes de tiempo utilizamos la función de distribución de segundo orden:
Ft1,t2(x1,x2)=P{X(t1)≤ x1, X(t2)≤ x2 }

2.2. Probabilidad y esperanza condicional. Definiciones y propiedades.
Las nociones de probabilidad y esperanza condicional juegan un papel importante dentro

del estudio de los procesos estocásticos. Seguramente el lector esta familiarizado con
las nociones de probabilidad condicional relativas a eventos y de algunos resultados
consecuentes como el teorema de la probabilidad total y el teorema de Bayes- estas
nociones generalmente se exponen en las primeras partes de cualquier curso elemental
40
de probabilidades. Repasando, la probabilidad condicional de que ocurra un evento A
conociendo la ocurrencia de un evento B es:
P(AB)= P(A B) , la cual tiene sentido si la probabilidad de B es no-nula. P(B)
Esta noción se puede extender al condicionamiento de una variable Y por otra variable X
si X e Y son discretas.
P(Y = ynX = xm )= P(Y

= =
yn X xm ) = pX,Y (xm,yn ),
[2.1] P(X = xm ) pX (xm )
es la función de probabilidad conjunta del par aleatorio (X,Y ). La variable

p
donde X,Y
aleatoria discreta que tiene tal función de probabilidad se denota por YX = xm . Se
x y con las
recalca que YX = m es una variable aleatoria que asume valores n
probabilidades condicionales indicadas arriba. Además, si X

x e Y tienen la misma x
e Y son independientes, YX = m distribución. Siendo YX = m
una variable aleatoria, tiene su esperanza matemática asociada, que es:
E[YX = xm ]= ∑y ⋅P(Y = yX = xm ), que está definida para pX (xm ) no

nulo.
sobre y
x varia a través del espacio de probabilidad inducido por X, la esperanza

A medida que m
anterior asume los valores correspondientes por lo cual se puede considerar la esta como
una función dependiente de las instancias particulares de X:
f (α) = E[YX =α]= ∑y ⋅P(Y = yX =α) [2.2]
41
sobre y
La expresión 2.2 se lee “esperanza condicional de Y dado que X vale α”. Como α
representa los posibles valores que toma la variable aleatoria X, se tiene que f (X ) es una
variable aleatoria también. f (X ), mejor denotada por E YX , es [ ] de hecho la
esperanza condicional de la variable aleatoria Y condicionada por X. Se enfatiza que
E[YX] es una variable aleatoria, lo cual le puede parecer a primera vista extraño al lector
si está acostumbrado a considerar el valor esperado como una característica

numérica de la distribución. No obstante, para que esta definición nos sea de
utilidad en el estudio de los procesos estocásticos, debemos de generalizarla aún más:
X , , X ): Sean X , , X

Definición (Esperanza condicional de Y dadas 1 n 1 n
variables aleatorias que toman valores en un conjunto E y sea Y otra variable aleatoria.
X , , X es:
La esperanza condicional de Y dada la sucesión 1 n
E[YX1, , Xn ]= f (X1, , Xn ),
,
donde f esta definida para cualquier vector α1 ,αn , con αi ∈E por
f (α1,,αn ) = E[YX1 =α1,,Xn =αn ]= ∑y ⋅P(Y = yX1 =α1,, Xn =αn )

sobre y
Esta definición de esperanza condicional se puede extender al caso de condicionamiento

por variables aleatorias continuas si consideramos la función de densidad de probabilidad
condicional en vez de la función de probabilidad dada en la ecuación 2.1. En efecto
fYX1,Xn (yx1,,xn )= f X1f,X1,,XnX,Yn ((xx11,,,,xxnn,) y)

[2.3]
42
,
La consecuente redefinición de la esperanza condicional para el caso de las X1 , X n
continuas es dada a partir de:
g(α1,,αn ) = E[YX1 =α1,,X n =αn ]= ∫ y ⋅f (yα1,,.αn )dy

[2.4]
sobre y
La esperanza condicional comparte muchas de las propiedades de la esperanza
matemática que se trata en los cursos elementales de probabilidad, tales como:
Propiedad 1:
E[c1Y1 ++cnYnX1,,Xm ]=c1E[Y1

X1,,Xm ]++cnE[Yn X1,,Xm ]
Propiedad 2:
, es decir Y = f (X1 , X ),
, ,
Si Y puede escribirse como función de X1 , X n n
entonces E[YX1,, Xn]=Y
Propiedad 3:
[
,
]
Como E Y X1 , Xn es una variable aleatoria, esta tiene esperanza y es E E Y [ [
X1,, Xn ]]=E[Y]
Propiedad 4:
Para n,m≥1 se tiene [ [

E E YX1,, X n+m ]X ,, X
1 n
]=E[Y X ,, X ]
1 n
Propiedad 5:
X, Y,
Sean 1 , X n y 1 ,Ym dos conjuntos de variables aleatorias tales que si se
conoce los valores de uno se puede determinar los valores del
otro, entonces, para cualquier Y se [
tiene E YX1,,
Xn]=E[YY1,,Ym].
Propiedad 6:
43
Si X e Y son independientes, entonces [ ]
E XY =E[X] y E[YX]= E[Y],
casi siempre.
Los conceptos de probabilidad y esperanza condicional son imprescindibles para

caracterizar los diversos tipos de procesos aleatorios- es a través de las probabilidades y
la esperanza condicional que se definen las relaciones de dependencia (o de
independencia) entre los estados de un proceso aleatorio en distintos instantes de tiempo.
Además, la esperanza condicional y las probabilidades condicionales permiten abordar
problemas como el que se enuncia a continuación:
El Ladrón de Bagdad
El Ladrón de Bagdad se encuentra en un calabozo con tres
puertas. Una de las puertas conduce a un túnel que luego de
un día de camino regresa al mismo punto de partida. Otra de
las puertas conduce a un túnel similar al anterior cuya
travesía toma tres días. La tercera puerta conduce a la
libertad. Asumiendo que el Ladrón escoge cualquiera de las
tres puertas con igual probabilidad y que cada vez que
escoge una puerta se le ha olvidado que hay
detrás de cada puerta, encuentre la cantidad de días en promedio que el Ladrón pasará
encerrado en el calabozo desde el momento en que primero escoge entre las tres
puertas hasta que haya escogido la puerta que lo lleva a la libertad.
Cada vez que el Ladrón de Bagdad escoge una de las tres puertas constituye un ensayo
de Bernoulli con 1/3 probabilidad de éxito, entendiendo por éxito abrir la puerta que
conduce a la libertad. Un primer abordaje del problema nos motiva a considerar el número
de ensayos N que realiza el ladrón antes de conseguir su libertad, lo cual sería una variable
aleatoria geométricamente distribuida. Pero aclarando que N representa el número de
ensayos fallidos antes de escoger la puerta hacia la libertad, por lo cual su función de
probabilidad y su valor esperado son los que se dan a continuación:
pN (n) = pq n para n = 0,1,2,
44
E n=0npq n = p∑n∞=1nq n = pq∑n∞=1nq n−1 = pqn∑∞ =0 nq n−1 = pq ⋅ ∂∂q
⎛⎝⎜⎜1−1q ⎞⎟⎟⎠ =
1 q 1 2 pq 2= p = 2, ya
que p = 3, q = 3
(1− q)
La variable geométrica difiere un poco de la indicada en la tabla 1.1 porque en este

contexto, la variable aleatoria de interés es el número de ensayos fallidos antes de
conseguir el primer éxito. En cambio en la tabla 1.1, se plantea la variable geométrica
como el número total de ensayos efectuados hasta conseguir el primer éxito. En aquellos
ensayos fallidos, el ladrón escoge una puerta que adiciona 1 día de permanencia en el
calabozo u otra puerta que adiciona 3 días de permanencia en el calabozo. Por lo tanto
la variable de interés es
SN = X1 ++ XN
Donde N es la variable aleatoria geométricamente distribuida que se mencionó

X son cada uno variables aleatorias independientes de tipo
anteriormente y los i
Bernoulli con
P{X i =1}= P{X i = 3}=
En términos de esperanzas condicionales, estamos interesados en encontrar
E[E[SNN]]=E[E[X1 ++XNN]]
45
Habida cuenta que E[SNN] es una variable aleatoria, que los
X son variables aleatorias
i
independientes con igual esperanza y que a su vez son independientes de N, se tiene que:
E[E[SNN]]= E[E[X1 XNN]]= E[N]⋅E[X i ] = p ⋅ ⎜⎝1⋅ 2 + 3⋅ 2 ⎟⎠ = 2⋅ 2 = 4

q ⎛ 1 1 ⎞
++
La cantidad esperada de días que el Ladrón de Bagdad permanecerá en el calabozo antes

de salir libre es de cuatro días. Veamos si la simulación confirma el resultado hallado
analíticamente:
#Simulación del problema del Ladrón de Bagdad

#Problema discutido en el aparte 2.2 del texto
#Autor: José L. Romero P. Fecha: 23/08/2007
N <- 100000
#el siguiente código genera un vector de tamaño N
#de la cantidad de días que el ladrón pasa en la cueva
#por simulación x
<- NULL for (i in
1:N) {
total.dias <- 0
dia.i <- sample(c(0,1,3),1,replace=TRUE)
while (dia.i!=0) { total.dias <-
total.dias+dia.i
dia.i <- sample(c(0,1,3),1,replace=TRUE)
}
x<-c(x,total.dias)
}
#el siguiente código es equivalente al anterior, observando que
#la cantidad de ensayos de puertas es una variable aleatoria
#geométrica con probabilidad de exito igual a 1/3. La cantidad
#de diás que se adicionan en cada ensayo no exitoso en 1 o 3, con
#igual probabilidad para ambos valores.
x <- NULL for (i in 1:N) {
x<-c(x,sum(sample(c(1,3),rgeom(1,p=1/3),replace=TRUE)))
}
cat("Cantidad esperada de días en el calabozo: ",mean(x))
Cantidad esperada de días en el calabozo: 4.012
2.3. Caracterización de los procesos aleatorios: valor medio y núcleo de

covarianza.
Para caracterizar completamente un proceso estocástico se requiere conocer sus

funciones de distribución finito-dimensionales. Sin embargo, existen características de los
46
procesos aleatorios que resumen, por lo menos parcialmente, su comportamiento. En el
caso de la variable aleatoria que estudiamos en los cursos de probabilidades, la esperanza
y la varianza juegan este papel. De forma análoga, para los procesos estocásticos se
tiene la función de valor medio y el núcleo de covarianza.
Definición (Función de valor medio): Sea {X(t), t ∈T} un proceso estocástico. Su función
m (t) y se define por:
de valor medio se denota por X
mX (t) = E[X(t)]= ∫ xfX (t )(x)dx

Ω
donde f (t )(x) es la función de densidad de primer orden del proceso. Es de notar que
X
mX (t) es una función determinista, dependiente a lo sumo del instante de tiempo t.
Definición (Núcleo de covarianza): Sea {X(t), t ∈T} un proceso estocástico con segundo
momento finito. Su núcleo de covarianza, denotado por K(s,t), se define como:
K(s,t) = Cov[X(s), X(t)]= E[(X(s)− mX (s))(X(t)− mX (t))]

Muchos procesos surgen como función de un número finito de variables aleatorias. Por
ejemplo, supóngase que X(t) representa la posición de una partícula en movimiento
rectilíneo no acelerado con velocidad constante. X(t) se define en función de una posición
X y una velocidad V de la siguiente forma
inicial 0
X(t) = X0 +V ⋅t
X y V son variables aleatorias, X(t) es en efecto un proceso estocástico. Su función

Si 0
de valor medio y su núcleo de covarianza se calculan a continuación:
47
mX (t) = E[X(t)]= E[X0 +V ⋅t]= E[X0]+ t ⋅E[V]
K(s,t) = Cov[X(s),X(t)]= E[(X(s)− mX (s))(X(t)− mX (t))]
=E[(X0 + sV − E[X0]− sE[V])(X0 + tV − E[X0]− tE[V])]
[ 2 2
]
= E (X0 − E[X0]) + (s + t)⋅(X0 − E[X0])(V − E[V])+ st(V − E[V])
=V[X0]+ (s + t)Cov[X0,V]+ st ⋅V[V]
Observamos que para calcular la función de valor medio y el núcleo de covarianza no se

X y V – basta con conocer los valores
requiere conocer la ley de probabilidad conjunta de 0
X y V. Mediante este ejemplo tomado de la

esperados, las varianzas y la covarianza de 0
física se aclaran aún más las ideas expuestas hasta ahora. La trayectoria del proceso
aleatorio sería el desplazamiento de una partícula ω determinada (su gráfica de
movimiento). Tanto la trayectoria como la función de valor medio y el núcleo de covarianza
son características deterministas del proceso estocástico en el sentido en que solo
dependen de los instantes de tiempo considerados.
2.4. Incrementos independientes y estacionarios. Procesos estacionarios
Frecuentemente, es más natural describir un proceso estocástico a través de una

caracterización de cómo este evoluciona en el tiempo, pues los incrementos, o cambios
de estado de un proceso generalmente poseen propiedades más sencillas que las
variables mismas de la secuencia aleatoria. Primero debemos definir qué entendemos
por “incremento”:
Definición (Incremento): Dado un proceso aleatorio {X(t), t ∈T}, un incremento

representa la evolución o cambio de estado de un proceso en un lapso de tiempo, lo cual
se expresa matemáticamente por X(t + Δt)− X(t) para t,Δt ∈T
48
Para un proceso de parámetro discreto, incremento se refiere a como cambia el proceso
en un paso de tiempo ( Δt =1), siendo m-incremento el cambio del proceso en m pasos
de tiempo.
Consideremos un proceso estocástico {X(t), t ∈T} de tiempo continuo y una colección de

t ,,t , que satisface t << t . Se dice que
parámetros en T linealmente ordenados, 1 n 1 n
X(t) es un proceso con incrementos independientes si las variables aleatorias X(t2)−
X(t1), , X(tn )− X(tn−1) son independientes.
Algunos autores definen los incrementos independientes con condiciones más fuertes: Si
t , también debemos suponer la
el conjunto de parámetros temporales tiene un mínimo 0
independencia de X(t0),X(t1)− X(t0), , X(tn )− X(tn−1) en un proceso con incrementos
t = 0porque el instante cuando comenzamos a

independientes. Usualmente se define 0
observar el proceso aleatorio es el instante cero. Incluso por convención, se asume que
X(t0) = 0, ya que en el instante cero no ha sucedido nada
(el estado inicial de un proceso aleatorio en el instante cero es cero y los incrementos
sucesivos determinan cuán lejos se desvía el proceso aleatorio con respecto a ese cero).
Definiendo los incrementos como una sucesión de variables aleatorias independientes
Y(t0) = X(t0), Y(ti ) = X(ti )− X(ti−1) para i ≥1, se hace evidente (por lo menos
intuitivamente) que si conocemos las distribuciones de Y(t0),Y(t1),,Y(tn ) podemos
determinar la distribución conjunta de X(t0), X(t1),, X(tn ). Esto se puede verificar
mediante la función característica conjunta y la propiedad de independencia de los

incrementos. Por una parte, según esto último:
49
ϕY(t0),,Y(tn )(u0, ,un ) =ϕY(t0)(u0)⋅⋅ϕY(tn )(un ) [2.5]
Por otra parte, se tiene [2.6]: ϕY(t0),,Y(tn)(u0,
,un )=
E[expi(u0X(t0)+ u1(X(t1)− X(t0))+ + un (X(tn )− X(tn−1)))]=
E[expi((u0 − u1)X(t0)+(u1 − u2)X(t1)+ +(un−1 − un )X(tn−1)+ un X(tn−1))]=

ϕX(t0),,X(tn)(u0 − u1, ,un−1 − un,un )
Mediante la siguiente transformación de los parámetros de la función característica : z0 =
u0 −u1,,zn−1 = un−1 −un,zn = un
o equivalentemente
u0 = z0 + z1 +zn, u1 = z1 + z2 ++zn, , un = zn
Podemos combinar las ecuaciones 2.5 y 2.6 en una sola:
ϕX(t0),,X(tn )(z0, ,zn ) =

[2.7]
ϕX(t0)(z0 + z1 +zn )⋅ϕX(t1)−X(t0)(z1 ++ zn )⋅⋅ϕX(tn )−X(tn−1)(zn )
Esto implica que en efecto, la ley de probabilidad conjunta de la secuencia aleatoria
{X(t), t ∈T} se determina a partir de las leyes de probabilidad de los incrementos
respectivos.
Otro concepto de importancia para la clasificación de los procesos estocásticos es el de

incrementos estacionarios y el de la estacionariedad. Básicamente, la estacionariedad de
un fenómeno aleatorio se refiere a que el mecanismo que lo produce permanece invariante
en el tiempo. Un proceso es de incrementos estacionarios si la distribución de
probabilidad de los incrementos X(t1 + h)− X(t1) y X(t2 + h)− X(t2) es igual para valores
positivos cualesquiera de t1, t2 y h. De esta definición se puede colegir que la distribución
50
de los incrementos estacionarios solo depende de la amplitud del intervalo de tiempo h.
La idea de estacionariedad se puede extender a la secuencia de variables aleatorias que
conforman el proceso estocástico en sí. Sea T un conjunto de índices de linealmente
ordenados tal que la suma de dos miembros cualesquiera de T también pertenece a T y
consideremos un proceso estocástico {X(t), t ∈T} definido sobre ese conjunto de índices
temporales. Se dice que {X(t), t ∈T} es un proceso estrictamente estacionario de orden
n si la distribución conjunta de un par de vectores aleatorios de dimensión n arbitraria
(X(t1), X(t2),, X(tn )) y (X(t1 + h), X(t2 + h),, X(tn + h)) es la misma para todo t1, t2,,tn
y h en T. Un proceso estocástico es estrictamente estacionario si es estrictamente
estacionario de orden n para todo entero positivo n. Esta condición plantea que un
proceso estrictamente estacionario está en equilibrio probabilístico y que los instantes
particulares en los cuales se observan el proceso no tienen relevancia. En particular, la
distribución de X(t) es la misma para todo t.
Un proceso {X(t), t ∈T} es débilmente estacionario o estacionario en el sentido amplio si
tiene momentos finitos de segundo orden, si

m
X (t) = m es constante para todo t y si
Cov[X(t), X(t + h)]= E[X(t)X(t + h)]− E[X(t)]E[X(t + h)]=
E[X(t)X(t + h)]− m2
Depende solo de h para todo t.
Todo proceso estrictamente estacionario es también débilmente estacionario pero lo

contrario no es cierto.
2.5. Algunos tipos de procesos aleatorios: caminata aleatoria, martingalas,
procesos de Markov, procesos de Poisson, procesos de Wiener
Con esta terminología, se está en condiciones de definir algunos tipos de procesos

estocásticos. El primer tipo de proceso que vamos a definir es el ruido blanco:
Un proceso estocástico de parámetro discreto constituido por una secuencia de variables

aleatorias independientes e idénticamente distribuidas Z0,Z1, … , Zn, … se conoce como
51
ruido blanco. Si adicionalmente E[ ]= 0, el proceso estocástico se denomina ruido
Z
i
blanco con media cero. El proceso es ruido blanco simétrico si además, la distribución de
los Zi, es simétrica, como por ejemplo la uniforme, la normal o la tStudent.
Si en base a un proceso de ruido blanco Z0,Z1, … , Zn, … definimos el siguiente proceso:

n
Sn = S0 + ∑Zi
i=1
S = s o si S tiene alguna distribución especifica, el proceso

con alguna condición inicial 0 0 0
correspondiente {St , t = 0,1,2 } es una caminata aleatoria. Los Zi se denominan los

,
pasos o incrementos de la caminata aleatoria; para que {St , t = 0,1,2,} sea
efectivamente una caminata aleatoria, {Zt , t =1,2 } debe ser un proceso de ruido blanco.
,
Este tipo de procesos se discutirá con más detalle en el próximo capitulo.
Un proceso de parámetro discreto {Xt , t =0,1,2 } es una martingala si satisface las

,
siguientes dos propiedades:
[ n ]< ∞ ii. E[X n+1 X0,

i. E X
X1,, X n ]= X n
La primera de estas condiciones es más bien para facilitar un poco las matemáticas en el
manejo de las martingalas y la segunda si resume en esencia lo que es la martingala-
establece que el valor esperado del próximo estado futuro del proceso dado toda su
historia pasada es simplemente el estado actual del proceso. En el contexto del juego de
apuestas, el proceso de martingala se denomina a veces “juego justo”, ya que sirve para
modelar la riqueza de un jugador en el tiempo cuando la ganancia o perdida esperada en
cada turno es cero. En realidad, el término “martingala” proviene del un nombre francés
52
que aludía a una estrategia de juego consistente en duplicar las apuestas hasta ganar con
seguridad8.
Un proceso de Markov {X(t), t ∈T} es aquel cuyos estado futuro solo depende del estado
presente y no del pasado. Los procesos de Markov verifican la propiedad de Markov, que
establece que
P{X(tn+1)∈ AX(tn ) = an , , X(t0) = a0}= P{X(tn+1)∈ AX(tn ) = an }.
En los procesos de Markov, el estado actual del proceso incorpora toda la información que
necesitamos para estimar el estado futuro y la probabilidad de un comportamiento futuro
no se altera si incorporamos información sobre el pasado del proceso. Un proceso de
Markov con espacio de estado finito o numerable se denomina cadena de Markov, que se
estudiará posteriormente en este curso.
Antes de definir el proceso de Poisson, es preciso definir lo que es un proceso de conteo

(o counting process en inglés), del cual el proceso de Poisson es una instancia particular.
Un proceso de conteo {N(t), t ∈T} es aquel cuyo espacio de estados es el conjunto de
números naturales y con él se pretende modelar la cantidad de eventos discretos que han
ocurrido en un tiempo t. Se enuncia, pues, la siguiente definición:
Definición (Proceso de Poisson homogéneo): Un proceso de conteo {N(t), t ≥ 0} es un
proceso de Poisson con tasa media constante (o intensidad) λ si cumple las condiciones
a continuación:
i. {N(t), t ≥ 0} tiene incrementos estacionarios e independientes. ii. Para dos instantes
de tiempo s y t tales que s < t , la cuenta de eventos N(t)− N(s) acaecidos en el
intervalo de tiempo (s,t) es distribuida según la ley de Poisson con media λ(t − s). A
saber:
8 QUIDEL, p. 440
53
P{N(t)− N(s) = k}= e−λ(t−s) (λ(t − s))
k!
Existen conjuntos alternativos de suposiciones que conllevan al proceso de Poisson. No

obstante, las condiciones que dan origen a un proceso de Poisson se verifican con mucha
frecuencia- de ahí la enorme importancia de los procesos de Poisson. Ejemplos de
procesos de Poisson son: fallas de componentes eléctricos, decaimiento de partículas
radioactivas, llamadas recibidas en una central telefónica, etc.
Por último, mencionamos el proceso de Wiener, nombrado en honor a N. Wiener, quien

fue entre los primeros en considerar matemáticamente el fenómeno del movimiento
Browniano. El movimiento Browniano consiste en lo siguiente: una partícula que
inicialmente se encuentra en determinada posición (por definición se asume X(0) = 0 )
es sometida a innumerables y continuos impactos en su entorno, gracias a lo cual está en

constante y perpetuo movimiento. El desplazamiento de la partícula en un intervalo de
tiempo (s,t), el cual es amplio comparado con el tiempo medio entre impactos, puede ser
considerado como la suma de un número indeterminadamente grande de pequeños

desplazamientos, por lo cual parece razonable suponer, en virtud del Teorema Central del
Límite, que X(t)− X(s) es normalmente distribuido. Más aún, es razonable suponer que
los desplazamientos en dos intervalos de tiempo de la misma longitud son idénticamente

distribuidos, ya que se supone que el entorno de la partícula esta en equilibrio. El hecho
de que el desplazamiento de la partícula se deba a impactos muy frecuentes e irregulares
se traduce matemáticamente estableciendo que los desplazamientos en lapsos de tiempo
no coincidentes son independientes entre sí, ya que el número y la magnitud de los
impactos en cada intervalo de tiempo es independiente del otro intervalo. En
consecuencia, los incrementos del proceso de Movimiento Browniano son independientes
y estacionarios. Resumiendo, tenemos la siguiente definición para el proceso de Wiener:
Definición (proceso de Wiener): Un proceso estocástico de parámetro continuo {X(t), t ≥
0} es un proceso de Wiener si:
54
i. {X(t), t ≥ 0} tiene incrementos estacionarios e independientes.
ii. Para cada t >0 , X(t) es normalmente distribuido. iii. Para cada t
>0, E[X(t)]= 0.
iv. X(0) = 0
Problemas Resueltos
1) Demostrar que si X e Y son variables aleatorias discretas e independientes tales que
X ~ Binomial(m,p) e Y ~ Binomial(n,p), entonces
⎛ n ⎞
XX +Y = s ~Hipergeométrica ⎜n +m, s , ⎟
⎝ n +m⎠
Solución:
La suma X+Y de dos variables aleatorias binomiales e independientes es una
variable aleatoria binomial:
(
ϕX +Y (u) =ϕX (u)⋅ϕY (u) = q + peiu ) (q + pe ) = (q + pe )
m iu n iu m+n
Específicamente, X +Y ~ Binomial(m + n,p). Por lo tanto, la probabilidad
{
condicional P X = x X +Y = s es: }
}
P{X = xX +Y = s}= P{X = x, X +Y = s = P{X = x,Y = s − x}
P{X +Y = s} P{X +Y = s}
⎛⎜⎜nx⎞⎟⎟p xq n−x ⎛⎜⎜sm− x⎞⎟⎠⎟ps−xq m−s+x ⎜⎜⎝⎛nx⎞⎟⎟⎠⎛⎜⎜⎝sm− x⎟⎞

⎟⎠
⎝ ⎠ ⎝
= =
55
⎛⎜⎝ m + n⎞⎟ sq n+m−s ⎛⎜⎜ms+ n⎞
⎟ ⎟⎠ p
⎜ s ⎟⎠ ⎝
, ,
para x =0,1 ,s y s =0,1 ,m + n . Se evidencia entonces que XX
⎛ ⎞
+Y = s ~Hipergeométrica ⎜n +m, s , n ⎟
⎝ n +m⎠
2) Sea {X(t), t ≥ 0} un proceso aleatorio con incrementos independientes y función de
valor medio mX (t) = E[X(t)] finita. Si 0 < t1 << tn < tn+1, demuestrar que
E[X(tn+1)X(t1),, X(tn )]= X(tn )+ mX (tn+1)− mX (tn )
Solución:
Para este problema se utilizarán las seis propiedades de la esperanza condicional
(ver sección 2.2) y la independencia de los incrementos.
E[X(tn+1) X(t1),,X(tn )]=
E[X(tn )+ X(tn+1)− X(tn)X(t1),,X(tn )]= (propiedad 1)
E[X(tn ) X(t1),,X(tn )]+ E[X(tn+1)− X(tn)X(t1),,X(tn )]=
X(tn )+ E[X(tn+1)− X(tn)X(t1),, X(tn )]= (propiedad 2)
X(tn )+ E[X(tn+1)− X(tn )]=
(por independencia de los incrementos y por las propiedades 5 y 6) X(tn )+
mX (tn+1)− mX (tn )
56
Sea {X n , n =1,2 } una sucesión de variables aleatorias independientes con valor
,
3)
medio E[X ]= 0 para todo n. Se define la sucesión {Sn , n =1,2 } como

,
n
Sn = ∑ X i
i=1
Demuestra que {Sn , n =1,2 } es una martingala.

,
Solución:
Se pretende demostrar que E[Sn+1S1 = a1,S2 = s2,,Sn = an ]= an .
Teniendo en cuenta la independencia de la sucesión {X n , n =1,2 } y que

,
Sn+1 = Sn + X n+1, se puede escribir:
E[Sn+1 S1 = a1,S2 = s2,,Sn = an ]=
E[Sn + X n+1 S1 = a1,S2 = s2,,Sn = an ]=
E[Sn S1 = a1,S2 = s2,,Sn = an ]+ E[X n+1S1 = a1,S2 = s2,,Sn = an ]=
(por la propiedad 1 de la esperanza condicional) an
+ E[X n+1]=
(la sucesión Sn es determinada por la sucesión Xn y por la independencia de los

Xn, se puede aplicar la propiedad 6) an
+ 0 =an
(ya que E[X n ]= 0 para todo n)

1) Supóngase que pedidos de cantidades variables N de artículos arriban diariamente

a un almacén según la siguiente distribución de probabilidades:
n: 10 11 12 13 14 15
57
P(N=n): 0.05 0.15 0.30 0.30 0.15 0.05
La probabilidad de que un artículo en particular sea defectuoso es de 0.10,

independientemente de la presencia de defectos en los otros artículos. Calcula el
valor esperado de artículos X que se reciben en un día.
2) Demuestra que si X e Y son variables aleatorias discretas e independientes

distribuidas según la ley de Poisson con parámetros λ1 y λ2 respectivamente,
entonces
XX +Y = s ~ Binomial⎜⎜⎛ ⎝ s,λ1λ+1λ2 ⎞ ⎟⎟⎠
3) Demuestra que si X ~ Poisson(λ) y si YX = x ~ Binomial(x,p), entonces Y ~
Poisson(λp).
4) Demuestra que si X ~ Geométrica(p), entonces
P{X = m + nX > m}= P{X = n}
Esto confirmaría la propiedad de “falta de memoria” de la distribución geométrica: la

información que no hubo éxitos en m pruebas (X>m) es olvidada si se realizan más
pruebas (X=m+n).
5) Considérese el proceso aleatorio X(t) = At + B donde A es una variable aleatoria
que toma los valores 3 y 4 con probabilidades 1 4 y 3 4 , respectivamente y B es una
variable aleatoria con función de probabilidad P{B =1}= P{B = 2}=1 2. A y
B son variables aleatorias independientes. Obtén la función de valor medio y el

núcleo de covarianza del proceso aleatorio.
58
6) Sea X(t) = At + B un proceso aleatorio para el cual A y B son variables aleatorias
independientes, de esperanza cero y [ ] A [ ]

E A2 =σ 2,E B2 =σ 2 . ¿Es {X(t)} un
B
proceso estacionario?
7) Considera el proceso X(t) = Acosωt + Bsenωt donde ω∈[0,1], A y B son
variables aleatorias no correlacionadas, de esperanza 0 y varianza 1. Demuestra

que este proceso es débilmente estacionario.
8) Demuestra que los incrementos de una caminata aleatoria son independientes y

estacionarios.
X + + X , donde X , X , son variables aleatorias

9) Sea S0 = 0 y Sn = 1 n 1 2
independientes con esperanza 0 y varianza σ2 (caminata aleatoria simétrica).
Calcula la función de valor medio y el núcleo de covarianzas del proceso { n }.

S
10) Sea {Zn ,n ∈N} un proceso de ruido blanco con Zn ~ Normal(μ= 1,σ = 2).
Encuentra las siguientes probabilidades: a)
P{Zi > 5}
b) P{−3 < Zi < 5}
c) P{Zi =1}
11) Demuestra que el valor esperado de un incremento en una martingala es

necesariamente igual a cero.
12) (La cadena de Ehrenfest) Motivado por problemas relacionados con la mecánica
estadística T. Ehrenfest describió un experimento con 2 urnas, dentro de las cuales
están distribuidas N moléculas. En cada paso del experimento, se escoge al azar
59
una molécula, esta es removida de la urna en la cual se encuentra y es colocada en
la otra urna. Así, si se escoge una molécula de la urna A, esta es removida de A y
colocada en B y viceversa. El estado del proceso está determinado por el número
de moléculas presentes en la urna A a cada paso del experimento.
Justifica que el proceso estocástico { n,n ∈N} definido por

X
Xn = cantidad de moléculas presentes en la urna A al instante n, n ∈ N, es

una cadena de Markov. Dar su espacio de estados.
Sea {X n ,n ∈N} un proceso estocástico de parámetro discreto tal que 0 =1,

X
13)
0 < p <1 y P[Xt+1 = Xt +1Xt ]= p Xt , P[Xt+1 = XtXt ]=1− p Xt .
Demuestra que {X n ,n ∈N} es una cadena de Markov pero no una martingala.
14) Demuestra que un proceso de ruido blanco con parámetro discreto no tiene
incrementos independientes.
15) Determina las condiciones bajo las cuales un proceso de ruido blanco es una
martingala.
16) Determina las condiciones bajo las cuales una caminata aleatoria es una martingala.
17) La martingala, como estrategia de apuestas, consiste en doblar la apuesta si uno

pierde y retirarse del juego cuando se gana. El jugador sigue esta estrategia:
apuesta inicialmente 1 unidad, luego 2, luego 4 y así continua doblando su apuesta
hasta que gane. Supóngase que en cada jugada tiene igual probabilidad de ganar
o perder.
a) Modela la ganancia de un jugador que emplee esta estrategia planteando un

proceso estocástico y definiendo su espacio de estados.
60
b) Demuestra que el jugador siempre se retira del juego con una ganancia de 1
unidad a su favor con probabilidad 1 (ie. casi siempre)
c) Explica por que no se permite esta estrategia de apuestas en los casinos

modernos (i.e. el croupier se niega a recibir apuestas de aquellos que
aparentemente practican esta estrategia)
18) Escribe un programa en R que simule y represente una trayectoria de un proceso de

movimiento Browniano en dos dimensiones.
x = r ⋅ x 1(1− x 1), x = 0,01. Mediante

19) Considera el proceso no determinista: n n− n− 0
un programa en R, investiga el comportamiento a la larga de dicho proceso (para

valores de n grandes) utilizando valores para r de 2,7 3 y 3,5 respectivamente. Indica
tus hallazgos y analiza las implicaciones de los mismos. (Este ejemplo de sistema
caótico se debe a Robert May en su estudio de crecimiento poblacional)
61
Capitulo 3- Procesos estocásticos basados en el
proceso de Bernoulli y caminatas aleatorias
3.1 El proceso de Bernoulli
El proceso de Bernoulli es un proceso estocástico de parámetro discreto cuya estructura

es muy sencilla: en cada paso, se observa la ocurrencia o no ocurrencia de un
determinado evento cuya probabilidad se mantiene constante y el en cual cada
observación es independiente de todas las observaciones anteriores. El proceso de
Bernoulli es en efecto un proceso estocástico de tipo ruido blanco. Ejemplos de procesos
de Bernoulli son:
a. Un inspector de calidad verifica si los productos de una línea de ensamblaje son

defectuosos observando una secuencia de productos. Si el i-ésimo producto es
defectuoso, registra Xi = 1, de lo contrario anota X i = 0. Si los defectos se deben
a causas aleatorias de modo que la presencia de defectos en un producto es
independiente de la presencia de defectos en los otros productos, y si además, la
proporción p de artículos defectuosos se mantiene constante a través de todas las
observaciones, {Xi ,i ≥ 1} es un proceso de Bernoulli.
b. Se monta una alcabala policial en un determinado punto y se paran a todos los

conductores que por ella transitan para verificar si portan armas, conducen un
vehículo robado o presentan alguna otra irregularidad. Bajo condiciones similares
a las del ejemplo anterior, si la probabilidad de que un conductor presente alguna
irregularidad es constante e independiente entre los conductores que van
transitando por la alcabala, la situación descrita se puede modelar adecuadamente
mediante un proceso de Bernoulli.
En todos estos casos, las variables constituyentes del proceso de Bernoulli representan
experimentos aleatorios con dos posibles resultados- éxito o fracaso. En un proceso de
Bernoulli, las variables aleatorias constituyentes son idénticamente distribuidas e
62
independientes entre sí. Este modelo estocástico básico da pié a otros tipos de procesos
estocásticos que se describirán a continuación.
3.2 La cantidad de éxitos. Caminatas aleatorias basadas en procesos de
Bernoulli.
Si en un proceso de Bernoulli {Xi ,i ≥ 1}, observamos la cantidad de éxitos ocurridos en el

n-ésimo ensayo y los n-1 ensayos anteriores, se define un nuevo proceso aleatorio que
es una caminata aleatoria, pues lo que sucede en cada observación se puede modelar
mediante la secuencia aleatoria {Si ,i ≥1} definida como:
Sn =∑Xi [3.1]
i=1
Fig. 3.1
63
En el capitulo anterior se sugirió que la caminata aleatoria es un proceso con incrementos
independientes y estacionarios (ver problema propuesto N° 7 de ese capitulo). Este hecho
tiene algunas implicaciones importantes que sería conveniente resaltar:
[3.2] A partir de un instante n dado , la cantidad de éxitos que se registren en los próximos
m ensayos de un proceso de Bernoulli (Sn+m − Sn ) es independiente de la cantidad
de éxitos registrados en los n-1 ensayos anteriores.
[3.3] Más aún, por ser los incrementos estacionarios, la probabilidad de que en las
próximas m observaciones se tenga s éxitos solo depende de m y es igual a la
probabilidad de que, observando desde el principio los m ensayos, se tenga s
éxitos. Matemáticamente: P{Sn+m −Sn = sS1,S2 ,Sn }= P{Sm = s}.

,
Podemos calcular el valor esperado y la varianza de Sn sin haber determinado aún su

distribución de probabilidad, pues valiéndonos de la definición de Sn como una suma de n
variables aleatorias independientes e idénticamente distribuidas según la Ley de
Bernoulli:
E[Sn ]= E⎡⎢∑n Xi ⎤⎥ = ∑n E[Xi ]= ∑n p = np

⎣ i=1 ⎦ i=1 i=1
⎡n ⎤ n n
V[Sn ]=V ⎢∑ Xi ⎥ = ∑V[Xi ]= ∑ pq = npq

⎣ i=1 ⎦ i=1 i=1
El siguiente tema en nuestra ocupada agenda es determinar las respectivas

probabilidades P{Sm = s}, es decir, la distribución de probabilidad de los {Si ,i ≥1}.
Existen diversas maneras de deducir esto- la vía más directa para nosotros es recurrir a
nuestro extenso conocimiento sobre las funciones características. En efecto, como los
{Si ,i ≥1} son esencialmente sumas de variables aleatorias de tipo Bernoulli con igual
parámetro p y mutuamente independientes, se tiene que:
64
(
ϕSn (u)=ϕX1+ X2++ Xn (u)=ϕXi (u)n = q + peiu ) n
Esta función característica se corresponde a la función característica de una Binomial con

n ensayos. Con esto demostramos el siguiente teorema:
Teorema 3.1: Si {Si ,i ≥1} es una caminata aleatoria basada en experimentos de
Bernoulli, la distribución de cada Sn es binomial y se tiene que
⎛ ⎞s
n q n−s
, para 0≤s≤n P{Sn =
s}= ⎜⎜⎝ s⎟⎟⎠ p
En la práctica, la fórmula del teorema 3.1, en conjunción con las observaciones hechas
en la 3.2 y 3.3 son de mucha utilidad para el cálculo de probabilidades referentes a los
estados de una caminata aleatoria basada en el proceso de Bernoulli. Llegados a este
punto te sugiero que revises los problemas resueltos correspondientes.
3.3. La cantidad de ensayos hasta r éxitos: más sobre las caminatas aleatorias
basadas en procesos de Bernoulli.
Si en una sucesión {Xi ,i ≥ 1} de variables aleatorias independientes e idénticamente

distribuidas según la ley de Bernoulli (un proceso de Bernoulli) nos referimos a la cantidad
de ensayos hasta ocurrir r éxitos (r es fijo), tenemos otro proceso aleatorio basado en un
proceso de Bernoulli en el cual la secuencia de variables aleatorias representa los
instantes o ensayos en los cuales ocurren los éxitos sucesivos. Intentemos esquematizar
esto matemáticamente. Si por ejemplo tenemos una trayectoria de un proceso de
,
Bernoulli como esta: x1 = 0, x2 = 0, x3 = 1, x4 = 0,x5 = 1 , la trayectoria del proceso que
,
estamos definiendo sería t1 = 3, t2 = 5 , porque el primer éxito ocurre al tercer ensayo y
el segundo éxito ocurre al quinto ensayo. De forma general, si {Ti ,i ≥ 1} es el proceso que
65
estamos definiendo, entonces, en función de la secuencia aleatoria {X k ,k ≥ 1}, Ti (ω) será
igual al índice k de aquella secuencia donde ocurre el i-ésimo éxito.
¿Qué podemos decir sobre el comportamiento de esta secuencia aleatoria? En primer

lugar, debe ser una secuencia estrictamente creciente, porque si el i-ésimo éxito ocurre
en el ensayo Ti , el siguiente éxito necesariamente ocurre después y se tiene que Ti+1 > Ti
para cualquier i. De modo intuitivo, constatamos que los incrementos de este proceso
son independientes y estacionarios (esto se puede demostrar). El razonamiento de ello
es a grandes rasgos el siguiente: el mecanismo subyacente que produce la secuencia {T
j , j ≥ 1} es el proceso de Bernoulli {Xi ,i ≥ 1}, que es una sucesión de variables
independientes cuyo parámetro p es invariante en el tiempo. Además, si el incremento

Ti+1 −Ti = n, con n>0, es porque después del Ti -ésimo éxito ocurren n-1 fracasos
sucesivos, luego de los cuales ocurre el Ti+1 -ésimo éxito. La probabilidad de ello es qn−1p
. En otras palabras, los incrementos se distribuyen según la ley de probabilidad
geométrica. Tratemos de esquematizar lo enunciado hasta ahora:
Teorema 3.2: Si {T j , j ≥ 1} representa un proceso estocástico que caracteriza el número
de ensayos de Bernoulli hasta el j-ésimo éxito, entonces P{Tk+1 −Tk
=nT1 ,Tk}=
,
P{Tk+1 −Tk =n}=qn−1p
Este teorema establece que los incrementos son estacionarios, ya que la anterior
probabilidad no depende de k.. Además, por lo dicho sobre la independencia de los
incrementos se puede parafrasear en el siguiente teorema, que se da sin demostración:
66
Teorema 3.3: Sea {T j , j ≥ 1} un proceso estocástico como en el teorema 3.2, entonces,
para k ∈N+ y n ≥ k , se tiene que
P{Tk+1 = nT1,T2,,Tk }= P{Tk+1 = nTk }=⎨⎩ ⎧q n−10−Tk p sisi TTkk ≥< nn
Esto además demuestra que el proceso estocástico {T j , j ≥ 1} goza de la propiedad de
Markov. Antes de proceder, aclaremos de una vez que asumimos que T0 = 0 porque con
el 0-ésimo éxito ocurre en el 0-ésimo ensayo con probabilidad uno. Ahora surge la
pregunta: ¿Cómo se distribuyen los {T j , j ≥ 1}? Si has leído atentamente esta exposición,
muy probablemente ya lo hayas adivinado:
Teorema 3.4: Sea {T j , j ≥ 1} un proceso estocástico como en el teorema 3.2, entonces,
⎛ n − 1 ⎞
se tiene que P{Tk =n}= ⎜⎜ k − 1⎟ ⎠ ⎟pkqn−k para n = k,k +1 
,
Este último teorema establece que cada Tk en la secuencia aleatoria {T j , j ≥ 1} se
distribuye según la ley binomial negativa. Existen varias formas de demostrar esto- la más
expedita para nosotros es tomar en cuenta que este proceso es después de todo una
caminata aleatoria; cada variable Tk es una sumatoria de k incrementos independientes e
idénticamente distribuidos, es decir:
Tk = (Tk −Tk−1)+ (Tk−1 −Tk−2)++ (T1 −T0)
Como damos por hecho que los incrementos se distribuyen todos según la misma ley
geométrica, entonces la función característica de Tk es:
67
⎛ pe iu ⎞k
ϕTk (u) = ⎜⎜⎝ 1− qeiu ⎟⎟⎠
la cual corresponde a la función característica de la binomial negativa y por lo tanto (véase

tabla 1.1 del capítulo 1):
⎧ n−1 p n≥k
⎪⎛⎜⎜k −1⎞ ⎟ ⎟⎠ kqn−k
pTk (n)= ⎨⎝ n<

⎪ 0 k
⎩
3.5. La ruina del jugador
Consideremos un juego donde en cada apuesta, un jugador gana un BF con probabilidad

p y pierde un BF con probabilidad 1-p. Claramente, la fortuna del jugador luego de n
apuestas se puede modelar mediante una caminata aleatoria {Fn, n∈N}, donde
Fn =∑ X i
i=0
es la suma de n+1 variables aleatorias independientes e idénticamente distribuidas,

teniéndose que X0 =X es la fortuna inicial del jugador (antes de apostar) y los X i sucesivos
son los incrementos en BF luego la respectiva apuesta, cuya distribución de probabilidad
viene dada por:
P{X i =1}= p y P{X i =−1}=1− p = q
Supóngase además que el jugador, partiendo de un capital inicial X, juega contra un

adversario que dispone de un capital Y (el adversario puede ser la “casa” u otro jugador),
de modo que en cada partida, si el jugador gana 1 BF, el adversario pierde la misma
68
cantidad y vice-versa . Para colocar las cosas más en perspectiva, entre el jugador y la
casa, siempre hay un capital total de T =X+Y BF, por ser la sumatoria de la ganancia de
los participantes igual a cero (en términos de la Teoría de Juegos, se trata de un juego de
suma cero9). Asumamos que este juego de suma cero termina cuando alguno de los
participantes se arruina, lo cual ocurre cuando la fortuna del jugador alcanza los T BF, en
cuyo caso se arruinó la casa, o la fortuna del jugador llega a 0 BF, en cuyo caso se arruinó
él. Los estados 0 y T de la fortuna del jugador se denominan barreras absorbentes, porque
una vez que la trayectoria toca alguno de esos estados, jamás sale de ellos.
Una pregunta interesante en torno a este juego es la siguiente: partiendo de un capital

inicial de X BF, ¿cual es la probabilidad de que el jugador se arruine? Para abordar esta
pregunta, comencemos por la siguiente definición:
Sea RX la probabilidad de ruina del jugador partiendo de un capital inicial X siendo
1 ≤ X ≤ T −1. Además, se define R0 =1 y RT = 0.
RX es lo que se quiere hallar y establecemos la siguiente relación:
RX = pRx+1 +qRx−1 [3.4]
Dicha relación se motiva en el siguiente razonamiento: si la fortuna del jugador es X, luego

de un turno, habrá ganado 1 BF con probabilidad p (en cuyo caso su fortuna será de X+1)
o habrá perdido 1 BF con probabilidad q (en cuyo caso continua el juego con X −1 BF). Si
lo anterior no es lo suficientemente claro aún, definamos RX como una probabilidad
condicional y procedamos simbólicamente:
9 Los juegos en los que los intereses de los jugadores son diametralmente opuestos se llaman de
suma cero. El término “suma cero” se deriva de los juegos de salón tales como el poker en el que
la riqueza ni se crea ni se destruye. Así pues, un jugador gana dinero siempre a expensas de los
otros jugadores (DAVIS, p. 28)
69
RX = P(ruina{Fn = X}) y {X n+1 =1}, {Xn+1 =−1} son eventos disjuntos y mutuamente
complementarios (son una partición de Ω). Luego:
P(ruina {Fn = X}) =
} }
P(ruina {Fn = X ({Xn+1 =1 {Xn+1 =−1}))=
} }
P(ruina {Fn = X {Xn+1 =1})+ P(ruina{Fn = X {Xn+1 =−1})= [3.5]
Por otro lado, utilizando en 3.2 la propiedad de las probabilidades condicionales que
establece que P(A B) = P(AB)P(B)
P(ruina{Fn = X})P{Fn = X}=
} }
P(ruina{Fn = X {Xn+1 =1})P({Fn = X {Xn+1 =1})+
} }
P(ruina{Fn = X {Xn+1 =−1})P({Fn = X {Xn+1 =−1})=
P(ruina{Fn = X}{Xn+1 =1})P{Fn = X}P{Xn+1 =1}+ [3.6]

}
P(ruina{Fn = X {Xn+1 =−1})P{Fn = X}P{Xn+1 =−1}=
La última igualdad en 3.6 se debe a la independencia entre X n+1 y Fn. Aunado a eso,
} }
{Fn = X {Xn+1 =1}= {Fn+1 = X +1} y {Fn = X {Xn+1 =−1}={Fn+1 = X −1}. Por lo
tanto, factorizando las respectivas expresiones en 3.6 por P{Fn = X} y recordando que
P{X n+1 = 1}= p y P{X n+1 = −1}= q , concluimos (

que: P ruina{Fn
= X}) = p ⋅ P(ruina {Fn+1 = X +1})+ q ⋅ P(ruina {Fn+1 = X −1})

→
RX = pRX +1+ qRX −1

Con lo anterior se demuestra la validez de la ecuación 3.4. Ecuaciones como esta
denominan ecuaciones en diferencias, sobre las cuales es oportuno hacer una breve
70
digresión. Las ecuaciones en diferencias se refieren a ecuaciones que involucran
secuencias, o funciones definidas para valores enteros. Si una secuencia an está definida
explícitamente en función de su argumento entero n, determinar su valor en n es un asunto
trivial. Sin embargo, a veces las secuencias se definen de forma recursiva, relacionando
an con términos anteriores como an−1 en la misma ecuación.
Por ejemplo, la ecuación 3.7:

a
an =α⋅ n−1 +β [3.7]
es una ecuación en diferencias lineal de primer orden y generaliza las denominadas

progresiones aritméticas/geométricas que el estudiante seguramente vio en bachillerato.
Observa además el parecido de esta terminología con la terminología de las ecuaciones
diferenciales, que también se clasifican según su orden y según la linealidad. Si te
interesa profundizar más sobre este tema puedes consultar la bibliografía anexa10. Por lo
demás te recomiendo resolver los problemas propuestos correspondientes al final de este
capitulo referentes a la solución de la ecuación 3.7, que es el resultado que se utilizará
seguidamente.
Retomando el problema de la ruina del jugador, se puede expresar la ecuación 3.4 de la

probabilidad de ruina, que es una ecuación en diferencias lineal de segundo orden, como
una ecuación en diferencias lineal de primer orden. Teniendo en cuenta que
p+q=1, tenemos q
RX+1 −RX = (RX −RX−1) [3.8]
A partir de la ecuación 3.8 y mediante la formula de sucesión an = r ⋅ an−1 hallada en el

problema propuesto N° 5, es fácil comprobar que
⎛q ⎞ X −1
RX −RX−1 =⎜⎜p⎟⎟⎠ (R1 −R0) [3.9]
10 Ver NEUMAN
71
Con respecto a este resultado, se observan dos inconvenientes: 1) todavía se desconoce
R1 y 2) Podríamos resolver la ecuación en diferencias resultante, pero el término al lado
derecho de 3.9 depende de X (no es una constante β). Para solventar esta situación
utilizamos la propiedad telescópica de las series:
T T ⎛q⎞ X− 1
RT −R0 = ∑RX −RX−1 = ∑⎜⎜p⎟⎟⎠ (R1 −R0)
X=1 X=1⎝
R R
El panorama tiende a aclararse porque 0 y RT son conocidos: 0 =1 y RT = 0. Por lo
tanto:
−1 = RT − R0 = (R1 − R0)X∑=0⎜⎜ p⎟⎟⎠

[3.10] T − 1 q ⎞X
⎛
⎝
1
Si p = q = 12, entonces de 3.7 se deduce que ( )= −

R R
1 − 0 [3.11a] T
Si p ≠ q se tiene que (R1 −R0)= [3.11b]
La última igualdad se deduce de la serie ∑ xi (ver problema propuesto N° 7).

i =0
Para calcular en definitiva el valor de la probabilidad de ruina, volvemos a emplear la

propiedad telescópica de las sumas, pero esta vez con miras a hallar RX :
X X⎛ q ⎞i− 1
RX − R0 = ∑Ri − Ri−1 = ∑⎜⎜ p ⎠ ⎟⎟ (R1 − R0) →
i=1 i=1⎝
72
X⎛ q ⎞i−1 X−1⎛ q ⎞i
RX = R0 + ∑⎜⎜ p ⎟⎟⎠ (R1 − R0)=1+ (R1 − R0)∑i=0⎜⎜⎝ p ⎟⎟⎠
i=1⎝
Nuevamente, si p = q = 12, se tiene:
X T [3.12a]
−
R X =1− = X
T T
Si p ≠ q , entonces es fácil verificar que:
+ −
RX = 1 1− (qTp)X = (q p)T T(q p)X [3.12b]
(q p) −1 (q p) −1
La deducción de las ecuaciones 3.12a y 3.12b quizás parezca un tanto tortuosa.

Nuevamente, aunque la simulación no sea un sucedáneo del todo equivalente a deducir
este tipo de resultados analíticamente, nos ayuda a confirmar la validez del los resultados
anteriores. Planteamos en lenguaje R un programa para simular la probabilidad de ruina
de un jugador con un capital inicial entre 0 y 10, para distintas probabilidades p de ganar
en cada turno tomando valores entre 0,1; 0,2; … ; 0,9:
#simulador de caminata aleatoria- problema de la ruina de un jugador

#Autor: Prof. José L. Romero P. fecha:29/7/2007
#------------------------------------------------------
#Ruina: función que arroja 1 si el resultado de una caminata aleatoria
#es ruina, 0 en caso contrario. # argumentos:
a=capital inicial del jugador,
# c=capital total
# p=probabilidad de ganar 1 en cada turno
Ruina = function (a,c,p) { j=a #asigna capital
inicial
while ((j!=0)&(j!=c)) j=j+sample(c(-1,1),1,replace=TRUE,c(1-p,p))
if (j==0) 1 else 0
}
#Probabilidad_ruina : función que arroja la probabilidad de ruina para:
73
# a=capital inicial del jugador
# c=capital total
# p=probabilidad de ganar 1 en cada turno
Probabilidad_ruina = function (a,c,p) {
cnt=0
for (i in 1:1000) cnt=cnt+Ruina(a,c,p)
cnt/1000
}
#Vector_empírico: función que arroja un vector correspondiente a las
#probabilidades de ruina para cada capital inicial entre 0 y c
Vector_empírico = function (c,p) {
x=NULL
for (i in 0:c) x=c(x,Probabilidad_ruina(i,c,p))
x
}
#Vector_teórico: función que arroja un vector correspondiente a las
#probabilidades (teoricas) de ruina para cada capital entre 0 y c
Vector_teórico = function (c,p) {
x=NULL if
(p==0.5) {
for (i in 0:c) x=c(x,(c-i)/c)}
else {
r=(1-p)/p
for (i in 0:c) x=c(x,(r^i-r^c)/(1-r^c))
}
x
}
#A continuación se generan los gráficos para distintos valores de p,
#exportandolos a un archivo .pdf llamado "Ruinadeljugador"
pdf(file="Ruinadeljugador.pdf") for (prob in seq(0.1,0.9,by=0.1)) {
plot(x=c(0:10,0:10),y=c(Vector_teórico(10,prob),Vector_empírico(10,prob)),
xlab="capital inicial",ylab="probabilidad de ruina",
main="Comparación entre probabilidades empiricas y teóricas",
sub=paste("p=",as.character(prob)),type="p",
col=c(rep("red",times=11),rep("blue",times=11)))
if (prob<=0.5) {xleyenda=2; yleyenda=0.3} else {xleyenda=6; yleyenda=0.5}
legend(x=xleyenda,y=yleyenda,fill=c("red","blue"),
legend=c("teórica","empírica"))
}
Se muestran a continuación algunos gráficos que comparan las probabilidades de ruina

halladas mediante simulación y mediante las formulas 3.12a y 3.12b:
74
75
La primera gráfica corresponde a las probabilidades de ruina para distintos niveles de
capital inicial (entre 0 y 10) con una probabilidad p de ganar en cada turno igual a 0,6. En
este caso, la fórmula de la probabilidad de ruina que aplica es la 3.12b. La segunda gráfica
es similar pero con un valor p igual a 0,5. La fórmula que aplica es en este caso la 3.12a.
3.6. Duración promedio del juego y otras consideraciones sobre el problema de la
ruina del jugador
Pueden hacerse otras preguntas en torno al juego descrito en la sección anterior. Una de
ellas es: ¿Cuántos turnos dura, en promedio, el juego? Recordemos que el juego termina
cuando alguno de los jugadores se arruina (el jugador o la casa). Si el capital total es
finito, supondremos que el juego siempre terminará en una cantidad finita de partidas, aún
cuando es posible concebir, por ejemplo, una trayectoria del juego donde las partidas
resulten +1,-1,+1,-1, ad infinitum. La finitud de la duración del juego no es algo que se
76
pretende demostrar formalmente aquí- el autor solo se limita a señalar la evidencia
empírica: el programa de la simulación en R anterior, en donde se simulan series de 1000
partidas para cada nivel de capital inicial del jugador, eventualmente termina. Quizás a
modo de apología, téngase en cuenta además que el objetivo básico que nos trazamos
en este curso es que puedas complementar la verificación formal con la verificación
empírica, o valerte de la investigación empírica para inferir hechos que no estás en
capacidad de demostrar formalmente.
Volviendo a la pregunta que planteamos en esta sección: ¿cuál es la duración promedio

del juego?, debemos especificar aún más: ¿cuál es la duración promedio del juego,
partiendo de un capital inicial X? Si, como en la sección anterior, el jugador tiene un capital
inicial de X y su oponente un capital inicial de Y, y entre los dos un capital total T =X+Y
que no se altera, sabemos que el juego termina cuando el capital del jugador sea 0 o T.
Podemos ahora responder parcialmente la pregunta: la duración del juego partiendo de
un capital inicial de 0 o de T es igual a cero. Partiendo de cualquier suma de dinero distinta
entre 0 y T, el juego puede durar una cantidad aleatoria e indeterminada de partidas.
Denotemos por Tx duración del juego partiendo de un capital X y aclaremos desde ya que
Tx no es un proceso estocástico- es una variable aleatoria que resume un aspecto del
juego, visto éste como una trayectoria de un proceso estocástico. Estamos interesados
en determinar el promedio de la duración del juego, es decir, nos interesa hallar:
Dx = E[Tx ] [3.13]
A tal fin, vamos a proceder como lo hicimos en la sección anterior, partiendo de la siguiente
ecuación en diferencias:
Dx = pDx+1 + qDx−1 +1 para 0< x < T , con D0 = DT = 0 [3.14]
Las condiciones de extremos en la expresión 3.14 son simplemente la formulación

matemática de lo dicho anteriormente sobre un juego en donde el jugador comienza con
un capital de 0 o T. Nos interesa más bien entender en que se basa la ecuación 3.14 en
sí. La clave de este asunto es escindir el juego en dos etapas: 1) la variable X1que
pudiendo valer +1 o -1 representa el resultado para el jugador del primer turno y 2) el resto
del juego. Partiendo de un capital inicial x, si en el primer turno el jugador gana 1, el resto
del juego continua como si se partiera de un capital inicial de x+1. Si por el contrario el
jugador pierde 1 en el primer turno, debe continuar con un capital de x-1. En ambos casos,
77
como ha transcurrido un turno se adiciona en uno la cuenta de turnos y por lo tanto las
esperanzas condicionales de Tx dado el resultado X1 del primer turno son :
E[Tx X1 = +1]= Dx+1 +1

[3.15]
E[Tx X1 = −1]= Dx−1 +1
Las ecuaciones en 3.15 se utilizan ahora en el desarrollo de la ecuación 3.13:
Dx = E[Tx ]= ∑b ⋅P{Tx = b}=

b
∑b ⋅(P{Tx = b X1 = +1}+ P{Tx = b X1 = +1}) =

b
∑b ⋅(P{Tx = b X1 = +1}+ P{Tx = b X1 = +1}) =

b
∑b ⋅(p ⋅P{Tx = b X1 = +1 }+ q ⋅P{Tx = b X1 = −1 })= [3.16]: Justificación

b
de la ecuación 3.14
p∑b ⋅P{Tx = b X1 = +1 }+ q∑b ⋅P{Tx = b X1 = −1 }=

bb
p ⋅E[TxX1 =
+1] +q
⋅E[TxX1 =
−1]= p
⋅(Dx+1
+1)+
q(Dx−1
+1)= p
78
⋅Dx+1 + q
⋅Dx−1 +1
Habiendo fundamentado la ecuación 3.14, procederemos a resolverla de la misma forma

que lo hicimos con la probabilidad de ruina en la sección anterior, transformándola primero
a una forma más amena:
q 1
Dx+1.− Dx = (Dx − Dx−1)− [3.17] p
p
Esta forma se parece mucho a la ecuación 3.8, salvo por el sumando de c, lo cual conlleva
a abordarla mediante una ecuación en diferencias finitas como la 3.7 (ver problema
propuesto N° 6). Desde el principio señalamos que deben considerarse dos casos: p = q
y p ≠ q . Entonces se tiene:
Para p ≠ q :
x x x x
Dx+1.− Dx = ⎛⎜⎜⎝ qp ⎟⎟⎠⎞ (D1 − D0)− 1p−(1(−qqp)p) = ⎛⎝⎜⎜ qp ⎟⎠⎟⎞ (D1 − D0)− 1−p(q− q p)
[3.18a]
Para p = q :
x
Dx+1.− Dx = (D1 − D0)− = (D1 − D0)− 2x [3.18b]
79
Vamos a abordar primero el caso en que p ≠ q , que parece ser el más sencillo. Como en
el problema de la ruina del jugador, no conocemos D1 − D0. Una vez más, aplicando la
propiedad telescópica de las series:
T−1 T−1 q k
0 =DT −D0 = ∑Dk+1 −Dk = ∑⎛ ⎜⎜⎝ p⎟⎠⎞⎟ (D1 −D0)−1−p(q−q p)k →

k=0k=0
T ⎛ 1⎞ ⎛
D1 − D0 + ⎟⎟T∑−1⎜⎜ q ⎞⎟⎟k = ⎜ ⎛⎜ 1 ⎞1−(q p)T
= ⎜⎜ D1 − D0 + ⎟⎟ →
p − q ⎝ p − q ⎠k=0⎝ p ⎠ ⎝ p − q ⎠ 1− q p
T 1
D1 −D0 = ( )
p)T − p −q
p1−(q
Teniendo D1 − D0, se desarrolla Dx por series telescópicas según la fórmula 3.18a:

Dx = Dx −D0 = ∑x−1Dk+1 −Dk = ∑x−1⎜⎜⎛ qp ⎟⎟⎞⎠k (D1 −D0)−1−p(q− qp) k =
k=0 k=0⎝
k x
− x ⎛⎜D⎛⎜ q ⎞ ⎜⎛ T ⎞⎟1− (q p) − x =
+p−q ⎝⎜ 1 − 0 + p − q ⎟⎠k=0⎝⎜ p ⎟⎠⎟ (

= ⎝⎜ p 1− (q p)T
)⎟⎠ 1− q p p−q
80
(
T 1− (q p)x ) x
( T
) −p−q [3.19a]
(p − q)1− (q p)
La ecuación 3.19a permite calcular la duración promedio del juego partiendo de un capital
x y en el caso p ≠ q . A riesgo de parecer repetitivos, vamos a calcular seguidamente la
duración promedio del juego en el caso p = q . Primero obtenemos la fórmula para D1 −
D0:
T−1 T−1
0 =DT −D0 = ∑Dk+1 −Dk = ∑(D1 −D0)−2k =T(D1 −D0)−T(T −1)→

k=0 k=0
D1 −D0 =T−1
Y enchufando esta expresión en la fórmula 3.18b desarrollada en series telescópicas:

x−1 x−1 x−1
Dx = Dx − D0 = ∑Dk+1 − Dk = ∑(D1 − D0 − 2k) = ∑(T −1− 2k) =

k=0 k=0 k=0
x(T −1)− x(x −1)= x(T − x) [3.19b]
Si te interesa ver una forma alternativa de deducir las formulas para la duración promedio
del juego o la probabilidad de ruina del jugador puedes consultar las secciones 14 y 15
del libro de “Procesos Estocásticos” de la UNA. También es posible deducir estas
fórmulas mediante los métodos de resolución de ecuaciones en diferencias de segundo
orden. En lo tangente a las fórmulas 3.19a y 3.19b, se deja al lector como ejercicio la
verificación empírica mediante una simulación en lenguaje R (ver problema propuesto N°
13).
En estas notas dejamos por fuera otros aspectos interesantes sobre las caminatas
aleatorias unidimensionales. Tampoco mencionamos siquiera a las caminatas aleatorias
de dos o mas dimensiones. Algunas fuentes bibliográficas (ver por ejemplo
http://en.wikipedia.org/wiki/Random_walk) definen a las caminatas aleatorias de un modo
81
más especifico que la definición que nosotros hemos empleado a lo largo del presente
texto. Para estos autores, una caminata aleatoria es una trayectoria en el espacio para
la cual:
• Hay un punto de partida.

• Los pasos son de longitud constante.
• La dirección en que se toma cada paso es aleatoria: ninguna dirección es más
probable que las otras.
A fin de exponer algunos resultados cuyas demostraciones no se incluirán en el presente

texto, incluimos unos ejemplos gráficos de caminatas aleatorias bidimensionales:
Fig. 3.2 – Ejemplos de caminatas aleatorias bidimensionales

Fig. 3.2a - Caminata aleatoria en dos dimensiones Fig. 3.2b - Caminata aleatoria en dos
con incrementos de longitud unitaria. dimensiones con incrementos infinitesimales.
La fig. 3.2b, que representa la trayectoria de una caminata aleatoria bidimensional con
incrementos infinitesimales, es en realidad la trayectoria de un proceso de movimiento
browniano. Con un poquito de imaginación, podemos imaginarnos que el movimiento
browniano en tres dimensiones modela adecuadamente el comportamiento del humo en
un ambiente sin corrientes de aire, o el de una tinta vertida en un vaso de agua.
Fig. 3.3 – Tres caminatas aleatorias tridimensionales.
82
En el contexto de este tipo de caminatas aleatorias donde las direcciones en que se toman
los pasos son equiprobables, existen varios resultados11:
[3.20] Si no hay barreras absorbentes, la probabilidad de retornar al punto de origen en

una caminata aleatoria de una o dos dimensiones es uno. En cambio, en tres
dimensiones, la probabilidad de un retorno eventual al punto de partida es
estrictamente menor que uno- es de hecho aproximadamente igual a 0,6512.
[3.21] El valor esperado de la distancia máxima al punto de partida, luego de una caminata
de n pasos, es asintóticamente igual a 2n π. Matemáticamente, si
Mn = maxSk , entonces lim E[Mn]= 2nπ

1≤k≤n n→∞
Problemas Resueltos
11 El lector interesado puede consultar el Capítulo 12 sobre caminatas aleatorias en el libro

“Introduction to Probability” de Grinstead y Snell.
12 GRINSTEAD, pp. 475-478.
83
Sección 3.1 y 3.2
Para las preguntas 1 a 4, asuma que {Si ,i ≥1} se refiere a una caminata aleatoria basada
en un proceso de Bernoulli con probabilidad de éxito en cada ensayo igual a p.
Calcular lo siguiente:
1) P{S7 −S3 = 2}
Solución:
En virtud de lo comentado en el [3.2] y según el teorema 3.1, se tiene:
P{S7 − S3 = 2} = P{S4 = 2}= ⎛⎜⎜⎝ 24 ⎟⎞⎠ ⎟p2q2 = 6p2q2
2) P{S3 = 2, S5 = 4, S11 = 7}
Solución:
P{S3 = 2, S5 = 4, S11 = 7}= P{S3 = 2, S5 − S3 = 2, S11 − S5 = 3}
Los incrementos en la probabilidad anterior son todos independientes entre sí, de

modo que la expresión anterior es igual a:
P{S3 = 2}⋅P{S5 − S3 = 2}⋅P{S11 − S5 = 3}=
P{S3 = 2}⋅P{S2 = 2}⋅P{S6 = 3}= ⎜⎛⎜⎝32⎞⎟⎟⎠p2q ⋅⎛⎜⎜⎝ 22 ⎟⎞⎟⎠p2 ⋅⎜⎛⎜⎝6 3⎞⎠ ⎟⎟p3q3 = 45p7q4
Se entiende que las probabilidades en P{S3 = 2}⋅P{S2 = 2}⋅P{S6 = 3} se refieren a
variables Si consideradas por separado e independientes unas de otras, es decir,
S 3 , S2 y S5 no se refieren a la misma trayectoria de la caminata aleatoria.
3) P{S3 = 2, S5 = 4, S6 = 3}
Solución:
De igual forma que en el problema anterior:
P{S3 = 2, S5 = 4, S6 = 3}= P{S3 = 2}⋅P{S2 = 2}⋅P{S1 = −1}
84
Pero la probabilidad P{S1 = −1} en la expresión anterior es igual a cero, porque los
incrementos en una caminata aleatoria basada en un proceso de Bernoulli siempre
son positivos. Por lo tanto, la probabilidad P{S3 = 2, S5 = 4, S6 = 3} es igual a cero.
4) E[S3S5]
Solución:
E[S3S5]= E[S3 ⋅(S3 +S5 −S3)]= E[S3S3]+E[S3(S5 −S3)]
Pero por la independencia de los incrementos, la expresión anterior es equivalente

a:
E[S3S3]+ E[S3(S5 −S3)]=V[S3]+ E2[S3]+ E[S3]⋅E[S5 −S3]=
3pq + (3p)2 + 3p ⋅2p = 3pq +15p2
Sección 3.3
Para las preguntas 5 y 6, asumamos que {T j , j ≥ 1} caracteriza a los tiempos hasta los
respectivos j-ésimos éxitos, donde cada ensayo se basa en un proceso de Bernoulli con
probabilidad de éxito igual a p. Calcular lo siguiente:
5) P{T2 = 3,T3 = 6}
Solución:
P{T2 = 3,T3 = 6}= P{T2 = 3,T3 −T2 = 3}= P{T2 = 3}⋅P{T3 −T2 = 3}=
3 1
⎛⎜ − ⎞⎟p 2q3−2 ⋅q3−1p = 2p3q3
⎜⎝ 2 −1⎟⎠
Téngamos en cuenta que T2 es binomial negativa y T3 −T2 es geométricamente
distribuida.
6)E[T6T1,T2,T3]
85
Solución:
En lo sucesivo téngase en cuenta las propiedades 1 a 6 de la esperanza condicional
que aparecen en la sección 2.2:
E[T6T1,T2,T3]= E[T6T3]= (propiedad de Markov de {T

j, j ≥ 1})
[ ] [
E T6 −T3 +T3T3 =E T6 −T3 ] [
T3 +E T3 T3 = ] (propiedad 1 de la
esperanza condicional)
E[T6 − ]+T3 =
T
3 (Teorema 3.2 y propiedad 2)
T T
3 +T 3 ( 6− 3 es binom. negativa con r=3) p
En el último paso se ha podido proceder de E[T6 −T3 ]= E[T6 ]−E[T3 ] y calcular las
esperanzas de las respectivas binomiales negativas.
86
1) Una fábrica produce recipientes cuya capacidad se verifica al finalizar el proceso de

producción, y se consideran defectuosos aquellos cuya capacidad está por debajo
de los 0,975 lt. o por encima de 1,025 lt. Pruebas estadísticas sugieren que la
capacidad de un recipiente producido tiene distribución normal con media 1 lt. Y
varianza 0,01. Define el proceso aleatorio de Bernoulli que modele esta situación.
¿Cuáles suposiciones deben hacerse sobre el proceso de fabricación para que el
modelo de Bernoulli sea adecuado?
2) Sea {Si ,i ≥13} el número de éxitos en un proceso de Bernoulli con probabilidad de
éxito p. Calcula [ ]
E Sn+mSn .
3) Sea {Si ,i ≥1} el número de éxitos en un proceso de Bernoulli con probabilidad de
éxito p. Calcula P{S7 = 4,S8 = 7}
4) Calcula P{T2 = 4,T3 = 5,T6 = 8}
5) Calcula P{T7 = 3,T8 =12}
6) Encuentra una solución para la siguiente ecuación general en diferencias de primer

orden: an = r ⋅ an−1. Asume que se conoce el valor inicial de la secuencia a 0.
7) Demuestra que la solución para la siguiente ecuación general en diferencias de
primer orden dada en 3.4 (an =α⋅an−1 +β), es:
13 −α
87
an = a0 + nβ si α=1
a
an =αn 0 +β 1−αn si α≠ 1
8) Utiliza la propiedad telescópica de las series para demostrar que
i si ∑i= n0 x =
1− 1−xx n+ 1 x≠1
9) Desde donde está situado, un borracho está a solo un paso de caer a un precipicio.
El borracho camina de forma aleatoria: toma un paso hacia el precipicio con
probabilidad de 13 un paso alejándose del precipicio con probabilidad de 2 3.
¿Con qué probabilidad se escapa el borracho de caer al precipicio?
10) Un ludopata varado en Margarita tiene solo 20 BF y necesita conseguir 20 BF

adicionales para tomar el ferry de regreso a casa, pero siente pena de llamar a su
esposa para que le envíe más dinero. Decide jugar a la ruleta (de la cual no es muy
aficionado) y considera dos estrategias: apostar los 20 BF a números negros todos
de una vez o apostar 1 BF a un número negro cada vez hasta que haya completado
o perdido los 20 BF que tenía. Compara los méritos de ambas estrategias. (Nota:
una ruleta tiene 38 números de los cuales 18 son negros, en cada turno de ruleta se
gana lo que se apuesta con probabilidad p =18 38 o se pierde con probabilidad q =
20 38)
11) En el contexto del problema anterior, supóngase adicionalmente que el jugador

decide apostar 1 BF a la vez, y cada turno en la ruleta toma aproximadamente 2
minutos. ¿Cuánto tiempo durará en promedio el jugador hasta terminar el juego?
¿Crees que el jugador pueda emprender el viaje en ferry a su casa esa misma tarde
si comienza a jugar al mediodía?
12) Justifica detalladamente y haciendo referencia a las definiciones y propiedades

sobre las probabilidades y esperanzas condicionales, cada uno de los pasos en la
justificación de la ecuación 3.14 dados en el desarrollo 3.16 del texto.
88
13) En el problema del jugador, si p = q , ¿Cuál es el nivel de capital inicial x que
maximiza la duración promedio del juego?
14) Verifica mediante una simulación en R las formulas 3.19a y 3.19b referentes a la
duración promedio del juego. Para el caso en que p ≠ q , asuma que p =13. En
ambos casos asuma un capital total T =10.
15) Un hombre se embriaga perdidamente en su casa y le da de beber a su mascota,

un canario, que se emborracha también. El hombre suelta el canario, que sale
volando de su jaula según un movimiento Browniano en tres dimensiones, tras lo
cual sale de su casa también, de modo que su deambular por la ciudad es una
caminata aleatoria en dos dimensiones. ¿Cuál es la probabilidad de que el hombre
borracho eventualmente regrese a su casa? ¿Cuál es la probabilidad de que el
canario se pierda y jamás regrese a su jaula?
16) Verifica mediante una simulación en lenguaje R la fórmula 3.21 referente a la

máxima distancia alcanzada desde el origen en una caminata aleatoria
unidimensional.
89
Capitulo 4- El proceso de Poisson homogéneo
4.1 El proceso de Poisson como caso límite de la caminata aleatoria binomial.
En el capitulo anterior estudiamos la evolución aleatoria de procesos cuyos cambios de

estado ocurren en instantes de tiempo discretos, que se suponen regularmente
espaciados pero cuya ubicación temporal no esta del todo determinada, o no es relevante.
Hablábamos entonces de ensayos (procesos de Bernoulli) o pasos (en las caminatas
aleatorias); aunque no especificábamos los instantes de tiempo precisos en los cuales
ocurría cada ensayo o paso porque sencillamente no era relevante. Sin embargo, en
muchos fenómenos reales no podemos considerar que los eventos de un proceso ocurren
o no en instantes discretizados de tiempo. En estos casos, los procesos de Bernoulli no
son modelos adecuados.
Consideremos por ejemplo una central telefónica en la cual se han recibido 270 llamadas
en un periodo de tres horas (180 minutos). Consecuentemente, se reciben en promedio
1,5 llamadas por minuto y basándonos en esta evidencia, deseamos calcular la
probabilidad de recibir 0, 1, 2 o más llamadas en los próximos 3 minutos. Podríamos
dividir el lapso de 3 minutos en 9 subintervalos de 20 segundos cada uno y si suponemos
que las probabilidades de que ocurran llamadas en cada subintervalo permanecen
constantes, esto nos conduce a aproximar las probabilidades buscadas mediante la
distribución binomial. Nuestra aproximación consiste en considerar cada uno de los
nueve subintervalos como ensayos de Bernoulli en los cuales observamos una llamada
telefónica (éxito) o ninguna (fracaso), con probabilidad de éxito p = (1,5)⋅ (20 60) = 0,5.
Pero un poco de reflexión nos hace concluir que cuando mucho, este modelo es una
aproximación bastante inexacta de la situación, porque estamos ignorando la posibilidad
de que ocurran dos o más llamadas en cada subintervalo de 20 segundos y el uso del
modelo de Bernoulli supone una dicotomía en cada ensayo: o ocurre una llamada o no
ocurre ninguna.
No obstante, para minimizar la probabilidad de que ocurra dos o más llamadas en cada
subintervalo de tiempo, podríamos subdividir el lapso de 3 minutos en una mayor cantidad
90
de subintervalos más cortos. Podemos también observar si las probabilidades calculadas
tienden hacia algún valor a medida que tenemos una mayor cantidad de intervalos:
hicimos el ejercicio de calcular las probabilidades de recibir k llamadas en un lapso de 3
minutos manteniendo el número promedio de llamadas (E[X]= np =1,5) constante. En la
tabla de abajo, se muestra en las celdas respectivas dichas probabilidades aproximadas

mediante la distribución de Bernoulli:
Tabla 4.1. Calculo de las probabilidades de recibir k llamadas en 3 minutos

mediante aproximaciones sucesivas por medio del modelo Binomial
Variable aleatoria: X=número de llamadas recibidas en un lapso de 3 minutos. Ley

⎛ n ⎞
de probabilidad binomial: P(X = k) = ⎜⎜⎝ k ⎟⎟⎠ pk (1− p)n−k
n= 9 n= 72 n= 576 n= 4608 n= 36864

k p= 0,5 p= 0,0625 p= p= p= 0,000122
0,007812 0,00097
5 66
0 0,001953125000 0,009592502052 0,010914422300 0,011084598051 0,011105945532
1 0,017578125000 0,046044009851 0,049501631849 0,049929450459 0,049982856317
2 0,070312500000 0,108970823313 0,112060780760 0,112426675593 0,112472105506
3 0,164062500000 0,169510169598 0,168826478100 0,168731595889 0,168719600910
4 0,246093750000 0,194936695038 0,190428291242 0,189884897133 0,189817275337
5 0,246093750000 0,176742603501 0,171535405654 0,170914968993 0,170837865192
6 0,164062500000 0,131575049273 0,128538998200 0,128172304053 0,128126660829
7 0,070312500000 0,082704316686 0,082415330680 0,082369633187 0,082363787168
8 0,017578125000 0,044798171538 0,046155829879 0,046307756878 0,046326487969
9 0,001953125000 0,021237651692 0,022936580377 0,023136274752 0,023161044515
10 0,000000000000 0,008919813711 0,010240189822 0,010401146391 0,010421197602
11 0,000000000000 0,003351687576 0,004148852856 0,004249930784 0,004262581064
≥12 0,000000000000 0,001616506172 0,002297208282 0,002390767836 0,002402592061
En la tabla superior, los valores de n y de p se multiplican y se dividen respectivamente

por un factor de 8 en forma sucesiva, de modo que n tiende a infinito y p tiende a cero,
pero np permanece constante. Observamos que las probabilidades respectivas se
91
“estabilizan” alrededor de ciertos valores- no varian mucho más a medida que seguimos
aumentando el número n de ensayos. Esto nos motiva a formular la siguiente pregunta:
¿Cuál es la ley de probabilidad hacia la cual tiende la binomial a medida que n →∞ y p
→0 de modo que np permanece constante, digamos np =λ?
En los cálculos siguientes se determina la respuesta exacta a esta pregunta.

Considerando pues la función de probabilidad binomial: P(X
= k) = ⎛⎜⎜nk⎞⎟⎟⎠pk (1− p)n−k = k!(nn−! k) ! pk (1− p)n−k =
⎝
[4.1] k factores
)
n(n −1)(n − 2) (n − k +1 pk (1− p) n−k
k!
λ λ
Defínase λ= np , de modo que p = y 1− p =1− . n
n
Sustituyendo en la ecuación 4.1 todos los términos que involucren p por sus expresiones
equivalentes en λ obtenemos:
(n − k +1)⎛λ⎞k ⎛1− λ⎞⎟ n− k

n(n P(X = k) = −1)(n − 2) ⎜ ⎟⎜
k! ⎝n⎠⎝n⎠
λk ⎛ λ⎞n−k n(n −1)(n − 2) (n − k +1)
92
⎝ ⎠ [4.2]
k factores
λk ⎛ λ⎞n− k ⎛ ⎛ 1 ⎞ ⎛ 2 ⎞ ⎛ k −1⎞⎞
= ⎜⎝1− ⎟⎠ ⎜⎜⎝1⋅⎜⎝ 1− n ⎠⎟⋅⎜⎝1− n ⋅⎜1− ⎟⎟⎟
⎟⎠⋅ k! n ⎝ n ⎠⎠
k n −k 1 2 k1
⎛ ⎞
= ⎜1− ⎟
k! n n ⋅n ⋅ ⋅n
= ⎜1− ⎟ ⎜1− ⎟ k! ⎝ n ⎠ ⎝ ⋅⎜1− ⎟⎟⎟

⎜⎜1⋅⎜1− n ⎟⎠⋅⎜⎝1− n ⎟⎠⋅
n⎠ ⎝ n ⎠⎠
⎝ ⎝
λ⎞ ⎛ λ⎞ ⎛ ⎞⎛ ⎞ ⎞
λ⎛ ⎛ −
Ahora tomando el limite de la expresión 4.2 cuando n →∞ y p →0 de modo que
np =λ permanece constante, obtenemos lo siguiente:

k n −k ⎛1⎞⎛2⎞
limn→∞ P(X = k) = limn→∞ λ ⎝⎜⎛1− λ⎟⎠⎞ ⎛⎜⎝1− λ⎞⎠⎟ ⎛⎜⎜⎝1⋅⎜⎝ 1− n ⎛ k −1⎞⎞
⋅⎜1− ⎟⎟⎟
⎟⎠⋅⎝⎜1− n ⎟⎠⋅
k! n n ⎝ n ⎠⎠
p→0 p→0 [4.3]
93
k
λ −λ
= e k!
Ya que, según lo recordado en nuestra clase de sexto grado de primaria cuando

n→∞ ⎝ n ⎠
n→
∞⎝ n⎠
n→
∞
estudiamos limites:
⎛⎜1− c ⎞
−k
n
⎟ =1
lim ⎛ λ⎞ e −λ, lim ⎛⎜1− λ⎞⎟ = 0 y lim ⎜1− ⎟ =
⎝n⎠
De esta forma demostramos el siguiente teorema:
Teorema 4.1- (Ley de las probabilidades Pequeñas) Sea X una variable aleatoria discreta
distribuida según la ley binomial con parámetros n y p respectivos. Si n→∞ y
p →0 de forma que np permanece constante y np →λ, entonces, bajo estas
condiciones:
k
lim P(X = k) =e −λ λ
n→∞ k!
p→0
Este resultado es muy importante por varias razones. Una razón es que nos permite
calcular aproximadamente las probabilidades asociadas a la distribución binomial para un
número n muy grande de ensayos y una probabilidad p de éxito casi nula. El estudiante
que haya intentando calcular probabilidades binomiales que involucran números
combinatorios elevadísimos que multiplican potencias de p que tienden a cero sabrá
apreciar la valía de esta aproximación. Es por esto que el resultado anterior se conoce
como la Ley de las Probabilidades Pequeñas. De la misma forma que el Teorema de
94
DeMoivre-Laplace (una variante de la Ley de los Grandes Números) aproxima mediante
la distribución normal las probabilidades binomiales cuando n →∞ y p no tiende a cero o
a uno, la Ley de las Probabilidades Pequeñas aproxima las probabilidades binomiales bajo
las condiciones ya citadas mediante una distribución de probabilidad que el estudiante
seguramente ha identificado ya: la distribución de Poisson. Como regla práctica, se puede
confiar en esta aproximación si n ≥100, p ≤0,01 y np ≤20 14.
Como se indica en la Tabla 1.1, la variable aleatoria Poisson representa el número de

eventos que ocurren en un instante de tiempo de amplitud fija cuando la tasa promedio de
eventos en ese intervalo de tiempo es λ. Su función de probabilidad es:
⎪
⎧ λx −λ x ∈N≥0 e
pX (x)=⎨ x!
⎪⎩ 0 x <0
Se le sugiere al estudiante demostrar que en efecto, la distribución de Poisson es una
distribución de probabilidad válida (Problema Propuesto N° 1). De hecho, esto se realiza
expresando eλ como una serie de Taylor.
Históricamente, la ley de probabilidad de Poisson está asociada al estudio de la cantidad

de eventos de cierto tipo que ocurren entre una población muy numerosa cuando la
frecuencia del fenómeno es muy rara, como por ejemplo, la cantidad de personas en una
ciudad de 10 millones de habitantes que padecen de una enfermedad muy rara que afecta
en promedio a uno entre cada millón de individuos en una población. Siméon-Denis
Poisson (1781-1840) formuló en 1837 la distribución homónima en conexión con largas
series de observaciones de eventos que ocurren raramente. Por ejemplo, una de tales
series dadas era la distribución de frecuencias del número de bajas anuales en cada
cuerpo de la caballería del ejercito Prusiano debidas a patadas de caballos 15 . La
distribución de frecuencias de el número de bajas anuales de esta serie fue la siguiente:
Muertes 0 1 2 3 4 o más
Frecuencia 109 65 22 3 1
14 DEVORE, p. 131.
15 RIETZ, p. 39
95
Si suponemos que las probabilidades de k muertes accidentales por patadas de caballo
se mantienen constantes en el tiempo y a través de todos los cuerpos de la caballería del
ejercito Prusiano, estos datos nos permitirían calcular las frecuencias relativas (que se
asemejan a dichas probabilidades), dividiendo las frecuencias absolutas respectivas entre
el número total de observaciones, o sea n=200. Si en base a estas probabilidades
calculamos el número promedio de muertes anuales en cada cuerpo de caballería,
obtenemos una estimación del parámetro λ, que resulta ser igual a 0,61. Con el parámetro
λ, calculamos las probabilidades respectivas según la ley de distribución de Poisson y con
estas probabilidades, calculamos las frecuencias absolutas que cabría esperarse según
este modelo teórico. Todo esto se resume en la siguiente tabla:
Muertes 0 1 2 3 4 o más
Observaciones de frecuencias absolutas (evidencia empírica)

Frecuencias
absolutas 109 65 22 3 1
Frecuencias
relativas 0,545 0,325 0,110 0,015 0,005
Promedio de
muertes λˆ = 0⋅0,545 +1⋅0,325 + 2⋅0,110 + 3⋅0,015 + 4⋅0,005 = 0,61
Observaciones esperadas según el modelo de Poisson

Probabilidades
esperadas 0,543 0,331 0,101 0,021 0,004
Frecuencias absolutas
esperadas 108,6 66,2 20,2 4,2 0,6
Como se puede observar, la ley de probabilidad de Poisson modela de forma bastante fiel
el fenómeno estudiado.
4.2. Derivación axiomática del proceso de Poisson.
Llegados a este punto, podemos entender que la ley de distribución de Poisson se adecua
a una amplia gama de fenómenos aleatorios de la vida real porque es un caso límite del
modelo Binomial, que también se asoma en muchas situaciones. De hecho, la distribución
de Poisson, junto con la normal y la binomial, son las tres distribuciones principales de la
96
teoría de las probabilidades, debido a su universalidad y grandes ramificaciones por todo
el corpus teórico16. Sin duda, la distribución de Poisson merece un análisis profundo por
sus propios meritos. Surgen dos preguntas: ¿Cómo sabemos si se reúnen las condiciones
para aplicar el modelo de Poisson a un determinado fenómeno real? ¿Como relacionamos
la distribución de Poisson y los procesos estocásticos?
Intentamos dar una respuesta a la primera pregunta haciendo algunas consideraciones

sobre la distribución binomial, a partir de la cual la distribución de Poisson surge como
caso límite. En efecto, para que la binomial sirva de modelo adecuado de un determinado
fenómeno, debemos verificar que las probabilidad p de éxito se mantenga constante a
través de todos los ensayos y que los ensayos se realizan de forma independiente entre
sí. Si consideramos que la distribución de Poisson es un caso límite de la binomial,
entonces se vislumbra una respuesta a la segunda pregunta.
En efecto, supóngase que estamos interesados en contar la cantidad de eventos de cierto

tipo que han sucedido hasta un instante de tiempo t . Para tal fenómeno, hacemos las
siguientes suposiciones:
1) La ocurrencia adicional de eventos a partir de ese instante es independiente de la

cantidad de eventos acaecidos hasta entonces (los ensayos de Bernoulli son
independientes entre sí). Más precisamente, para intervalos de tiempo disjuntos (no
superpuestos), las cantidades de eventos que ocurren en cada intervalo son
independientes entre sí. Esto es una manera de decir que el proceso de Poisson es
un proceso con incrementos independientes.
2) Se verifica que la tasa promedio de eventos, expresada como un cociente de la

cantidad de eventos en promedio que suceden en un lapso de tiempo fijo, es
constante (la probabilidad de éxito p en cada ensayo de Bernoulli es constante). Por
lo tanto, dos intervalos de tiempo de igual amplitud tendrán la misma distribución de
probabilidades, en cuanto a la cantidad de eventos que sucede en cada intervalo,
sin importar cuan distantes en el tiempo sean esos intervalos uno del otro. Según la
terminología del capitulo 2, el proceso de Poisson es un proceso con incrementos
estacionarios.
16 FELLER, p. 156
97
3) Según las deducciones que culminan en la fórmula 4.3, vemos que subdividiendo el
número de ensayos del modelo binomial en lapsos temporales de amplitud
infinitesimalmente pequeña, de modo que la probabilidad de ocurrencia de dos o
más eventos en cada lapso temporal sea casi nula y manteniendo constante el
promedio de eventos que suceden a lo largo del lapso temporal total, la distribución
de probabilidad de eventos que suceden en un intervalo de tiempo es la distribución
de Poisson.
La Ley de las Probabilidades Pequeñas es una posible vía para definir el proceso de
Poisson. A continuación vamos a tomar otra vía más rigurosa- planteamos un conjunto de
axiomas o condiciones que debe cumplir el proceso y verificamos que necesariamente,
esto conduce a la distribución de Poisson. Antes definimos la terminología mediante la
cual denotaremos formalmente el proceso de Poisson:
El proceso aleatorio de Poisson es una colección de variables aleatorias indexadas por un
{
parámetro temporal continuo: Z(t)t≥ 0}. Para cada instante t, Z(t) denota la
cantidad de eventos de cierto tipo que se producen en el lapso de tiempo [0,t), por lo cual
Z(t) es un proceso de conteo y representa una cantidad entera.
Planteamos a continuación los postulados que debe satisfacer un proceso de conteo
{Z(t)t≥ 0} para definirse como un proceso de Poisson. Como se verá, estos

postulados no son del todo distintos a las tres suposiciones que acabamos de hacer.
Axioma 1: Para intervalos de tiempo disjuntos (no superpuestos), las

cantidades de eventos que ocurren en cada intervalo son independientes entre
sí- El proceso de Poisson es un proceso con incrementos independientes.
Axioma 2: Defínase Z(x +Δt)−Z(x) como la cantidad de eventos que ocurren
en un intervalo de tiempo [x,x +Δt) y Z(y +Δt)−Z(y) como la cantidad de
98
eventos que ocurren en otro intervalo de tiempo [y,y +Δt), siendo ambos
intervalos de tiempo de la misma amplitud. Entonces, Z(x +Δt)−Z(x) y Z(y
+Δt)−Z(y) tendrán la misma distribución de probabilidades- El proceso de

Poisson es un proceso con incrementos estacionarios.
Axioma 3: Considérese una subdivisión de un intervalo de tiempo de longitud

unitaria en N subintervalos, cada uno de longitud Δt =1 N . Para N
suficientemente grande, las probabilidades de que se produzcan cero o un
evento en cualquiera de esos subintervalos son respectivamente:
P{Z(t +Δt)− Z(Δt)=0}= P0(Δt) =1−λΔt + o(Δt) [4.4a]
P{Z(t + Δt)−Z(Δt)=1}= P1(Δt)=λΔt +o(Δt) [4.4b]
donde o(Δt) es una cantidad de un orden de magnitud mucho más pequeña que
Δt
o( )
lim
Δt de modo que = 0.
Δt→0 Δt
Obsérvese que las probabilidades
P
0 (Δt) y P1(Δt) son complementarias, de
modo que la probabilidad que se produzcan dos o más eventos en un lapso de
tiempo infinitesimalmente corto es despreciable. En lo anterior, λ es un
parámetro constante que representa la cantidad promedio de eventos que se
producen en un intervalo de tiempo de longitud unitaria:
E[Z(1)] = E[N ⋅ Z(Δt)] = N ⋅E[Z(Δt)] = N ⋅ (λΔt + o(Δt)) =

1
(λΔt + o(Δt)) = λ
Δt
El parámetro λ también se conoce como intensidad de flujo.
Axioma 4: Se impone la siguiente condición inicial: P{Z(0)= 0}= P0(0)=1.
99
Esto equivale a decir que P1(0)= P2(0)= ¨= 0.
A partir de estos cuatro axiomas, pretendemos deducir la función de probabilidad
de las variables aleatorias {Z(t)t≥ 0}, a saber: P{Z(t) = n}= Pn (t). Comencemos
considerando
P
0 (t + Δt)- la probabilidad de que ocurran cero eventos en el lapso de tiempo
[0,t +Δt). Para que suceda tal cosa, debe acontecer que se produzcan cero eventos en
[0,t) y cero eventos en [t,t +Δt). En virtud del axioma 1, estos sucesos son
independientes, pues [0,t) y [t,t +Δt) no son intervalos de tiempo superpuestos. Por otro
lado, en virtud del Axioma 2, la probabilidad de que se produzcan cero eventos en el
intervalo de tiempo [t,t +Δt) es igual a la probabilidad de que se produzcan cero eventos
en el intervalo de tiempo [0,Δt), pues el proceso es de incrementos estacionarios. En
suma, tenemos lo siguiente:
P0(t + Δt)= P0(t)⋅P0(Δt)= P0(t)⋅(1−λΔt +o(Δt)) Ø
P0(t + Δt)−P0(t)= P0(t)(−λΔt +o(Δt))
y que por lo tanto, tomando la derivada de

P
0(t ) :
P0'(t)= lim P 0(t + Δt)−P0(t) = lim P0(t)⎜⎛ −λΔt +o(Δt) ⎟⎞ = −λ⋅P0(t) Ø
t 0
Δ→ Δt t 0
Δ→ ⎝ Δt ⎠
P0'(t) = −λ
P0(t)
Integrando esta ecuación diferencial sencilla y tomando en cuenta el Axioma 4 que

establece una condición inicial- P{Z(0) = 0}= P0(0) =1, deducimos finalmente que:
100
P
0 (t) = e−λt [4.5]
Ahora procederemos a calcular Pn (t) para n ≥ 1. De manera análoga al razonamiento
recién expuesto, calculamos primero

P
n (t + Δt), tomando en cuenta que para producirse
n eventos en el intervalo de tiempo [0,t +Δt), debe ocurrir alguno de estos dos sucesos,
que son mutuamente excluyentes: 1) que se produzcan n-1 eventos en el intervalo [0,t) y
1 evento en el intervalo [t,t +Δt), o 2) se producen n eventos en [0,t) y ningún evento en
[t,t +Δt). De modo que:
Pn (t + Δt) = Pn−1(t)⋅P1(Δt)+ Pn (t)⋅P0(Δt) = Pn−1(t)⋅(λΔt + o(Δt))+ Pn (t)⋅(1−λΔt +

o(Δt))
Y de modo similar a como hicimos los cálculos precedentes, podemos encontrar la

derivada de Pn (t):
Pn '(t) = λ(Pn−1(t)− Pn (t)) Ø Pn '(t)+λPn (t) =λPn−1(t) [4.6]
La ecuación 4.6 es una ecuación diferencial lineal de orden uno no-homogénea. Una
fórmula para resolver tales ecuaciones diferenciales es la siguiente17:
La solución a la ecuación diferencial no homogénea y'+p(x)y =
q(x) viene dada por
[
y = e − ∫ p(x)dx C + ∫q(x)e ∫ p(x )dx
dx
]
Donde C es una constante que depende del valor de y en un
punto dado (condición inicial).
17 ORELLANA, M., TORRES, E., GONZALEZ, J., MIRANDA, G., pp. 84-86
101
Sustituyendo los términos correspondientes en la formula anterior, recordando que en este
caso la variable independiente es t (no x) y teniendo en cuenta el Axioma 4 que establece
las condiciones iniciales P1(0) = P2(0)= ¨= 0, procedemos a resolver la 4.6:
Pn (t ) = e −λt ⋅ ∫ λ ⋅ Pn −1(t )⋅ e λt dt [4.7]
Conociendo P0(t) podemos hallar algunos de los Pn (t) para n ≥ 1:
P1(t ) = e −λt ⋅ ∫ λ ⋅ e −λt eλt dt = (λt )e −λt

2
P2 (t ) = e −λt ⋅ ∫ λ ⋅ λte −λt eλt dt = (λt ) e −λt

2
(λ t )
3
P t dt = e −λt
6
....
n
(λt )
No debe costarnos mucho trabajo deducir que en general, Pn (t ) = e −λt ⋅ . n!
Claro está, esto se puede demostrar por el método de inducción, lo cual se deja como
ejercicio propuesto para el estudiante (problema propuesto N° 15). Recuerde que si se
A
quiere demostrar cierta premisa n para todo n ≥0, el método de inducción consiste en
A A A
demostrar que 0 es cierto y que n ⇒ n+1.
En resumen, hemos visto en esta primera parte del presente capitulo las condiciones o
premisas bajo las cuales se produce un proceso estocástico de Poisson homogéneo. La
palabra homogéneo se refiere a que la intensidad de flujo λ es una constante en el tiempo,
esto queda establecido por el Axioma 2 referente a los incrementos estacionarios.
Estamos en condiciones de volver a plantear la definición de un proceso de Poisson

homogéneo, con la esperanza de que el estudiante tenga ahora una mayor comprensión
del asunto:
102
Definición (Proceso de Poisson homogéneo): Un proceso de conteo {N(t), t ≥ 0} es un
proceso de Poisson homogéneo con tasa media constante (o intensidad) λ si cumple las
condiciones a continuación:
i. {N(t), t ≥ 0} tiene incrementos estacionarios e independientes. ii. Para dos instantes de
tiempo s y t tales que s < t , la cuenta de eventos N(t)−N(s) acaecidos en el intervalo de
tiempo (s,t) es distribuida según la ley de Poisson con media λ(t − s). A saber:
P{N(t)−N(s)= k}= e−λ(t−s) (λ(t −s))k k!
Esta vez, esperamos que el estudiante entienda cuales son las condiciones que dan origen
a tales procesos, porqué el número de eventos que se producen en un intervalo de tiempo
es distribuido según Poisson, y las razones por las cuales este proceso surge con mucha
frecuencia en el estudio de ciertos fenómenos aleatorios.
4.3. Procesos de Poisson espaciales.
Las condiciones o postulados axiomáticos que dan origen al proceso de Poisson se

pueden extrapolar a la definición de otro tipo de proceso de Poisson si se cambia la
dimensión temporal por la dimensión espacial. De este modo, cuando hablamos de lapsos
de tiempo en los axiomas 1 a 4, ahora hablaremos de distancias, áreas o volúmenes en el
caso en que el proceso se desarrolla en una, dos o tres dimensiones espaciales
respectivamente. Los eventos de tipo Poisson, en vez de estar distribuidos sobre la recta
temporal (porque se suceden en el tiempo), se conceptúan más bien como puntos
distribuidos sobre una superficie o un volumen. A modo de ejemplo, imagínate que
estamos viendo colonias de bacterias a través del microscopio:
103
Fig. 4.1 – Colonias de bacterias vistas a través de un microscopio.
Los puntos oscuros representan bacterias. El plato de Petri ha sido subdividido en pequeños
cuadrantes cuya cuenta de bacterias se indican mediante los números en cada cuadrante.
En base a lo observado en la figura 4.1, podemos contar cuantos cuadrantes contienen

determinado número de bacterias, lo cual nos da las frecuencias absolutas empíricas (hay
n =34 observaciones). Acto seguido calculamos el promedio (estimado) de bacterias por
cada cuadrante, lo cual nos permite calcular las frecuencias relativas teóricas (ajustadas
al modelo de Poisson) y de ahí, multiplicando dichas frecuencias relativas teóricas por el
número total de observaciones, determinamos las frecuencias absolutas teóricas que
cabria esperarse si el fenómeno en cuestión fuese realmente un proceso de Poisson.
Todo lo dicho se resume en la siguiente tabla:
104
Tabla 4.1 – Ajuste de las observaciones de la Fig. 4.1 a un proceso de Poisson espacial
Frecuencia Frecuencia relativa teórica Frecuencia absoluta absoluta

(obtenida mediante teórica (redondeando
k (empírica) promedio estimado) decimales)
0 3 0,11682726 4
1 9 0,250835 9
2 10 0,26927876 9
3 6 0,19271911 7
4 4 0,10344482 4
5 2 0,06689505 2
λ =(
ˆ 0 ⋅ 3 +1 ⋅ 9 + 2 ⋅10 + 3 ⋅ 6 + 4 ⋅ 4 + 5 ⋅ 2) 2,1471
Promedio
estimado 34 ≈
Si asumimos que las frecuencias absolutas empíricas son lo bastante aproximadas a las
frecuencias absolutas teóricas, entonces el modelo de Poisson parece ser adecuado para
describir el fenómeno de las colonias de bacterias observadas en el plato de Petri. La
verificación de la bondad de ajuste se realiza matemáticamente mediante técnicas de
inferencia estadística que verás en cursos posteriores. Por ahora dejemos la verificación
de bondad de ajuste a un lado y abordemos las implicaciones que se desprenden de ser
este fenómeno un proceso de Poisson.
Por ejemplo, el axioma 4 establecería que en un área o volumen nulo hay cero bacterias
con certeza total. Esto tiene bastante sentido- las bacterias necesitan cierta cantidad
mínima de espacio para desarrollarse y en un espacio de área nula no puede haber
bacterias. Los axiomas 1 y 2 establecerían que en áreas no superpuestas de igual tamaño,
las cantidades de bacterias en cada área son variables independientes e idénticamente
distribuidas. Esto quiere decir que la cantidad de bacterias observadas en una esquina
del plato Petri es independiente de la cantidad de bacterias observadas en otra esquina.
Más aún, tienen la misma distribución probabilística, lo cual quiere decir que las
condiciones requeridas para el desarrollo de las actividades bacteriales son iguales en
toda el área del plato Petri. Por ejemplo, colocar un sustrato más nutritivo para las
bacterias en alguna esquina del plato Petri haría que las bacterias se concentrasen en ese
sector- se estaría violando la condición de estacionariedad de las superficies no
superpuestas de igual tamaño y el fenómeno ya no sería un proceso de Poisson
homogéneo. Dicho de otro modo, los axiomas 1 y 2 parecen indicar que los eventos en
un proceso de Poisson se distribuyen uniformemente en el tiempo (o el espacio en este
105
caso), pero esto es una cuestión que abordaremos posteriormente. Por último, el axioma
3 plantea la existencia de un parámetro λ que representa la cantidad promedio de eventos
que se producen en un intervalo de tiempo de longitud unitaria y que permanece constante
en el tiempo. En el caso de un proceso de Poisson espacial homogéneo como el que
estamos tratando, λ viene a representar la cantidad promedio de bacterias por cuadrante
(de área unitaria) observados en el plato de Petri.
Otra consideración importante en el estudio de los procesos de Poisson espaciales es la

distancia entre un punto y su vecino más cercano. Se da a continuación un teorema que
especifica la distribución de la distancia :
Teorema 4.2- (Distribución de la distancia al vecino más cercano en la distribución de

partículas según un proceso de Poisson espacial18) Sea D la distancia entre una partícula
y su vecino más cercano en una distribución de partículas en el plano según un proceso
de Poisson espacial con tasa promedio de l partículas por unidad de área, entonces la
función de densidad de D es:
fD(y) = 2λπy ⋅e−λπy2 [4.8a]
En el caso en que las partículas se distribuyen en el espacio tridimensional con una tasa
promedio de l partículas por unidad de volumen, entonces la función de densidad de D es:
fD(y) = 4λπy2 ⋅e [4.8b]
Demostración: (caso bidimensional) Primero, obsérvese que P{D > y} denota la
probabilidad de que un circulo de radio y y área πy 2 contenga cero partículas por lo tanto
{ ( ) }
P{D > y}= P N πy2 = 0 = e−πλy2
18 PARZEN, pp. 32-33
106
Ahora bien, el evento {D > y} es complementario al evento {D ≤ y}, de donde
podemos obtener la expresión para la función de distribución de probabilidad de D:
FD(y) = P{D ≤ y}= 1− P{D > y}= 1− e−πλy2

Y si derivamos con respecto a y obtenemos la función de densidad:
fD e−πλy2
La función de densidad de D para el proceso de Poisson tridimensional se obtiene

mediante un procedimiento similar.
Observando la forma funcional 4.8a (el caso tridimensional es parecido) nos damos cuenta
que D sigue una distribución de Weibull19, cuya función de densidad se caracteriza por dos
parámetros a y b:
α⎛x
⎞
α
−⎜ f (x;α,β) = x α−1 ⋅ e ⎝β ⎠
⎜ ⎟⎟ para x ≥ 0 , cuya esperanza
y varianza son:
αβ
⎛ ⎞ ⎜⎜ ⎛ ⎞ ⎛ ⎛ ⎞⎞ ⎟
E[D] = β⋅ Γ⎝⎜ 1+ α1 ⎠ V[D] = β2 ⋅ ⎝ ⎛ Γ⎜ 1+ 2 ⎟ − ⎜⎜ Γ⎜ 1+ α1 ⎟⎠ ⎟ ⎟⎠2 ⎟⎞⎠
⎟y
⎝ α⎠ ⎝⎝
19 DEVORE, p. 176
107
G es, como sabemos, la archiconocida función gamma cuya definición y propiedades se
1
dan en la Tabla 1.2. Todo encaja a la perfección si α= 2 y β = πλ .
4.4. Distribución del tiempo inter-eventos.
Una forma alternativa de estudiar un proceso de Poisson es mediante la observación de

los tiempos que transcurren entre eventos sucesivos, en contraposición a observar la
cantidad de eventos que se producen en un lapso de tiempo de longitud fija, como hemos
venido haciendo hasta ahora. Para ilustrar esto,
supóngase que estamos interesados en estudiar
el proceso asociado a la llegada de carros a una
intersección donde hay semáforo. Consideremos
que se produce un evento cuando un carro pasa
por el área rayada de alguna de las cuatro
intersecciones que estamos estudiando.
Hasta ahora hemos estudiado el proceso en atención al número de eventos que se

producen en un lapso de tiempo de longitud fija, lo cual en nuestro ejemplo se traduce a
que el analista recopila pacientemente las estadísticas de cuantos carros pasan por la
intersección a determinadas horas del día (digamos, de 9 a 10 a.m.) todos los días (Fig.
4.2).
En la figura a la izquierda, w representa el día en los cuales se toman las observaciones y

Nw representa el número de carros que pasaron por la intersección desde las 9 a
10am en cada fecha correspondiente. Cuando ha terminado de recopilar las

observaciones, el analista comienza a resumir la información a fin de verificar si se trata
efectivamente de un proceso de Poisson. Primero calcula el número promedio de carros
que pasan por la
ˆ
intersección (λ ), lo cual realiza sumando los
108
Nw y
dividiendo entre el número de días Fig. 4.2.
Anotación de observaciones observados.
De forma semejante a como se ha planteado
en los ejemplos anteriores, nuestro valeroso
analista ajusta las observaciones a un modelo
de Poisson y verifica la bondad de ajuste de
este modelo con respecto a las observaciones.
Ahora bien, supóngase que en vez de tomar
las observaciones de este modo instalamos un
dispositivo electrónico en la intersección que
registre el tiempo (en segundos) que transcurre
entre llegadas sucesivas de carros a la
intersección (Fig. 4.3). A partir de un instante
0, comenzaríamos a cronometrar el tiempo inter-llegada de los carros. Naturalmente, esto
generaría una trayectoria del siguiente proceso estocástico:
{T n ∈N }
n
+
109
Fig. 4.3. Observación de los tiempos entre llegadas de carros en una intersección.
La secuencia aleatoria {T n ∈N } es de parámetro discreto, porque n denota el

n
+
tiempo transcurrido entre la llegada del n ésimo vehiculo y el n-1 ésimo vehiculo. Sin
embargo, cada una de estas variables debe tener una distribución continua. Supongamos
pues que {T n
n ∈N+ } es una secuencia de variables mutuamente independientes
e idénticamente distribuidas según una distribución exponencial con parámetro l (ver
T es
problema propuesto N° 18). La función de densidad de probabilidad para cada n
entonces:
fTn (t) =λe−λt , λ,t > 0
Si estamos interesados en conocer la probabilidad de esperar t segundos o menos hasta

que pase el próximo carro en la intersección, dicha probabilidad podrá calcularse mediante
la función de distribución de probabilidad acumulada de la exponencial:
P(Tn ≤ t) =1− e−λt , λ,t > 0
T son exponencialmente distribuidos, cabría esperar en

Recordemos además que si los n
promedio 1 λ segundos (o cualquier otra unidad de tiempo conveniente) entre llegadas
sucesivas de carros porque E[ ]=1 λ.

T
n Obsérvese que mientras mayor es l menor es, en
promedio, el lapso de tiempo transcurrido entre dos llegadas sucesivas de carros. Por
esta razón, l es conocida como la intensidad o frecuencia del tráfico (ver sección 4.2
en la descripción del axioma 3). En base a {T n

n ∈N+ } podemos definir
una caminata aleatoria {S n ∈N } del siguiente modo:
n
+
110
Sn = ∑Ti
i=1
S representa el tiempo de espera que transcurre hasta la llegada del n ésimo

Cada n
S ?
vehiculo. ¿Se puede deducir de algún modo la distribución de probabilidad de los n
S es una suma de n variables independientes e

Teniendo en cuenta que n
idénticamente distribuidas, se puede deducir mediante el uso de la función característica

S es una variable distribuida según la ley de
o el desarrollo de las convoluciones que n
Erlang (ver tabla 1.2, distribución Gamma). Por lo tanto, su función de densidad es:
fSn (t) = (λt)n−1e−λt , λ,t > 0
La pregunta crucial es: Si N(t) es un proceso de conteo que representa la cuenta de

vehículos que han pasado por la intersección hasta el instante de tiempo t, ¿Cómo se
distribuye N(t) si los tiempos inter-arribos son independientes e idénticamente distribuidos
según la ley exponencial?
Veamos: {N(t) = n} representa el suceso que se produce cuando pasan exactamente n
vehículos por la intersección en el transcurso de [0,t] segundos. Este suceso es
equivalente al siguiente: “El tiempo hasta que pasa el n ésimo vehiculo es menor que t y
el siguiente vehiculo (el n+1 ésimo) llega después de t”. Entonces tenemos una
equivalencia entre los siguientes dos sucesos (que se debe demostrar en el problema
propuesto N° 19:
{N(t) = n}≡ {Sn ≤ t}−{Sn+1 ≤ t} [4.8]
Por ser ambos sucesos equivalentes, sus probabilidades son iguales y se tiene que:
t t
111
P n−1e−λxdx n e−λxdx
Integrando por partes la expresión en el extremo derecho tenemos:

t n t n
P{N(t) = n}= ∫0 (nλ−1)!(λx)n−1e−λxdx + e−λt (λnt!) − ∫0 (nλ−1)!(λx)n−1e−λxdx =

e−λt (λnt! )
que se corresponde a la función de probabilidad de Poisson.
Acabamos de establecer que cuando los tiempos de espera inter-eventos son

exponencialmente distribuidos con el mismo parámetro lambda (la misma intensidad de
tráfico), el proceso resultante es un proceso de Poisson. Se puede demostrar también,
aunque no se hará en esta exposición, que los tiempos inter-eventos de un proceso de
Poisson homogéneo son exponencialmente distribuidos con el mismo parámetro lambda.
Esta caracterización del proceso de Poisson tiene una consecuencia de capital
importancia práctica para nosotros: para simular un proceso de Poisson, debemos generar
una secuencia de números aleatorios exponencialmente distribuidos. La suma acumulada
de dicha secuencia representará entonces los tiempos exactos en que suceden los
eventos de tipo Poisson.
4.5. La distribución uniforme de los tiempos de ocurrencia de sucesos en un
proceso de Poisson.
En las caracterizaciones del proceso de Poisson homogéneo que hemos planteado, se ha

insinuado que los axiomas 1 y 2 referentes a la independencia y estacionariedad de los
incrementos causan una distribución uniforme y completamente aleatoria de los sucesos
en la dimensión temporal (o espacial, si se quiere). De hecho, el proceso de Poisson
homogéneo se conoce como el proceso completamente aleatorio ya que distribuye los
sucesos sobre el intervalo temporal infinito [0,∞) de la misma forma en que se distribuyen
puntos sobre un intervalo finito bajo la distribución uniforme. Vamos a ilustrar mediante un
ejemplo lo que se pretende establecer. Supóngase que en un horizonte de 0 a 30 unidades
de tiempo observamos un proceso de Poisson y que además, en esa “ventana de tiempo”
112
ocurrieron exactamente 31 sucesos de cierto tipo, tal como se muestra en la gráfica a
continuación (Fig. 4.4). Adicionalmente, el suceso N° 32 ocurrió después del instante de
tiempo t=30.
Fig. 4.4. Una realización de un proceso de Poisson observada en el horizonte de tiempo

de 0 a 30.
El resultado que se pretende establecer es el siguiente: si distribuimos 31 puntos de forma

aleatoria y según la distribución uniforme sobre el intervalo temporal de 0 a 30, el resultado
que vamos a observar es muy similar al de la Fig. 4.4:
Fig. 4.5. Distribución de 31 puntos sobre el intervalo [0,30] según la distribución uniforme.
Es instructivo ojear el código en R que genera estas gráficas:
#Los eventos en un proceso de Poisson se aglomeran

#y además, el proceso de poisson distribuye los puntos en un
#horizonte de tiempo como la distribución uniforme.
#Autor: Prof. José L. Romero P. fecha: 31/7/2007
#------------------------------------------------------
#Se simula un proceso de Poisson desde 0 a tmax unidades de tiempo
tiempos.de.llegada=NULL tiempo=0 alfa=1; tmax=30*alfa while
(tiempo<tmax) { tiempo=tiempo+rexp(alfa)
tiempos.de.llegada=c(tiempos.de.llegada,tiempo)
}
tiempos.de.llegada=tiempos.de.llegada[1:length(tiempos.de.llegada)-1]
l=length(tiempos.de.llegada)
#Se distribuyen la misma cantidad de eventos uniformememnte en el
#intervalo 0 a tmax
distribución.uniforme=runif(n=l,min=0,max=tmax) #Se
genera la gráfica y se exporta a un pdf
pdf(file="Proceso_poisson.pdf")
plot(x=c(tiempos.de.llegada,distribución.uniforme),y=c(rep(5,times=l),
rep(4,times=l)),main=c("Aglutinamiento de eventos en un proceso", "
113
Poisson y comparación con la distribución uniforme"), xlab="Tiempos
de llegada",ylab="",yaxt="n",col=c(rep("red",times=l),
rep("blue",times=l)))
legend(x=12,y=4.5,fill=c("red","blue"),legend=c("Poisson","Uniforme"))
En este programa estamos incorporando la lección más importante aprendida en el

aparte anterior: si quieres simular los tiempos de los eventos en un proceso de Poisson,
obtenlos recordando que el tiempo entre eventos sucesivos se distribuye
exponencialmente. En efecto, esto es lo que se realiza en la primera parte del código,
donde se generan los “tiempos de llegada” dentro de una ventana temporal entre 0 y
tmax.
Viendo las dos gráficas, podrás notar lo siguiente:
1) La distribución de los puntos en una gráfica y en otra no son idénticas, pero son muy
similares. Esto se debe a que el mecanismo aleatorio que las genera es idéntico en
una y en otra, resultado que pretendemos demostrar matemáticamente en lo que
sigue.
2) Hay cierta tendencia en ambas figuras a que los puntos se aglomeren unos muy
cercanos a otros. De hecho, hay algunos puntos que casi coinciden (son aquellos
círculos más “oscuros” de lo normal). En la realización del proceso de Poisson esto
tiene una explicación muy sencilla: la distancia (tiempo) que media entre dos
sucesos consecutivos es distribuida exponencialmente, como se demostró en la
sección anterior. La distribución exponencial es muy sesgada hacia la izquierda, de
modo que es más frecuente tener distancias entre puntos muy cortas. Lo mismo
ocurrirá con la distribución uniforme, pues como se va a demostrar, se trata del
mismo fenómeno aleatorio.
Previo a la demostración, vamos a introducir una idea que quizás no te sea familiar: el
concepto de lo que es un estadístico de orden. Supongamos que tenemos una secuencia
de k variables aleatorias idénticamente distribuidas e independientes entre sí. En el ámbito
de la inferencia estadística, tal secuencia se conoce como muestra aleatoria, porque se
supone que las variables se corresponden a observaciones hechas a una población. Para
hacer inferencias a partir de una muestra , componemos los valores de la misma para
114
calcular lo que se conoce como estadístico, que no es más que una función (multivariada)
de la muestra. Los estadísticos de orden son simplemente un ordenamiento de menor a
mayor de los elementos de la muestra. Así, para una secuencia de k variables aleatorias
U , U ,,U , los estadísticos de orden U 1 , U 2 ,,U k se obtienen ordenando la
1 2 k () () ( )
U1 ≤U2
secuencia original según su magnitud, de modo que siempre se cumple que: () ()
≤≤ U(k ). En particular, estaremos interesados en conocer cual es la función de

densidad conjunta de los estadísticos de orden basados en una muestra aleatoria tomada
de una población uniformemente distribuida en el intervalo [0,T ]:
k!
fU(1),U(2),,U(k ) (t1,t2,,tk )= T k cuando 0 ≤ t1 ≤ t2 ≤ ≤ tk ≤ T [4.9]
El término 1 T k al lado derecho de la ecuación proviene del hecho de ser los
U1, U2,,Uk uniformemente distribuidos en el intervalo [0,T ] y de ser mutuamente
independientes (la función de densidad conjunta es la productoria de las respectivas

funciones de densidad). El termino k! proviene de observar que hay k! posibles
ordenamientos (o permutaciones, si se quiere) de los elementos de la secuencia U1,
U2,,Uk y todos generan la misma secuencia U(1), U(2),,U(k ).
Por otro lado, supongamos que N(T ) = k , lo que equivale a decir que hasta el instante
de tiempo T, han ocurrido exactamente k sucesos de tipo Poisson. Más precisamente,
dado que N(T ) = k , la probabilidad (condicional) de que en cada uno de los subintervalos
[t1,t1 + Δt1], ,[tk ,tk + Δtk ] del intervalo [0,T ] ocurra exactamente un suceso y fuera de
estos subintervalos no ocurra ningún suceso es:
115
k)
λΔt1e−λΔt1 ⋅  ⋅λΔtk e−λΔtk ⋅e
k
−λ(T −Δt1−−Δt Δ=t1 ⋅ ⋅Δt ⋅k!
k
Tk
e −λ T (λ )
T [4.10]
⋅
k!
S < <S < T en

Esta probabilidad se puede expresar en función de los instantes S1 < 2 k
que se producen los k sucesos, de modo que:
P(t1 ≤ S1 ≤ t1 + Δt1,t,tk≤ Skt ≤ tk + Δtk N(T ) = k) = T kk ! [4.11] Δ 1 ⋅ ⋅Δ k
La notación “delta-t” en los subintervalos [t1,t1 + Δt1], ,[tk ,tk + Δtk ] se utilizó con el
propósito expreso de que intuyas que la expresión a la izquierda de 4.11 es una función
t
de densidad conjunta (condicional) si hacemos tender los Δ i a cero (recordemos que la
función de densidad es la derivada de la función de distribución de probabilidad). Con

todo esto, tenemos en definitiva que:
fS1,S2,,Sk (t1,t2,,tkN(T ) = k)= Tkk! cuando 0 ≤ t1 ≤ t2 ≤ ≤ tk ≤ T [4.12]
Y esto es exactamente igual a la expresión en 4.9. Como quien no quiere la cosa, hemos
demostrado el siguiente teorema:
Teorema 4.3- Sea {N(t), t ≥ 20} un proceso de Poisson homogéneo con parámetro lambda.
Bajo la condición N(T ) = k , los tiempos en que ocurren los k sucesos de
20 ,3055).
116
S < S << S son variables aleatorias con la misma distribución que los
Poisson 1 2 k
estadísticos de orden correspondientes a k variables aleatorias independientes U1,
U2,,Uk distribuidas uniformemente en el intervalo [0,T ]
Con esta información, vamos a echar un segundo vistazo al problema del encuentro visto
en la sección 1.7. Recordemos que el problema era determinar con cual probabilidad se
encuentran dos personas si el tiempo de llegada de cada uno es uniformemente distribuido
en el lapso de una hora e independiente del otro y además el que llega primero no espera
mas de 10 minutos (1/6 de hora) por el otro. No es que hayamos abordado el problema
mal en aquella oportunidad, pero ahora, mediante una simulación e interpretando el
teorema 4.3, lo haremos de nuevo.
Simulando los tiempos de ocurrencia de eventos en un proceso de Poisson con una tasa
lambda arbitraria (en la simulación realizamos corridas con distintos valores de lambda),
consideramos solo los casos en los cuales el segundo suceso haya sucedido antes de la
hora y el tercero después de la hora. Esto redunda en que se cumple la hipótesis del
teorema, a saber, que han sucedido dos eventos de tipo Poisson en el lapso de una hora,
o N(1) = 2. El teorema 4.3 nos asegura que bajo esta condición, los tiempos de
S < S <1 se distribuyen igual que los estadísticos de

ocurrencia de los dos sucesos 0 < 1 2
orden correspondientes a dos variables aleatorias independientes y uniformemente

distribuidas entre 0 y 1. La tesis del teorema es la que nos permite calcular la probabilidad
requerida: tan solo tenemos que calcular la proporción de casos de la simulación (que
cumplen la hipótesis) donde el tiempo de ocurrencia del segundo evento dista en menos
de 10 minutos (1/6 de hora) del tiempo del primer evento.
Cabe preguntarse si el valor del parámetro del proceso de Poisson no afecta el resultado.
El siguiente código simuló N=10000 corridas en las cuales ocurrían exactamente dos
sucesos de Poisson en una hora para cada λ∈{2,4,6,8,10}.
Sorprendentemente, las probabilidades no varían según el valor de lambda y en conjunto,

no difieren mucho del valor teórico calculado en la sección 1.7 (que era de > N=10000
117
> for (lambda in seq(from=2,to=10,by=2)) {
+ cnt=0
+ muestra=NULL
+ while (cnt<N) {
+ x=cumsum(rexp(lambda,n=3))
+ if ((x[2]<1)&(x[3]>1)) {
+ muestra=c(muestra,x[2]-x[1])
+ cnt=cnt+1
+ }
+ }
+ cat("lambda=",lambda,"probabilidad=",
+ mean(as.integer(muestra<1/6)),"\n")
+ }
lambda= 2 probabilidad= 0.3078
>
Para darle más sustento empírico al asunto, se obtuvo un histograma de frecuencias

contrastando las densidades empíricas con la función de densidad teórica (la línea roja).
Dicho gráfico se incluye en la Fig. 4.6: llama la atención la similitud entre este y el de la
sección 1.7.
Por supuesto, el abordaje que se le hizo a este problema en la sección 1.7 es más natural
y más directo que el que hicimos ahora. Pero con esto se pretendía trabase mayor
conocimiento intuitivo sobre lo que establece el teorema 4.3 y sobre las condiciones
necesarias para su validez. Se vuelve a recalcar que el valor particular del parámetro
lambda no esta entre estas condiciones necesarias.
118
Fig. 4.5- Densidades empírica y teórica para el problema del encuentro en la sección
1.7.
Las implicaciones del teorema 4.3 se pueden enlazar con todo lo que hemos visto hasta
ahora del proceso de Poisson homogéneo, en particular, las consideraciones que hicimos
para los procesos de Poisson espaciales. De hecho, las condiciones de estacionariedad
e independencia de los incrementos, que caracterizan al proceso de Poisson homogéneo
implican que en cualquier punto de una determinada área existe igual probabilidad de
ocurrir un suceso que en otro lugar. En la terminología del teorema 4.3 diríamos que el
proceso de Poisson espacial distribuye puntos sobre un área o volumen uniformemente.
Por otro lado, vista la relación entre la uniforme y la exponencial que se da en el proceso
de Poisson, cuando se distribuyen puntos en el espacio de forma completamente aleatoria
y uniforme, ocurre cierto aglutinamiento. ¿Quizás por eso es que las estrellas y otros
cuerpos celestes forman conglomerados como galaxias y constelaciones?
Problemas Resueltos
119
1) Cierta enfermedad no contagiosa afecta en promedio a una persona de cada mil en la
población. ¿Cuál es la probabilidad de que ocurran al menos dos casos, ningún caso
y exactamente un caso en un pueblo de 3000 habitantes?
Solución:
Como la enfermedad es no contagiosa, su presencia en cualquier habitante del
pueblo es independiente del resto de las personas. Por lo tanto un modelo razonable
de la situación es suponer que se trata de 3000 ensayos de Bernoulli con
probabilidad de éxito de 0,001. Usamos en este caso la aproximación de Poisson
con parámetro λ= np = 3, de donde obtenemos:
P{X = 0}= e−λ = e−3 = 0,0498
P{X =1}= e−λ⋅λ= 3e−3 = 0,1494
P{X = 2}=1− (P{X = 0}+ P{X =1}) = 0,8008
2) Sea {N(t), t ≥ 0} un proceso de Poisson homogéneo con parámetro λ=8.
Calcular P{N(2.5) =15,N(3.2) =19,N(4.5) = 32}.
Solución:
El evento cuya probabilidad deseamos calcular se puede escribir como
P{N(2.5) =15,N(3.2)− N(2.5) = 4,N(4.5)− N(3.2) =13} y sabemos que una de

las características del proceso de Poisson es la de poseer incrementos estacionarios
e independientes, de donde la probabilidad que deseamos calcular es:
120
3) Los clientes llegan a la sucursal de un banco de acuerdo con un proceso de Poisson
homogéneo de intensidad λ. Se sabe que en el intervalo [0,T ] ha llegado
exactamente un cliente. Determina cuál es la distribución de la variable aleatoria X

que representa el instante en el que llega el cliente, condicionada a la información
de la que disponemos.
Solución:
Para determinar completamente la distribución de la variable aleatoria X, basta con
determinar el valor del parámetro lambda, pues se sabe que {X(t), t ≥ 0} es un

proceso de Poisson homogéneo. Una forma de abordar el problema sería así:
λ representa la cantidad de eventos, en promedio, que ocurren en una unidad de

tiempo. En base a la evidencia, ocurrió un evento en T unidades de tiempo. Por lo
tanto, para estimar λ en base a esta información podríamos utilizar una regla de
tres:
1 es a T como λ es a 1, de donde λ= 1T .
Este planteamiento podría no parecer lo bastante “científico”, por lo cuál hablaremos

brevemente de un procedimiento de la inferencia estadística llamado estimación
puntual por el método de la máxima verosimilitud. Básicamente, dicho método
consiste en determinar el estimador (valor) del parámetro como aquel que maximiza
la verosimilitud, o probabilidad, de observar determinado valor de la muestra. En
nuestro caso, la probabilidad de observar 1 suceso en todo el intervalo [0,T ] es:
121
Encontrar el valor de λ que maximiza esta probabilidad es equivalente a encontrar el
valor de λ que maximiza el logaritmo neperiano de dicha probabilidad, porque el

logaritmo es una función monótona creciente. Por lo tanto, tenemos que:
ln P X T
= 1 = ∂ ln ⎛e−λT ⋅λT ⎞ = ∂ −λT + lnλ+ lnT = −T + 1
e igualando dicha derivada a cero (para hallar el punto crítico), se tiene que
λ=1 T , como habíamos concluido antes.
4) Considere la confección de Galletas “La Abuela”, en la que el número de pasas en cada

galleta de avena es una variable aleatoria de tipo Poisson con un promedio de 1,5
pasas por galleta.
a) ¿Cuál es la probabilidad de tener una o más pasas en una galleta de avena

seleccionada al azar?
b) En vista de que los clientes han protestado, la Abuela ha dado instrucciones a

sus empleados que desechen las galletas de avena sin pasas. ¿Cual es la
esperanza matemática y la varianza del número de pasas por galleta en las
galletas restantes?
Solución:
Sea X el número de pasas de una galleta escogida al azar, donde
P{X = k}= e−1,5 1,5k .

k!
122
Por lo tanto, P{X = 0}= e−1,5 = 0,2231 y en consecuencia,
P{X ≥1}=1− P{X = 0}= 0,7769, lo cual responde a la primera parte de la

pregunta.
Esta probabilidad de 0,7769 será considerada como la probabilidad total en la
distribución de pasas en las galletas remanentes, que contendrán como mínimo 1
pasa. Por lo tanto, la distribución de probabilidad (truncada) de la cantidad de pasas
en las galletas con por lo menos una pasa será:
⎪e
P{X'= k}= ⎧ ⎨ −1,5 0,77691,5k ⋅k! para k ≥1
⎪⎩ 0 caso contrario
De ahí, la esperanza de X’ es
∞E [ X']= ∑e−1,5 0,77691,5k ⋅k! ⋅k = 0,77691,5

e−1,5 k∑∞=01,k5! k =1,9308
k=1
Y para calcular la varianza:
E
−1,5 1,5
k=1 0,7769
⋅k!
=2 0,7769⋅k!
=e =
De donde E y finalmente:
[ ]
V[X']= E X'2 −E2[X']=4,8269−1,93082 =1,0989
123
1) Demuestra que la siguiente función es una función de probabilidad y deduce la
esperanza matemática y la varianza de la variable aleatoria correspondiente:
⎧⎪λx e−λ x ∈N≥0 pX

(x)=⎨ x!
⎪⎩ 0 x <0
2) Sea p(x;λ) la función de probabilidad de Poisson con parámetro lambda.
Demuestra la siguiente fórmula de recursión:
λ
p(x+1;λ)= p(x;λ) x+1
3) El número de partículas emitidas de una fuente radioactiva durante un periodo de

tiempo es una variable aleatoria con distribución de Poisson y la probabilidad de que
no haya emisiones es de 13. calcula la probabilidad de tener 2 o más emisiones en
ese lapso de tiempo.
4) Considérese el torneo de fútbol americano que se efectúa entre los 28 equipos que
constituyen la Liga Nacional de Fútbol (NFL) donde nos interesa el número de
anotaciones (touchdowns) de cada equipo por juego. En base a la siguiente tabla,
que muestra la estadística de frecuencias del número de anotaciones por equipo por
juego, ajusta el número de anotaciones a una variable aleatoria distribuida según
Poisson. En base a este ajuste, ¿consideras que la distribución de Poisson es un
modelo matemático adecuado para este fenómeno?
Número de anotaciones Número de veces observada por

equipo y juego (frecuencia absoluta)
0 35 1 99
2 104
3 110
124
4 62
5 25
6 10
7 o más 3
Totales 448
5) Supóngase que en un recipiente que contiene 10.000 partículas, la probabilidad de

que se escape una es de 0,0004 y cada escape ocurre de forma independiente.
¿Cuál es la probabilidad de que en ese recipiente ocurran 5 o más escapes?
6) Supóngase que una operadora de tele-mercadeo recibe una llamada con

probabilidad 0,01 y ninguna llamada con probabilidad 0,99 en un segundo. Utiliza
la aproximación de Poisson para calcular la probabilidad de que la operadora no
reciba llamadas si se ausenta durante 5 minutos para tomarse un café y compárala
con la probabilidad binomial correspondiente.
7) En un artículo publicado en una revista médica especializada se reporta que para un

paciente diabético, insulina-dependiente de edad entre 30 y 40 años, la probabilidad
anual de contraer retinopatía diabética (ceguera) es de 0,0067. En un grupo de 1000
pacientes con estas condiciones, ¿Cuál es la probabilidad de que se den 4 o más
casos de ceguera causada por diabetes el próximo año?
8) En un hospital, se le hicieron pruebas a 3741 recién nacidos de los cuales 30

resultaron HIV-positivos. En una muestra aleatoria de 500 pacientes tomados de
esta población, ¿cuál es la probabilidad de que exactamente 10 de ellos resulten
HIV-positivos? Justifica el uso de la distribución hipergeométrica para encontrar
dicha probabilidad y aproxima esta probabilidad mediante la función de Poisson.
9) Supóngase que el 1,5% de las familias en Caracas tienen un ingreso anual por
encima de los 30.000,00 Bs. F. Calcula la probabilidad de que al seleccionar una
muestra aleatoria de 60 familias caraqueñas, a lo sumo 2 tienen ingresos superiores
a los 30.000,00 Bs. F.
125
10) Al transmitir números binarios de n dígitos mediante un componente electrónico, se
introducen errores en la transmisión de cada bit de forma independiente y aleatoria
con una probabilidad constante p = 0.0002. Si se transmiten 1000 números binarios
de 64 bits cada uno por microsegundo, determina:
a) ¿Cuál es la probabilidad de transmitir un número de 64 bits con cero, uno o

más errores?
b) ¿Cuál es la probabilidad de que se transmitan exactamente diez números

incorrectamente en el transcurso de un microsegundo?
11) En una manufactura de botellas de vidrio pueden encontrarse partículas extrañas en

el vidrio fundido. Si una de tales partículas se encuentra en el vidrio de una botella,
dicha botella es defectuosa y debe ser descartada. Suponemos que estas partículas
se encuentran distribuidas en el vidrio fundido de forma uniforme y aleatoria, y que
en promedio, se tienen 30 partículas por cada 100 kg. de vidrio fundido y que se
requiere 1 kg. de vidrio fundido para fabricar cada una de las botellas. Determina
que porcentaje de las botellas deben ser descartadas. (Ayuda:
la respuesta no es 30%)
12) En un consultorio médico llegan en promedio 15 pacientes diarios según un proceso

de Poisson. ¿Cuántos pacientes deben ser admitidos diariamente a consulta si la
gerencia desea estar segura con un 85% de confianza de no dejar de atender
pacientes en un día?
13) Considera un proceso de Poisson homogéneo {N(t)t >0}. Demuestra que
para s < t , N(s)N(t)= n es una variable aleatoria Binomial con n ensayos y
probabilidad de éxito s t .
126
14) Considérese un proceso de Poisson homogéneo {N(t)t >0} con tasa l.
Calcule su núcleo de covarianza K(s,s + t) con s,t >0.
( )
15) Demuestra por el método de inducción completa que Pn (t ) = e −λt ⋅ λt , n!
partiendo de la ecuación 4.7 dada en este capitulo.
16) Como ejemplo de una distribución aleatoria de puntos en el espacio, se da a

continuación una tabla basada en estadísticas referentes a la cantidad de impactos
de bombas volantes alemanas tipo V-2 sobre Londres durante la segunda guerra
mundial. El área total expuesta a bombardeo se subdividió en 576 áreas pequeñas
de 14km2 cada una, registrando el número de áreas Nk en que hay exactamente k
impactos.
k 0 1 2 3 4 5 o más Total
N
k 229 211 93 35 7 1 576
a) ¿Cuántos impactos de bombas volantes se registraron en total, según la

estadística anterior?
b) Determina el promedio de impactos por área de 14km2.
c) Determina el ajuste de impactos por área de 14km2 a una distribución de
Poisson y verifica que el modelo de Poisson se ajusta bastante bien a este

fenómeno.
d) Según las condiciones que dan origen al proceso de Poisson, interpreta y

deduce las implicaciones de que el fenómeno descrito sea un proceso de
Poisson.
127
17) En el bosque de Nunca Jamás, los árboles se distribuyen según un proceso Poisson
espacial homogéneo en dos dimensiones a razón de 50 árboles por hectárea. ¿Cuál
es la distancia promedio entre un árbol y el árbol más cercano?
18) Sea {T n∈N }

n
+
una secuencia de variables mutuamente independientes e
idénticamente distribuidas según una distribución exponencial con
parámetro l. ¿Qué tipo de proceso estocástico es {T n∈N }?

n
+
¿Es
estrictamente
estacionario? ¿Es débilmente estacionario? Razona tu respuesta.
19) Supóngase que los tiempos entre eventos de un proceso (que llamaremos
incrementos) son mutuamente independientes e idénticamente distribuidos y
defínase una caminata aleatoria {S n ∈N } del modo usual como la suma

n
+
de n incrementos positivos independientes. Sea {N(t) = n} el suceso siguiente:
“Hasta el momento t, han ocurrido exactamente n eventos”. Utiliza el álgebra de

conjuntos y los axiomas básicos de la probabilidad para demostrar la siguiente
equivalencia: P{N(t) = n} = P{Sn ≤ t}− P{Sn+1 ≤ t}.
20) Considérese un proceso de Poisson homogéneo {N(t)t >0} con tasa l y la secuencia
aleatoria {S n
n ∈N+} son los tiempos de ocurrencia de eventos
asociados a este proceso de Poisson. Calcula P{S3 ≤ xN(t)=10},

con
0≤x≤t.
128
21) Realiza una simulación por computadora de un proceso de Poisson con intensidad
promedio de 2 sucesos por unidad de tiempo. Utilizando dicha simulación estima:
a) P {N[ , ] = 2}, donde N[ , ] representa la cantidad de sucesos ocurridos en el

24 24
intervalo [2,4].
b) P{3≤ S3 ≤5}, donde S3 es el instante en que ocurre el tercer suceso.
22) Un vendedor de perrocalientes observa que aún cuando sus clientes asiduos no
llegan en intervalos de tiempo regulares, no obstante arriban según un proceso de
Poisson con una tasa de llegada promedio de un cliente por minuto. Un día le dice
a un amigo que le haga guardia en su carrito de perro calientes mientras el se
ausenta por 5 minutos. A su regreso, el amigo le dice que en los cinco minutos
llegaron 4 clientes. “Descríbemelos por alguna característica única a cada uno y te
diré el momento en el cual llegaron”, le respondió el perrero. Calcula la probabilidad
de que el perrero pueda identificar correctamente los tiempos de llegada de cada
cliente si para cada cliente indica un intervalo de dos minutos dentro del cual se
asegura que ese cliente llegó.
129

Procesos Estocasticos

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Procesos Estocasticos

Caricato da

Copyright:

Formati disponibili

Apuntes del curso de Procesos

Autor: Prof. José Loreto Romero Palma

El aporte original en el presente tratamiento del tema es el énfasis en la simulación

El texto esta organizado en seis capítulos. En el primer capítulo se da un repaso de la

2.1. Definición y ejemplos de procesos

3.1 El proceso de Bernoulli

1.1 Experimento aleatorio. Espacio muestral. Eventos

El objetivo fundamental de la teoría de la probabilidad es la descripción matemática de

elementales, bajo la acepción de subconjuntos unitarios, forman una partición de Ω: su

), el álgebra de eventos es cerrada bajo las intersecciones finitas también. Denotaremos

condición adicional sobre ℑ: Si {An }⊂ ℑ es una sucesión numerable de eventos, entonces

su unión infinita también es un evento –

A modo de ejemplo, si el experimento aleatorio consiste en escoger al azar una persona

numerable y finito. Si estamos interesados en el evento “la persona es nacida en el mes

de enero”, este evento se podría definir como E ={1,2 ,31}.

Análogamente, si estamos interesados en el evento “la persona es de signo acuario en el

Las bases matemáticas de la teoría de probabilidades moderna se deben a elaboraciones

Definición (Axiomas de Kolmogorov): Sea (Ω,ℑ) un espacio muestral con su respectiva σ-

b. Si {An}⊂ℑ es una sucesión de conjuntos disjuntos dos a dos, entonces

Esta es la propiedad de σ-aditividad.

En este caso se dice que (Ω,ℑ,P) es un espacio de probabilidad.

1.2 Variable aleatoria. Distribución de probabilidad. Tipos de variables aleatorias.

El concepto de variable aleatoria es substancial y de mucha utilidad en el estudio

Definición (Variable Aleatoria): Sea (Ω,ℑ,P) un espacio de probabilidad. La variable

muestral un valor real. Adicionalmente, la variable aleatoria es una función medible,

La variable aleatoria traduce eventos en el espacio muestral a intervalos o subconjuntos

Definición (Función de Distribución de Probabilidad): Sea (Ω,ℑ,P) un espacio de

F(x)= P{X ≤ x}= P{ωX(ω)≤ x}

Habiendo hecho esta definición, se esclarece el comentario anterior sobre la propiedad

probabilidad asociada y por lo tanto se indefiniría la función de distribución de probabilidad,

denomina a veces función acumulada de probabilidad, se mencionan:

i. F es una función creciente que toma valores en [0,1].

ii. F(-∞)=0 y F(∞)=1.

p(x)= P{X = x}= P{ωX(ω)= x}

f (x)≥ 0 para todo x y F( ) dt

Una vez establecidas las definiciones básicas de variable aleatoria, distribución de

1.3. Valores esperados: esperanza y varianza.

Dos características importantes de una variable aleatoria son su tendencia central y su

Para el caso de la variable absolutamente continua se tiene que su esperanza es:

• Si X es una variable aleatoria degenerada (que asume un valor constante C con

• Sea C una constante y X una variable aleatoria, entonces E[CX]=C⋅E[X].

observando que los límites de integración se redefinen de acuerdo a los límites de

La varianza, que indica el grado de dispersión de una variable aleatoria respecto a su

Algunas de sus propiedades notables son:

• Para toda variable aleatoria X, V[X] ≥ 0 • Si C es una constante, V[CX]=

• Si A es una constante, V[X + A]=V[X].

P[X −μ ≥ε]≤ V[X2 ] y, recíprocamente, P[X −μ <ε] >1− V[X2 ] ε

probabilidad de la variable compuesta a través del análisis de su función característica o

1 .4. Función característica y función generatriz. Propiedades y tablas.

El interés en la Estadística de la función generatriz de una variable discreta y la función

los límites de la sumatoria definidos en aquellos puntos donde la función de probabilidad

Las funciones características de algunas variables aleatorias discretas y continuas más

Otra propiedad interesante de la función característica es que existe una correspondencia

Sean F(x) y ϕ (u) la función de distribución y la función característica de una variable

Como consecuencia de este teorema, se tienen los siguientes resultados: T

lim 1 −iux (u)du . Si X es

En el caso continuo, la función de densidad de X es dada por fX du .

Por último es importante notar, aún adelantándose a la exposición de la independencia

2 RIOS, pp. 96-97

p(k) = g (kk)! (0) , para k =

ii. E[X(X −1)(X − k +1)]= g (k )

orden k para la variable X.

Como la función característica la función generatriz determina unívocamente la ley de