Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Estocásticos
Curso dictado en la UNEFA- Núcleo San Tome
Departamento de Ingeniería de Sistemas
Revisión: 25/enero/2008
i
El nivel de conocimientos previo requerido por parte del alumno equivale al de un
estudiante que haya cursado alguna asignatura de probabilidad elemental y los
respectivos cursos de matemáticas del ciclo básico de ingeniería, que abarcan temas de
cálculo diferencial, integral, series y ecuaciones diferenciales. Compensar las fallas en el
proceso de aprendizaje de la teoría de las probabilidades e introducir una mayor
rigurosidad de estos temas a fin de preparar al alumno para el resto del contenido es
justamente el objetivo del primer capítulo. Este primer capítulo esta intencionalmente
redactado en un lenguaje más formal – es una suerte de “bautismo por fuego” para templar
a mis alumnos en su proceso de formación como futuros profesionales. En compensación
incluyo como apéndice una sección con tips sobre demostraciones matemáticas (las
cuales surgen en buena parte de los problemas propuestos) y sobre una miscelánea de
otros temas matemáticos tales como las antes mencionadas series. Dicha sección esta
libremente inspirada en la obra de Polya titulada “Como Resolverlo” y con ella se pretende
motivar al alumno para dejar de ser un mero calculista que solo sabe aplicar las fórmulas
que le son dadas y convertirse en un analista de sistemas que entiende cabalmente los
conceptos matemáticos y que sabe cuando y cuales herramientas aplicar para resolver
problemas de la vida real. Mi recomendación general al estudiante es estudiar
detenidamente los problemas resueltos y la implementación de las simulaciones en el
texto para posteriormente realizar los problemas propuestos.
Desde una perspectiva más amplia, el contenido de este texto esta enmarcado dentro de
un componente importante en el pensum de la ingeniería de sistemas y de las ciencias de
la computación. Me refiero al conglomerado de materias tales como investigación de
operaciones, matemáticas discretas, probabilidades y estadística, métodos numéricos y
simulación y modelos matemáticos. A mi juicio, dicho componente es medular para la
formación integral de un analista de sistemas, quién debe apuntar más allá de ser un
simple tecnócrata operario de TICs (Tecnologías de Información y Comunicación). Más
bien – y esto es algo que le cuesta trabajo entender a las personas no iniciadas en el tema
– el analista de sistemas debe estar en capacidad de analizar cualquier sistema, sea éste
una empresa, una red de tráfico vehicular, la economía nacional o la sociedad. Con las
materias de este componente se pretende dotar al estudiante de herramientas para el
análisis matemático de los sistemas, cuyo fin ulterior es el de apoyar la toma racional de
decisiones y permitir medir el desempeño del decisor en aras de lograr progresivamente
un mayor bienestar colectivo. En un país como Venezuela, es verdaderamente acuciante
capacitar profesionales con estas destrezas; nuestro desarrollo como nación depende de
ello.
Quiero en estas líneas agradecer a los profesores y autores que de manera directa o
indirecta contribuyeron en mi propia formación. En particular, extiendo mis
agradecimientos a Luis A. Azocar Bates, quien fue mi profesor en la Universidad Nacional
Abierta, así como también a mis colegas y compañeros docentes, Elaine J. Pérez Bracho,
José T. Gomez Barreto y Rafael A. Rofriguez Toledo, quienes además han contribuido
con importantes sugerencias en la redacción de este material. Debo incluir palabras de
reconocimiento y de agradecimiento a mis alumnos de la UNEFA, quienes han contribuido
también con sugerencias y a quienes este libro está dedicado. Aspiro inculcar en ellos
una pasión por los temas de la investigación de operaciones y el modelamiento
matemático para que sean ellos mismos los que sigan investigando, formándose y
siempre estando a la vanguardia en esta Era de la Información. Que su nivel de
conocimientos rebase muchas veces el mío propio, que éstos sirvan al bienestar de
nuestra nación y que ésta reconozca la importancia del saber que ellos portan son mis
deseos.
iii
Tabla de contenido
Prefacio..............................................................................................................................i
Capitulo 1- Preeliminares sobre teoría de probabilidades y simulaciones........................1
1.1 Experimento aleatorio. Espacio muestral. Eventos elementales.
Probabilidad 1
1.2 Variable aleatoria. Distribución de probabilidad. Tipos de variables
aleatorias. Densidad de probabilidad..1.3. Valores esperados: esperanza y
varianza. ...................................................................................................... 6
1.4. Función característica y función generatriz. Propiedades y tablas.
................................................................ 7
Tabla 1.1. Leyes de probabilidad discretas más frecuentes y sus
características..................................................... 10
Tabla 1.2. Leyes de probabilidad continuas más frecuentes y sus
características.................................................... 12 1.5. Variables aleatorias
bidimensionales y n-dimensionales. Función de distribución conjunta. Función de
densidad
conjunta........................................................................................................................
.............................. 14
1.6. Variables aleatorias independientes y su caracterización. Covarianza.
Distribución de la suma de dos o más variables aleatorias independientes.
Convolución............................................................................................. 17 Ejemplo
para las secciones 1.5 y
1.6......................................................................................................................... 21
1.7. Introducción a la simulación estocástica mediante el lenguaje R.
................................................................. 25
Problemas Propuestos................................................................................................32
Capitulo 2- Introducción a los procesos estocásticos. Terminología y nociones
preeliminares ..................................................................................................................35
iv
4.2. Derivación axiomática del proceso de
Poisson.............................................................................................. 87
4.3. Procesos de Poisson
espaciales.................................................................................................................... 93
4.4. Distribución del tiempo inter-
eventos............................................................................................................. 98 4.5.
La distribución uniforme de los tiempos de ocurrencia de sucesos en un proceso de
Poisson................... 102
Problemas Resueltos ................................................................................................109
Problemas Propuestos..............................................................................................113
v
vi
Capitulo 1- Preeliminares sobre teoría de
probabilidades y simulaciones
Los eventos elementales se pueden componer mediante uniones para formar eventos,
que son subconjuntos del espacio muestral. La colección de eventos del espacio muestral
es un álgebra de conjuntos, porque es cerrada bajo uniones finitas y
A B y A son
complementos. En términos más sencillos, si A y B son dos eventos,
A B es el evento que se verifica cuando se verifica el evento A o el
eventos también.
1
(
evento B y A es el evento que se verifica cuando no se verifica A. Como A B = A ∪B
Por razones que van más allá del alcance teórico de este recuento, es preciso exigir una
∞ = An ∈ℑ.
n1
Un álgebra que satisface esta condición más fuerte se denomina σ-álgebra. Por ejemplo,
{∅,Ω} y ℘(Ω) (se lee “partes de omega”, que es la clase de todos los subconjuntos
posibles de Ω) son σ-álgebras. En resumen, se ha asociado a un experimento aleatorio
un conjunto de resultados posibles y una estructura matemática para definir todos los
eventos posibles.
del 1 al 365 y Ω= {1,2 ,365}. Podemos observar que el espacio muestral es un conjunto
,
2
numéricas a cada conjunto de una σ-álgebra. En nuestro caso esto es muy oportuno
porque nos preocupa asociar probabilidades a eventos, y las probabilidades son valores
numéricos que cuantifican el grado de certidumbre sobre la ocurrencia de algún evento en
la realización de un experimento aleatorio. En el lenguaje de la teoría de la medida, la
probabilidad es una medida, o función que le asigna a cada conjunto de una σ-álgebra un
valor real positivo o nulo:
a. P(Ω)=1
∞ ∞
⎛ ⎞ ∑
P ⎜ An ⎟ = P(An )
⎝ n=1 ⎠ n= 1
3
importantes que resumen numéricamente el comportamiento del fenómeno aleatorio,
como la esperanza y la varianza.
Aún cuando esta característica de las variables aleatorias como funciones medibles no se
menciona en los textos elementales de probabilidades con los que probablemente
estudiaste esta materia, se incluye en la definición anterior porque es justamente esta
característica la que posibilita el cálculo de probabilidades asociadas a intervalos reales,
la definición de funciones de distribución de probabilidad y consecuentemente, la función
de densidad de probabilidad.
{ }
de la variable aleatoria como función medible - si ωX(ω)<α ∉ℑ, dicho evento no tendría
4
porque solo tienen probabilidad aquellos eventos definidos en ℑ. Entre algunas
propiedades de la función de distribución de probabilidad, que también se
Según la naturaleza del conjunto de valores que toma X, se tienen dos tipos de variables
aleatorias. Las variables aleatorias discretas se caracterizan por ser el conjunto de valores
de X finito o por lo menos numerable. Si el conjunto de valores de X es infinito e
innumerable, X es una variable aleatoria continua. Esta distinción es muy importante
porque determina la forma en que definimos las probabilidades puntuales: para una
variable aleatoria discreta, P{X=x} es un valor positivo si x esta dentro del rango de valores
{ }
donde el evento ωX(ω)= x asume probabilidad positiva. En cambio, si X es una
variable continua, P{X=x} es invariablemente igual a cero para cualquier valor x porque si
X toma valores en un conjunto infinito, ninguna probabilidad puntual puede ser distinta de
cero.
Cuando X es una variable aleatoria, podemos definir su función de probabilidad del modo
usual:
La función de probabilidad de una variable discreta es mayor o igual a cero para todo x y
verifica que la suma de las probabilidades puntuales a través del conjunto imagen de X es
igual a uno:
∀x ∈Rp
x=− ∞
A veces, p(x) se denota por px, para enfatizar la naturaleza discreta de la variable aleatoria
(si p tiene un subíndice, los valores posibles de X son numerables). Si X es una variable
continua, no tiene sentido hablar de probabilidades puntuales porque todas son iguales a
5
cero. Se define entonces la función de densidad de probabilidad f, que se corresponde a
la derivada Radon-Nikodym de la función de distribución. Una variable aleatoria que tiene
asociada una tal función de densidad se denomina absolutamente continua, y dicha
función de densidad f(x) verifica lo siguiente:
x
Es de notar que en el caso continuo, f(x) no representa una probabilidad puntual, pues ya
hemos establecido que las probabilidades puntuales son necesariamente iguales a cero;
en cambio f(x) puede asumir valores positivos.
E[X]= ∫ x ⋅f (x)dx
−∞ en donde los límites de integración se definen convenientemente según el
espacio de valores donde f(x) es positiva. La esperanza matemática de una variable
aleatoria discreta con función de probabilidad p(x) se define como:
6
E
k=0
en donde, una vez más, los límites de integración se definen de forma conveniente. El
valor esperado de una variable aleatoria, su media poblacional, frecuentemente se
designa mediante la letra μ del alfabeto griego. A continuación se enuncian sin
demostración algunas propiedades importantes de la esperanza:
C2V[X].
7
• [ ]
V[X]= E X 2 − E2[X]. Esta última formula es particularmente útil para el
cálculo de la varianza.
Finalmente, como última nota en este aparte, se menciona la cota de Tchebyschev, que
involucra la esperanza y la varianza de una variable y es de utilidad para acotar de forma
muy aproximada ciertas probabilidades cuando no se tiene ningún conocimiento sobre la
ley de probabilidad de una variable aleatoria. Este resultado se da en sus dos formas sin
demostración:
La función característica de una variable aleatoria X tiene una definición bastante sencilla:
es la esperanza de eiuX, en donde u es una variable real. Se tiene, pues:
eiuxdF(x)
−∞
8
Como eiuX = cosux + i ⋅senux , esta función es integrable para cada u y
consecuentemente, ϕ(u) posee una parte real y una parte imaginaria. ϕX(u) también es
conocida como la transformada de Fourier de F(x). Si la variable X es absolutamente
continua, entonces
eiuxf(x)dx , con los límites de integración definidos donde f(x) sea positiva.
−∞
Si X es una variable aleatoria discreta, se tiene por definición que ϕX (u)= ∑e iux
p(x) , con
Sea X una variable aleatoria con función característica ϕ (u), entonces: ϕ(0)=1
ϕ(t) ≤1
E i
Esta última propiedad es particularmente útil, podemos calcular el momento de orden k
de una variable X derivando k veces su función característica, evaluándola en cero y
dividiendo entre ik. Generalmente, en este tipo de cálculos surgen indeterminaciones de
tipo 0/0 que se pueden resolver mediante el respectivo límite y la regla de L’Hospital.
9
varias fórmulas de “inversión” que sirven a tales efectos, como el teorema de Levy. Dichas
formulas se establecen en lo que sigue sin demostración2:
1 T e−iux1 − e−iux 2
∫
F(x2)− F(x1)=limT →∞ 2π− T iu ϕ(u)du
T →∞
En el caso en que la variable aleatoria X sea discreta y tome valores positivos, se puede
definir su función generatriz del siguiente modo:
∞ g(u) =
[ ]
E u X = ∑ p(k)u k
k=o
Siempre y cuando u este dentro del radio de convergencia de dicha serie infinita.
10
Algunas propiedades notables de la función generatriz son las siguientes:
g(z)=q+pz ϕX (u)=q+peiu
11
0≤p≤1, q=1−p, n∈N+
g(z)= (q+pz)n (
ϕX (u)= q+peiu ) n
⎩
Función generadora y función
característica: pz peiu
1 qz
12
⎪
0 x< r
⎩
Función generadora y función característica:
pz ⎞r ⎛ peiu ⎞r
⎪
pX (x)=⎨ x! 0 x<0
⎩
Función generadora y función característica:
⎧ 1 a + b (b − a)2
13
⎪0 en caso contrario
⎩
Función característica:
eiub eiua
−
ϕX (u) =
iu(b − a)
1 ⎛ 1
fX (x) = exp⎜⎜− 2⎛⎜⎝ xσ−μ⎞⎟⎠2 ⎟⎟ ⎞ ⎠ E[X]= μ V[X]=σ2
σ 2π ⎝
Función característica:
⎛ ⎞
ϕX (u) = exp ⎜iuμ− u2σ2 ⎟
1
⎝ 2 ⎠
14
futuro. El único parámetro de esta distribución λ esta relacionado con la tasa media de
eventos por unidad de tiempo y tiene la restricción de ser un valor positivo.
Función de densidad: Valores esperados:
⎩0 en caso contrario
Función característica:
−1
ϕX (u) = ⎛⎜1− iu ⎞⎟
⎝ λ⎠
Gamma- La variable aleatoria gamma representa el tiempo de espera hasta la r-ésima
ocurrencia de un fallo o evento cuando los eventos ocurren independientemente entre sí
con una tasa promedio de λ por unidad de tiempo, con los tiempos inter-eventos
distribuidos exponencialmente con el mismo parámetro. Un caso especifico de la gamma
es la distribución de Erlang, que representa la suma de r variables aleatorias
independientes distribuidas exponencialmente (en este caso, r es un número entero
positivo). La distribución ji-cuadrado, la Weibull y la exponencial también se pueden definir
como casos particulares de la gamma. Las restricciones sobre los parámetros son λ,r >
0
Función de densidad: Valores esperados:
X ⎪⎨ (λx) e λ λ
f (x) = Γ(r )
⎪
0 en caso contrario
⎩
Función característica:
−r
ϕX (u) = ⎛⎜1− iu ⎞⎟
⎝ λ⎠
Nota: La función Γ(r) es la función gamma, que se define a continuación:
15
udu, r>0
Sucede muy comúnmente que estamos interesados en investigar las relaciones que hay
entre dos o más características de los individuos de una población- esto da pie a la
definición de las variables aleatorias bidimensionales y, de forma más general, a las
ndimensionales. Este concepto pretende dar respuestas a preguntas tales como: ¿Cuál
relación existe entre la estatura y el peso corporal de cada persona? ¿Existe algún vínculo
entre el grado de desarrollo tecnológico y el porcentaje de la población que son científicos
en un país? Es importante recalcar que las variables aleatorias conjuntas se refieren a
dos o más características que se observan simultáneamente en cada individuo de una
población; están, pues, asociadas al mismo espacio muestral (ver Fig. 1.1). Así por
ejemplo, si estamos interesados en comparar las destrezas matemáticas de estudiantes
de uno y otro liceo a partir de las notas de matemática de una muestra de veinte alumnos
de cada liceo, no se puede instituir en base a esto una variable aleatoria bidimensional
porque los alumnos no provienen de la misma población (dos liceos) ni tampoco un par
de notas se refieren al mismo individuo.
16
Fig. 1.1 – Las variables aleatorias conjuntas están asociadas al mismo espacio muestral.
Como en el caso unidimesional, las variables aleatorias multidimensionales
(ndimensionales) son discretas o continuas y poseen función de distribución y función de
probabilidad o función de densidad de probabilidad según sea el caso. Los vectores
aleatorios son discretos si el producto cartesiano X1 × × X n es un conjunto finito o
numerable; en caso contrario, el vector aleatorio es continuo. Sin más preámbulos, se
especifican seguidamente las particularidades salientes de los vectores aleatorios:
ii. ( ,,xn)=1
x1=−∞ x2=− ∞
la región de valores donde p(x1 ,xn ) > 0 es igual a uno. Como en el caso unidimensional,
,
17
Función de densidad de probabilidad conjunta (caso continuo): Al vector aleatorio continuo
(X1, , Xn) se asocia una función de densidad de probabilidad f (x1,,xn) que, asumiendo
valores positivos en alguna región R del espacio n-dimensional, cumple las siguientes
condiciones:
un espacio de probabilidad (Ω,ℑ,P) tiene una función de distribución conjunta definida del
siguiente modo:
Función característica conjunta: Sea (X1, , Xn) un vector aleatorio basado en un espacio
de probabilidad (Ω,ℑ,P). Su función característica conjunta esta dada por: ϕX1,,Xn (u1,
18
Como último punto en este aparte, cabe observar que cada una de las variables aleatorias
que conforman el vector aleatorio (X1, , Xn) está asociada a un mismo espacio
X
i
probabilizado, por lo cual cada una de estas variables tiene su propia función de
probabilidad (de densidad de probabilidad, si es continua). En el contexto de las variables
aleatorias multidimensionales, la función de probabilidad (o de densidad) de cada variable
aleatoria por separado se conoce como función de probabilidad (densidad) marginal y se
obtiene a partir de la función de probabilidad conjunta sumando (o integrando) a través de
las variables aleatorias restantes.
Así por ejemplo, si tenemos el vector aleatorio (X,Y ) con su función de probabilidad
conjunta p(x,y) (o función de densidad f (x,y) si (X,Y ) es continua), podemos obtener la
El análisis de las relaciones entre las variables aleatorias de un modelo probabilístico tiene
mucho que ver con el concepto de la independencia entre variables aleatorias.
Intuitivamente, decimos que dos variables aleatorias son independientes si el resultado
observado de una variable no afecta la ocurrencia del valor observado en la otra variable.
Otra manera intuitiva de abordar la idea es considerando que si dos variables aleatorias
son independientes, la distribución de probabilidades de una de ellas permanece igual a
través de todos los posibles valores que asuma la otra variable, lo cual guarda relación
directa con la posibilidad de factorizar la función de probabilidad conjunta como el
producto de las respectivas funciones de probabilidad marginales.
19
A modo de ilustrar, se considera el siguiente ejemplo: en una población, se observa la
raza o grupo étnico de cada persona conjuntamente con su nivel de inteligencia medida a
través del coeficiente intelectual. Si el nivel de inteligencia de un individuo es
independiente de su grupo racial u origen étnico, se observará que las proporciones de
individuos inteligentes, normales y subnormales permanecerán iguales sin importar el
grupo racial o étnico considerado. Valga este ejemplo para señalar otro aspecto
importante sobre las relaciones de dependencia entre variables aleatorias: la estadística
se limita a discernir si ciertos niveles de una variable van acompañados por ciertos niveles
de otra variable- las técnicas estadísticas clásicas no permiten discernir sobre las
relaciones de causalidad de unas variables sobre otras. En nuestro ejemplo, si
encontrásemos que el origen racial no es independiente del nivel de inteligencia de un
individuo, no por esto pudiésemos concluir que ciertas razas son “más inteligentes” que
otras o dicho de otro modo, que el origen racial de un individuo explica su bajo o alto
coeficiente intelectual. Más bien, en este caso, el investigador debería evaluar si el
instrumento de medición de la inteligencia está o no diseñado de forma sesgada para
favorecer a los individuos de cierta raza por sobre los individuos de otras razas. En todo
caso, si la dependencia estocástica es equivalente a la causalidad, eso es algo que debe
responderse fuera del ámbito probabilístico.
20
Un conjunto de variables aleatorias conjuntamente distribuidas se dice ser
independiente si y solo si su función de probabilidad conjunta se puede factorizar
como el producto de las funciones de probabilidad de cada variable:
[ ] [ ]
suma de las respectivas varianzas: V X1 ++ Xn =V X1 ++V Xn [ ]
21
ϕX1,,Xn(u1, ,un ) =ϕX1(u1)⋅⋅ϕXn(un )
Esta caracterización de independencia es muy útil. Permite por ejemplo concluir
que la suma de n variables exponenciales idénticamente distribuidas e
independientes es una variable aleatoria gamma
Según las distintas caracterizaciones de independencia vistas, se tiene que dos variables
aleatorias, o son independientes o no lo son. Pero si hemos de establecer un grado o la
magnitud de la dependencia entre dos variables, una medida sería la covarianza, cuya
definición es:
el cual se puede demostrar que está acotado entre -1 y 13. En realidad, el coeficiente de
correlación mide el grado de linealidad en la relación de dos variables. Si ρ es -1, se tiene
que entre X e Y existe una relación lineal decreciente perfecta: una variable se puede
expresar como función afín de la otra y si una variable crece, la otra decrece. En cambio
ρ=1 representa una relación lineal creciente perfecta: una variable aleatoria es función afín
de la otra y ambas decrecen o crecen simultáneamente. Si ρ es cero, no existe ninguna
relación de linealidad entre una y otra variable, pero como ya se dijo anteriormente, esto
no implica necesariamente que las variables en cuestión sean independientes. Dicho sea
22
de paso, existen otras medidas de correlación un tanto más robustas que no toman la
linealidad en cuenta, como por ejemplo el coeficiente de correlación de rango de
Spearman y el coeficiente de correlación de rango τ de Kendall entre otros3.
∞ fX +Y (y) = ∫fX
(x)⋅fY (y − x)dx
−∞
pX +Y (y) = ∑ pX (x)⋅ pY (y − x)
x
resultar algo tedioso- es de este punto de donde las funciones características derivan su
importancia. Ya que la esperanza del producto de dos variables aleatorias independientes
] [ ] [ ]
⋅eiuY = E eiuX ⋅E eiuY
23
suma de variables exponenciales independientes de idéntico parámetro tiene una
distribución gamma, por ejemplo. Esta formula será de utilidad en el análisis de ciertos
procesos estocásticos.
Se lanzan dos dados y en atención al resultado, se definen las dos variables aleatorias
siguientes-
Solución:
Primero, debemos identificar el espacio muestral subyacente al experimento aleatorio
asociado al lanzamiento de los dos dados. Dicho espacio muestral se puede definir (o
modelar, si prefieres) mediante el siguiente conjunto de pares ordenados:
En palabras, Ω es el conjunto de todos los pares ordenados de números tal que cada
número representa una de las posibles seis caras del dado respectivo. Dicho conjunto
24
tiene 36 elementos y asumiendo que los dados son justos y que el lanzamiento de un dado
no condiciona el lanzamiento del otro, cada uno de estos 36 eventos elementales del
espacio muestral tiene una probabilidad asociada de 136 . Traducción al castellano: los
posibles resultados de lanzar dos dados son equiprobables.
A partir de este conjunto Ω definimos las dos variables aleatorias como en el enunciado
del problema. Estas variables pueden considerarse como características numéricas que
estarán asociadas a cada evento elemental o individuo de la población. En conjunto, se
esquematiza todo esto en una tabla:
Observamos que la v.a. X asume valores entre 2 y 12 (11 posibles valores), mientras que
Y asume dos posibles valores- 0 y 1. Para obtener las probabilidades conjuntas,
construimos una tabla de 11 columnas (cada columna representa un posible valor de X )
y 2 filas (los dos posibles valores de Y ). En cada celda, se indica la probabilidad
respectiva con que ocurre el valor (x,y). Estas probabilidades se obtienen a partir de la
tabla anterior. Por ejemplo, el par (X,Y ) = (8,1) ocurre 4 veces en 36 casos. Por lo tanto
25
Para variables aleatorias bidimensionales discretas, dicha tabla se conoce como tabla de
contingencia:
X
2 3 4 5 6 7 8 9 10 11 12
0 1/36 1/36 1/36 1/36 2/36 2/36 1/36 1/36 1/36 1/36 0
Y
1 0 1/36 2/36 3/36 3/36 4/36 4/36 3/36 2/36 1/36 1/36
columnas:
X Totales
2 3 4 5 6 7 8 9 10 11 12 fY (y)
0 1/36 1/36 2/36 2/36 1/36 1/36 1/36 1/36 0 12/36
1/36 1/36
Y
1 0 1/36 3/36 4/36 4/36 3/36 2/36 1/36 1/36 24/36
2/36 3/36
26
p(x,y) = p(3,0) = , pero pX y claramente se tiene que
Han podido considerarse otras instancias de x e y, pero bástese que no se cumpla p(x,y)
= pX (x)⋅ pY (y) para una instancia para que el par X,Y no sea independiente.
Este resultado tiene una lectura intuitiva: para que la suma X sea 2, es necesario que D1
no sea divisible entre 2 o 3. Por otro lado, para que X sea 12, es necesario que D1 sea
divisible entre 2 y 3, porque tanto D1 como D2 son necesariamente iguales a 6. Por lo
tanto, vemos que la divisibilidad de D1 por 2 o 3 condiciona la suma X; de hecho, se
observa que para distintos valores de X las proporciones de las probabilidades conjuntas
para los casos Y=0 o Y=1 son distintas. Todo esto confirma que X e Y son mutuamente
dependientes, aunque el grado de dependencia no es total.
Otra cosa que seguramente habrás notado es la razón por la cual las funciones de
probabilidad individuales de X y de Y se denominan funciones de probabilidad marginales:
siendo totales de columnas y de filas, se especifican en los márgenes de la tabla de
contingencia.
27
1.7. Introducción a la simulación estocástica mediante el lenguaje R.
4PARADIS, p. 3
5Los binarios para la instalación de R, con la documentación correspondiente se pueden
descargar a través de http://cran.r-project.org/
28
Aunado a esto, existen muchos programas en S disponibles a través del Internet que se
pueden ejecutar directamente bajo R6. El lenguaje R, siendo un lenguaje de programación
orientado a objetos, incorpora sentencias básicas de bucles y condicionamiento junto con
herramientas sofisticadas de alto nivel para el análisis estadístico, lo cual le da una enorme
flexibilidad. Por todas estas razones, el lenguaje R tiene cada vez más preponderancia
en el mundo académico y en la investigación estocástica.
• Primero, se esconde el carro detrás de una de las tres puertas (al azar).
• El jugador selecciona una de las tres puertas (escoge al azar)
• El animador (Monty Hall), sabiendo donde está el carro, escoge una puerta que no sea la
que optó el concursante ni la que contiene el carro y la abre, revelando que hay una cabra
6 Consultar en http://stat.cmu.edu/S/
29
detrás de esa puerta. Si queda una sola puerta elegible con esas condiciones, Monty la
escoge. De lo contrario, si hay dos puertas elegibles, Monty escoge cualquiera de las dos al
azar.
• Como en la simulación queremos determinar la probabilidad de ganar si el concursante
cambia de puerta, hacemos que el jugador opte una segunda vez por la puerta que no
seleccionó la primera vez ni por la puerta que acaba de abrir Monty.
• Si la segunda puerta que escogió el concursante es igual a la puerta detrás de la cual
estaba el carro el concursante gana.
30
El Encuentro
Para comenzar, denotemos por X e Y el instante de tiempo dentro de una hora a la cual
llega cada empresario respectivamente. Según la última parte del enunciado que
establece que “cada uno llega independientemente del otro y en cualquier instante
aleatorio en el lapso de esa hora”, se desprende que tanto X como Y son variables
aleatorias continuas independientes y uniformemente distribuidas entre 0 y 60 (se
trabajará el problema en base al lapso de 60 minutos). Para que los empresarios se
encuentren, la diferencia en valor absoluto de los tiempos de llegada de uno y otro debe
{
ser menor o igual a 10 minutos. Es decir, se quiere calcular P X −Y≤10 . }
Claramente, esta diferencia en valor absoluto varia entre 0 y 60 minutos, pero aún no se
ha determinado la distribución de probabilidad de X −Y.
Se supone que en este nivel, debes haber podido realizar el análisis del problema hasta
ese punto, aunque quizás no sepas como proceder a partir de ahí- es precisamente en
ayudar a dilucidar este tipo de situaciones en que radica la valía de una simulación. Para
el problema en cuestión, esta va a consistir básicamente en generar una distribución
empírica de un número suficientemente grande de valores X −Y
basados en números aleatorios uniformemente distribuidos según lo expuesto en el
análisis previo. Sin más preámbulos, se da el código de la simulación en R a continuación:
#Problema: dos personas deciden encontrarse entre las 10 y 11am, acordando
#que quien llegue primero no esperará más de 10 minutos por el otro. Si ambas
#personas llegan al azar independientemente de la otra, determinar la #probabilidad
de que se encuentren. (Problema en el aparte 1.7 del texto) #Solución por
simulación:
31
#(Autor: Prof. José L. Romero P. - 18/08/2007)
N=1000000
#¿cual es la distribución de |X-Y| si X e Y son Unif(0,60) e independientes?
x<-abs(runif(n=N,min=0,max=60)-runif(n=N,min=0,max=60))
obhist=hist(x,br=60,right=FALSE,plot=FALSE) pdf(file="encuentro.pdf")
plot(obhist,freq=FALSE, main="Histograma de frecuencia",ylab="denisdad de
probabilidad empírica") abline(a=(60/1800),b=-1/1800,col="red")
y la probabilidad teórica:
¿Cómo lo hizo y que significa la línea roja en el histograma? En primer lugar, se genero
una muestra de N=1000000 de valores X −Y aleatorios. Seguidamente, se
graficó el histograma de frecuencias con los métodos “hist” y “plot” de R. Esto
32
generó un histograma como el de la página anterior, sin la línea roja aún. Obsérvese que
los rectángulos son levemente irregulares, pero sus alturas decrecen en forma
sorprendentemente regular y lineal. La línea roja, como función de densidad teórica,
parece ajustarse bien, por lo menos intuitivamente, a lo observado. En este punto nos
damos cuenta que la función de densidad de X −Y debe ser un segmento de recta
decreciente entre 0 y 60 como la línea roja en el grafico. Un análisis más profundo revela
lo siguiente:
60−d
−
f X −Y 1 60 d , donde d asume valores entre 0 y 60.
60 − z z z
∫0 f X −Y (z)dz = ∫0 1800 dz = 30 − 3600 0 =1
33
Como se puede ver, el resultado de la simulación (0,305779) se corresponde con bastante
exactitud al resultado teórico.
En este curso se hará un uso intensivo de simulaciones como estas para apoyar los
resultados sobre los procesos estocásticos deducidos teóricamente. La discusión
detallada sobre la sintaxis del lenguaje R o las técnicas de simulación per se son
marginales a los objetivos principales de curso- por esto incluyo un breve apéndice sobre
lenguaje R y la documentación disponible como anexo de este material. Lo importante es
que sigas con detenimiento la exposición de cada uno de los ejemplos de implementación
de simulaciones y trates de compaginar esto con el desarrollo teórico de cada problema.
Así mismo, te invito a dilucidar cualquier otro aspecto teórico de la teoría de la probabilidad
y de los procesos estocásticos por ti mismo implementando simulaciones.
34
Problemas Propuestos
3) Un jugador italiano expresó su sorpresa a Galileo por observar que al jugar con tres
dados, la suma 10 aparece con más frecuencia que la 9. Según el jugador los casos
favorables al 9 y al 10 serían respectivamente:
1 2 6 1 3 6
1 3 5 1 4 5
1 4 4 2 2 6
2 2 5 2 3 5
2 3 4 2 4 4
3 3 3 3 3 4
Pero Galileo, en su libro Considerazione sopra il giuoco dei dadi, vio que estas
combinaciones no se pueden considerar igualmente probables. Explica por qué y
calcula las correspondientes probabilidades. ¿Como dilucidarías el problema
mediante una simulación?
35
4) Define “independencia entre eventos” y “eventos mutuamente excluyentes”. ¿Cuál
es la diferencia entre estos dos conceptos?
5) En una línea de producción de una fábrica en China se produce cierto tipo de artículo
y de esta producción, el 10% de los artículos salen defectuosos. Debido a la
naturaleza del proceso de fabricación, esta probabilidad es constante para cada
artículo individual en la línea de producción. Un inspector de calidad visita la fabrica
y toma una muestra aleatoria de 4 artículos. ¿Cuál es la probabilidad de que
encuentre uno o más artículos defectuosos?
P[T > 3]
b) P[T = 5]
c) P[4 ≤ T < 6]
36
Elabora un programa en R que calcule de forma aproximada la probabilidad de
observar el resultado (2,0,0). Dicho programa debe simular el experimento aleatorio
descrito un numero N suficientemente grande de veces y estimar dicha probabilidad
mediante la proporción de veces que se obtiene el resultado (2,0,0) con respecto al
número total de ensayos N.
9) Se efectúa un curioso duelo con pistolas entre tres personas, cada uno con una
determinada probabilidad de acertar el tiro según se indica a continuación:
El participante A debe escoger entre dos estrategias al comienzo del duelo: disparar
a B o disparar al aire. Si dispara al aire, no elimina a nadie. Tocándole el turno a B,
este elimina a C y cuando le toque el turno a A nuevamente, este tiene una
probabilidad de 0,3 de eliminar a B y así ganar el duelo. Si le dispara primero a B,
podría eliminarlo e intercambiar disparos indefinidamente con C hasta eliminarlo.
¿Cuál es la probabilidad de que A gane el duelo si emplea esta segunda estrategia?
¿Es menor o mayor que la probabilidad de ganar disparando al aire la primera vez?
Determina esta probabilidad analíticamente y mediante una simulación en R.
7La palabra “estocástico” es de origen griego, proviene de “stokhos”, que significa objetivo, o
blanco en el juego de dardos. “Stokhastikos”, como adjetivo, alude a apuntar bien, a quién es
37
fenómenos son: el movimiento browniano de una partícula, el crecimiento de una
población tal como una colonia bacterial, el tamaño de una cola en una estación
cliente/servidor, la recepción de una señal en presencia de ruido o perturbaciones, los
precios de un bien en un lapso de tiempo, las fluctuaciones de fortuna en un juego de azar,
etc. Existen caracterizaciones de procesos estocásticos cuya variable no es el tiempo,
sino la ubicación espacial. Ejemplos de estos procesos estocásticos espaciales son la
distribución geográfica de especies de plantas o animales y es estudio de epidemias,
donde el contagio de una enfermedad en un sitio depende de su proximidad con otros
sitios infectados. El interés principal de este curso es más bien sobre los procesos
estocásticos temporales y no sobre los espaciales.
hábil para conjeturar. El adjetivo “estocástico” fue incorporado al lexico matemático en 1953- no
está del todo claro como adquirió la acepción pertinente a “aleatorio” usada hoy en día
(REBOLLEDO, 5)
38
(Ω,ℑ,P) .
0,1,2,}. Las variables aleatorias X(t) toman valores en un espacio medible llamado
espacio de estados (state-space en ingles). Si se tiene un proceso estocástico y se fija
X (ω) se llama trayectoria del proceso estocástico
algún ω∈Ω, la función t → t
Dado un conjunto finito de n índices en T {t1 ,tn }, (X(t1),, X(tn )) es un vector aleatorio
,
39
escoger un número al azar en [0,1]. Sobre este espacio de probabilidades se definen dos
procesos:
⎩1 si t =ω
Y(t) se puede considerar como un proceso que da un salto discontinuo en un instante de
tiempo aleatorio marcando la ocurrencia de algún evento en ese instante, tal como por
ejemplo una explosión. Se puede ver intuitivamente que ambos procesos X e Y tienen las
mismas funciones de distribución finito dimensionales y sin embargo, no son el mismo
proceso.
para todo conjunto de índices {t1,,tn } y todo n, por lo cual se definen las funciones de
distribución de primer y segundo orden. La función de distribución de primer orden se
corresponde a la distribución de la variable aleatoria en un tiempo determinado:
Ft0(x0)=P{X(t0)≤ x0 }
40
de probabilidades. Repasando, la probabilidad condicional de que ocurra un evento A
conociendo la ocurrencia de un evento B es:
Esta noción se puede extender al condicionamiento de una variable Y por otra variable X
si X e Y son discretas.
x y con las
recalca que YX = m es una variable aleatoria que asume valores n
anterior asume los valores correspondientes por lo cual se puede considerar la esta como
una función dependiente de las instancias particulares de X:
41
sobre y
La expresión 2.2 se lee “esperanza condicional de Y dado que X vale α”. Como α
representa los posibles valores que toma la variable aleatoria X, se tiene que f (X ) es una
E[YX] es una variable aleatoria, lo cual le puede parecer a primera vista extraño al lector
variables aleatorias que toman valores en un conjunto E y sea Y otra variable aleatoria.
X , , X es:
La esperanza condicional de Y dada la sucesión 1 n
,
donde f esta definida para cualquier vector α1 ,αn , con αi ∈E por
42
,
La consecuente redefinición de la esperanza condicional para el caso de las X1 , X n
continuas es dada a partir de:
Propiedad 1:
Propiedad 2:
, es decir Y = f (X1 , X ),
, ,
Si Y puede escribirse como función de X1 , X n n
Propiedad 3:
[
,
]
Como E Y X1 , Xn es una variable aleatoria, esta tiene esperanza y es E E Y [ [
X1,, Xn ]]=E[Y]
Propiedad 4:
]=E[Y X ,, X ]
1 n
Propiedad 5:
X, Y,
Sean 1 , X n y 1 ,Ym dos conjuntos de variables aleatorias tales que si se
conoce los valores de uno se puede determinar los valores del
otro, entonces, para cualquier Y se [
tiene E YX1,,
Xn]=E[YY1,,Ym].
Propiedad 6:
43
Si X e Y son independientes, entonces [ ]
E XY =E[X] y E[YX]= E[Y],
casi siempre.
El Ladrón de Bagdad
El Ladrón de Bagdad se encuentra en un calabozo con tres
puertas. Una de las puertas conduce a un túnel que luego de
un día de camino regresa al mismo punto de partida. Otra de
las puertas conduce a un túnel similar al anterior cuya
travesía toma tres días. La tercera puerta conduce a la
libertad. Asumiendo que el Ladrón escoge cualquiera de las
tres puertas con igual probabilidad y que cada vez que
escoge una puerta se le ha olvidado que hay
detrás de cada puerta, encuentre la cantidad de días en promedio que el Ladrón pasará
encerrado en el calabozo desde el momento en que primero escoge entre las tres
puertas hasta que haya escogido la puerta que lo lleva a la libertad.
Cada vez que el Ladrón de Bagdad escoge una de las tres puertas constituye un ensayo
de Bernoulli con 1/3 probabilidad de éxito, entendiendo por éxito abrir la puerta que
conduce a la libertad. Un primer abordaje del problema nos motiva a considerar el número
de ensayos N que realiza el ladrón antes de conseguir su libertad, lo cual sería una variable
aleatoria geométricamente distribuida. Pero aclarando que N representa el número de
ensayos fallidos antes de escoger la puerta hacia la libertad, por lo cual su función de
probabilidad y su valor esperado son los que se dan a continuación:
44
E n=0npq n = p∑n∞=1nq n = pq∑n∞=1nq n−1 = pqn∑∞ =0 nq n−1 = pq ⋅ ∂∂q
⎛⎝⎜⎜1−1q ⎞⎟⎟⎠ =
1 q 1 2 pq 2= p = 2, ya
que p = 3, q = 3
(1− q)
SN = X1 ++ XN
Bernoulli con
E[E[SNN]]=E[E[X1 ++XNN]]
45
Habida cuenta que E[SNN] es una variable aleatoria, que los
X son variables aleatorias
i
independientes con igual esperanza y que a su vez son independientes de N, se tiene que:
46
procesos aleatorios que resumen, por lo menos parcialmente, su comportamiento. En el
caso de la variable aleatoria que estudiamos en los cursos de probabilidades, la esperanza
y la varianza juegan este papel. De forma análoga, para los procesos estocásticos se
tiene la función de valor medio y el núcleo de covarianza.
Definición (Función de valor medio): Sea {X(t), t ∈T} un proceso estocástico. Su función
m (t) y se define por:
de valor medio se denota por X
donde f (t )(x) es la función de densidad de primer orden del proceso. Es de notar que
X
Definición (Núcleo de covarianza): Sea {X(t), t ∈T} un proceso estocástico con segundo
rectilíneo no acelerado con velocidad constante. X(t) se define en función de una posición
X y una velocidad V de la siguiente forma
inicial 0
X(t) = X0 +V ⋅t
47
mX (t) = E[X(t)]= E[X0 +V ⋅t]= E[X0]+ t ⋅E[V]
[ 2 2
]
= E (X0 − E[X0]) + (s + t)⋅(X0 − E[X0])(V − E[V])+ st(V − E[V])
física se aclaran aún más las ideas expuestas hasta ahora. La trayectoria del proceso
aleatorio sería el desplazamiento de una partícula ω determinada (su gráfica de
movimiento). Tanto la trayectoria como la función de valor medio y el núcleo de covarianza
son características deterministas del proceso estocástico en el sentido en que solo
dependen de los instantes de tiempo considerados.
2.4. Incrementos independientes y estacionarios. Procesos estacionarios
48
Para un proceso de parámetro discreto, incremento se refiere a como cambia el proceso
en un paso de tiempo ( Δt =1), siendo m-incremento el cambio del proceso en m pasos
de tiempo.
Algunos autores definen los incrementos independientes con condiciones más fuertes: Si
t , también debemos suponer la
el conjunto de parámetros temporales tiene un mínimo 0
observar el proceso aleatorio es el instante cero. Incluso por convención, se asume que
(el estado inicial de un proceso aleatorio en el instante cero es cero y los incrementos
sucesivos determinan cuán lejos se desvía el proceso aleatorio con respecto a ese cero).
Y(t0) = X(t0), Y(ti ) = X(ti )− X(ti−1) para i ≥1, se hace evidente (por lo menos
49
ϕY(t0),,Y(tn )(u0, ,un ) =ϕY(t0)(u0)⋅⋅ϕY(tn )(un ) [2.5]
,un )=
o equivalentemente
u0 = z0 + z1 +zn, u1 = z1 + z2 ++zn, , un = zn
Podemos combinar las ecuaciones 2.5 y 2.6 en una sola:
respectivos.
probabilidad de los incrementos X(t1 + h)− X(t1) y X(t2 + h)− X(t2) es igual para valores
50
de los incrementos estacionarios solo depende de la amplitud del intervalo de tiempo h.
La idea de estacionariedad se puede extender a la secuencia de variables aleatorias que
conforman el proceso estocástico en sí. Sea T un conjunto de índices de linealmente
ordenados tal que la suma de dos miembros cualesquiera de T también pertenece a T y
consideremos un proceso estocástico {X(t), t ∈T} definido sobre ese conjunto de índices
(X(t1), X(t2),, X(tn )) y (X(t1 + h), X(t2 + h),, X(tn + h)) es la misma para todo t1, t2,,tn
y h en T. Un proceso estocástico es estrictamente estacionario si es estrictamente
estacionario de orden n para todo entero positivo n. Esta condición plantea que un
proceso estrictamente estacionario está en equilibrio probabilístico y que los instantes
particulares en los cuales se observan el proceso no tienen relevancia. En particular, la
distribución de X(t) es la misma para todo t.
E[X(t)X(t + h)]− m2
51
ruido blanco. Si adicionalmente E[ ]= 0, el proceso estocástico se denomina ruido
Z
i
blanco con media cero. El proceso es ruido blanco simétrico si además, la distribución de
los Zi, es simétrica, como por ejemplo la uniforme, la normal o la tStudent.
Sn = S0 + ∑Zi
i=1
efectivamente una caminata aleatoria, {Zt , t =1,2 } debe ser un proceso de ruido blanco.
,
X1,, X n ]= X n
La primera de estas condiciones es más bien para facilitar un poco las matemáticas en el
manejo de las martingalas y la segunda si resume en esencia lo que es la martingala-
establece que el valor esperado del próximo estado futuro del proceso dado toda su
historia pasada es simplemente el estado actual del proceso. En el contexto del juego de
apuestas, el proceso de martingala se denomina a veces “juego justo”, ya que sirve para
modelar la riqueza de un jugador en el tiempo cuando la ganancia o perdida esperada en
cada turno es cero. En realidad, el término “martingala” proviene del un nombre francés
52
que aludía a una estrategia de juego consistente en duplicar las apuestas hasta ganar con
seguridad8.
Un proceso de Markov {X(t), t ∈T} es aquel cuyos estado futuro solo depende del estado
presente y no del pasado. Los procesos de Markov verifican la propiedad de Markov, que
establece que
En los procesos de Markov, el estado actual del proceso incorpora toda la información que
necesitamos para estimar el estado futuro y la probabilidad de un comportamiento futuro
no se altera si incorporamos información sobre el pasado del proceso. Un proceso de
Markov con espacio de estado finito o numerable se denomina cadena de Markov, que se
estudiará posteriormente en este curso.
números naturales y con él se pretende modelar la cantidad de eventos discretos que han
ocurrido en un tiempo t. Se enuncia, pues, la siguiente definición:
proceso de Poisson con tasa media constante (o intensidad) λ si cumple las condiciones
a continuación:
intervalo de tiempo (s,t) es distribuida según la ley de Poisson con media λ(t − s). A
saber:
8 QUIDEL, p. 440
53
P{N(t)− N(s) = k}= e−λ(t−s) (λ(t − s))
k!
tiempo (s,t), el cual es amplio comparado con el tiempo medio entre impactos, puede ser
Límite, que X(t)− X(s) es normalmente distribuido. Más aún, es razonable suponer que
54
i. {X(t), t ≥ 0} tiene incrementos estacionarios e independientes.
ii. Para cada t >0 , X(t) es normalmente distribuido. iii. Para cada t
>0, E[X(t)]= 0.
iv. X(0) = 0
Problemas Resueltos
1) Demostrar que si X e Y son variables aleatorias discretas e independientes tales que
X ~ Binomial(m,p) e Y ~ Binomial(n,p), entonces
⎛ n ⎞
XX +Y = s ~Hipergeométrica ⎜n +m, s , ⎟
⎝ n +m⎠
Solución:
La suma X+Y de dos variables aleatorias binomiales e independientes es una
variable aleatoria binomial:
(
ϕX +Y (u) =ϕX (u)⋅ϕY (u) = q + peiu ) (q + pe ) = (q + pe )
m iu n iu m+n
{
condicional P X = x X +Y = s es: }
}
P{X = xX +Y = s}= P{X = x, X +Y = s = P{X = x,Y = s − x}
P{X +Y = s} P{X +Y = s}
55
⎛⎜⎝ m + n⎞⎟ sq n+m−s ⎛⎜⎜ms+ n⎞
⎟ ⎟⎠ p
⎜ s ⎟⎠ ⎝
, ,
para x =0,1 ,s y s =0,1 ,m + n . Se evidencia entonces que XX
⎛ ⎞
+Y = s ~Hipergeométrica ⎜n +m, s , n ⎟
⎝ n +m⎠
valor medio mX (t) = E[X(t)] finita. Si 0 < t1 << tn < tn+1, demuestrar que
Solución:
Para este problema se utilizarán las seis propiedades de la esperanza condicional
(ver sección 2.2) y la independencia de los incrementos.
mX (tn+1)− mX (tn )
56
Sea {X n , n =1,2 } una sucesión de variables aleatorias independientes con valor
,
3)
Sn = ∑ X i
i=1
Solución:
+ E[X n+1]=
n: 10 11 12 13 14 15
57
P(N=n): 0.05 0.15 0.30 0.30 0.15 0.05
Poisson(λp).
58
6) Sea X(t) = At + B un proceso aleatorio para el cual A y B son variables aleatorias
proceso estacionario?
10) Sea {Zn ,n ∈N} un proceso de ruido blanco con Zn ~ Normal(μ= 1,σ = 2).
Encuentra las siguientes probabilidades: a)
P{Zi > 5}
c) P{Zi =1}
12) (La cadena de Ehrenfest) Motivado por problemas relacionados con la mecánica
estadística T. Ehrenfest describió un experimento con 2 urnas, dentro de las cuales
están distribuidas N moléculas. En cada paso del experimento, se escoge al azar
59
una molécula, esta es removida de la urna en la cual se encuentra y es colocada en
la otra urna. Así, si se escoge una molécula de la urna A, esta es removida de A y
colocada en B y viceversa. El estado del proceso está determinado por el número
de moléculas presentes en la urna A a cada paso del experimento.
14) Demuestra que un proceso de ruido blanco con parámetro discreto no tiene
incrementos independientes.
15) Determina las condiciones bajo las cuales un proceso de ruido blanco es una
martingala.
16) Determina las condiciones bajo las cuales una caminata aleatoria es una martingala.
60
b) Demuestra que el jugador siempre se retira del juego con una ganancia de 1
unidad a su favor con probabilidad 1 (ie. casi siempre)
61
Capitulo 3- Procesos estocásticos basados en el
proceso de Bernoulli y caminatas aleatorias
En todos estos casos, las variables constituyentes del proceso de Bernoulli representan
experimentos aleatorios con dos posibles resultados- éxito o fracaso. En un proceso de
Bernoulli, las variables aleatorias constituyentes son idénticamente distribuidas e
62
independientes entre sí. Este modelo estocástico básico da pié a otros tipos de procesos
estocásticos que se describirán a continuación.
3.2 La cantidad de éxitos. Caminatas aleatorias basadas en procesos de
Bernoulli.
Sn =∑Xi [3.1]
i=1
Fig. 3.1
63
En el capitulo anterior se sugirió que la caminata aleatoria es un proceso con incrementos
independientes y estacionarios (ver problema propuesto N° 7 de ese capitulo). Este hecho
tiene algunas implicaciones importantes que sería conveniente resaltar:
[3.2] A partir de un instante n dado , la cantidad de éxitos que se registren en los próximos
m ensayos de un proceso de Bernoulli (Sn+m − Sn ) es independiente de la cantidad
de éxitos registrados en los n-1 ensayos anteriores.
[3.3] Más aún, por ser los incrementos estacionarios, la probabilidad de que en las
próximas m observaciones se tenga s éxitos solo depende de m y es igual a la
probabilidad de que, observando desde el principio los m ensayos, se tenga s
⎡n ⎤ n n
Existen diversas maneras de deducir esto- la vía más directa para nosotros es recurrir a
nuestro extenso conocimiento sobre las funciones características. En efecto, como los
{Si ,i ≥1} son esencialmente sumas de variables aleatorias de tipo Bernoulli con igual
parámetro p y mutuamente independientes, se tiene que:
64
(
ϕSn (u)=ϕX1+ X2++ Xn (u)=ϕXi (u)n = q + peiu ) n
⎛ ⎞s
n q n−s
, para 0≤s≤n P{Sn =
s}= ⎜⎜⎝ s⎟⎟⎠ p
En la práctica, la fórmula del teorema 3.1, en conjunción con las observaciones hechas
en la 3.2 y 3.3 son de mucha utilidad para el cálculo de probabilidades referentes a los
estados de una caminata aleatoria basada en el proceso de Bernoulli. Llegados a este
punto te sugiero que revises los problemas resueltos correspondientes.
3.3. La cantidad de ensayos hasta r éxitos: más sobre las caminatas aleatorias
basadas en procesos de Bernoulli.
el segundo éxito ocurre al quinto ensayo. De forma general, si {Ti ,i ≥ 1} es el proceso que
65
estamos definiendo, entonces, en función de la secuencia aleatoria {X k ,k ≥ 1}, Ti (ω) será
igual al índice k de aquella secuencia donde ocurre el i-ésimo éxito.
=nT1 ,Tk}=
,
Este teorema establece que los incrementos son estacionarios, ya que la anterior
probabilidad no depende de k.. Además, por lo dicho sobre la independencia de los
incrementos se puede parafrasear en el siguiente teorema, que se da sin demostración:
66
Teorema 3.3: Sea {T j , j ≥ 1} un proceso estocástico como en el teorema 3.2, entonces,
Markov. Antes de proceder, aclaremos de una vez que asumimos que T0 = 0 porque con
el 0-ésimo éxito ocurre en el 0-ésimo ensayo con probabilidad uno. Ahora surge la
pregunta: ¿Cómo se distribuyen los {T j , j ≥ 1}? Si has leído atentamente esta exposición,
⎛ n − 1 ⎞
se tiene que P{Tk =n}= ⎜⎜ k − 1⎟ ⎠ ⎟pkqn−k para n = k,k +1
,
distribuye según la ley binomial negativa. Existen varias formas de demostrar esto- la más
expedita para nosotros es tomar en cuenta que este proceso es después de todo una
caminata aleatoria; cada variable Tk es una sumatoria de k incrementos independientes e
idénticamente distribuidos, es decir:
Como damos por hecho que los incrementos se distribuyen todos según la misma ley
geométrica, entonces la función característica de Tk es:
67
⎛ pe iu ⎞k
ϕTk (u) = ⎜⎜⎝ 1− qeiu ⎟⎟⎠
⎧ n−1 p n≥k
⎪⎛⎜⎜k −1⎞ ⎟ ⎟⎠ kqn−k
apuestas se puede modelar mediante una caminata aleatoria {Fn, n∈N}, donde
Fn =∑ X i
i=0
68
cantidad y vice-versa . Para colocar las cosas más en perspectiva, entre el jugador y la
casa, siempre hay un capital total de T =X+Y BF, por ser la sumatoria de la ganancia de
los participantes igual a cero (en términos de la Teoría de Juegos, se trata de un juego de
suma cero9). Asumamos que este juego de suma cero termina cuando alguno de los
participantes se arruina, lo cual ocurre cuando la fortuna del jugador alcanza los T BF, en
cuyo caso se arruinó la casa, o la fortuna del jugador llega a 0 BF, en cuyo caso se arruinó
él. Los estados 0 y T de la fortuna del jugador se denominan barreras absorbentes, porque
una vez que la trayectoria toca alguno de esos estados, jamás sale de ellos.
9 Los juegos en los que los intereses de los jugadores son diametralmente opuestos se llaman de
suma cero. El término “suma cero” se deriva de los juegos de salón tales como el poker en el que
la riqueza ni se crea ni se destruye. Así pues, un jugador gana dinero siempre a expensas de los
otros jugadores (DAVIS, p. 28)
69
RX = P(ruina{Fn = X}) y {X n+1 =1}, {Xn+1 =−1} son eventos disjuntos y mutuamente
} }
P(ruina {Fn = X ({Xn+1 =1 {Xn+1 =−1}))=
} }
P(ruina {Fn = X {Xn+1 =1})+ P(ruina{Fn = X {Xn+1 =−1})= [3.5]
Por otro lado, utilizando en 3.2 la propiedad de las probabilidades condicionales que
establece que P(A B) = P(AB)P(B)
} }
P(ruina{Fn = X {Xn+1 =1})P({Fn = X {Xn+1 =1})+
} }
P(ruina{Fn = X {Xn+1 =−1})P({Fn = X {Xn+1 =−1})=
La última igualdad en 3.6 se debe a la independencia entre X n+1 y Fn. Aunado a eso,
} }
{Fn = X {Xn+1 =1}= {Fn+1 = X +1} y {Fn = X {Xn+1 =−1}={Fn+1 = X −1}. Por lo
tanto, factorizando las respectivas expresiones en 3.6 por P{Fn = X} y recordando que
70
digresión. Las ecuaciones en diferencias se refieren a ecuaciones que involucran
secuencias, o funciones definidas para valores enteros. Si una secuencia an está definida
explícitamente en función de su argumento entero n, determinar su valor en n es un asunto
trivial. Sin embargo, a veces las secuencias se definen de forma recursiva, relacionando
an con términos anteriores como an−1 en la misma ecuación.
p+q=1, tenemos q
⎛q ⎞ X −1
RX −RX−1 =⎜⎜p⎟⎟⎠ (R1 −R0) [3.9]
10 Ver NEUMAN
71
Con respecto a este resultado, se observan dos inconvenientes: 1) todavía se desconoce
R1 y 2) Podríamos resolver la ecuación en diferencias resultante, pero el término al lado
derecho de 3.9 depende de X (no es una constante β). Para solventar esta situación
utilizamos la propiedad telescópica de las series:
T T ⎛q⎞ X− 1
X=1 X=1⎝
R R
El panorama tiende a aclararse porque 0 y RT son conocidos: 0 =1 y RT = 0. Por lo
tanto:
⎛
⎝
1
X X⎛ q ⎞i− 1
RX − R0 = ∑Ri − Ri−1 = ∑⎜⎜ p ⎠ ⎟⎟ (R1 − R0) →
i=1 i=1⎝
72
X⎛ q ⎞i−1 X−1⎛ q ⎞i
i=1⎝
X T [3.12a]
−
R X =1− = X
T T
Si p ≠ q , entonces es fácil verificar que:
+ −
RX = 1 1− (qTp)X = (q p)T T(q p)X [3.12b]
(q p) −1 (q p) −1
73
# a=capital inicial del jugador
# c=capital total
# p=probabilidad de ganar 1 en cada turno
Probabilidad_ruina = function (a,c,p) {
cnt=0
for (i in 1:1000) cnt=cnt+Ruina(a,c,p)
cnt/1000
}
#Vector_empírico: función que arroja un vector correspondiente a las
#probabilidades de ruina para cada capital inicial entre 0 y c
Vector_empírico = function (c,p) {
x=NULL
for (i in 0:c) x=c(x,Probabilidad_ruina(i,c,p))
x
}
#Vector_teórico: función que arroja un vector correspondiente a las
#probabilidades (teoricas) de ruina para cada capital entre 0 y c
Vector_teórico = function (c,p) {
x=NULL if
(p==0.5) {
for (i in 0:c) x=c(x,(c-i)/c)}
else {
r=(1-p)/p
for (i in 0:c) x=c(x,(r^i-r^c)/(1-r^c))
}
x
}
#A continuación se generan los gráficos para distintos valores de p,
#exportandolos a un archivo .pdf llamado "Ruinadeljugador"
pdf(file="Ruinadeljugador.pdf") for (prob in seq(0.1,0.9,by=0.1)) {
plot(x=c(0:10,0:10),y=c(Vector_teórico(10,prob),Vector_empírico(10,prob)),
xlab="capital inicial",ylab="probabilidad de ruina",
main="Comparación entre probabilidades empiricas y teóricas",
sub=paste("p=",as.character(prob)),type="p",
col=c(rep("red",times=11),rep("blue",times=11)))
if (prob<=0.5) {xleyenda=2; yleyenda=0.3} else {xleyenda=6; yleyenda=0.5}
legend(x=xleyenda,y=yleyenda,fill=c("red","blue"),
legend=c("teórica","empírica"))
}
74
75
La primera gráfica corresponde a las probabilidades de ruina para distintos niveles de
capital inicial (entre 0 y 10) con una probabilidad p de ganar en cada turno igual a 0,6. En
este caso, la fórmula de la probabilidad de ruina que aplica es la 3.12b. La segunda gráfica
es similar pero con un valor p igual a 0,5. La fórmula que aplica es en este caso la 3.12a.
3.6. Duración promedio del juego y otras consideraciones sobre el problema de la
ruina del jugador
Pueden hacerse otras preguntas en torno al juego descrito en la sección anterior. Una de
ellas es: ¿Cuántos turnos dura, en promedio, el juego? Recordemos que el juego termina
cuando alguno de los jugadores se arruina (el jugador o la casa). Si el capital total es
finito, supondremos que el juego siempre terminará en una cantidad finita de partidas, aún
cuando es posible concebir, por ejemplo, una trayectoria del juego donde las partidas
resulten +1,-1,+1,-1, ad infinitum. La finitud de la duración del juego no es algo que se
76
pretende demostrar formalmente aquí- el autor solo se limita a señalar la evidencia
empírica: el programa de la simulación en R anterior, en donde se simulan series de 1000
partidas para cada nivel de capital inicial del jugador, eventualmente termina. Quizás a
modo de apología, téngase en cuenta además que el objetivo básico que nos trazamos
en este curso es que puedas complementar la verificación formal con la verificación
empírica, o valerte de la investigación empírica para inferir hechos que no estás en
capacidad de demostrar formalmente.
Dx = E[Tx ] [3.13]
A tal fin, vamos a proceder como lo hicimos en la sección anterior, partiendo de la siguiente
ecuación en diferencias:
Dx = pDx+1 + qDx−1 +1 para 0< x < T , con D0 = DT = 0 [3.14]
77
como ha transcurrido un turno se adiciona en uno la cuenta de turnos y por lo tanto las
esperanzas condicionales de Tx dado el resultado X1 del primer turno son :
p ⋅E[TxX1 =
+1] +q
⋅E[TxX1 =
−1]= p
⋅(Dx+1
+1)+
q(Dx−1
+1)= p
78
⋅Dx+1 + q
⋅Dx−1 +1
q 1
Dx+1.− Dx = (Dx − Dx−1)− [3.17] p
p
Esta forma se parece mucho a la ecuación 3.8, salvo por el sumando de c, lo cual conlleva
a abordarla mediante una ecuación en diferencias finitas como la 3.7 (ver problema
propuesto N° 6). Desde el principio señalamos que deben considerarse dos casos: p = q
y p ≠ q . Entonces se tiene:
Para p ≠ q :
x x x x
Dx+1.− Dx = ⎛⎜⎜⎝ qp ⎟⎟⎠⎞ (D1 − D0)− 1p−(1(−qqp)p) = ⎛⎝⎜⎜ qp ⎟⎠⎟⎞ (D1 − D0)− 1−p(q− q p)
[3.18a]
Para p = q :
x
Dx+1.− Dx = (D1 − D0)− = (D1 − D0)− 2x [3.18b]
79
Vamos a abordar primero el caso en que p ≠ q , que parece ser el más sencillo. Como en
el problema de la ruina del jugador, no conocemos D1 − D0. Una vez más, aplicando la
T−1 T−1 q k
T ⎛ 1⎞ ⎛
D1 − D0 + ⎟⎟T∑−1⎜⎜ q ⎞⎟⎟k = ⎜ ⎛⎜ 1 ⎞1−(q p)T
= ⎜⎜ D1 − D0 + ⎟⎟ →
p − q ⎝ p − q ⎠k=0⎝ p ⎠ ⎝ p − q ⎠ 1− q p
T 1
D1 −D0 = ( )
p)T − p −q
p1−(q
k=0 k=0⎝
k x
− x ⎛⎜D⎛⎜ q ⎞ ⎜⎛ T ⎞⎟1− (q p) − x =
)⎟⎠ 1− q p p−q
80
(
T 1− (q p)x ) x
( T
) −p−q [3.19a]
(p − q)1− (q p)
La ecuación 3.19a permite calcular la duración promedio del juego partiendo de un capital
x y en el caso p ≠ q . A riesgo de parecer repetitivos, vamos a calcular seguidamente la
duración promedio del juego en el caso p = q . Primero obtenemos la fórmula para D1 −
D0:
T−1 T−1
D1 −D0 =T−1
Si te interesa ver una forma alternativa de deducir las formulas para la duración promedio
del juego o la probabilidad de ruina del jugador puedes consultar las secciones 14 y 15
del libro de “Procesos Estocásticos” de la UNA. También es posible deducir estas
fórmulas mediante los métodos de resolución de ecuaciones en diferencias de segundo
orden. En lo tangente a las fórmulas 3.19a y 3.19b, se deja al lector como ejercicio la
verificación empírica mediante una simulación en lenguaje R (ver problema propuesto N°
13).
En estas notas dejamos por fuera otros aspectos interesantes sobre las caminatas
aleatorias unidimensionales. Tampoco mencionamos siquiera a las caminatas aleatorias
de dos o mas dimensiones. Algunas fuentes bibliográficas (ver por ejemplo
http://en.wikipedia.org/wiki/Random_walk) definen a las caminatas aleatorias de un modo
81
más especifico que la definición que nosotros hemos empleado a lo largo del presente
texto. Para estos autores, una caminata aleatoria es una trayectoria en el espacio para
la cual:
La fig. 3.2b, que representa la trayectoria de una caminata aleatoria bidimensional con
incrementos infinitesimales, es en realidad la trayectoria de un proceso de movimiento
browniano. Con un poquito de imaginación, podemos imaginarnos que el movimiento
browniano en tres dimensiones modela adecuadamente el comportamiento del humo en
un ambiente sin corrientes de aire, o el de una tinta vertida en un vaso de agua.
Fig. 3.3 – Tres caminatas aleatorias tridimensionales.
82
En el contexto de este tipo de caminatas aleatorias donde las direcciones en que se toman
los pasos son equiprobables, existen varios resultados11:
[3.21] El valor esperado de la distancia máxima al punto de partida, luego de una caminata
de n pasos, es asintóticamente igual a 2n π. Matemáticamente, si
Problemas Resueltos
83
Sección 3.1 y 3.2
Para las preguntas 1 a 4, asuma que {Si ,i ≥1} se refiere a una caminata aleatoria basada
Calcular lo siguiente:
1) P{S7 −S3 = 2}
Solución:
En virtud de lo comentado en el [3.2] y según el teorema 3.1, se tiene:
2) P{S3 = 2, S5 = 4, S11 = 7}
Solución:
P{S3 = 2}⋅P{S2 = 2}⋅P{S6 = 3}= ⎜⎛⎜⎝32⎞⎟⎟⎠p2q ⋅⎛⎜⎜⎝ 22 ⎟⎞⎟⎠p2 ⋅⎜⎛⎜⎝6 3⎞⎠ ⎟⎟p3q3 = 45p7q4
3) P{S3 = 2, S5 = 4, S6 = 3}
Solución:
De igual forma que en el problema anterior:
84
Pero la probabilidad P{S1 = −1} en la expresión anterior es igual a cero, porque los
incrementos en una caminata aleatoria basada en un proceso de Bernoulli siempre
4) E[S3S5]
Solución:
Sección 3.3
Para las preguntas 5 y 6, asumamos que {T j , j ≥ 1} caracteriza a los tiempos hasta los
respectivos j-ésimos éxitos, donde cada ensayo se basa en un proceso de Bernoulli con
probabilidad de éxito igual a p. Calcular lo siguiente:
5) P{T2 = 3,T3 = 6}
Solución:
P{T2 = 3,T3 = 6}= P{T2 = 3,T3 −T2 = 3}= P{T2 = 3}⋅P{T3 −T2 = 3}=
3 1
⎛⎜ − ⎞⎟p 2q3−2 ⋅q3−1p = 2p3q3
⎜⎝ 2 −1⎟⎠
distribuida.
6)E[T6T1,T2,T3]
85
Solución:
En lo sucesivo téngase en cuenta las propiedades 1 a 6 de la esperanza condicional
que aparecen en la sección 2.2:
[ ] [
E T6 −T3 +T3T3 =E T6 −T3 ] [
T3 +E T3 T3 = ] (propiedad 1 de la
esperanza condicional)
E[T6 − ]+T3 =
T
3 (Teorema 3.2 y propiedad 2)
T T
3 +T 3 ( 6− 3 es binom. negativa con r=3) p
En el último paso se ha podido proceder de E[T6 −T3 ]= E[T6 ]−E[T3 ] y calcular las
86
Problemas Propuestos
éxito p. Calcula [ ]
E Sn+mSn .
13 −α
87
an = a0 + nβ si α=1
a
an =αn 0 +β 1−αn si α≠ 1
8) Utiliza la propiedad telescópica de las series para demostrar que
i si ∑i= n0 x =
1− 1−xx n+ 1 x≠1
9) Desde donde está situado, un borracho está a solo un paso de caer a un precipicio.
El borracho camina de forma aleatoria: toma un paso hacia el precipicio con
probabilidad de 13 un paso alejándose del precipicio con probabilidad de 2 3.
88
13) En el problema del jugador, si p = q , ¿Cuál es el nivel de capital inicial x que
14) Verifica mediante una simulación en R las formulas 3.19a y 3.19b referentes a la
duración promedio del juego. Para el caso en que p ≠ q , asuma que p =13. En
ambos casos asuma un capital total T =10.
89
Capitulo 4- El proceso de Poisson homogéneo
Consideremos por ejemplo una central telefónica en la cual se han recibido 270 llamadas
en un periodo de tres horas (180 minutos). Consecuentemente, se reciben en promedio
1,5 llamadas por minuto y basándonos en esta evidencia, deseamos calcular la
probabilidad de recibir 0, 1, 2 o más llamadas en los próximos 3 minutos. Podríamos
dividir el lapso de 3 minutos en 9 subintervalos de 20 segundos cada uno y si suponemos
que las probabilidades de que ocurran llamadas en cada subintervalo permanecen
constantes, esto nos conduce a aproximar las probabilidades buscadas mediante la
distribución binomial. Nuestra aproximación consiste en considerar cada uno de los
nueve subintervalos como ensayos de Bernoulli en los cuales observamos una llamada
telefónica (éxito) o ninguna (fracaso), con probabilidad de éxito p = (1,5)⋅ (20 60) = 0,5.
Pero un poco de reflexión nos hace concluir que cuando mucho, este modelo es una
aproximación bastante inexacta de la situación, porque estamos ignorando la posibilidad
de que ocurran dos o más llamadas en cada subintervalo de 20 segundos y el uso del
modelo de Bernoulli supone una dicotomía en cada ensayo: o ocurre una llamada o no
ocurre ninguna.
No obstante, para minimizar la probabilidad de que ocurra dos o más llamadas en cada
subintervalo de tiempo, podríamos subdividir el lapso de 3 minutos en una mayor cantidad
90
de subintervalos más cortos. Podemos también observar si las probabilidades calculadas
tienden hacia algún valor a medida que tenemos una mayor cantidad de intervalos:
hicimos el ejercicio de calcular las probabilidades de recibir k llamadas en un lapso de 3
91
“estabilizan” alrededor de ciertos valores- no varian mucho más a medida que seguimos
aumentando el número n de ensayos. Esto nos motiva a formular la siguiente pregunta:
¿Cuál es la ley de probabilidad hacia la cual tiende la binomial a medida que n →∞ y p
→0 de modo que np permanece constante, digamos np =λ?
⎝
[4.1] k factores
)
n(n −1)(n − 2) (n − k +1 pk (1− p) n−k
k!
λ λ
Defínase λ= np , de modo que p = y 1− p =1− . n
n
Sustituyendo en la ecuación 4.1 todos los términos que involucren p por sus expresiones
equivalentes en λ obtenemos:
92
⎝ ⎠ [4.2]
k factores
λk ⎛ λ⎞n− k ⎛ ⎛ 1 ⎞ ⎛ 2 ⎞ ⎛ k −1⎞⎞
= ⎜⎝1− ⎟⎠ ⎜⎜⎝1⋅⎜⎝ 1− n ⎠⎟⋅⎜⎝1− n ⋅⎜1− ⎟⎟⎟
⎟⎠⋅ k! n ⎝ n ⎠⎠
k n −k 1 2 k1
⎛ ⎞
= ⎜1− ⎟
k! n n ⋅n ⋅ ⋅n
λ⎞ ⎛ λ⎞ ⎛ ⎞⎛ ⎞ ⎞
λ⎛ ⎛ −
93
k
λ −λ
= e k!
Teorema 4.1- (Ley de las probabilidades Pequeñas) Sea X una variable aleatoria discreta
distribuida según la ley binomial con parámetros n y p respectivos. Si n→∞ y
condiciones:
k
lim P(X = k) =e −λ λ
n→∞ k!
p→0
Este resultado es muy importante por varias razones. Una razón es que nos permite
calcular aproximadamente las probabilidades asociadas a la distribución binomial para un
número n muy grande de ensayos y una probabilidad p de éxito casi nula. El estudiante
que haya intentando calcular probabilidades binomiales que involucran números
combinatorios elevadísimos que multiplican potencias de p que tienden a cero sabrá
apreciar la valía de esta aproximación. Es por esto que el resultado anterior se conoce
como la Ley de las Probabilidades Pequeñas. De la misma forma que el Teorema de
94
DeMoivre-Laplace (una variante de la Ley de los Grandes Números) aproxima mediante
la distribución normal las probabilidades binomiales cuando n →∞ y p no tiende a cero o
a uno, la Ley de las Probabilidades Pequeñas aproxima las probabilidades binomiales bajo
las condiciones ya citadas mediante una distribución de probabilidad que el estudiante
seguramente ha identificado ya: la distribución de Poisson. Como regla práctica, se puede
confiar en esta aproximación si n ≥100, p ≤0,01 y np ≤20 14.
⎪
⎧ λx −λ x ∈N≥0 e
pX (x)=⎨ x!
⎪⎩ 0 x <0
Se le sugiere al estudiante demostrar que en efecto, la distribución de Poisson es una
distribución de probabilidad válida (Problema Propuesto N° 1). De hecho, esto se realiza
expresando eλ como una serie de Taylor.
Muertes 0 1 2 3 4 o más
Frecuencia 109 65 22 3 1
14 DEVORE, p. 131.
15 RIETZ, p. 39
95
Si suponemos que las probabilidades de k muertes accidentales por patadas de caballo
se mantienen constantes en el tiempo y a través de todos los cuerpos de la caballería del
ejercito Prusiano, estos datos nos permitirían calcular las frecuencias relativas (que se
asemejan a dichas probabilidades), dividiendo las frecuencias absolutas respectivas entre
el número total de observaciones, o sea n=200. Si en base a estas probabilidades
calculamos el número promedio de muertes anuales en cada cuerpo de caballería,
obtenemos una estimación del parámetro λ, que resulta ser igual a 0,61. Con el parámetro
λ, calculamos las probabilidades respectivas según la ley de distribución de Poisson y con
estas probabilidades, calculamos las frecuencias absolutas que cabría esperarse según
este modelo teórico. Todo esto se resume en la siguiente tabla:
Muertes 0 1 2 3 4 o más
Como se puede observar, la ley de probabilidad de Poisson modela de forma bastante fiel
el fenómeno estudiado.
Llegados a este punto, podemos entender que la ley de distribución de Poisson se adecua
a una amplia gama de fenómenos aleatorios de la vida real porque es un caso límite del
modelo Binomial, que también se asoma en muchas situaciones. De hecho, la distribución
de Poisson, junto con la normal y la binomial, son las tres distribuciones principales de la
96
teoría de las probabilidades, debido a su universalidad y grandes ramificaciones por todo
el corpus teórico16. Sin duda, la distribución de Poisson merece un análisis profundo por
sus propios meritos. Surgen dos preguntas: ¿Cómo sabemos si se reúnen las condiciones
para aplicar el modelo de Poisson a un determinado fenómeno real? ¿Como relacionamos
la distribución de Poisson y los procesos estocásticos?
16 FELLER, p. 156
97
3) Según las deducciones que culminan en la fórmula 4.3, vemos que subdividiendo el
número de ensayos del modelo binomial en lapsos temporales de amplitud
infinitesimalmente pequeña, de modo que la probabilidad de ocurrencia de dos o
más eventos en cada lapso temporal sea casi nula y manteniendo constante el
promedio de eventos que suceden a lo largo del lapso temporal total, la distribución
de probabilidad de eventos que suceden en un intervalo de tiempo es la distribución
de Poisson.
La Ley de las Probabilidades Pequeñas es una posible vía para definir el proceso de
Poisson. A continuación vamos a tomar otra vía más rigurosa- planteamos un conjunto de
axiomas o condiciones que debe cumplir el proceso y verificamos que necesariamente,
esto conduce a la distribución de Poisson. Antes definimos la terminología mediante la
cual denotaremos formalmente el proceso de Poisson:
{
parámetro temporal continuo: Z(t)t≥ 0}. Para cada instante t, Z(t) denota la
cantidad de eventos de cierto tipo que se producen en el lapso de tiempo [0,t), por lo cual
98
eventos que ocurren en otro intervalo de tiempo [y,y +Δt), siendo ambos
donde o(Δt) es una cantidad de un orden de magnitud mucho más pequeña que
Δt
o( )
lim
Δt de modo que = 0.
Δt→0 Δt
Obsérvese que las probabilidades
P
0 (Δt) y P1(Δt) son complementarias, de
modo que la probabilidad que se produzcan dos o más eventos en un lapso de
tiempo infinitesimalmente corto es despreciable. En lo anterior, λ es un
parámetro constante que representa la cantidad promedio de eventos que se
producen en un intervalo de tiempo de longitud unitaria:
Δt
99
Esto equivale a decir que P1(0)= P2(0)= ¨= 0.
de las variables aleatorias {Z(t)t≥ 0}, a saber: P{Z(t) = n}= Pn (t). Comencemos
considerando
P
0 (t + Δt)- la probabilidad de que ocurran cero eventos en el lapso de tiempo
[0,t +Δt). Para que suceda tal cosa, debe acontecer que se produzcan cero eventos en
[0,t) y cero eventos en [t,t +Δt). En virtud del axioma 1, estos sucesos son
independientes, pues [0,t) y [t,t +Δt) no son intervalos de tiempo superpuestos. Por otro
intervalo de tiempo [t,t +Δt) es igual a la probabilidad de que se produzcan cero eventos
t 0
Δ→ Δt t 0
Δ→ ⎝ Δt ⎠
P0'(t) = −λ
P0(t)
100
P
0 (t) = e−λt [4.5]
que son mutuamente excluyentes: 1) que se produzcan n-1 eventos en el intervalo [0,t) y
La ecuación 4.6 es una ecuación diferencial lineal de orden uno no-homogénea. Una
fórmula para resolver tales ecuaciones diferenciales es la siguiente17:
[
y = e − ∫ p(x)dx C + ∫q(x)e ∫ p(x )dx
dx
]
Donde C es una constante que depende del valor de y en un
punto dado (condición inicial).
17 ORELLANA, M., TORRES, E., GONZALEZ, J., MIRANDA, G., pp. 84-86
101
Sustituyendo los términos correspondientes en la formula anterior, recordando que en este
caso la variable independiente es t (no x) y teniendo en cuenta el Axioma 4 que establece
6
....
n
(λt )
No debe costarnos mucho trabajo deducir que en general, Pn (t ) = e −λt ⋅ . n!
Claro está, esto se puede demostrar por el método de inducción, lo cual se deja como
ejercicio propuesto para el estudiante (problema propuesto N° 15). Recuerde que si se
A
quiere demostrar cierta premisa n para todo n ≥0, el método de inducción consiste en
A A A
demostrar que 0 es cierto y que n ⇒ n+1.
En resumen, hemos visto en esta primera parte del presente capitulo las condiciones o
premisas bajo las cuales se produce un proceso estocástico de Poisson homogéneo. La
palabra homogéneo se refiere a que la intensidad de flujo λ es una constante en el tiempo,
esto queda establecido por el Axioma 2 referente a los incrementos estacionarios.
102
Definición (Proceso de Poisson homogéneo): Un proceso de conteo {N(t), t ≥ 0} es un
proceso de Poisson homogéneo con tasa media constante (o intensidad) λ si cumple las
condiciones a continuación:
tiempo (s,t) es distribuida según la ley de Poisson con media λ(t − s). A saber:
Esta vez, esperamos que el estudiante entienda cuales son las condiciones que dan origen
a tales procesos, porqué el número de eventos que se producen en un intervalo de tiempo
es distribuido según Poisson, y las razones por las cuales este proceso surge con mucha
frecuencia en el estudio de ciertos fenómenos aleatorios.
103
Fig. 4.1 – Colonias de bacterias vistas a través de un microscopio.
Los puntos oscuros representan bacterias. El plato de Petri ha sido subdividido en pequeños
cuadrantes cuya cuenta de bacterias se indican mediante los números en cada cuadrante.
104
Tabla 4.1 – Ajuste de las observaciones de la Fig. 4.1 a un proceso de Poisson espacial
λ =(
ˆ 0 ⋅ 3 +1 ⋅ 9 + 2 ⋅10 + 3 ⋅ 6 + 4 ⋅ 4 + 5 ⋅ 2) 2,1471
Promedio
estimado 34 ≈
Si asumimos que las frecuencias absolutas empíricas son lo bastante aproximadas a las
frecuencias absolutas teóricas, entonces el modelo de Poisson parece ser adecuado para
describir el fenómeno de las colonias de bacterias observadas en el plato de Petri. La
verificación de la bondad de ajuste se realiza matemáticamente mediante técnicas de
inferencia estadística que verás en cursos posteriores. Por ahora dejemos la verificación
de bondad de ajuste a un lado y abordemos las implicaciones que se desprenden de ser
este fenómeno un proceso de Poisson.
Por ejemplo, el axioma 4 establecería que en un área o volumen nulo hay cero bacterias
con certeza total. Esto tiene bastante sentido- las bacterias necesitan cierta cantidad
mínima de espacio para desarrollarse y en un espacio de área nula no puede haber
bacterias. Los axiomas 1 y 2 establecerían que en áreas no superpuestas de igual tamaño,
las cantidades de bacterias en cada área son variables independientes e idénticamente
distribuidas. Esto quiere decir que la cantidad de bacterias observadas en una esquina
del plato Petri es independiente de la cantidad de bacterias observadas en otra esquina.
Más aún, tienen la misma distribución probabilística, lo cual quiere decir que las
condiciones requeridas para el desarrollo de las actividades bacteriales son iguales en
toda el área del plato Petri. Por ejemplo, colocar un sustrato más nutritivo para las
bacterias en alguna esquina del plato Petri haría que las bacterias se concentrasen en ese
sector- se estaría violando la condición de estacionariedad de las superficies no
superpuestas de igual tamaño y el fenómeno ya no sería un proceso de Poisson
homogéneo. Dicho de otro modo, los axiomas 1 y 2 parecen indicar que los eventos en
un proceso de Poisson se distribuyen uniformemente en el tiempo (o el espacio en este
105
caso), pero esto es una cuestión que abordaremos posteriormente. Por último, el axioma
3 plantea la existencia de un parámetro λ que representa la cantidad promedio de eventos
que se producen en un intervalo de tiempo de longitud unitaria y que permanece constante
en el tiempo. En el caso de un proceso de Poisson espacial homogéneo como el que
estamos tratando, λ viene a representar la cantidad promedio de bacterias por cuadrante
(de área unitaria) observados en el plato de Petri.
En el caso en que las partículas se distribuyen en el espacio tridimensional con una tasa
promedio de l partículas por unidad de volumen, entonces la función de densidad de D es:
probabilidad de que un circulo de radio y y área πy 2 contenga cero partículas por lo tanto
{ ( ) }
P{D > y}= P N πy2 = 0 = e−πλy2
106
Ahora bien, el evento {D > y} es complementario al evento {D ≤ y}, de donde
fD e−πλy2
Observando la forma funcional 4.8a (el caso tridimensional es parecido) nos damos cuenta
que D sigue una distribución de Weibull19, cuya función de densidad se caracteriza por dos
parámetros a y b:
α⎛x
⎞
α
−⎜ f (x;α,β) = x α−1 ⋅ e ⎝β ⎠
⎜ ⎟⎟ para x ≥ 0 , cuya esperanza
y varianza son:
αβ
⎛ ⎞ ⎜⎜ ⎛ ⎞ ⎛ ⎛ ⎞⎞ ⎟
E[D] = β⋅ Γ⎝⎜ 1+ α1 ⎠ V[D] = β2 ⋅ ⎝ ⎛ Γ⎜ 1+ 2 ⎟ − ⎜⎜ Γ⎜ 1+ α1 ⎟⎠ ⎟ ⎟⎠2 ⎟⎞⎠
⎟y
⎝ α⎠ ⎝⎝
19 DEVORE, p. 176
107
G es, como sabemos, la archiconocida función gamma cuya definición y propiedades se
1
dan en la Tabla 1.2. Todo encaja a la perfección si α= 2 y β = πλ .
ˆ
intersección (λ ), lo cual realiza sumando los
108
Nw y
dividiendo entre el número de días Fig. 4.2.
Anotación de observaciones observados.
De forma semejante a como se ha planteado
en los ejemplos anteriores, nuestro valeroso
analista ajusta las observaciones a un modelo
de Poisson y verifica la bondad de ajuste de
este modelo con respecto a las observaciones.
Ahora bien, supóngase que en vez de tomar
las observaciones de este modo instalamos un
dispositivo electrónico en la intersección que
registre el tiempo (en segundos) que transcurre
entre llegadas sucesivas de carros a la
intersección (Fig. 4.3). A partir de un instante
0, comenzaríamos a cronometrar el tiempo inter-llegada de los carros. Naturalmente, esto
generaría una trayectoria del siguiente proceso estocástico:
{T n ∈N }
n
+
109
Fig. 4.3. Observación de los tiempos entre llegadas de carros en una intersección.
tiempo transcurrido entre la llegada del n ésimo vehiculo y el n-1 ésimo vehiculo. Sin
embargo, cada una de estas variables debe tener una distribución continua. Supongamos
pues que {T n
n ∈N+ } es una secuencia de variables mutuamente independientes
e idénticamente distribuidas según una distribución exponencial con parámetro l (ver
T es
problema propuesto N° 18). La función de densidad de probabilidad para cada n
entonces:
110
Sn = ∑Ti
i=1
S ?
vehiculo. ¿Se puede deducir de algún modo la distribución de probabilidad de los n
Erlang (ver tabla 1.2, distribución Gamma). Por lo tanto, su función de densidad es:
equivalente al siguiente: “El tiempo hasta que pasa el n ésimo vehiculo es menor que t y
el siguiente vehiculo (el n+1 ésimo) llega después de t”. Entonces tenemos una
equivalencia entre los siguientes dos sucesos (que se debe demostrar en el problema
propuesto N° 19:
Por ser ambos sucesos equivalentes, sus probabilidades son iguales y se tiene que:
t t
111
P n−1e−λxdx n e−λxdx
sucesos sobre el intervalo temporal infinito [0,∞) de la misma forma en que se distribuyen
puntos sobre un intervalo finito bajo la distribución uniforme. Vamos a ilustrar mediante un
ejemplo lo que se pretende establecer. Supóngase que en un horizonte de 0 a 30 unidades
de tiempo observamos un proceso de Poisson y que además, en esa “ventana de tiempo”
112
ocurrieron exactamente 31 sucesos de cierto tipo, tal como se muestra en la gráfica a
continuación (Fig. 4.4). Adicionalmente, el suceso N° 32 ocurrió después del instante de
tiempo t=30.
Fig. 4.5. Distribución de 31 puntos sobre el intervalo [0,30] según la distribución uniforme.
Es instructivo ojear el código en R que genera estas gráficas:
113
Poisson y comparación con la distribución uniforme"), xlab="Tiempos
de llegada",ylab="",yaxt="n",col=c(rep("red",times=l),
rep("blue",times=l)))
legend(x=12,y=4.5,fill=c("red","blue"),legend=c("Poisson","Uniforme"))
1) La distribución de los puntos en una gráfica y en otra no son idénticas, pero son muy
similares. Esto se debe a que el mecanismo aleatorio que las genera es idéntico en
una y en otra, resultado que pretendemos demostrar matemáticamente en lo que
sigue.
2) Hay cierta tendencia en ambas figuras a que los puntos se aglomeren unos muy
cercanos a otros. De hecho, hay algunos puntos que casi coinciden (son aquellos
círculos más “oscuros” de lo normal). En la realización del proceso de Poisson esto
tiene una explicación muy sencilla: la distancia (tiempo) que media entre dos
sucesos consecutivos es distribuida exponencialmente, como se demostró en la
sección anterior. La distribución exponencial es muy sesgada hacia la izquierda, de
modo que es más frecuente tener distancias entre puntos muy cortas. Lo mismo
ocurrirá con la distribución uniforme, pues como se va a demostrar, se trata del
mismo fenómeno aleatorio.
Previo a la demostración, vamos a introducir una idea que quizás no te sea familiar: el
concepto de lo que es un estadístico de orden. Supongamos que tenemos una secuencia
de k variables aleatorias idénticamente distribuidas e independientes entre sí. En el ámbito
de la inferencia estadística, tal secuencia se conoce como muestra aleatoria, porque se
supone que las variables se corresponden a observaciones hechas a una población. Para
hacer inferencias a partir de una muestra , componemos los valores de la misma para
114
calcular lo que se conoce como estadístico, que no es más que una función (multivariada)
de la muestra. Los estadísticos de orden son simplemente un ordenamiento de menor a
mayor de los elementos de la muestra. Así, para una secuencia de k variables aleatorias
U , U ,,U , los estadísticos de orden U 1 , U 2 ,,U k se obtienen ordenando la
1 2 k () () ( )
U1 ≤U2
secuencia original según su magnitud, de modo que siempre se cumple que: () ()
k!
fU(1),U(2),,U(k ) (t1,t2,,tk )= T k cuando 0 ≤ t1 ≤ t2 ≤ ≤ tk ≤ T [4.9]
Por otro lado, supongamos que N(T ) = k , lo que equivale a decir que hasta el instante
de tiempo T, han ocurrido exactamente k sucesos de tipo Poisson. Más precisamente,
dado que N(T ) = k , la probabilidad (condicional) de que en cada uno de los subintervalos
[t1,t1 + Δt1], ,[tk ,tk + Δtk ] del intervalo [0,T ] ocurra exactamente un suceso y fuera de
estos subintervalos no ocurra ningún suceso es:
115
k)
λΔt1e−λΔt1 ⋅ ⋅λΔtk e−λΔtk ⋅e
k
−λ(T −Δt1−−Δt Δ=t1 ⋅ ⋅Δt ⋅k!
k
Tk
e −λ T (λ )
T [4.10]
⋅
k!
La notación “delta-t” en los subintervalos [t1,t1 + Δt1], ,[tk ,tk + Δtk ] se utilizó con el
propósito expreso de que intuyas que la expresión a la izquierda de 4.11 es una función
t
de densidad conjunta (condicional) si hacemos tender los Δ i a cero (recordemos que la
Y esto es exactamente igual a la expresión en 4.9. Como quien no quiere la cosa, hemos
demostrado el siguiente teorema:
Teorema 4.3- Sea {N(t), t ≥ 20} un proceso de Poisson homogéneo con parámetro lambda.
20 ,3055).
116
S < S << S son variables aleatorias con la misma distribución que los
Poisson 1 2 k
Con esta información, vamos a echar un segundo vistazo al problema del encuentro visto
en la sección 1.7. Recordemos que el problema era determinar con cual probabilidad se
encuentran dos personas si el tiempo de llegada de cada uno es uniformemente distribuido
en el lapso de una hora e independiente del otro y además el que llega primero no espera
mas de 10 minutos (1/6 de hora) por el otro. No es que hayamos abordado el problema
mal en aquella oportunidad, pero ahora, mediante una simulación e interpretando el
teorema 4.3, lo haremos de nuevo.
Simulando los tiempos de ocurrencia de eventos en un proceso de Poisson con una tasa
lambda arbitraria (en la simulación realizamos corridas con distintos valores de lambda),
consideramos solo los casos en los cuales el segundo suceso haya sucedido antes de la
hora y el tercero después de la hora. Esto redunda en que se cumple la hipótesis del
teorema, a saber, que han sucedido dos eventos de tipo Poisson en el lapso de una hora,
o N(1) = 2. El teorema 4.3 nos asegura que bajo esta condición, los tiempos de
Cabe preguntarse si el valor del parámetro del proceso de Poisson no afecta el resultado.
El siguiente código simuló N=10000 corridas en las cuales ocurrían exactamente dos
117
> for (lambda in seq(from=2,to=10,by=2)) {
+ cnt=0
+ muestra=NULL
+ while (cnt<N) {
+ x=cumsum(rexp(lambda,n=3))
+ if ((x[2]<1)&(x[3]>1)) {
+ muestra=c(muestra,x[2]-x[1])
+ cnt=cnt+1
+ }
+ }
+ cat("lambda=",lambda,"probabilidad=",
+ mean(as.integer(muestra<1/6)),"\n")
+ }
lambda= 2 probabilidad= 0.3078
lambda= 4 probabilidad= 0.306
lambda= 6 probabilidad= 0.3082
lambda= 8 probabilidad= 0.2967
lambda= 10 probabilidad= 0.3069
>
Por supuesto, el abordaje que se le hizo a este problema en la sección 1.7 es más natural
y más directo que el que hicimos ahora. Pero con esto se pretendía trabase mayor
conocimiento intuitivo sobre lo que establece el teorema 4.3 y sobre las condiciones
necesarias para su validez. Se vuelve a recalcar que el valor particular del parámetro
lambda no esta entre estas condiciones necesarias.
118
Fig. 4.5- Densidades empírica y teórica para el problema del encuentro en la sección
1.7.
Las implicaciones del teorema 4.3 se pueden enlazar con todo lo que hemos visto hasta
ahora del proceso de Poisson homogéneo, en particular, las consideraciones que hicimos
para los procesos de Poisson espaciales. De hecho, las condiciones de estacionariedad
e independencia de los incrementos, que caracterizan al proceso de Poisson homogéneo
implican que en cualquier punto de una determinada área existe igual probabilidad de
ocurrir un suceso que en otro lugar. En la terminología del teorema 4.3 diríamos que el
proceso de Poisson espacial distribuye puntos sobre un área o volumen uniformemente.
Por otro lado, vista la relación entre la uniforme y la exponencial que se da en el proceso
de Poisson, cuando se distribuyen puntos en el espacio de forma completamente aleatoria
y uniforme, ocurre cierto aglutinamiento. ¿Quizás por eso es que las estrellas y otros
cuerpos celestes forman conglomerados como galaxias y constelaciones?
Problemas Resueltos
119
1) Cierta enfermedad no contagiosa afecta en promedio a una persona de cada mil en la
población. ¿Cuál es la probabilidad de que ocurran al menos dos casos, ningún caso
y exactamente un caso en un pueblo de 3000 habitantes?
Solución:
Como la enfermedad es no contagiosa, su presencia en cualquier habitante del
pueblo es independiente del resto de las personas. Por lo tanto un modelo razonable
de la situación es suponer que se trata de 3000 ensayos de Bernoulli con
probabilidad de éxito de 0,001. Usamos en este caso la aproximación de Poisson
con parámetro λ= np = 3, de donde obtenemos:
Solución:
El evento cuya probabilidad deseamos calcular se puede escribir como
120
3) Los clientes llegan a la sucursal de un banco de acuerdo con un proceso de Poisson
Solución:
Para determinar completamente la distribución de la variable aleatoria X, basta con
tres:
1 es a T como λ es a 1, de donde λ= 1T .
121
Encontrar el valor de λ que maximiza esta probabilidad es equivalente a encontrar el
ln P X T
e igualando dicha derivada a cero (para hallar el punto crítico), se tiene que
Solución:
Sea X el número de pasas de una galleta escogida al azar, donde
122
Por lo tanto, P{X = 0}= e−1,5 = 0,2231 y en consecuencia,
⎪e
P{X'= k}= ⎧ ⎨ −1,5 0,77691,5k ⋅k! para k ≥1
⎪⎩ 0 caso contrario
De ahí, la esperanza de X’ es
k=1
Y para calcular la varianza:
E
−1,5 1,5
k=1 0,7769
⋅k!
=2 0,7769⋅k!
=e =
De donde E y finalmente:
[ ]
V[X']= E X'2 −E2[X']=4,8269−1,93082 =1,0989
123
Problemas Propuestos
1) Demuestra que la siguiente función es una función de probabilidad y deduce la
esperanza matemática y la varianza de la variable aleatoria correspondiente:
⎪⎩ 0 x <0
λ
p(x+1;λ)= p(x;λ) x+1
4) Considérese el torneo de fútbol americano que se efectúa entre los 28 equipos que
constituyen la Liga Nacional de Fútbol (NFL) donde nos interesa el número de
anotaciones (touchdowns) de cada equipo por juego. En base a la siguiente tabla,
que muestra la estadística de frecuencias del número de anotaciones por equipo por
juego, ajusta el número de anotaciones a una variable aleatoria distribuida según
Poisson. En base a este ajuste, ¿consideras que la distribución de Poisson es un
modelo matemático adecuado para este fenómeno?
0 35 1 99
2 104
3 110
124
4 62
5 25
6 10
7 o más 3
Totales 448
9) Supóngase que el 1,5% de las familias en Caracas tienen un ingreso anual por
encima de los 30.000,00 Bs. F. Calcula la probabilidad de que al seleccionar una
muestra aleatoria de 60 familias caraqueñas, a lo sumo 2 tienen ingresos superiores
a los 30.000,00 Bs. F.
125
10) Al transmitir números binarios de n dígitos mediante un componente electrónico, se
introducen errores en la transmisión de cada bit de forma independiente y aleatoria
con una probabilidad constante p = 0.0002. Si se transmiten 1000 números binarios
de 64 bits cada uno por microsegundo, determina:
la respuesta no es 30%)
probabilidad de éxito s t .
126
14) Considérese un proceso de Poisson homogéneo {N(t)t >0} con tasa l.
( )
15) Demuestra por el método de inducción completa que Pn (t ) = e −λt ⋅ λt , n!
k 0 1 2 3 4 5 o más Total
N
k 229 211 93 35 7 1 576
127
17) En el bosque de Nunca Jamás, los árboles se distribuyen según un proceso Poisson
espacial homogéneo en dos dimensiones a razón de 50 árboles por hectárea. ¿Cuál
es la distancia promedio entre un árbol y el árbol más cercano?
estrictamente
19) Supóngase que los tiempos entre eventos de un proceso (que llamaremos
incrementos) son mutuamente independientes e idénticamente distribuidos y
20) Considérese un proceso de Poisson homogéneo {N(t)t >0} con tasa l y la secuencia
aleatoria {S n
n ∈N+} son los tiempos de ocurrencia de eventos
0≤x≤t.
128
21) Realiza una simulación por computadora de un proceso de Poisson con intensidad
promedio de 2 sucesos por unidad de tiempo. Utilizando dicha simulación estima:
intervalo [2,4].
22) Un vendedor de perrocalientes observa que aún cuando sus clientes asiduos no
llegan en intervalos de tiempo regulares, no obstante arriban según un proceso de
Poisson con una tasa de llegada promedio de un cliente por minuto. Un día le dice
a un amigo que le haga guardia en su carrito de perro calientes mientras el se
ausenta por 5 minutos. A su regreso, el amigo le dice que en los cinco minutos
llegaron 4 clientes. “Descríbemelos por alguna característica única a cada uno y te
diré el momento en el cual llegaron”, le respondió el perrero. Calcula la probabilidad
de que el perrero pueda identificar correctamente los tiempos de llegada de cada
cliente si para cada cliente indica un intervalo de dos minutos dentro del cual se
asegura que ese cliente llegó.
129