Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
X1
X
X
2
3
X
X
X
X8
fY(y|H )
fY(y|H )
Y
m0
t*
m1
Universidad de Valladolid
Serie: INGENIERA, n 12
Universidad de Valladolid
Secretariado de Publicaciones
e Intercambio Editorial
A quien fue,
a quien es,
a quien no pudo ser
y a quienes ser
an.
Pr
ologo
Este libro es el resultado de los diez a
nos de docencia en la materia
de Teora de la Probabilidad y Se
nales Aleatorias que, en el momento de
redaccion de este prologo, el autor del mismo ha impartido en la Escuela
Tecnica Superior de Ingenieros de Telecomunicacion de la Universidad de
Valladolid. Pretende ser, como objetivo prioritario, un manual que incluya
los conocimientos probabilsticos b
asicos que se precisan para abordar el
an
alisis y dise
no de los Sistemas de Comunicacion.
En el Plan de Estudios de la titulaci
on de Ingeniero de Telecomunicacion, tanto el que tuvo esta Escuela en su origen, como en el que actualmente
esta en vigor, la materia arriba mencionada se concentra fundamentalmente en una asignatura, a saber, Se
nales y Sistemas de Transmisi
on I en el
plan antiguo, y Se
nales Aleatorias en Ruido (SAR, en adelante), en el plan
actual. El resto de asignaturas que hacen uso de estos temas (fundamentalmente Teora de la Comunicaci
on, Teletraco, Tratamiento Digital de
la Se
nal y optativas anes as como alguna Telematica) construyen sobre
los pilares de esta. Por tanto, es SAR el soporte teorico sobre el que otras
asignaturas se basan para impartir sus conocimientos especcos.
Este libro esta dise
nado para constituir el material docente, a impartir
en un u
nico cuatrimestre, de la u
nica asignatura que proporciona formaci
on
en temas de probabilidad para los alumnos de este Plan de Estudios. Para
el autor tal armaci
on supone un reto; no es f
acil sintetizar una materia tan
amplia en un u
nico cuatrimestre, partiendo ademas de un desconocimiento
por parte de los alumnos pr
acticamente total de conceptos probabilsticos
(la experiencia dice que es el caso). Se debe por tanto hacer una seleccion
minuciosa de los temas a tratar, as como del grado de profundidad en su
tratamiento, para conseguir transmitir esta materia persiguiendo, asimismo, que el alumno pueda llegar a verla como una poderosa herramienta
que le sea u
til para abordar problemas futuros.
Dado que la materia es clasica, es evidente que existe una enorme bibliografa al respecto. Sin embargo el autor (que es ingeniero del ramo) ha
pretendido escribir un libro para ingenieros y para aspirantes a ello. Por
ello las fuentes bibliogr
acas que se han tenido presentes (vease la seccion
de Bibliografa, epgrafe Basica) responden a este perl de probabilidad
aplicada a las se
nales y comunicaciones. De tales fuentes bibliogr
acas destaca, en el campo de la Ingeniera de Telecomunicacion y, en concreto, en el
area de conocimiento de Teora de la Se
nal, la obra de Athanasios Papoulis, recientemente fallecido. Sin exageracion ninguna, esta obra es referente
mundial y cubre, con creces, los contenidos de la asignatura a que va dirigi-
10
C. Alberola L
opez
11
12
C. Alberola L
opez
Captulo 1
Teora de la Probabilidad
1.1
Introducci
on
14
C. Alberola L
opez
dicha se
nal en un cierto instante conocido el valor que ha tomado en instantes pasados. Tan solo podremos hacer una caracterizacion parcial de la
misma y as poder extraer conclusiones del tipo, por ejemplo, que valores
tpicamente toma la se
nal, con que velocidad vara etc ..., esto es, caractersticas promedio o caractersticas globales, ante nuestra incapacidad de
hacer una caracterizacion m
as pormenorizada.
Tambien en el dise
no de sistemas de comunicacion nos encontramos
casos en los que se deben tomar decisiones de dimensionamiento en ambientes de incertidumbre. Por ejemplo, si pretendemos proporcionar un
servicio telef
onico en un edicio, una posibilidad de dise
no sera colocar
tantas lneas como individuos esten presentes en dicho edicio. De esta
manera, al descolgar un telefono, el usuario tendra seguridad de disponer
de lnea telef
onica para hacer la llamada. No obstante, esta solucion es
claramente ineciente, como dicta el sentido com
un. Parece mucho mas
razonable estudiar como es el traco que tpicamente se generara en dicho
edicio (en base, por ejemplo, a mediciones de tr
aco solicitado en otros
edicios de caractersticas similares) y dise
nar el sistema de modo que la
probabilidad de disponer de lnea telef
onica al descolgar el telefono sea lo sucientemente elevada como para que el usuario, en general, disponga de la
posibilidad de comunicarse, si bien en algunos y poco frecuentes casos
esta persona tendr
a que colgar y esperar unos instantes. De esta manera
se consigue un uso de los recursos mucho mas ajustado a la necesidad real.
1.2
15
Algebra
de conjuntos
Como se pondr
a de maniesto en posteriores secciones, la teora de la probabilidad1 se asienta sobre el algebra de conjuntos, de forma que es conveniente repasar, aunque sea de manera sucinta, los conceptos basicos en
relacion con la teora de conjuntos. El lector interesado en un tratamiento
mas riguroso del que aqu se va a hacer puede consultar [2].
1.2.1
Veremos en la secci
on 1.3.3 que esta teora se dene a partir de tres axiomas, de forma
que, en sentido estricto, deberamos denominarla teora axiom
atica de la probabilidad.
16
C. Alberola L
opez
1.2.2
17
A
B
C=A-B
A UB
B
B
B
N
i=1
Ai
(1.1)
18
C. Alberola L
opez
A1 A2 . . . AN
N
Ai
(1.2)
i=1
(1.3)
A B = AB
(1.4)
=
=
N
i=1
N
Ai
(1.5)
Ai
(1.6)
i=1
(1.7)
AB = BA
(1.8)
(1.9)
A (B C) = (A B) C
(1.10)
(1.11)
A (B C) = (A B) (A C)
(1.12)
Complemento de un conjunto
El conjunto complemento (o complementario) de un conjunto A (vease gura 1.4) es el conjunto diferencia entre el conjunto universal S y el conjunto
A. Formalmente podemos escribirlo como A = S A. Es facil ver que
A A = S as como que A A = .
19
A
A
(1.13)
AB = AB
(1.14)
(1.15)
Finalmente, el principio de dualidad dice que si en una igualdad de conjuntos se reemplazan todas las uniones por intersecciones, todas las intersecciones por uniones, el conjunto S por y viceversa, la igualdad se mantiene.
Un ejemplo de ello seran las expresiones (1.11) y (1.12).
1.3
Denici
on de probabilidad
20
C. Alberola L
opez
1.3.1
1.3.2
Denici
on cl
asica
La denici
on cl
asica de la probabilidad se basa, a diferencia de la anterior,
en un an
alisis del problema en vez de en la experimentaci
on. Concretamente, dado un experimento aleatorio, la probabilidad asociada a un resultado
A se dene como
NA
(1.17)
Pc (A) =
N
asica asociada a
donde, en este caso, Pc (A) representa la probabilidad cl
dicho resultado, NA representa el n
umero de casos favorables a dicho resul-
21
tado y N el n
umero total de casos posibles. Reparese que se han empleado
la misma notacion para ambas deniciones, pero los conceptos subyacentes
son completamente distintos. Un ejemplo aclarara todava mas esta idea:
si se pretende hallar la probabilidad de que salga el resultado uno ante
el lanzamiento de un dado, para la denici
on clasica NA = 1 y N = 6.
Sin embargo, para la denici
on basada en frecuencia relativa es necesario
experimentar. Si suponemos que se lanza el dado mil veces y que sale el
otese
resultado 1 doscientas veces, entonces NA = 200 y N = 1000. N
por tanto que la denici
on clasica proporciona un valor u
nico para la probabilidad del resultado deseado, mientras que el planteamiento basado en
frecuencia relativa proporciona un resultado distinto (en general) cada vez
que se realice el experimento.
A priori, pues, parece mas interesante la denicion de la probabilidad
en su versi
on clasica, basicamente porque los resultados son siempre los
mismos y, a su vez, porque no estamos obligados a experimentar. Sin embargo, debemos notar que esta denici
on no esta exenta de inconvenientes.
Concretamente:
1. Esta denici
on lleva implcito un concepto de equiprobabilidad en los
resultados. Que sucedera en el ejemplo del dado si este fuese un dado
sesgado, es decir, si alg
un resultado tendiese a observarse de forma
mas habitual que otros? N
otese que el planteamiento clasico de la
probabilidad no sera capaz de modelar correctamente esta situacion,
si bien a traves del planteamiento basado en frecuencia relativa este
sesgo s que se hara patente.
2. Que sucedera si el n
umero de casos posibles fuese innito? En
esta situacion todas las probabilidades seran cero, si bien la realidad
puede ser muy otra.
A pesar de sus inconvenientes, el planteamiento clasico es algo intuitivo
y razonable, y funciona en un elevado n
umero de casos. No obstante, tiene
que plantearse algo mas amplio tal que, englobando a los anteriores, no se
quede atrapado en deciencias como las comentadas.
1.3.3
Denici
on axiom
atica de la probabilidad
El planteamiento axiom
atico de la probabilidad hace uso del algebra de
conjuntos vista anteriormente; necesitamos, no obstante, alguna precisi
on
terminol
ogica antes de introducir la denici
on axiomatica:
22
C. Alberola L
opez
si
AB =
A B = A (B A) = A C
B = C (A B)
P (A B) = P (A C) = P (A) + P (C)
P (B) = P (C) + P (A B)
Uniendo las dos u
ltimas ecuaciones obtenemos el resultado anticipado.
23
N
N
NAB
NA + NB
NA NB
=
=
+
= Pc (A) + Pc (B)
N
N
N
N
24
C. Alberola L
opez
que los n + 1 equipos de medida proporcionen medidas similares (es decir, que todos funcionen correctamente, afectados por
errores similares), obtenga la probabilidad de que el sistema sea
validado.
Soluci
on: Si las medidas son similares, el hecho de que la
medida de un determinado equipo sea la mayor, o la menor, o
caiga en cualquier otra posicion con respecto a las demas, se
debe exclusivamente al azar y no hay razon para pensar que
exista tendencia por parte de ninguna medida a situarse en una
determinada posicion. Por ello, si se ordenan las medidas de
manera creciente (o decreciente) cualquiera de las n + 1 medidas puede caer en cualquiera de las n + 1 posiciones de forma
equiprobable. Consideremos la posicion 1 como la asociada a la
medida m
as peque
na y la posici
on n + 1 a la mas grande. Sean
los sucesos Ai = La medida autom
atica cae en la posicion i,
i = {1, . . . , n + 1} y B = el sistema automatico es validado.
Entonces podemos escribir
P (B) = 1 P (B)
=1
=
(1.18)
n+1 n+1
n+1
n+1
Espacio de Probabilidad
Un experimento aleatorio se formalizar
a mediante la terna < S, F, P >.
El primer elemento de la terna es el espacio muestral; el segundo es la clase
de sucesos que podemos extraer del espacio muestral y el tercero es la ley
de asignaci
on de probabilidades.
Al respecto de la clase de sucesos debemos mencionar que si el espacio muestral tiene cardinal nito igual a N , la clase de sucesos tendra un
n
umero de subconjuntos igual a 2N . No obstante, si el cardinal del espacio
muestral es innito, el n
umero de subconjuntos tambien lo sera, de forma
que podramos pensar en uniones e intersecciones de innitos sucesos. Para
que el espacio de probabilidad este bien denido la clase de sucesos a considerar debe tener estructura de campo de Borel2 , esto es, la clase debe ser
cerrada frente a una cantidad numerable de aplicaciones de las operaciones
2
25
de complemento, uni
on e interseccion entre los sucesos de la clase [2]. No
obstante, no nos preocuparemos de estos detalles, y consideraremos que, a
todos los efectos pr
acticos, esto sera siempre as.
Finalmente, debemos repetir que el objetivo de la axiomatica de la probabilidad es permitir calcular las probabilidades de unos sucesos en funcion
de las probabilidades de otros que se asumen conocidas o que seran proporcionadas como datos del problema. De ah que sea necesario, para denir
completamente un experimento aleatorio, una ley de asignacion de proba
bilidades. Este
es el signicado del tercer elemento de la terna.
Respecto a dicho elemento, si el espacio muestral es nito, o si es innito
numerable, nos deben proporcionar la probabilidades de cada elemento del
espacio muestral3 . A tales probabilidades se les denominar
a probabilidades
elementales. Si, por contra, el espacio muestral es innito no numerable,
deberemos ser informados de una ley continua de asignacion de probabilidades. Esta ley sera, seg
un veremos en captulos posteriores, una funci
on
de densidad de probabilidad o, dualmente, una funci
on de distribuci
on.
Ejemplo: Supongamos que un experimento aleatorio consiste en lanzar dos dados. Nos dicen que ambos dados son
simetricos y que no existe interrelacion entre los dados, esto es,
que el lanzamiento del primero no afecta en nada al segundo, y
viceversa.
Con esta informaci
on, el experimento aleatorio queda completamente denido. Veamos que es as:
1o \ 2o
1
2
3
4
5
6
1
(1,1)
(2,1)
(3,1)
(4,1)
(5,1)
(6,1)
2
(1,2)
(2,2)
(3,2)
(4,2)
(5,2)
(6,2)
3
(1,3)
(2,3)
(3,3)
(4,3)
(5,3)
(6,3)
4
(1,4)
(2,4)
(3,4)
(4,4)
(5,4)
(6,4)
5
(1,5)
(2,5)
(3,5)
(4,5)
(5,5)
(6,5)
6
(1,6)
(2,6)
(3,6)
(4,6)
(5,6)
(6,6)
Estrictamente hablando, bastara con que nos proporcionasen todas las probabilidades menos una, ya que la suma de todas ellas debe ser igual a la unidad.
26
C. Alberola L
opez
3. Finalmente, no nos dicen de forma explcita la ley de asignacion de probabilidades. Sin embargo, nos dicen que los
datos son simetricos (luego no hay por que pensar que los
resultados no son equiprobables) y que adem
as no existe
inuencia entre ellos (luego los resultados conjuntos mantienen esa equiprobabilidad). As pues, la probabilidad de
cada resultado elemental, digamos aij , con 1 i, j 6
1
sera igual a 36
(consideremos que el ndice i direcciona las
las de la tabla, y el j las columnas). En la seccion 1.7 se
discute una posible asignaci
on de probabilidades en la que
hay equiprobabilidad de cada dado por separado, pero no
de ambos de manera conjunta.
Con ello podemos calcular la probabilidad de cualquier suceso que sea de interes. Por ejemplo, podemos calcular la probabilidad del suceso B=la suma de las componentes es igual a
7. Para ello, si denominamos Aij = {aij } entonces
P (B) = P (A61 A52 A43 A34 A25 A16 )
= P (A61 (A52 A43 A34 A25 A16 ))
= P (A61 ) + P (A52 A43 A34 A25 A16 )
..
.
= P (A61 ) + P (A52 ) + P (A43 ) + P (A34 ) +
P (A25 ) + P (A16 )
1
1
= 6 =
36
6
El paso de la primera lnea a la segunda se ha realizado aplicando la propiedad asociativa de la uni
on (expresi
on 1.9). Ello,
junto con el tercer axioma de la probabilidad, permite pasar a la
tercera lnea. La repetici
on de este proceso lleva a la pen
ultima
igualdad y, nalmente, a su valor numerico.
1.4
Probabilidad condicionada
27
(1.19)
P (A|B) =
P (A B)
P (B)
(1.20)
denici
on en la que se asume que el suceso condicionante B tienen probabilidad no nula, esto es, P (B) = 0. En lo que sigue, aunque no hagamos
mencion expresa de esta asuncion, debemos tenerla en mente siempre que
manejemos probabilidades condicionadas (de forma inmediata en las secciones 1.5.1 y 1.6, y a lo largo de los diferentes captulos).
Esta nueva denici
on debe ser coherente con los axiomas de la probabilidad. Veamos que, en efecto, as es:
0, pues es el cociente de dos probabilidades
1. P (A|B) = P P(AB)
(B)
axiomaticas y, por ello, el cociente de dos magnitudes no negativas.
2. P (S|B) =
P (SB)
P (B)
P (B)
P (B)
=1
P ((A C) B)
P (B)
P ((A B) (C B))
P (B)
P (A B) P (C B)
+
= P (A|B) + P (C|B)
P (B)
P (B)
28
C. Alberola L
opez
Ejemplo: Retomemos el ejemplo de los dos dados y pensemos que nos informan de que se ha vericado un suceso,
llamemoslo B, consistente en que ha salido al menos un seis en
las tiradas. Se pide que calculemos, en estas nuevas condiciones, la probabilidad del suceso A =la suma de las componentes
es igual a 7.
Podemos calcular dicha probabilidad en ambos experimentos:
a for1. En experimento B : el espacio muestral SB ahora est
mado por la u
ltima la y la u
ltima columna de la tabla
de resultados vista anteriormente, es decir aij SB si i =
6 o j = 6. Por tanto Card(SB ) = 11, y habida cuenta
de que los dados son fsicamente los mismos, todos los resultados de este espacio muestral son equiprobables. Por
1
aij SB . En estas condiciones:
tanto P (aij |B) = 11
P (A|B) = P (A16 A61 |B) = P (A16 |B) + P (A61 |B)
1
1
2
+
=
11 11
11
2. En experimento : aplicando la denici
on de probabilidad
condicionada (ecuacion 1.20)
P (A|B) =
=
1.5
1.5.1
P (A B)
P (A16 A61 )
=
P (B)
P (B)
P (A16 A61 )
=
P ( i=6 o j=6 Aij )
2
36
11
36
2
11
Independencia de sucesos
Independencia de pares de sucesos
(1.21)
29
P (A B)
P (B|A)P (A)
=
P (B)
P (B)
(1.22)
Si la condici
on anterior se cumple, entonces
P (A|B) = P (A) =
P (B|A)P (A)
P (B|A)
1=
P (B)
P (B)
(1.23)
P (A B)
= P (A)
P (B)
(1.24)
30
C. Alberola L
opez
P (asrey)
.
P (rey)
que tenemos en la mano es un rey (como dice el condicionante) esa carta no puede ser un as. Por tanto, el suceso
del numerador es el conjunto vaco y por tanto, la probabilidad que nos piden es nula. Estamos hablando pues de
sucesos disjuntos y, por ello, no independientes.
oros)
. Si tenemos una carta
b) P (as|oros) = P (as
P (oros)
en la mano que es un oro, la probabilidad que dicha carta
sea un as es 1 de 10 (1/10). En efecto, la probabilidad
del numerador es la probabilidad de extraer el as de oros,
esto es, 1 de 40, y la probabilidad del denominador es la
de extraer un oro, la cual, habiendo diez oros en la baraja,
es de 10 de 40.
1.5.2
31
Independencia de m
ultiple sucesos
Independencia global: P
N
Ai
i=1
p(Ai )
i=1
N
Ai
= P
i=1
AN |
= P
AN |
= P
AN |
N
1
i=1
N
1
Ai P
Ai P
i=1
N
1
Ai
i=1
N
3
AN 2 |
N 1
Ai
i=1
AN 1 |
P
AN 1 |
N
2
i=1
N
2
Ai P
N 2
Ai
i=1
Ai
i=1
(1.25)
i=1
32
C. Alberola L
opez
De hecho, existir
an muchas situaciones en que la expresion de arriba pueda
simplicarse para dar lugar a:
N
Ai
i=1
(1.26)
1.6
1.6.1
Concepto de partici
on
Una partici
on del espacio muestral consiste en un conjunto de sucesos Ai ,
i = 1, . . . , N , que cumplen las dos condiciones siguientes:
1. Ai Aj = , i = j;
2. S =
N
Ai
i=1
1.6.2
33
es una partici
on del espacio muestral, podemos escribir dicho suceso como
una superposici
on de las partes del suceso que caen sobre cada elemento de
la partici
on, es decir,
B=
N
(B Ai )
(1.27)
i=1
P (B) = P
N
(B Ai )
i=1
N
P (B Ai )
(1.28)
i=1
N
P (B|Ai )P (Ai )
(1.29)
i=1
1.6.3
Teorema de Bayes
P (Ai B)
P (B|Ai )P (Ai )
=
P (B)
P (B)
(1.30)
P (B|Ai )P (Ai )
N
j=1
P (B|Aj )P (Aj )
(1.31)
34
C. Alberola L
opez
1.6.4
El teorema de Bayes tiene un enorme interes para el planteamiento y resolucion de muchos problemas de sistemas de comunicaciones y, como es
natural, de otras muchas disciplinas. En lo que sigue, trataremos de hacer
ver la importancia conceptual del mismo.
Pensemos que un sistema de comunicaciones puede enviar, en cada instante, uno de dos posibles smbolos. Al envo del primero, digamos, el
smbolo l
ogico 0, le asociaremos el suceso H0 . Al envo del segundo smbolo, lease, el smbolo l
ogico 1, le asociaremos el suceso H1 . Tales sucesos4
llevan unas probabilidades asociadas, digamos, P (H0 ) = p0 y P (H1 ) = p1 .
Naturalmente p0 +p1 = 1. Estas probabilidades miden nuestro conocimiento previo de c
omo de probable es el envo de cada uno de los dos smbolos.
Por esta razon, es costumbre denominar a estas probabilidades probabilidades a priori, pues miden, en ausencia de observacion ninguna, nuestro
estado de conocimiento del problema.
Supongamos que a cada smbolo le asociamos una determinada se
nal
fsica; por ejemplo, la hip
otesis H0 llevar
a asociada una se
nal de amplitud
A0 voltios, con una duraci
on de T segundos. La hip
otesis H1 tendr
a asociada una se
nal de amplitud A1 voltios, con una duraci
on de T segundos.
En un momento dado se enva uno de los dos smbolos, es decir, el
transmisor enva una de las dos se
nales que se acaban de proponer. Como
es natural, el receptor desconoce que smbolo se ha enviado (si lo conociese
no habra comunicacion) y su mision es, en base a la observacion obtenida,
tomar una decisi
on sobre cu
al de las dos se
nales se ha recibido y, por tanto,
cual de los dos smbolos se ha enviado.
Todo esto no sera problema si las se
nales recibidas fuesen exactamente
iguales a las se
nales enviadas. En tal caso, dado que las se
nales en origen
son distintas, las se
nales en destino tambien lo seran. Lamentablemente,
la realidad es muy otra y las se
nales, conforme atraviesan el medio de
transmisi
on, sufren distorsiones varias (recortes en banda, superposicion de
interferencias, adici
on de ruido etc. . . ). Supongamos que la se
nal recibida
tiene una amplitud de X voltios; el problema procede del hecho de que la
amplitud X puede recibirse tanto si se enva un smbolo como si se enva el
otro debido a los efectos de canal comentados. Ahora bien, debe haber algo
que nos permita pronunciarnos de forma no arbitrariapor un smbolo
u otro a pesar de que los dos smbolos puedan, en un momento dado, dar
4
35
(1.32)
(1.33)
escogera la hip
otesis H0 y, si por el contrario, se verica que
P (X|H0 ) < P (X|H1 )
(1.34)
36
C. Alberola L
opez
(1.35)
(1.36)
P (X|H0 )P (H0 )
P (X|H1 )P (H1 )
< P (H1 |X) =
(1.37)
P (X)
P (X)
1.7
37
38
C. Alberola L
opez
(1.38)
donde la u
ltima igualdad procede del hecho de que Pc (AS2 ) = P (A)
y Pc (B S1 ) = P (B). N
otese que en caso de independencia, por lo
tanto, s que es posible conocer Pc a partir del conocimiento de P1 y
P2 .
La igualdad que acabamos de obtener justica la notaci
on que habitualmente emplearemos en la composicion de experimentos. Dado
que en el caso de experimentos independientes se verica (1.38), expresi
on similar a la igualdad (1.24), escribiremos, aun resultando un
abuso en la notaci
on, A B en vez de A B. Esto debe entenderse
como una simplicaci
on operativa, puesto que la operaci
on de interseccion debe realizarse entre sucesos pertenecientes a la misma clase
F, lo cual, naturalmente, no es el caso. Esta notaci
on, sin embargo,
siempre que se tenga en mente la relacion de orden en la composicion
de los experimentos, resulta muy comoda para manejar casos m
as
complejos (como es el propuesto en la seccion 1.7.1).
Finalmente, ilustremos con un ejemplo que, en funci
on de como sea la
composicion de experimentos, la ley de asignaci
on de probabilidades
puede ser, o no, determinada a partir de las leyes individuales de cada
subexperimento:
Consideremos el ejemplo del lanzamiento de dos dados. Asumamos que los dados son simetricos e independientes. Denamos
39
11
1
=
66
36
(1.39)
En la expresi
on anterior la probabilidad P (Cij ) sera una probabilidad calculada en el experimento compuesto, mientras que
las probabilidades P (Ai ) y P (Bj ) (con los ndices i y j variando en los intervalos oportunos) procederan de cada uno de los
subexperimentos.
Imaginemos ahora que simulamos mediante ordenador el experimento de lanzamiento de dos dados, ambos simetricos. Esto
sera sencillo, sin mas que generar aleatoriamente dos n
umeros
naturales entre 1 y 6. Supongamos, no obstante, que en nuestro
programa incluimos una sentencia que diga si en el primer dado
sale un cinco, en el segundo no puede salir un tres y si en el
primer dado sale un tres, en el segundo no puede salir un cinco.
Con este programa, escogiendo oportunamente las probabilidades de los sucesos elementales compuestos, sera perfectamente
posible que las caras de cada dado (por separado) fuesen equiprobables.
En estas condiciones, el u
nico conocimiento de la equiprobabilidad de las caras de cada dado no sera suciente para conocer la
ley de asignacion de probabilidades del experimento compuesto.
Ejercicio: Haciendo uso del teorema de la probabilidad
total, podemos escribir la probabilidad de cada cara de cada
dado de la forma siguiente:
P (Ai ) =
6
j=1
6
P (Ai Bj )
j=1
(1.40)
40
C. Alberola L
opez
P (Bj ) =
6
i=1
6
P (Ai Bj )
i=1
(1.41)
1
6
i, j = {1, . . . , 6}
Con la restriccion P (Ai ) = P (Bj ) =
construya una tabla con los valores P (Ai Bj ) que cumplan,
ademas, el condicionante de que las caras 3 y 5 no se pueden
dar conjuntamente.
Soluci
on: Las expresiones anteriores ecuaciones (1.40)
y (1.41) signican que la probabilidad de cada cara se obtendra sumando por las las probabilidades de cada resultado elemental del experimento compuesto para el primer
dado y por columnas para el segundo. As pues, una posible
tabla sera
Ai \ Bj 1 2 3 4 5 6
1
x x x x x x
2
x x x x x x
3
x x 2x x 0 x
4
x x x x x x
5
x x 0 x 2x x
6
x x x x x x
1
donde x = 36
. N
otese que nos hemos limitado a paliar
el efecto de la probabilidad cero en los resultados (3, 5) y
(5, 3) forzando probabilidad doble en los resultados (3, 3) y
(5, 5), sin necesidad de afectar a los demas elementos de la
tabla.
1.7.1
Composici
on de ensayos de Bernoulli
41
que el n
umero de resultados del experimento sea solo dos, sino que estamos
dividiendo las soluciones en dos subconjuntos. As pues, el lanzamiento de
un dado y la observaci
on del resultado obtenido puede considerarse un ensayo de Bernoulli sin mas que dividir los resultados en, por ejemplo, A=ha
salido un valor superior a tres, y su complementario.
En este apartado nos interesa analizar la composici
on de tales ensayos. Supongamos que llevamos a cabo varias ejecuciones de un ensayo de
Bernoulli de forma independiente entre ellas (recuerdese que esta asuncion
permite emplear el resultado de la expresion 1.38). Pensemos que el n
umero de veces que realizamos el experimento es N . En estas condiciones, la
cuestion a resolver es cual es la probabilidad de que el resultado A haya
salido k veces (de N posibles)?
Si denominamos Bk al suceso cuya probabilidad buscamos conocer, el
proceso para el calculo de la misma sera, b
asicamente, escribir dicho suceso
Bk como funci
on de sucesos cuya probabilidad sea conocida. Como, por
ahora, solo conocemos la probabilidad de cada resultado elemental, tendremos que escribir dicho suceso como funcion de los resultados elementales
en cada uno de los ensayos.
Denominando Bkj a cada una de las posibles formas de darse el suceso
Bk , y denotando por Ai al suceso ha salido el resultado A en el ensayo
i-esimo, podremos escribir5 :
Bk1 = A1 A2 . . . Ak Ak+1 . . . AN
Bk2
(1.42)
BkM
= A1 A2 . . . AN k AN k+1 . . . AN
(1.44)
M
Bkj
(1.45)
j=1
42
C. Alberola L
opez
P (Bk ) = P
M
Bkj
j=1
M
P (Bkj )
(1.46)
j=1
k
Ai
i=1
N
Aj .
j=k+1
P (Bk1 ) = P
k
i=1
Ai
N
j=k+1
Aj =
k
i=1
P (Ai )
N
P (Aj ) = pk q N k
j=k
(1.47)
43
(1.48)
P (Bk ) =
N k N k
p q
k
(1.49)
44
C. Alberola L
opez
kr
Bk
k=0
P (B) = P
kr
Bk =
k=0
kr
P (Bk ) =
k=0
kr
N k N k
p q
k r r
k=0
donde la u
ltima igualdad procede de la expresi
on (1.49).
b) La situaci
on que se plantea ahora consiste en tener,
por una parte, (s 1) + k productos, de los cuales se deben
aceptar s 1 y rechazar k y, a continuaci
on, aceptar el siguiente
producto. Con ello se habr
an rechazado k productos antes de
aceptar s. Deniendo el suceso As+k como el producto es aceptado en la inspeccion s + k-esima y denominando C al suceso
cuya probabilidad se pide en este apartado, entonces podemos
escribir (tengase en mente que ahora N = s + k 1 para usar
la terminologa de la seccion 1.7.1):
C = Bk
As+k
P (C) = P Bk
s + k 1 k (s+k1)k
pr q r
qr =
k
s+k1 k s
pr q r
k
45
P (Bk ) =
N k N k
ak
p q
ea
k!
k
(1.50)
Notese que esta aproximacion hace que solo tengamos que calcular
un factorial (en vez de los tres que corresponden al n
umero combinatorio de la ecuaci
on (1.49). Asimismo, cuando las probabilidades son
peque
nas, el elevar un n
umero peque
no (p o q) a una potencia grande
puede traer consigo una perdida de precision en la operacion. Con
esta aproximaci
on tales operaciones son asimismo obviadas.
0.12
0.1
0.08
0.06
0.04
0.02
10
15
20
25
30
Figura 1.5: Ajuste de P (Bk ) mediante una curva dada por la expresi
on
(1.51).
2. Aproximaci
on de DeMoivre-Laplace: La gura 1.5 muestra en asteriscos el aspecto que presenta la expresion de la ecuacion (1.49) para
46
C. Alberola L
opez
(1.51)
donde el par
ametro a = N p
es el par
ametro de simetra de la curva
anterior y el par
ametro b = N pq es tal que cuanto mayor sea este
valor m
as ancho es el lobulo de la curva. Como puede verse, las
probabilidades P (Bk ) se ajustan de manera bastante aproximada a
la curva anterior para valores de k pr
oximos al centro de simetra de
la curva. De hecho, esta aproximaci
on esvalida cuando N pq
>> 1 y
para valores de k en el intervalo N p 3 N pq k N p + 3 N pq.
Cuando el objetivo sea calcular la probabilidad de la uni
on de varios
Bk (es el caso del apartado a) del ejercicio anterior) debemos acudir
al area bajo esta curva. Concretamente:
k0
Bk
=
k=0
k0
(xa)2
1
k0 N p
e 2b2 dx = G
N pq
b 2
(1.52)
donde la funci
on G() representa el area bajo la curva (1.51), y se
encuentra tabulada (ella, u otras similares, vease pie de la pagina 62)
en cualquier texto de Teora de la Probabilidad (por ejemplo, [1, 2]).
En el caso en que el sumatorio no comience en cero, la expresion
anterior debe transformarse de la manera que se indica:
k1
k=k0
Bk
=G
k1 N p
N pq
(k0 1) N p
G
N pq
(1.53)
El motivo por el que esto es as, si bien en este momento no es evidente, lo sera en captulos posteriores (vease seccion 4.5.2).
Captulo 2
Variable aleatoria
unidimensional
2.1
En numerosos experimentos pr
acticos en que existan fen
omenos aleatorios
no disponemos de acceso directo a los resultados del experimento aleatorio,
sino que, simplemente, observamos n
umeros que uct
uan. Por ejemplo, si
medimos la tension de salida de una antenasobre una determinada carga
en diferentes situaciones, observaremos niveles de tension uctuantes. Tales
uctuaciones depender
an de numerosos factores, muchos de ellos completamente incontrolables por nosotros (condiciones atmosfericas, ambiente
radioelectrico local etc ...). En tales situaciones es necesario disponer de
una herramienta que permita caracterizar probabilsticamente las mediciones que pueden obtenerse, de forma que, por ejemplo, podamos obtener
un valor en torno al cual uctuar
an las medidas, un indicativo de la mayor o menor uctuaci
on esperable, intervalos de valores de mayor o menor
probabilidad de aparici
on etc . . . Esta herramienta esta constituida por las
variables aleatorias.
Visto el concepto intuitivo, tratemos de formalizar el concepto de variable aleatoria (VA, en adelante). Una VA se puede denir como una
aplicacion del espacio muestral en el cuerpo de los n
umeros complejos de
orden N , que asocia a cada elemento del espacio muestral a S (por ende, para cada posible resultado del experimento aleatorio) un vector de N
n
umeros complejos Z = [Z1 . . . ZN ]
Z : S CN
47
48
C. Alberola L
opez
(2.1)
En lo que sigue, y acorde con numerosos tratados [1, 2, 3] igualaremos los valores
de las VAs a y evaluaremos las funciones que denen su comportamiento probabilstico en esos mismos valores. Tal igualdades debe entenderse, naturalmente, como
comportamientos en el lmite.
49
2.2
Caracterizaci
on de las variables aleatorias: funciones de distribuci
on y densidad
50
C. Alberola L
opez
2
pi
(2.2)
i=2
Rep
arese que el paso de la primera lnea a la segunda se ha hecho en
base a la extension a N sucesos del tercer axioma de la probabilidad ya
que, simult
aneamente, la variable no puede tomar dos valores distintos, de
forma que todos los sucesos involucrados son disjuntos.
El caso de las VAs continuas es un poco mas complejo. El motivo no
es otro que, para tales VAs, debemos proporcionar una funci
on, tambien
de variable continua, que caracterice probabilsticamente a todos y cada
uno de los valores de estas. Tales funciones son fundamentalmente dos,
a saber, la funci
on de distribuci
on y la funci
on de densidad de probabilidad. Empecemos por la primera, para pasar a continuaci
on a describir la
segunda.
2.2.1
Funci
on de distribuci
on
La funci
on de distribuci
on de una VA X se denota por FX (x) y se dene
mediante
(2.3)
FX (x) = P (X x)
Rep
arese que X representa la VA y x R es la abscisa donde se eval
ua
la funci
on FX (x). Esta funci
on, por tanto, es una funci
on real de variable
real y, como puede verse, esta funci
on indica cu
al es la probabilidad de
que la VA X tome valores menores o iguales que un determinado punto de
abscisa x. Reparese por ello que es imprescindible que {X x} F, como
antes hemos exigido, de forma que tenga sentido denir probabilidades
sobre esta entidad. Pues bien, esta funci
on nos permite hacer cualquier
51
52
C. Alberola L
opez
(2.4)
(2.5)
53
F (x)
F (x)
p a +p b +p c
pc
p a +p b
px
pb
pa
0
x
a
a)
x
x0
b)
Figura 2.2: a) FX (x) para una VA discreta que toma tres valores. b) FX (x)
para una VA mixta que toma el valor x0 con probabilidad px0 .
datos iniciales. Construir la funci
on de distribuci
on FX (x) no es otra cosa
que calcular la probabilidad del suceso involucrado para todos los valores
de x (rep
arese que x es la variable independiente de la funcion FX (x) de
forma que nada tiene que ver con los valores a, b y c que toma la variable
X). Para tal n, distingamos diversos intervalos en la recta real en funci
on
de los valores (a, b, c). Concretamente:
un valor en esta
1. x < a; FX (x) = 0, dado que X no puede tomar ning
zona de la recta real.
2. a x < b; FX (x) = P (X x) = P (X = a) = pa , pues para valores
de x en el intervalo indicado, la variable aleatoria X solo puede ser
menor o igual que el valor a, lo cual sucede con probabilidad pa .
3. b x < c; FX (x) = P (X x) = P ((X = a) (X = b)) = pa + pb
4. x c; FX (x) = P ((X = a) (X = b) (X = c)) = 1, dado que
es el suceso seguro (repare que se esta calculando la probabilidad de
que la VA X sea menor igual que un valor de x que es, a su vez,
mayor que c. Dado que el valor maximo que puede tomar X es c, el
suceso cuya probabilidad buscamos es el suceso seguro, de forma que
su probabilidad es la unidad).
La forma de la funci
on de distribuci
on puede verse en la gura 2.2(a).
Como se aprecia de la gura, la funcion es constante a intervalos, con
comportamiento asintotico por la izquierda igual a cero y por la derecha
igual a uno. Los puntos de discontinuidad de la funci
on se encuentran
en los puntos donde la variable discreta toma valores, y la altura de cada
discontinuidad coincide con la probabilidad de que la variable X tome el
54
C. Alberola L
opez
N
pi u(x xi )
(2.6)
i=1
cesaria que pi = 1.
i
Variables mixtas
Las funciones de distribuci
on correspondientes a VAs continuas son funciones suaves, continuas, y derivables con continuidad salvo en una
cantidad, a lo sumo, numerable de puntos. No obstante, las funciones de
distribuci
on correspondientes a variables discretas hemos visto que consisten en superposiciones de funciones escalon desplazadas a los puntos donde
la VA toma valores. El tercer tipo de variable aleatoria, del cual hasta ahora
solo hemos dado el nombre, es un caso intermedio entre ambas. Tales variables las variables mixtas presentan funciones de distribuci
on suaves
y continuas pero presentan al menos un punto donde la funci
on de distribucion es discontinua. Un ejemplo de funci
on de distribuci
on correspondiente
a una variable mixta puede verse en la gura 2.2(b)
La funci
on de distribuci
on en discontinuidades
Las discontinuidades en las funciones de distribuci
on solo aparecen en las
variables discretas o mixtas. En tal caso, el manejo de probabilidades es
mas sencillo de realizar en terminos de algebra de sucesos que en terminos
de la funci
on de distribuci
on. No obstante, por completitud, maticemos el
comportamiento de esta funci
on, lo cual reviste solo interes en el caso de
discontinuidades2 :
2
55
P (x1 X < x2 ) = FX (x
2 ) FX (x1 )
De nuevo es interesante apuntar que para variables continuas estas propiedades no revisten ning
un interes, ya que la funci
on de distribuci
on es
continua, de forma que los comportamientos por la izquierda y por la derecha de cada punto que se considere coinciden.
2.2.2
Funci
on de densidad de probabilidad
La funci
on de densidad de probabilidad de una VA X se denota por fX (x)
y se dene a partir de la funci
on de distribuci
on mediante
fX (x) =
dFX (x)
dx
(2.7)
dFX ( ) =
fX ( )d
56
C. Alberola L
opez
FX (x) FX () =
FX (x) =
fX ( )d
fX ( )d
(2.8)
donde la u
ltima igualdad procede del comportamiento asint
otico por el lazo
izquierdo de la funci
on de distribuci
on.
Dado que la funci
on de distribuci
on tiene un comportamiento marcado
por el conjunto de caractersticas analizadas en la seccion 2.2.1, la funci
on
de densidad de probabilidad no puede tener formas arbitrarias, sino que
debe ser coherente con las propiedades de la funci
on de distribuci
on. En
particular:
on de distribuci
on es una funci
on no decre fX (x) 0, pues la funci
ciente.
El area bajo una funci
on de densidad de probabilidad es siempre
unitaria. Esto procede de la expresi
on (2.8), si evaluamos en x =
(recuerdese que la funci
on de distribuci
on en dicho punto vale uno).
FX (x + x) FX (x)
P (x < X x + x)
= lim
x
x
x
57
du(x)
dx
(2.9)
Esta funci
on es nula para todo punto de abscisa distinto de cero y, en ese
punto, presenta una singularidad (su valor es innito)de forma tal que el
(x)dx = 1.
area encerrada bajo esta funci
on es unitaria, es decir,
Haciendo uso de esta funci
on, as como de la linealidad del operador
derivacion, es obvio que la funci
on de densidad de una variable discreta (y
de una mixta en los puntos de discontinuidad de la funci
on de distribuci
on)
puede escribirse
fX (x) =
N
pi (x xi )
(2.10)
i=1
La expresi
on (2.9) debe tomarse con las oportunas reservas. La funci
on escal
on no
es derivable en el cero, de forma que la funci
on (x) no se podra denir de esta manera,
sino a traves del lmite de la derivada de una funci
on continua por intervalos, cuyo valor
1
. El lmite se calculara con tendiendo a cero, esto es, la
en el intervalo (0, ) sera
pendiente tendiendo a innito con x 0. Los detalles puede consultarlos en [15]. En
x
cualquier caso, lo que s es escrictamente cierto es que u(x) = (t)dt de forma que
el paso de (2.10) a (2.6) a traves de una integraci
on es claro.
58
C. Alberola L
opez
2.3
En este apartado describiremos algunos tipos de VAs que aparecen con frecuencia en la pr
actica. Para el caso de las variables continuas plantearemos
la funci
on de densidad, obtendremos la funci
on de distribuci
on y comentaremos aspectos caractersticos de las variables. Para el caso de las discretas
indicaremos, como ya hemos visto que es necesario, que valores pueden
tomar las diferentes variables y con que probabilidad toman dichos valores.
Existen otros muchos tipos de VAs que los que aqu expondremos, pero
el manejo de las funciones de densidad y distribuci
on ser
a similar metodol
ogicamente al que aqu hagamos, si bien, como es natural, los c
alculos
analticos precisos dependeran de cada caso.
2.3.1
Continuas
Uniforme
Una VA X es una variable uniforme en el intervalo denido por los puntos4
a y b si su funci
on de densidad es constante (y no nula) en el interior de
dicho intervalo, y es nula fuera del mismo. Denotaremos tal tipo de variable
de la forma X U (a, b).
El valor de la constante asociada a esta funci
on de densidad no puede
ser arbitrario dado que, como hemos visto, el area bajo cualquier funci
on
de densidad es siempre unitaria. Aplicando esta restriccion tendremos
fX (x)dx =
a
b
fX (x)dx
kdx
= k
a
dx = k(b a) = 1
(2.11)
FX (x) =
4
fX ( )d
59
x<a
FX (x) =
ax<b
FX (x) =
xb
x
a
x
FX (x) =
0d = 0
1
xa
d =
ba
ba
fX ( )d =
1
d = 1
ba
(2.12)
Puede observarse, por tanto, que FX (x) tiene los comportamientos asintoticos esperados (cero, por lado izquierdo, y uno por lado derecho) y que crece
linealmente en el interior del intervalo (a, b). Asimismo, dado que X es una
VA continua, FX (x) es una funci
on continua.
Es interesante realizar unos comentarios adicionales:
La variable uniforme solo puede tomar valores en el interior del intervalo (a, b). En efecto, si calculamos la probabilidad
P (x1 < X x2 ) = FX (x2 ) FX (x1 ) =
x2
x1
fX (x)dx
(2.13)
es f
acil ver que esta integral solo es distinta de cero si los intervaon
los (x1 , x2 ) y (a, b) tienen interseccion no vaca, dado que la funci
subintegral es no nula en el interior del segundo intervalo.
Lo anterior se generaliza a cualquier tipo de variable: aquellos valores
de abscisa x para los que la funci
on de densidad presenta un valor
nulo, son valores que la VA X no puede tomar.
Retomando la ecuacion (2.13) es directo comprobar que un intervalo
tiene probabilidad nula cuando los valores de la funci
on de distribucion en los extremos del intervalo coinciden. Por lo tanto, intervalos
de constancia en la funci
on de distribuci
on son intervalos de probabilidad nula para la VA. Este resultado, que es general, se concreta en
el caso de una VA X U (a, b) viendo que la funci
on de distribuci
on
para valores x < a y x > b es constante. Como hemos dicho, en estos
intervalos la VA no puede tomar valores.
Centremonos ahora en los valores de probabilidad. Para ello, consideremos cuatro puntos de abscisa xi (i={1,. . . ,4}), tales que cumplan
60
C. Alberola L
opez
x2
x1
fX (x)dx =
x2 x1
=
ba
ba
x4
x3
x1
fX (x)dx =
x3 x4
=
ba
ba
x2
x4
x3
1
dx
ba
1
dx
ba
(2.14)
donde a es cualquier n
umero real, b > 0 y la expresion es valida x. Denotaremos a este tipo de variable de la forma X N (a, b). El motivo de
emplear la letra N es que a este tipo de variables se les denomina tambien
61
variables normales puesto que es el tipo de variables normalmente asumido para el modelado y resoluci
on de numerosos problemas pr
acticos (hay
razones para ello, como veremos en la seccion 4.5.1).
0.35
0.3
0.25
b1
b2 > b1
0.2
b2
0.15
0.1
0.05
5
a=5
10
FX (x) =
fX ( )d =
( a)2
1
e 2b2 d
b 2
(2.15)
Sin embargo, no existe primitiva conocida para esta integral, de forma que
no existe una expresi
on cerrada para la funci
on de distribuci
on de una
variable gaussiana.
Si no existe expresi
on para la funci
on de distribuci
on cabe preguntarse
si es posible calcular probabilidades asociadas a este tipo de variables. La
62
C. Alberola L
opez
FX (x) =
fX ( )d =
( a)2
1
e 2b2 d
b 2
xa
2
b
1
e 2 bd
=
b 2
En [2] la funci
on tabulada es la funci
on erf (x), la cual se dene como erf (x) =
2
e
d
.
En
Teor
a
de
la
Comunicaci
on [13, 14] es habitual hablar de la funci
on
0
Q(x), la cual es el complemento a uno de G(x), y de la funci
on erf c(x), la cual se dene
2
acilmente
como erf c(x) = 2 x e d . Las funciones erf (x) y erf c(x) se relacionan f
con las funciones G(x) y Q(x).
2
x
63
xa
b
2
1
e 2 d
2
xa
= G
b
(2.17)
2
1
e 2 d =
2
2
1
e 2 d
2
64
C. Alberola L
opez
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0
40
45
50
55
60
65
70
75
80
0.3
0.2
0.1
0
5
10
10
1
0.8
0.6
0.4
0.2
0
5
(2.18)
65
x u(x)dx
0
ex dx = (ex )
0 = 1.
Finalmente, la funci
on de distribuci
on se obtiene facilmente; por una
on de densidad es nula
parte es claro que FX (x) = 0 si x < 0 pues la funci
en esta zona. Integrando en la zona en que la funci
on de densidad es no
nula, podemos escribir
FX (x) =
=
=
=
por lo que
0
fX ( )d
e d
x
0
x
1e
, x0
FX (x) = 1 ex u(x)
2.3.2
(2.19)
Discretas
Bernoulli
Una VA X discreta se dice que es de Bernoulli, de parametro p (p 0), si
solo puede tomar los valores x = 0 y x = 1 con probabilidades respectivas
P (X = 0) = 1 p = q y P (X = 1) = p.
Tales variables pueden asociarse de manera inmediata a un ensayo de
Bernoulli. Basta para ello llevar a cabo la igualdad
A = {X = 1}
A = {X = 0}
Binomial
Una VA X discreta se dice que es Binomial, de parametros N y p (N Z +
y p 0), si puede tomar los valores x = k con k = {0, 1, 2, . . . , N }, con
66
C. Alberola L
opez
probabilidades
P (X = k) =
N k N k
p q
k
(2.20)
ak
k!
(2.21)
Observese que los valores que puede tomar esta variable no esta acotados
superiormente.
Geom
etrica
Una VA X discreta se dice que es geometrica, de par
ametro p (p 0), si
puede tomar los valores enteros x = k con k 0, con probabilidades
P (X = k) = q k p
(2.22)
La palabra repetici
on est
a aqu empleada en el m
as puro sentido academico: si se
repite un experimento (por ejemplo, cursar una asignatura) una vez es porque se ejecuta
dos veces (el alumno se ha matriculado dos veces) y en la primera ejecuci
on el resultado
no ha sido el deseado (esto es, no se ha aprobado en primera matrcula). En este sentido
repetir cero veces implica aprobar en primera matrcula.
67
P (X = k) = P
k
(Ai = A)
i=1
k
P Ai = A
(Ak+1 = A)
P (Ak+1 = A)
i=1
k
= q p
(2.23)
2.4
Funciones condicionadas
P (X x, B)
P (B)
(2.24)
dFX (x|B)
dx
(2.25)
68
C. Alberola L
opez
xa
FX (x|B) =
x>a
FX (x|B) = P (X x|B) =
P (Xx)
P (B)
FX (x)
FX (a)
FX (x|B) = P (X x|B) =
P (B)
P (B)
P (Xx,B)
P (B)
P (Xx,B)
P (B)
=1
(2.26)
xa
fX (x|B) =
x>a
fX (x|B) = 0
fX (x)
FX (x)
= a
fX (x)
fX (x)dx
(2.27)
()
x<a
FX (x|B) = P (Xx,B)
= PP(B)
=0
P (B)
P
(Xx,B)
a x b FX (x|B) = P (X x|B) =
=
P (B)
FX (x|B) =
P (a<Xx)
FX (x)FX (a)
= FX (b)FX (a)
P (B)
x>b
FX (x|B) = P (Xx,B)
= PP (B)
P (B)
(B) = 1
(2.28)
Derivando la expresi
on anterior obtenemos la funci
on de densidad
condicionada:
x<a
fX (x|B) =
fX (x|B) = 0
fX (x)
a x b fX (x|B) = FX (b)F
= b fX (x)
X (a)
x>b
fX (x|B) = 0
fX (x)dx
(2.29)
Sup
ongase ahora que X es discreta y que puede tomar valores en el
conjunto {x1 , x2 , x3 } con probabilidades respectivas P (X = xi ) = pi ,
69
pi|B u(x xi )
2.4.1
P (X = x1 )
p1
P (X = x1 , X a)
=
=
P (X a)
P (X = x1 X = x2 )
p1 + p2
P (X = x2 , X a)
P (X = x2 )
p2
=
=
P (X a)
P (X = x1 X = x2 )
p1 + p2
P (X = x3 , X a)
0
=
=0
P (X a)
P (X = x1 X = x2 )
N
i=1
N
P (X x|Ai )P (Ai ) =
FX (x|Ai )P (Ai )
(2.30)
i=1
N
fX (x|Ai )P (Ai )
(2.31)
i=1
70
C. Alberola L
opez
b0 2
(xa0 )2
2b2
o
P (H0 ) +
b1 2
(xa1 )2
2b2
1
P (H1 )
FX (x|Ai )P (Ai )
FX (x|Ai )P (Ai )
= N
FX (x)
FX (x|Aj )P (Aj )
(2.32)
j=1
2.4.2
71
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
10
10
(2.33)
x0
FX (x + x|A) FX (x|A)
P (A)
FX (x + x) FX (x)
FX (x+x|A)FX (x|A)
x
FX (x+x)FX (x)
x
fX (x|A)
P (A) = P (A|X = x)
fX (x)
P (A)
(2.34)
La probabilidad P (A|X = x) debe entenderse como una forma compacta
de escribir la expresi
on del primer miembro de la igualdad en la ecuaci
on
72
C. Alberola L
opez
anterior (primera lnea de la ecuacion 2.34). Vease que, de no entenderlo de esta manera sino en termino estrictos, estaramos hablando de una
probabilidad condicionada en la que el condicionante sera un suceso de
probabilidad nula. Recuerdese (seccion 1.4) que la asunci
on de partida es
la no nulidad en la probabilidad del suceso condicionante.
Qued
andonos con la igualdad de la u
ltima lnea de (2.34) podemos
escribir
P (A)fX (x|A) = P (A|X = x)fX (x)
(2.35)
Integrando ambos miembros en toda la recta real, y recordando que el area
bajo una funci
on de densidad es unitaria, obtenemos
P (A) =
P (A)fX (x|A)dx
P (A|X = x)fX (x)dx
(2.36)
(2.37)
fX (x|A)P (A)
fX (x)
(2.38)
73
el valor de se
nal observado sea x = 0.5. Si realizamos los calculos para la seleccion de valores indicada anteriormente (valores
para la construcci
on de la gura 2.6), tendramos
P (H0 |X = 0.5) =
P (H1 |X = 0.5) =
fX (x = 0.5|H0 )P (H0 )
= 0.1165
fX (x = 0.5)
fX (x = 0.5|H1 )P (H1 )
= 0.8835
fX (x = 0.5)
En efecto, el sistema actualiza su grado de conocimiento probabilstico sobre cada una de las hipotesis en base a la observacion realizada. Anteriormente, P (H1 ) = 2/3 0.67. Ahora, la
creencia en que el smbolo enviado haya sido el correspondiente
a H1 se refuerza (pasa a ser 0.8835) en base a la observacion
obtenida {X = 0.5}, de forma que el sistema decidira que el
smbolo enviado ha sido, efectivamente, el smbolo l
ogico 1 ya
que P (H1 |X = 0.5) > P (H0 |X = 0.5).
Sin embargo, el hecho de que P (H0 |X = 0.5) = 0 hace que, si
bien esta hip
otesis es mas improbable, que no sea imposible. De
hecho, de cada 100 observaciones del valor {X = 0.5}, aproximadamente 12 procederan del envo del smbolo l
ogico 0. Esto
hace que el sistema no sea infalible.
2.5
Caracterizaci
on parcial de una variable aleatoria.
La caracterizacion probabilstica de una VA viene dada, hasta donde conocemos, por dos funciones, bien la funci
on de distribuci
on, bien la de
densidad de probabilidad. Sin embargo, en numerosos problemas basta conocer algunos par
ametros que caracterizan aunque sea de forma parcial
a la variable. En esta seccion nos centraremos en los par
ametros mas
habituales de caracterizacion parcial de las variables, y analizaremos como
podemos obtener estos para algunos de los tipos de variables vistos en la
seccion 2.3.
2.5.1
Media
74
C. Alberola L
opez
N
kj hj
j=1
N
kj
i=1 ki
j=1
hj =
N
rj h j
(2.39)
j=1
N
rj hj =
j=1
N
1
hj
N j=1
(2.40)
N
xi P (X = xi ) =
i=1
N
xi pi
(2.41)
i=1
X = E{X} =
xfX (x)dx
(2.42)
75
fX (x) =
pi (x xi )
(2.43)
X = E{X} =
=
i
pi
pi (x xi ) dx
i=1
x(x xi )dx
pi xi
(x xi )dx
pi xi
(2.44)
como se indic
o previamente.
2.5.2
(2.45)
76
C. Alberola L
opez
P (X xM E ) = P (X > xM E )
xM E
fX (x)dx =
xM E
fX (x)dx
(2.46)
2.5.3
Varianza
(x X )2 fX (x)dx
(2.47)
A partir de la denici
on dada en la ecuacion (2.42) se puede deducir que
la varianza de una VA X es la media de las desviaciones cuadraticas de los
valores de la VA con respecto a su valor medio.
on tpica de la variable
El par
ametro X (X > 0) se denomina desviaci
X. El signicado de este par
ametro es el mismo que el de la varianza, solo
que en la misma unidad de medida que la media (repare que la varianza es
una magnitud cuadr
atica con respecto a la de la media).
77
= E{(X X ) } =
x fX (x)dx +
2
X
2
(x2 + X
2xX )fX (x)dx
fX (x)dx 2X
2
2
2
2X
= E{X2 } X
= E{X2 } + X
xfX (x)dx
(2.48)
donde al par
ametro E{X2 } se le denomina valor cuadr
atico medio (VCM,
en adelante) de la VA X puesto que es igual a la media de los valores de la
variable elevados al cuadrado.
Este resultado muestra varios conceptos de interes:
1. El operador esperanza matem
atica, dado que esta denido mediante
un operador integral, es un operador lineal. Podramos haber obtenido el resultado de la ecuacion (2.48) operando directamente sobre
el operador esperanza, de la forma
2
2
= E{(X X )2 } = E{X2 X
2X X}
X
2
2E{X X}
= E{X2 } + X
2
2X E{X}
= E{X2 } + X
2
= E{X2 } X
(2.49)
78
C. Alberola L
opez
(xi X )2 pi
i
2
= E{X2 } X
x2i pi
2
xi pi
(2.50)
La primera lnea de la ecuacion mostrara el calculo directo, equivalente discreto de la ecuacion (2.47), mientras que la tercera lnea sera el equivalente
discreto de (2.48).
Finalmente, es interesante mencionar que la varianza de una constante
es igual a cero. Insistimos que la varianza mide dispersi
on con respecto a la
media. Por ello, si hablamos de una constante, hablamos de una magnitud
que no tiene variabilidad ninguna, lo cual debe ser coherente con varianza
nula. En efecto, una constante es modelable como una VA discreta que solo
puede tomar un valor, digamos, valor a, con probabilidad pa = 1. Por ello,
su funci
on de densidad sera (llamemosla X) fX (x) = (x a). Haciendo
uso de las deniciones vistas anteriormente:
E{X} =
E{X2 } =
i pi xi
=a1=a
2
i pi xi
= a2 1 = a2
2 = E{X2 } E 2 {X} = a2 a2 = 0
X
2.5.4
Uniforme
Consideremos X U (a, b). Los calculos en este caso son particularmente
sencillos dada la simplicidad de la funci
on de densidad
Media:
E{X} =
xfX (x)dx
x
a
a+b
1
dx =
ba
2
(2.51)
VCM
E{X } =
b
=
a
79
x2 fX (x)dx
1
1
x
dx =
ba
3
2
b3 a3
ba
(2.52)
(x X )2 fX (x)dx
b
=
a
a+b
x
2
2
1
(b a)2
dx =
ba
12
(2.53)
E{X} = X =
=
xfX dx
(xa)2
1
x e 2b2 dx
b 2
(2.54)
E{X} = X =
(xa)2
1
(x a + a) e 2b2 dx
b 2
80
C. Alberola L
opez
(xa)2
1
(x a) e 2b2 dx +
b 2
(xa)2
1
a e 2b2 dx
b 2
(2.55)
(2.56)
(x X )2 fX dx
(xa)2
1
(x a)2 e 2b2 dx
b 2
(2.57)
En este caso no podemos explotar la paridad/imparidad de las funciones, puesto que todas las funciones involucradas son cuadr
aticas.
El calculo directo de la integral parece tambien complicado.
Sin embargo, s que existen soluciones sencillas para resolver este
problema. Una forma de resolverlo sera explotar el conocimiento
previo de que disponemos. Concretamente, sabemos que
1 =
b =
(xa)2
1
e 2b2 dx
b 2
(xa)2
1
e 2b2 dx
2
(2.58)
La primera lnea procede del hecho de que el area bajo una funci
on
de densidad es igual a uno. La segunda igualdad se ha puesto por
conveniencia y se obtiene de multiplicar a ambos miembros de la
igualdad por el par
ametro b. Si consideramos ahora esta igualdad
como una funci
on del par
ametro b (por lo tanto, el par
ametro pasa a
ser una variable), nada impide que hagamos transformaciones sobre
81
esa funci
on, en particular, que derivemos. Que ganamos con esto? Si
comparamos las ecuaciones (2.57) y (2.58) veremos que para pasar de
la segunda a la primera necesitamos que el termino (x a)2 aparezca
multiplicando a la exponencial. Esto podemos conseguirlo derivando
la igualdad (2.58), considerada esta como funcion de b, ya que la regla
de la cadena dice que
def (b)
= ef (b) f (b)
db
(2.59)
(xa)2
1
(x a)2
e 2b2
1 =
2
2
2
(xa)
1
b2 =
(x a)2 e 2b2
b 2
(2)
1
dx
b3
(2.60)
2 = b2 .
de forma que, seg
un dice la expresion (2.57), X
Seg
un los resultados obtenidos, el primer par
ametro de la gaussiana
(a) es la media y el segundo par
ametro (b) es la desviacion tpica. Por
ello, es practica habitual denotar las variables gaussianas mediante X
N (X , X ).
Ejercicio: Obtenga los valores de xM ODA y xM E para X
N (X , X ).
Soluci
on: El primer par
ametro de la curva es el punto de simetra, que coincide con el maximo. Por ello, xM ODA = X .
Asimismo y, de nuevo, debido a la simetra de la curva con respecto a x = X , el area bajo la curva en el intervalo (, X )
coincide con el area en el intervalo (X , ). Por ello, xM E = X .
Exponencial
Consideremos ahora que X exp(). El calculo de media y varianza de la
distribuci
on se hara como sigue:
82
C. Alberola L
opez
0
xfX dx
xex dx
(2.61)
x2 fX dx
x2 ex dx
(2.62)
Ambas integrales son de corte similar, y pueden resolverse sin mas que
aplicar integraci
on por partes, con la consiguiente dosis de paciencia. No
obstante, existen resultados conocidos, los cuales pueden servir de base
para obtener los par
ametros que nos piden de forma mas rapida y elegante.
Concretamente, hablamos de la funci
on gamma, o factorial generalizado, la
cual se dene
(p) =
xp1 ex dx = k p
xp1 ekx dx
(2.63)
E{X2 } =
xex dx = 1 (2) =
0
1
(3)
2
x2 ex dx =
2 = E{X2 } E 2 {X} =
X
2
2
1
2
=
=
2
2
1
2
Bernoulli
Este caso es particularmente sencillo, pues los sumatorios se extienden a
solo dos valores. Por tanto
Media: E{X} = X =
VCM: E{X2 } =
i=1 xi pi
2
i=1 xi pi
=0q+1p=p
= 02 q + 12 p = p
83
Binomial
Para el caso en que X B(N, p) tenemos:
Media:
N
E{X} = X =
N
N
xi pi =
i=0
VCM:
2
E{X } =
N
i=0
x2i pi
i=0
i pi q N i
N
N
i2 pi q N i
i=0
(2.64)
(2.65)
El c
omo llevar a cabo estos sumatorios de forma directa no parece
obvio, pero s que es abordable en base a un resultado conocido, que
no es otro que el desarrollo de un binomio de Newton:
N
(p + q)
N
N
pi q N i
i=0
Necesitamos que el ndice del sumatorio i multiplique a las probabilidades, tanto linealmente para el caso de la media como cuadraticamente, para el caso del VCM. Esto lo podemos conseguir sin mas
que considerar la expresi
on anterior como una funci
on f de la variable
p, y derivar con respecto a ella. En efecto:
N
N
N
N
df (p)
ipi1 q N i =
ipi1 q N i
= N (p + q)N 1 =
dp
i
i
i=1
i=0
donde la u
ltima igualdad procede de que el termino en i = 0 es nulo.
Basta ahora que multipliquemos ambos miembros por p para que la
u
ltima expresion coincida con la expresion (2.64). Por ello,
E{X} = X = p
N
N
i=0
ipi1 q N i |p+q=1
= pN (p + q)N 1 |p+q=1
= Np
(2.66)
pN (p + q)
N
N
i=0
ipi q N i
84
C. Alberola L
opez
N (p + q)
N 2
+ pN (N 1)(p + q)
N
N
i=1
N
i=0
i2 pi1 q N i
N 2 i1 N i
i p q
i
N
N
i=0
i2 pi q N i
= N p(1 p) = N pq.
En vista de estos resultados, rep
arese que la aproximaci
on de DeMoivreLaplace (introducida en la seccion 1.7.1 y que veremos mas detalladamente
en la seccion 4.5) no es otra cosa que aproximar una variable B(N, p) por
una gaussiana, donde esta u
ltima tiene media y varianza iguales a las de la
variable binomial.
Poisson
Si X es una VA de Poisson de par
ametro a, es facil obtener que:
Media: X = a
VCM: E{X2 } = a2 + a
2 =a
Varianza: X
ak
k=0
k!
85
Geom
etrica
Si X es una VA geometrica de par
ametro p (q = 1 p), es f
acil obtener
que:
Media: X =
q
p
VCM: E{X2 } =
2 =
Varianza: X
q
(1
p2
+ q)
q
p2
p
qk p
=
1 q k=0
2.5.5
Desigualdad de Tchebyche
-
X
+
X
86
C. Alberola L
opez
sirva de gua en aquellas situaciones en las que se disponga solo de conocimiento parcial de la situaci
on.
Dicho esto, indiquemos cual es la cota. Se puede escribir como sigue:
P (|X X | )
2
X
2
(2.67)
X
fX (x)dx +
=
R
X +
fX (x)dx
fX (x)dx
(2.68)
R
(x X )2 fX (x)dx
(x X )2 fX (x)dx
2 fX (x)dx
R
= 2
fX (x)dx = 2 P (|X X | )
(2.69)
entonces, si mas que pasar 2 al primer miembro de la desigualdad, obtenemos el resultado deseado.
Esta desigualdad, si bien es una herramienta de enorme aplicabilidad
pues solo necesita del conocimiento de la media y la varianza de la VA,
paga un precio debido a su generalidad: el valor de la cota es bastante
conservador. Esto lo podemos comprobar escogiendo un caso en el que
conozcamos la caracterizacion completa de la VA, de tal forma que podamos
comparar el valor exacto de la probabilidad del intervalo pedido con el valor
87
3
= 2 1G
= 0.0027
(2.70)
2
1
2
=
= = 0.11
2
2
9
9
(2.71)
E{X}
con > 0.
2.6
Transformaci
on de variable aleatoria
88
C. Alberola L
opez
(2.72)
y
g:R R
x R y = g(x) R
(2.73)
SRR
(2.74)
(2.75)
Vemos por lo tanto que los valores reales que toma la funci
on g son funci
on
del resultado obtenido en el experimento aleatorio < S, F, P >. Cabe
pues considerar que la coleccion de resultados, Y, constituye una VA, generada a partir de la transformaci
on de X mediante la funci
on g(x). Pues,
en efecto, as sera siempre que, como hemos visto en la seccion 2.1, se
cumplan unas determinadas condiciones, a saber7 :
1. Que el dominio en que g(x) esta denida contenga a todos los valores
de X. Caso contrario, podran existir valores a S sin imagen en la
variable Y.
2. {Y y} = {x R t.q. g(x) y} F, es decir, debe ser un suceso,
de forma que sobre el puedan denirse probabilidades.
3. P (Y = ) = P (Y = ) = 0, de forma que aunque las variables
puedan tomar ambos valores, que lo hagan con probabilidad nula.
7
89
2.6.1
Caso de X discreta
y4
y3
x2
x3
x5
x4
x1
y2
y1
90
C. Alberola L
opez
2. Probabilidades P (Y = yi ):
Si g(x) inyectiva e yj = g(xi ) entonces pi = P (X = xi ) = P (Y =
yj ), con (i, j) variando en los rangos oportunos..
Si g(x) no es inyectiva: considerando la situaci
on representada
en la gura 2.8, en la cual la VA X toma cinco posibles valores
(x1 , . . . , x5 ), de ellos tres (x1 , x4 , x5 ) se transforman en distintas imagenes, pero existen dos puntos (x2 y x3 ) cuyas imagenes
coinciden. As pues, analizando cada caso individual, podemos
escribir
P (Y = y1 ) = P (X = x5 ) = p5
P (Y = y2 ) = P ((X = x2 ) (X = x3 ))
= P (X = x2 ) + P (X = x3 ) = p2 + p3
P (Y = y3 ) = P (X = x4 ) = p4
P (Y = y4 ) = P (X = x1 ) = p1
(2.76)
Esta metodologa es com
un y de aplicabilidad general para cualquier
VA discreta y cualquier transformaci
on.
2.6.2
El calculo de la funci
on de distribuci
on se lleva a cabo de manera constructiva. Recordando que la funci
on de distribuci
on se dene FY (y) = P (Y y),
el procedimiento consiste en ir barriendo el eje de ordenadas en los diferentes valores de y e ir escribiendo el suceso {Y y} como funci
on de los
sucesos correspondientes de la VA X, variable cuya caracterizacion probabilstica tenemos.
Para ilustrar este procedimiento, haciendo uso de la gura 2.9, analicemos los diferentes casos que pueden presentarse:
1. Si consideramos valores y < ymin , se verica que P (Y y) = 0. Esto
es debido a que ning
un valor de la VA X se transforma en valores de
la VA Y menores que ymin . Por ello, la funci
on de distribuci
on es
nula en el intervalo (, ymin ).
2. Centremonos ahora en la parte superior de la transformaci
on, es decir, en y > ymax . La probabilidad P (Y y) = 1 pues, como se
deduce de la gr
aca, todos los valores de X se transforman en valores
91
y=g(x)
ymax
y2
x11
x12
x13
x2
y1
ymin
Figura 2.9: C
alculo de la funci
on FY (y).
on de
de Y menores o iguales que ymax . De esta manera, la funci
distribuci
on toma el valor 1 en el intervalo (ymax , ).
3. Debemos ahora ir recorriendo el rango no explorado todava, es decir,
el intervalo y (ymin , ymax ). Un punto perteneciente a este intervalo
es y2 . Para este punto, podemos escribir
FY (y2 ) = P (Y y2 ) = P (X > x2 ) = 1 P (X x2 ) = 1 FX (x2 )
(2.77)
4. Consideremos ahora el punto Y = y1 . Para este caso podemos escribir
FY (y1 ) = P (Y y1 ) = P ((x11 X x12 ) (X x13 ))
= P (x11 X x12 ) + P (X x13 )
= (FX (x12 ) FX (x
11 )) + (1 FX (x13 ))
(2.78)
Si la VA X es continua, naturalmente, la expresion (2.78) se puede
reescribir FY (y1 ) = FX (x12 ) FX (x11 ) + (1 FX (x13 ) (vease seccion
2.2.1).
Ejercicio: Considerando que X U (1/2, 1/2) y que Y =
on de
g(X) = X2 , obtenga mediante el metodo expuesto la funci
distribuci
on FY (y).
92
C. Alberola L
opez
0
2 y
FY (y) =
Soluci
on:
y0
0<y
y > 14
1
4
y=g(x)
y3
y2
y1
x2
x1
x
x2
x1
y1
a)
b)
y=g(x)
y2
y1
x
x0
c)
Figura 2.10: a) Transformaci
on con intervalo de constancia. b) Transformacion en escalera. c) Transformacion con discontinuidad.
1. Si la transformaci
on es constante en un intervalo de valores de la VA
X y esta VA es continua, entonces la VA resultante Y sera mixta
93
(2.79)
F (y)
P(Y =y1 )
y
y1
y
y1
a)
y2
b)
Figura 2.11: a) FY (y) resultante de transformacion con intervalo de constancia. b) FY (y) resultante de transformacion con discontinuidad.
2. Lo anterior generaliza a una transformaci
on en escalera (vease gura
2.10b). Para una transformaci
on como la de esta gura sabemos de
antemano que la VA Y sera discreta y que solo tomara los valores
(y1 , y2 , y3 ) con probabilidades respectivas:
P (Y = y1 ) = P (X x1 ) = FX (x1 )
P (Y = y2 ) = P (x1 < X x2 ) = FX (x2 ) FX (x1 )
P (Y = y3 ) = P (X > x2 ) = 1 FX (x2 )
(2.80)
3. La funci
on g(x) presenta una discontinuidad en el punto x0 , donde
g(x0 ) = y1 y g(x+
0 ) = y2 (gura 2.10c). En tal caso, dado que la
VA Y no puede tomar valores en el intervalo (y1 , y2 ) (dado que no
existen valores de la VA X que se transformen en dicho intervalo) la
funci
on de distribuci
on presentar
a un intervalo de constancia en el
intervalo (y1 , y2 ), es decir, FY (y2 ) = FY (y1 ). Un posible forma para
esta funci
on se muestra en la gura 2.11b).
94
2.6.3
C. Alberola L
opez
x2 + dx 2
x1 + dx 1
x1
x3 + dx 3
x2
x
x3
y+dy
y
Figura 2.12: C
alculo de la funci
on fY (y).
Hemos visto que para el calculo de la funci
on de distribuci
on FY (y) no
existe un procedimiento cerrado sino que el proceso es enteramente constructivo. Sin embargo, para el calculo de la funci
on de densidad s que
podemos hacer uso de una expresion cerrada que nos de solucion al problema. Tal expresi
on cerrada se conoce bajo el nombre Teorema fundamental
y este sera nuestro foco de atencion en el resto de la seccion.
Consideremos la situaci
on representada en la gura 2.12. Para hacer
el calculo de la funci
on de densidad, consideremos un punto de la VA Y
y analicemos la probabilidad de que esta variable tome valores en un intervalo innitesimal en torno a dicho punto. El objetivo es expresar esa
probabilidad en funci
on de sucesos equivalentes de la VA X. En virtud de
la gr
aca, podemos escribir
P (y < Y y + dy) = P (x1 + dx1 < X x1 ) + P (x2 < X x2 + dx2 ) +
P (x3 + dx3 < X x3 )
fY (y)dy = fX (x1 )|dx1 | + fX (x2 )|dx2 | + fX (x3 )|dx3 |
(2.81)
La primera igualdad de la expresi
on anterior procede de la lectura directa de
la gr
aca. Como puede verse, en la graca hay zonas donde la pendiente es
negativa (zonas de puntos x1 y x3 ) de forma que los diferenciales dx1 y dx3
se han tomado con signos negativos. En la segunda lnea se ha igualado
95
fY (y)dy =
fX (xi )|dxi |
i=1
N (y)
fY (y) =
i=1
fX (xi )
N (y)
fX (xi )
|dxi |
=
dy
dy
i=1
fX (x)
|g (x)|
dxi
N (y)
fY (y) =
i=1
(2.82)
x=xi
constituyendo la u
ltima lnea la expresion del Teorema Fundamental.
Rep
arese que este teorema plantea una expresion cerrada para encontrar
la funci
on de densidad. Sin embargo, el an
alisis que debe hacerse para
obtener tal funci
on es paralelo al realizado en el caso de la seccion 2.6.2. El
motivo es que, seg
un dice la ecuacion (2.82), el valor de la funci
on fY (y),
para cada punto y, procede de la superposicion de N (y) contribuciones de
la VA X, siendo cada una de esas contribuciones las procedentes de los
N (y) puntos de solucion de la ecuacion y=g(x), o si se preere, de los N (y)
puntos de corte de la recta horizontal de ordenada y con la funci
on y = g(x).
No obstante, es cierto que este teorema proporciona una expresion muy
u
til y c
omoda, la cual, de hecho, se empleara enormemente en la pr
actica.
Debemos, no obstante, recalcar que debe aplicarse pensando en que punto
se esta aplicando.
Adviertase, por u
ltimo, que este teorema proporciona la manera de
llegar a una expresi
on analtica de la funci
on de densidad. No obstante, la
aplicacion de la misma requiere dos pasos adicionales:
1. Escribir la expresi
on directamente en funci
on de la variable y. Por
tanto, debe invertirse la funci
on y = g(x), teniendo que obtenerse una
expresion funci
on de y para cada xi involucrado.
2. Deben indicarse explcitamente los rangos de validez, en los valores
de y, de la expresi
on/expresiones resultantes de la aplicaci
on de este
teorema.
96
C. Alberola L
opez
fX (x)
fX (x)
+
fY (y) =
|g (x)| x=x1
|g (x)| x=x2
La funci
on de densidad fX (x) es constante y de valor igual
a la unidad en el intervalo (1/2, 1/2). Asimismo, dado que
g(x) = x2 entonces g (x) = 2x. Entonces
1
1
fY (y) =
+
|2x| x=x1
|2x| x=x2
Para escribir las expresion anterior en funci
on de la variable y,
como dicta el primer miembro de la igualdad, basta ver que
1
1
2
1
+ = =
| 2 y| |2 y|
2 y
y
97
fY (y) =
0<y
resto
1
4
fX (x)
fX (x)
+
fY (y) =
|g (x)| x=x1
|g (x)| x=x2
La derivada de la funci
on de transformaci
on es g (x) = a cos(x+
). Por ello, la expresi
on anterior se particulariza
fY (y) =
1
2
|a cos(x1 + )|
1
2
|a cos(x2 + )|
x = arcsin
a
(2.83)
98
C. Alberola L
opez
de forma que
y
fY (y) =
|a cos(arcsin
)|
1
2
y
+
|a cos(arcsin
)|
1
2
x=x1
x=x2
Rep
arese, no obstante, que lo que realmente necesitamos saber
es como escribir a cos(x + ) en funci
on de y, para cada una de
las dos soluciones x1 y x2 . Por el camino que hemos empleado
hasta ahora las cosas no son obvias y no parece obvio tampoco
como obtener de forma explcita las dos soluciones que hemos
anticipado que existen. Debe haber otros caminos, los cuales,
en general, suelen encontrarse haciendo uso combinado de la
funci
on g(x) y de su derivada. En efecto,
y = g(x) = a sin(x + )
= a2 (a sin(x + ))2
!
g (x) = a2 y 2
(2.84)
por lo que,
1
fY (y) =
1
1
" 2
+
= " 2
2
2
2
2
a y | | a y |
a y2
" 2
a2 y 2
|y| a
resto
99
Si la transformaci
on es la mostrada en la gura 2.10b) no se aplicar
a el
teorema, pues sabemos, por simple inspeccion, que
fY (y) = p1 (y y1 ) + p2 (y y2 ) + p3 (y y3 )
con los valores pi que se calcularon en la seccion 2.6.2.
Si la transformaci
on es la mostrada en la gura 2.10c) se aplicar
a el
teorema fundamental, y se obtendr
an resultados para y y1 e y > y2 .
En el interior del intervalo (y1 , y2 ) la funci
on fY (y) es nula.
Si X es discreta, Y tambien lo sera, luego no ha lugar aplicar el
teorema fundamental, sino que se seguira el metodo propuesto en la
seccion 2.6.1.
Si la transformaci
on es no derivable en un n
umero discreto de puntos,
tales puntos seran ignorados. Como es sabido, puntos aislados en
una VA continua no tienen relevancia alguna en cuanto a calculo de
probabilidades. Tal sera el caso, por ejemplo, de la transformaci
on
g(x) = |x|. Esta funci
on es no derivable en x = 0, pero puede aplicarse
el teorema x = 0.
2.7
Caracterizaci
on parcial de una funci
on de variable aleatoria
100
C. Alberola L
opez
P (y < Y y + dy) =
fY (y)dy =
fX (xi )dxi
(2.85)
yfY (y)dy =
(2.86)
Si ahora integramos ambos miembros, cada uno en su respectivas variables, vamos recorriendo el eje de los valores de la variable y y, como
consecuencia, vamos recorriendo, por grupos de valores, el eje de la variable x. El resultado neto nalmente es:
E{Y} =
yfY (y)dy =
(2.87)
Notese pues que si bien para realizar la primera de las integrales necesitamos
conocer la funci
on de densidad de la VA Y, para realizar la segunda basta
con conocer la funci
on de transformaci
on y la funci
on de densidad de la VA
X, informaci
on conocida seg
un hemos asumido desde el principio.
Este resultado generaliza a cualquier funci
on de la VA Y sin mas que
escribirla como una funci
on de la variable X. Por ejemplo, si se desea
conocer la esperanza de una variable Z = h(Y), y solo se dispone de informacion probabilstica de la variable X, variable origen de la transformaci
on
Y = g(X), escribiremos:
E{Z} = E{h(Y)} =
= E{h(g(X))} =
h(y)fY (y)dy
h(g(x))fX (x)dx
(2.88)
VCM de Y:
E{Y2 } =
101
y 2 fY (y)dy
= E{g 2 (X)}
=
Varianza
2
Y
g 2 (x)fX (x)dx
(2.89)
(y Y )2 fY (y)dy
= E{(g(X) E{g(X)})2 }
(2.90)
E{Y} = E{aX + b} =
= a
xfX (x)dx + b
fX (x)dx
= aE{X} + b
(2.91)
= a2
(x E{X})2 fX (x)dx
2
= a2 X
2.7.1
(2.92)
102
C. Alberola L
opez
xn fX (x)dx
(x X )n fX (x)dx
(xi X )n P (X = xi )
(2.93)
n
k=0
n
k=0
n
Xk (m1 )(nk)
k
$
%
n
E Xk (m1 )(nk)
k
103
n
$ %
n
(m1 )(nk) E Xk
k
k=0
n
k=0
2.8
n
(m1 )(nk) mk
k
(2.94)
2.8.1
Funci
on caracterstica
La funci
on caracterstica de una VA X se dene como la transformada de
8
Fourier de la funci
on de densidad fX (x) de la variable. As pues, podemos
escribir
fX (x)ejx dx
(2.95)
X () = E{ejX } =
X () = =
dX ()
d
8
ejx fX (x)dx
(jx)ejx fX (x)dx
La proyecci
on sobre la exponencial compleja ejx
o ejx no altera el sentido de la
transformada. S
olo produce un cambio de signo.
104
C. Alberola L
opez
d2 X ()
=
(jx)2 ejx fX (x)dx
d 2
..
.
dn X ()
=
(jx)n ejx fX (x)dx
d n
(2.97)
X ()|=0 = X ()|=0 = 1 = j 0 m0
dX ()
(1)
= X ()|=0 = jm1
d =0
d2 X ()
(1)
= X ()|=0 = j 2 m2
d 2 =0
..
.
dn X ()
(n)
= X ()|=0 = j n mn
d n =0
(2.98)
La u
ltima lnea indica pues la relaci
on generica que existen entre la derivada
n-esima de la funci
on caracterstica y el momento no central de orden n de
la VA en cuestion. Por ello, en efecto, la funci
on caracterstica X () es
una funci
on que genera momentos.
Por otra parte, recordando el desarrollo en serie de Taylor de una funcion analtica, vemos que los momentos nos permiten sintetizar la funci
on
caracterstica X () en cualquier punto , dado que podemos escribir
(n)
X ()
X () =
n!
n=0
n =
=0
(j)n
n=0
n!
mn
(2.99)
Finalmente, la funci
on caracterstica puede ser un u
til instrumento para
hacer el calculo de la funci
on de densidad de una VA Y = g(X) a partir de la
funci
on de densidad fX (x) sin hacer uso expreso del Teorema fundamental.
El siguiente ejercicio ilustra el procedimiento.
Ejercicio 1: Considere que X es una VA con funci
on de densidad fX (x) conocida. A partir de esta VA se genera una segunda
VA mediante la transformaci
on Y = g(X). Se pide que, mediante funciones caractersticas, desarrolle una metodologa para la
obtenci
on de la funci
on de densidad fY (y). Particularice para
el caso en que X N (0, ) y g(x) = ax2 .
105
Soluci
on: La funci
on caracterstica de la VA Y se dene:
Y () = E{ejY } =
= E{ejg(X) } =
fY (y)ejy dy
fX (x)ejg(x) dx
Y () =
h(y)ejy dy
(2.100)
Y () =
=
=
fY (y)ejy dy
fX (x)ejg(x) dx
ejax
x2
1
e 22 dx
2
(2.101)
Para poder transformar la u
ltima ecuacion en la primera debemos, en primer lugar, hacer que los intervalos de integraci
on
coincidan. Para ello podemos explotar el hecho de que la funcion subintegral es par, y el intervalo de integracion es simetrico.
Por ello, podemos escribir
2
Y () =
2
0
x2
ejax e 22 dx
dy = 2axdx = 2 aydx
(2.102)
106
C. Alberola L
opez
entonces
y
dy
2
ejy e 2a2
2 ay
2 0
y
1
ejy e 2a2 dy
2ay 0
Y () =
=
(2.103)
(2.104)
Y () = E{e
}=
jg(X)
= E{e
}=
fY (y)ejy dy
fX (x)ejg(x) dx
1 ja sin(x)
dx
e
2
Dado que
y = g(x) = a sin(x)
dy = a cos(x)dx = a2 (a sin(x))2 dx
!
dy = a2 y 2 dx
(2.105)
107
Y =g(X )
a
III
IV
II
I
-a
1 jy
1
" 2
e
2
a y2
dy
La zona II, donde y vara en el intervalo (a, 0) y los diferenciales tienen el mismo signo. Por ello
1 jy
e
2
1
"
2
a y2
dy
1 jy
e
2
1
"
2
a y2
dy
Y, por u
ltimo, la zona IV, donde, de nuevo, los diferenciales
tienen signos contrarios.
1 jy
1
" 2
e
2
a y2
dy
1
2
0
0
jy
1
dy +
2
a y2
jy "
1
" 2
a y2
jy
e
a
dy +
1
ejy " 2
dy+
a y2
a
1
" 2
a y2
dy
108
C. Alberola L
opez
1
dy +
2
a y2
1
dy +
2
a y2
jy "
jy "
1
2
2
1
2
a2
y2
ejy "
1
dy+
y2
a2
1
dy
2
a y2
jy "
1
"
ejy dy + 2
2
a y2
"
1
"
ejy dy
2
a y2
ejy dy
(2.106)
fY (y) =
a2 y 2
|y| a
resto
pi ejxi
(2.107)
pi eji
(2.108)
transformaci
on invertible, como es conocido, mediante la expresi
on
pi =
1
2
<2>
Y ()eji d
(2.109)
109
2.8.2
Funci
on generadora de momentos
La funci
on m
as general es la as llamada funci
on generadora de momentos,
la cual se dene como la Transformada de Laplace de la funci
on de densidad,
es decir,
MX (s) = E{esX } =
esx fX (x)dx
(2.110)
dn MX (s)
mn =
dsn s=0
(2.111)
n =
dn X (s)
dsn s=0
(2.112)
1 = X
2
2 = X
(2.113)
Es f
acil comprobar que
Sobre los cumulantes de orden n se construye la teora de estadsticos de orden superior la cual ha tenido un moderado exito en la comunidad cientca
para el manejo de se
nales no gaussianas.
Captulo 3
Variable aleatoria
bidimensional
3.1
Introducci
on
112
C. Alberola L
opez
k=1
k=3
k=0
x
cos( 0 t)
k=4
k=7
k=5
k=6
a)
b)
Figura 3.1: a) Lanzamientos de dardos sobre una diana. Pueden considerarse realizaciones de la VA bidimensional errores con respecto a (0, 0).
b) Modulaci
on digital en fase, con nubes de puntos alrededor de uno de los
valores esperados.
Este ejemplo puede resultar ingenuo pero no esta lejos de las Tecnologas
de la Informaci
on. Concretamente, una determinada modulaci
on digital
consiste en el envo, recepcion y discriminaci
on de se
nales de la forma
sk (t) = Acos(0 t + k (t))
(3.1)
donde la informaci
on de que smbolo digital se esta enviando recae, precisamente, en la fase k (t). Si consideramos que durante un determinado
tiempo de smbolo 0 t T se enva una de las M posibles fases
k (t) =
2k
M
0k M 1
113
La se
nal s(t) = Acos(0 t + (t)) puede expresarse de forma equivalente mediante
s(t) = A cos(0 t) cos((t)) A sin(0 t) sin((t)). Escogiendo oportunamente el valor
deT 0 para un T dado, las funciones cos(0 t) y sin(0 t) son ortogonales, es decir,
cos(0 t) sin(0 t)dt = 0, por lo que tales funciones pueden constituir un par de ejes
0
coordenados cartesianos sobre los que representar los smbolos (A cos((t)), A sin((t)))
a enviar.
114
C. Alberola L
opez
3.2
3.2.1
Caracterizaci
on de variable aleatoria bidimensional
Funci
on de distribuci
on conjunta
De forma an
aloga al caso de la VA unidimensional, la VA bidimensional
debe caracterizarse completamente para poder hacer cualquier calculo probabilstico sobre ella. Tal caracterizacion viene dada por la extensi
on bidimensional de las funciones que conocemos hasta ahora. Comenzaremos,
en primer lugar, con la funci
on de distribuci
on conjunta o bidimensional.
Tal funci
on se dene, como en el captulo anterior, a traves de una probabilidad. Lo que ahora cambia es el suceso sobre el que esta se dene.
Concretamente:
FXY (x, y) = P (X x Y y)
(3.2)
es decir, esta funci
on mide la probabilidad de que, simult
aneamente, la
y
(x,y)
115
(3.3)
pues, seg
un el axioma primero de la probabilidad (p
agina 22), P (C)
0.
2
116
C. Alberola L
opez
y
y
(x 1 ,y1 )
C
(x 0 ,y0 )
D
B
A
x1
a)
x2
b)
y
y
L
y2
y1
y2
D
y1
c)
x
x1
x2
d)
117
(3.4)
(3.5)
resultado an
alogo al obtenido anteriormente.
6. Esta funci
on tambien permite hallar la probabilidad almacenada en
el rectangulo representado en la gura 3.3d). Para ello, podemos
escribir
{X x2 , Y y2 } = D {X x2 , Y y1 } L
P (X x2 , Y y2 ) = P (D {X x2 , Y y1 } L)
= P (D) + P (X x2 , Y y1 ) + P (L)
P (D) = P (X x2 , Y y2 )
P (X x2 , Y y1 ) P (L)
= FXY (x2 , y2 ) FXY (x2 , y1 )
(FXY (x1 , y2 ) FXY (x1 , y1 ))
= FXY (x2 , y2 ) FXY (x2 , y1 )
FXY (x1 , y2 ) + FXY (x1 , y1 )
(3.6)
3.2.2
Funci
on de densidad de probabilidad conjunta
La funci
on de densidad de probabilidad conjunta fXY (x, y) se dene, de
manera an
aloga al caso unidimensional, a partir de la derivada de la funci
on
118
C. Alberola L
opez
de distribuci
on FXY (x, y). En este caso la derivada debe ser con respecto
a las dos variables, de forma que
2 FXY (x, y)
xy
fXY (x, y) =
(3.7)
FXY (x, y) =
fXY (, )dd
(3.8)
P (D) =
D
(3.10)
119
3.2.3
Funciones marginales
Las funciones vistas hasta ahora (FXY (x, y) y fXY (x, y)) son funciones de
caracterizacion probabilstica total de la VA bidimensional (X, Y). Por
ello, estas funciones tienen toda la informaci
on necesaria para poder realizar cualquier calculo probabilstico en relacion con sucesos denidos sobre
dicha variable. Ello implica que tales funciones tengan tambien toda la
informaci
on probabilstica sobre cada una de las dos componentes da la VA
bidimensional, pues estas, junto con la interaccion entre ellas, conguran
las tres entidades que componen la VA bidimensional. Por ello, a partir de
las funciones conjuntas podremos hallar las funciones de caracterizacion de
cada una de las VAs unidimensionales aisladas. A estas funciones, que son
las vistas en el captulo anterior, se les denomina en este ambito funciones
de distribuci
on/densidad marginales.
Notese que el recproco no es, en general, cierto. Es decir, salvo excepciones, a partir del comportamiento individual (marginal) de las VAs unidimensionales no podremos conocer el comportamiento conjunto. La razon
no es otra que lo dicho en el parrafo anterior: dado que la VA conjunta
esta formada por tres subentidades, y dado que las funciones marginales
codican el comportamiento de cada una de las VAs unidimensionales por
separado, el comportamiento mutuo entre las VAs se ha perdido, y por
ello no es posible restablecerlo a partir exclusivamente de la informaci
on
marginal. Hablaremos de las excepciones a esta regla general en apartados
posteriores.
El objetivo es, pues, obtener las funciones marginales a partir de las
funciones conjuntas. Empecemos con las funciones de distribuci
on. Para
construir FX (x) tenemos que hallar
FX (x) = P (X x)
probabilidad de un suceso que podemos escribir, de forma equivalente,
{X x} = {X x} {Y }
120
C. Alberola L
opez
pues el segundo suceso del segundo miembro es el suceso seguro. Por ello,
podemos concluir que
FX (x) = P (X x, Y ) = FXY (x, )
De la misma manera
FY (y) = P (X , Y y) = FXY (, y)
Rep
arese, por tanto, que la funci
on de distribuci
on es igual a la unidad
cuando ambas VAs estan evaluadas en el innito. Si s
olo evaluamos una de
ellas en tal punto lo que hacemos es eliminar la restriccion que impone dicha
VA, de forma que estamos calculando la funci
on de distribuci
on marginal
de la otra VA.
Con respecto a las funciones de densidad, hagamos el calculo empleando
el resultado anterior como puente entre FXY (x, y) y fXY (x, y). Para ello
fX (x) =
=
=
dFX (x)
dx
dFXY (x, )
dx
d x
d
fXY (, y)dy
dx
(3.11)
d
du
s (u)
i (u)
G(, u)d
= G(s (u), u)
ds (u)
di (u)
G(i (u), u)
+
du
du
s (u)
i (u)
G(, u)
d
u
(3.12)
fXY (, y)dy
d
dx
()d
entonces
fX (x) = (x)
dx
= (x)
dx
y por ello
fX (x) =
De forma similar
fY (y) =
121
(3.13)
(3.14)
fX (x0 ) =
fX (x1 ) =
y2
y
1y4
y3
122
C. Alberola L
opez
y
{ X >x, Y >y }
(x,y)
x
3.2.4
Casos particulares
frecuente en la pr
actica. Estos
son los siguientes:
X e Y discretas
En tal caso, la VA bidimensional (X, Y) no toma valores en todo el plano,
o en partes del plano de forma continua, sino que s
olo toma valores en un
123
y
(x,y)
y
y
y
y
3
2
x
x1
x2
x3
x
x1
x2
x3
a)
b)
124
C. Alberola L
opez
de forma que
P (X x) = p11 + p21 + p22
si x2 < x < x3 .
X discreta e Y continua
En el caso en que las VAs sean discreta y continua, la VA bidimensional
tomar
a valores solo sobre rectas horizontales o verticales en funcion de quien
de las VAs sea discreta. Para la seleccion hecha en el ttulo del apartado,
las rectas seran verticales, situadas en los valores de abscisa que tome la
VA X (vease gura 3.5b).
Para poder analizar una situaci
on como esta basta con que recordemos
algunas expresiones introducidas en el captulo anterior (vease seccion 2.4).
Tomando como base la gura 3.5b), calculemos P (X x, Y y) para los
valores de x e y seleccionados en la gura. As pues
P (X x, Y y) = P (({X = x1 } {X = x2 }) {Y y})
= P (({X = x1 } {Y y}) ({X = x2 } {Y y}))
= P (X = x1 , Y y) + P (X = x2 , Y y)
Las expresiones anteriores son probabilidades de interseccion de sucesos,
de forma que nada nos impide escribirlas en terminos de probabilidades
condicionadas. Por ello
P (X x, Y y) = P (X = x1 , Y y) + P (X = x2 , Y y)
= P (Y y|X = x1 )P (X = x1 ) +
P (Y y|X = x2 )P (X = x2 )
Recordando ahora que (expresi
on 2.31)
fY (y) =
N
fY (y|Ai )P (Ai )
i=1
= p1
fY ( |x1 )d + p2
fY ( |x2 )d
(3.16)
125
Como puede verse, por lo tanto, para abordar el caso que nos ocupa, la
informaci
on que debemos tener de la VA bidimensional se reduce a
1. Los valores X = xi y las probabilidades P (X = xi ) = pi i.
2. Las funciones de densidad fY (y|xi ) para los valores de xi de la VA
X.
ya que esta informaci
on nos ha permitido obtener (3.16), funci
on de distribuci
on de la VA (X, Y), es decir, la caracterizacion probabilstica total de
la VA bidimensional.
Ejercicio: Para la situaci
on descrita en la gura 3.5b) y suponiendo conocida la informaci
on involucrada en la expresi
on
(3.16), calcule P (X = xi |Y = y).
Soluci
on: Recordando que
P (A|X = x) =
fX (x|A)P (A)
fX (x)
fY (y|xi )pi
3
j=1
fY (y|xj )pj
126
C. Alberola L
opez
y=g(x)=2x
y=g(x)
y (1,5)
(4,5)
y<g(x)
y>g(x)
x
(x,0)
-1
(g (y),0)
(1,0)
a)
(5/2,0)
(4,0)
b)
2.
P (1 < X 4, 0 < Y 5) = FXY (4, 5) FXY (4, 0)
FXY (1, 5) + FXY (1, 0)
= FX (5/2) FX (0/2)
FX (1) + FX (0/2)
= FX (5/2) FX (1)
(3.17)
3.3
127
Funciones condicionadas
De igual manera que se vio en la seccion 2.4 para el caso de la VA unidimensional, podemos considerar funciones de caracterizacion probabilstica
de una VA bidimensional cuando se sabe que un determinado suceso, digamos M , se ha vericado. Tales funciones, las cuales seran denominadas
funciones condicionadas, indican c
omo se actualiza nuestro conocimiento
probabilstico sobre los valores que puede tomar la VA bidimensional, en
las condiciones indicadas, esto es, cuando el suceso M se ha vericado.
Las funciones se denen
P (X x, Y y, M )
P (M )
2
FXY (x, y|M )
xy
(3.18)
(3.19)
y
M
a)
b)
c)
128
C. Alberola L
opez
3.3.1
La denici
on de funciones condicionadas nos permite encontrar interesantes
relaciones entre funciones marginales condicionadas, funciones conjuntas,
y funciones marginales incondicionales. Para ello, simplemente, debemos
elegir oportunamente el suceso condicionante. Retomemos la funciones
unidimensionales condicionadas y elijamos un condicionante funci
on de la
segunda variable. Concretamente:
1. M = {Y y}: El suceso corresponde a la zona sombreada de la
gura 3.7b). A partir de el podemos escribir:
FX (x|M ) = FX (x|Y y) =
P (X x, Y y)
FXY (x, y)
=
P (Y y)
FY (y)
(3.20)
(3.21)
129
y0
(3.22)
Con respecto a la u
ltima lnea de la ecuacion anterior debemos hace
el mismo comentario que hicimos al respecto de la u
ltima lnea de
la ecuacion (2.34): FX (x|Y = y) debe entenderse como una forma
compacta de escribir una expresion denida mediante un lmite.
Derivando ahora con respecto a x llegamos a la expresion
fX (x|Y = y) =
2 FXY (x,y)
xy
dFY (y)
dy
fXY (x, y)
fY (y)
(3.23)
(3.24)
= fY (y|x)fX (x)
(3.25)
130
C. Alberola L
opez
1
2
2x
e
fY (y|x) =
(x) 2
(3.26)
lo cual se interpretara como que la VA Y, cuando la VA X ha tomado el valor x, se comporta como una gaussiana de par
ametros (x)
y (x). Rep
arese que con esta armacion s
olo conocemos como se
distribuye la VA Y cuando X ha tomado una determinado valor, es
decir, no conocemos como se comporta Y aisladamente de X. Para
conocer esto, como veremos a continuacion, necesitamos conocer la
funci
on de densidad de X (expresi
on 3.27).
La expresion (3.25) nos permite construir, mediante ordenador, muestras de VAs bidimensionales que tengan una determinada funci
on de
densidad conjunta. En efecto, esta expresi
on dice que distribuci
on tiene que tener la VA X y que distribuci
on tiene que tener la VA Y para
cada uno de los valores que pueda tomar la VA X, si queremos que
la VA bidimensional (X, Y) tenga la funci
on de densidad fXY (x, y).
Por ello, podemos construir muestras de tal VA bidimensional con el
siguiente procedimiento:
1. Construir muestras de la VA X distribuidas acorde con fX (x).
2. Para cada valor x generado de la VA X, constr
uyanse muestras
de la VA Y con funci
on de densidad condicionada a X fY (y|x).
Si, por ejemplo, tal funci
on fuese la planteada anteriormente
(ecuacion 3.26), bastara con que construyesemos VAs con distribuci
on N ((x), (x)).
3.3.2
131
fX (x|y)fY (y)dx =
fY (y)
fX (x|y)dx =
fY (y) =
fY (y|x)fX (x)dx
fY (y|x)fX (x)dx
fY (y|x)fX (x)dx
(3.27)
fY (y)dy =
P (y < Y y + dy) =
fY (y|x)dyfX (x)dx
P (y < Y y + dy|X = x)P (x < X x + dx)
(3.28)
N
P (B|Ai )P (Ai )
i=1
P (B|Ai )P (Ai )
P (B|Ai )P (Ai )
= N
P (B)
P (B|Aj )P (Aj )
j=1
132
C. Alberola L
opez
fY (y|x)fX (x)
fY (y|x)fX (x)
=
fY (y)
fY (y|)fX ()d
fX (x) =
fY (y) =
fX (x|y)fY (y)dy
fY (y|x)fX (x)dx
3.4
Independencia
En la introducci
on a este captulo dijimos que la VA bidimensional (X, Y)
se construye a partir de un experimento compuesto, c < Sc , Fc , Pc >, el
cual es el resultado de la composicion de dos subexperimentos, a saber, 1 <
S1 , F1 , P1 > y 2 < S2 , F2 , P2 >. All se dijo que la ley para asignaci
on de
probabilidades no es, en general, determinable a partir de las leyes P1 y P2
de cada uno de los subexperimentos, sino que interviene una tercera entidad
para la creacion de tal ley, la cual es, precisamente, la propia composicion
de los experimentos.
Sin embargo, esto no es siempre as. Consideremos que los sucesos
AX F1 y BY F2 . Si se verica que4
P (AX BY ) = P (AX )P (BY )
entonces las VAs X e Y se dice que son independientes. En tal caso, la ley
Pc s puede obtenerse como funci
on exclusiva de las leyes P1 y P2 . Reparese
que, de hecho, cuando existe independencia entre variables la composicion
de los experimentos es meramente nominal, esto es, los experimentos se
4
133
(3.29)
(3.30)
Es interesante contrastar la expresion obtenida con la vista en el caso general (ecuaciones 3.24 y 3.25). Para que las dos expresiones coincidan es
necesario que las funciones marginales condicionadas coincidan con las incondicionales, es decir, fX (x) = fX (x|y) y lo propio con respecto a la VA
Y. Pero esto, como vimos ya en el captulo primero, es algo asociado a la
independencia: los condicionantes no condicionan. Si es as, es decir, si las
variables son independientes, el hecho de que la VA Y haya tomado alg
un
valor en particular no afecta en absoluto al comportamiento probabilstico
de la VA X.
Comentarios adicionales
Lo dicho tiene validez general. No obstante, si la VA bidimensional es discreta, esto es, si cada componente de
la misma es discreta, el criterio de independencia se particulariza en la factorizaci
on de la probabilidad de cada
uno de los puntos del plano donde la variable toma valores. Concretamente, si la variable (X, Y) puede tomar los
valores (xi , yj ) con i y j variando en los recorridos oportunos, y con probabilidades P (X = xi , Y = yj ) = pij , la VA
134
C. Alberola L
opez
y
y
y
y
4
2
a)
x
0
b)
135
3.5
Transformaci
on de variable aleatoria bidimensional
3.5.1
Una funci
on de dos variables aleatorias
Consideremos la situacion en la que la VA bidimensional (X, Y), cuya caracterizacion probabilstica asumiremos conocida, se transforma mediante
la transformaci
on g(x, y) en una VA Z = g(X, Y). Asumiremos que la
transformaci
on es tal que se cumplen las condiciones para que Z sea una
VA (vease seccion 2.1).
Con estas premisas, el objetivo es encontrar la caracterizacion probabilstica de la VA Z en base a la caracterizacion de la VA bidimensional
(X, Y) y de la transformaci
on g(x, y). Para ello tendremos que calcular
FZ (z) = P (Z z) = P (Dz ) =
Dz
(3.32)
136
C. Alberola L
opez
donde la regi
on Dz se dene como el lugar geometrico de los puntos del
plano (x, y) que transformados mediante g(x, y) dan lugar a valores menores
o iguales que z. Formalmente:
Dz = {(x, y) R2 t.q. g(x, y) z}
Por ello, el procedimiento para encontrar la caracterizaci
on probabilstica
de Z consiste en dos fases:
1. Identicar la regi
on Dz .
2. Calcular P (Dz ) =
Dz
Dz
(0,z)
(z,0)
(z>0)
137
dx
zx
FZ (z) =
dx
(t)dt
dFZ (z)
dz
fZ (z) =
= (z)
= (z) =
dz
dz
fZ (z) =
fZ (z) =
fX ( )fY (z )d =
fY ( )fX (z )d
138
C. Alberola L
opez
1
1
=z
1/2
1/2
1/2
=z
a) z 0
=z
b) 0 < z 1
c) 1 < z 2
1/2
1/2
=z
=z
d) 2 < z 3
e) z > 3
fZ (z) =
fX ( )fY (z )d =
1
z
1 d =
2
2
fZ (z) =
=
z1
fX ( )fY (z )d =
1
1 d
z1 2
z (z 1)
1
=
2
2
139
fZ (z) =
=
z1
fX ( )fY (z )d =
1
1 d
z1 2
2 (z 1)
3z
=
2
2
1/2
z
0
140
C. Alberola L
opez
y
z
(z,z)
Dz
x
Dz
x
z
a)
b)
141
y
3
2
1
x
1
pk
p1
p2
p4
p6
= p11
= p12 + p21
= p22
= p23
puesto que
P (Z = 1) = p1 = P (X = 1, Y = 1) = p11
P (Z = 2) = p2 = P (X = 1, Y = 2) + P (X = 2, Y = 1) = p12 + p21
P (Z = 4) = p4 = P (X = 2, Y = 2) = p22
P (Z = 6) = p6 = P (X = 2, Y = 3) = p23
3.5.2
142
C. Alberola L
opez
Dzw
con Dzw el lugar geometrico de los puntos del plano (x, y) que se transforman en puntos del plano (z, w) pertenecientes al suceso cuya probabilidad
buscamos, esto es
Dzw = {(x, y) R2 t.q. g(x, y) z, h(x, y) w}
on, hallar
Para tal n, debemos identicar la regi
on Dzw para, a continuaci
la probabilidad asociada a dicha regi
on.
Ejemplo: Para el par de transformaciones
"
Z = g(X, Y) = (+) X2 + Y2
Y
W = h(X, Y) =
X
identifquese la regi
on Dzw para un par (z, w) generico, con
z > 0 y w > 0.
Soluci
on: La regi
on {Z z} = { X2 + Y2 z} es, en el
plano (x, y), el interior de una circunferencia de radio z. Por lo
que respecta a la segunda transformaci
on,
W=
Y
w Y wX
X
(3.34)
143
y =w x
y =w x
z
x
a)
b)
144
C. Alberola L
opez
3.5.3
Teorema Fundamental
w+d w
w
y2
y3
y1
z
z
z+dz
x
x1
x2
x3
= P
N
145
i=1
=
=
N
i=1
N
i=1
(3.36)
donde los valores absolutos se han incluido para evitar problemas de signos
entre los diferenciales, dado que vamos a hacer uso de una relacion explcita
entre ambos. En efecto, la relacion que liga los cuatro diferenciales es
dzdw = |J(x, y)|dxdy
con J(x, y) el jacobiano de la transformaci
on, el cual es igual a
J(x, y) =
z
x
w
x
z
y
w
y
(3.37)
Despejando la expresi
on anterior a favor de la funci
on de densidad
fZW (z, w) podemos escribir
fZW (z, w) =
N
fXY (xi , yi )
i=1
dzdw
|dxi ||dyi |
N
fXY (x, y)
=
|J|
i=1
(3.38)
(xi ,yi )
expresion que constituye el teorema fundamental extendido a dos dimensiones. Reparese que esta expresion permite construir punto a punto la
funci
on de densidad de la VA (Z, W) lo cual signica que para cada punto (z, w) el n
umero N de races (xi , yi ), esto es, el n
umero de puntos del
plano origen que se transforman en el punto (z, w), puede variar. Por ello,
estrictamente, el parametro N debe escribirse como N (z, w).
Al respecto de este teorema debe recordarse que:
La solucion debe proporcionarse en funcion de las variables (z, w).
Por ello, debe acudirse a las funciones inversas de g(x, y) y h(x, y) o
a cualquier otro procedimiento que se estime conveniente, para escribir la expresi
on resultante del empleo del teorema en funcion de las
variables correctas.
146
C. Alberola L
opez
J1 (z, w) =
x
z
y
z
x
w
y
w
por lo que
fZW (z, w) =
N
(3.39)
i=1
fXY (x, y)
|J|
147
Sustituyendo terminos
fZW (z, w) =
y
1
1
x
0
1
1
=
| x|
|x|
Llegado a este punto resta indicar las dos cuestiones anteriormente apuntadas. As pues
1. Para escribir la expresi
on en funci
on de (z, w) en este ejemplo las cosas son particularmente sencillas pues existe una
identidad entre X y W. Ello nos permite escribir:
fZW (z, w) =
1
w
2. La expresion anterior es v
alida en la regi
on del plano (z, w)
sobre la que se transforma el cuadrado de lado 1 donde es
no nula la funci
on de densidad fXY (x, y). Para ver que regi
on es esta podemos razonar componente a componente:
w=z
w
1
w
z
z=w
148
C. Alberola L
opez
1
w
0zw1
resto del plano
r r22
e 2 u(r)
2
149
tomar cualquier valor del plano R2 . Por ello las conclusiones que
extraigamos ser
an v
alidas para todo el plano.
Aplicando el Teorema Fundamental, tenemos
fZW (z, w) =
fR (r, )
fR (r)f ()
=
|J|
|J|
= r(cos2 () + sin2 ()) = r
Sustituyendo terminos
r 2
fZW (z, w) =
=
=
1 r 22
2 2 e
r
r 2
1
2 2
e
2 2
1 z2 +w2 2
e 2
2 2
ya que r2 = z 2 + w2 .
Rep
arese que la expresion anterior puede factorizarse en
z2
w2
1
1
e 22 e 22
2
2
= fZ (z)fW (w)
fZW (z, w) =
3.5.4
M
etodo de la variable auxiliar
Los ejemplos anteriores han puesto de maniesto que el Teorema Fundamental es una herramienta poderosa para realizar el calculo de la funci
on
de densidad conjunta de dos VAs. Sera pues deseable poder emplear este
teorema para la situacion que analizamos en el apartado 3.5.1, a saber, la caracterizacion probabilstica de una u
nica funci
on de dos VAs Z = g(X, Y).
150
C. Alberola L
opez
fZ (z) =
Es pr
actica habitual, por sensatez b
asica, escoger una VA auxiliar que
coincida con una de las dos VAs origen de la transformaci
on. El motivo es
obvio: dado que las operaciones a realizar pueden ser complicadas, interesa
que la VA auxiliar sea lo mas sencilla posible. El hecho de que coincida
con una de las dos VAs origen garantiza que un elemento de la matriz
de derivadas para el calculo del jacobiano sea nulo. Asimismo, a la hora
de escribir fZW (z, w) como funci
on de las variables (z, w) la inversi
on es
mas sencilla si una de las dos variables (x, y) pasa directamente al dominio
(u, w).
Ejemplo: Obtengase la funci
on de densidad de probabilidad de
la suma de dos VAs X e Y, cuya funci
on de densidad fXY (x, y)
se asumira conocida. Particularcese para el caso en que estas
sean independientes.
Soluci
on: En el enunciado se plantea, exclusivamente, la funcion Z = g(X, Y) = X + Y. Para emplear el metodo de la
variable auxiliar hacemos uso de una segunda transformaci
on.
Para ello, denimos
Z = g(X, Y) = X + Y
W = h(X, Y) = X
151
fXY (x, y)
|J|
Sustituyendo terminos
fZW (z, w) =
fXY (x, y)
1 1
1 0
fXY (x, y)
fXY (x, y)
=
= fXY (x, y)
| 1|
1
= fXY (w, z w)
=
Por tanto
fZ (z) =
fZ (z) =
= fX (z) fY (z)
fX (w)fY (z w)dw
3.6
Caracterizaci
on parcial de una funci
on de dos
variables aleatorias
152
C. Alberola L
opez
(3.40)
(3.41)
=
=
= a
c
xdx
ydy
= a
= a
xfX (x)dx + b
yfY (y)dy + c
= aE{X} + bE{Y} + c
(3.42)
i
i
g(xi , yj )pij
g(xi , yj )P (X = xi , Y = yj )
(3.43)
3.6.1
153
Esperanzas condicionadas
(3.44)
Especial interes tiene el caso particular Z = g(X, Y) = Y con el condicionante M = {X = x}. En tal caso calcularamos
fXY (x, y)
dy = (x)
fX (x)
(3.45)
Haremos uso extensivo de la misma en la seccion 3.7.6.
E{Y|X = x} = E{Y|x} =
3.6.2
yfY (y|x)dy =
Momentos conjuntos
Los momentos vistos en el captulo anterior se extienden al caso bidimensional de la forma que sigue:
Momento no central de ordenes (r, s):
mrs = E{Xr Ys } =
(3.46)
i
(xi X )r (yj Y )s P (X = xi , Y = yj )
(3.48)
Entre todos estos momentos son de particular interes los introducidos en
el captulo anterior, lease, media, varianza y VCM. Asimismo, y de nueva
introducci
on, son los siguientes:
154
C. Alberola L
opez
Correlaci
on: RXY = m11 = E{XY}
Covarianza: CXY = 11 = E{(X X )(Y Y )}
Estas dos magnitudes estan relacionadas debido a la propiedad de linealidad
del operador esperanza. En efecto:
CXY = E{(X X )(Y Y )}
= E{XY Y X X Y + X Y }
= RXY Y X X Y + X Y
= RXY X Y
(3.49)
CXY
X Y
(3.50)
on
y es un valor real que verica que |XY | 1. Mide el grado de relaci
lineal que existe entre las VAs, esto es, el grado en el que una VA, digamos
Y, se puede predecir mediante una funci
on lineal de la otra (VA X, en este
caso). La prediccion perfecta se da cuando XY = 1 y tal relaci
on no
existe cuando XY = 0. Posponemos los detalles sobre esta cuestion hasta
la seccion 3.7.4 (tengase en cuenta, no obstante, el comentario que se hace
en el ejercicio de la pagina 155).
Las deniciones anteriores se complementan con las siguientes:
Incorrelacion: dos VAs se dice que son (o que estan) incorreladas si
CXY = 0. En tal caso se verica tambien que XY = 0 y, por tanto,
incorrelaci
on implica ausencia de relacion lineal entre las VAs.
Ortogonalidad: dos VAs se dice que son ortogonales si RXY = 0.
Tales deniciones traen consigo las siguientes consecuencias:
1. Si las VAs X e Y son independientes, entonces son incorreladas. En
efecto,
CXY = E{(X X )(Y Y )}
155
(x X )fX (x)dx
(y Y )fY (y)dxdy
= (E{X} X )(E{Y} Y ) = 0
Conceptualmente esto es debido a que la independencia entre VAs
implica ausencia de relaci
on entre las variables, mientras que la incorrelacion implica ausencia de relaci
on lineal entre las VAs. Por ello,
la segunda esta incluida en la primera, de forma que si se verica la
primera, debe vericarse la segunda.
Por esta misma raz
on el recproco, en general, no es cierto.
Ejercicio: Considere X N (0, ). Se dene Y = X2 .
Indique si las VAs son incorreladas e independientes.
Soluci
on: Por simple inspeccion es obvio que las VAs no
pueden ser independientes, dado que una es funcion de la
otra (sabido lo que vale X es conocido el valor de Y). Respecto a la incorrelacion, calculemos su covarianza:
CXY = E{(X X )(Y Y )}
= RXY X Y
x3 fX (x)dx = 0
156
C. Alberola L
opez
2. Si X e Y son incorreladas:
(a) CXY = 0 RXY = E{XY} = E{X}E{Y}, es decir, la esperanza del producto es igual al producto de las esperanzas
(b) La varianza de la suma es igual a la suma de las varianzas. En
efecto:
2
X+Y
= E{((X + Y) (X + Y ))2 }
= E{((X X ) + (Y Y ))2 }
(3.51)
(3.52)
Interpretaci
on geom
etrica
Es f
acil comprobar que la operaci
on E{XY} es un producto escalar, de
forma que se puede considerar el espacio de las VAs como un espacio vectorial con una metrica asociada. En base a esto, los resultados expuestos
anteriormente tienen una interpretaci
on geometrica relativamente directa.
157
X-
X+Y
a)
Y-
+ Y-
X-
b)
3.17a) sera igual a la suma de las normas de cada uno de los vectores. Este
es el resultado obtenido en la expresion (3.52) para el caso RXY = 0.
La incorrelaci
on puede ilustrarse mediante la gura 3.17b). En tal caso
los vectores XX e Y Y son ortogonales por lo que la norma del vector
suma, lease, X + Y (X + Y ), es igual a la suma de las normas de cada
uno de ellos. Como el VCM (la norma) calculado sobre una VA menos su
media es igual a la varianza de la misma, la varianza de la suma es igual
a suma de varianzas si las VAs son incorreladas (resultado indicado en la
expresi
on 3.51 para el caso CXY = 0).
3.7
3.7.1
Estimaci
on de mnimo error cuadr
atico medio
Introducci
on
158
C. Alberola L
opez
^ = g (X)
Y
X
CANAL
RECEPTOR
PERTURBACIONES
Si la se
nal fuese y(t) R y analizamos el instante temporal t0 entonces el valor que
manejaramos sera y(t0 ) = y. Planteamos en este ejemplo un problema de filtrado de
se
nales pero, para evitar emplear conceptos que analizaremos en el captulo 5, hemos
considerado la simplicaci
on indicada.
159
es una relaci
on aleatoria ya no es posible invertir la funci
on de transformacion, de modo que nos tendremos que conformar simplemente con tratar de
adivinar (en lenguaje tecnico, estimar) el valor que ha tomado la variable
= g(X) se le denomina estimador
original. Por esta raz
on, a la funci
on Y
de la VA Y, y es una funci
on de la VA X, esto es, una funci
on que a cada
observacion concreta x de la VA X le asocia un valor y que podra haber
tomado la VA Y.
Dado que g(X) es una funci
on de VA, es tambien una VA, de forma
que la expresion tratar de adivinar el valor que ha tomado la variable original tiene signicado solo en terminos probabilsticos. Que criterio pues
emplear para construir esta funci
on?
^
Y
=g (X )
1
= Y - Y^
2
1
^ =g (X )
Y
= Y - Y^
2
^
Y3 =g (X )
= Y - Y^ 3
160
C. Alberola L
opez
161
3.7.2
Resumen de estimadores
= g(X) = a.
Estimador mediante una constante: Y
a = E{Y}
(3.54)
= g(X) = aX + b
Estimador lineal Y
CXY
2
X
b = E{Y} aE{X}
a =
(3.55)
(3.56)
= g(X)
Estimador optimo sin restricciones Y
g(X) = E{Y|X} =
3.7.3
yfY (y|x)dy
(3.57)
Estimaci
on mediante una constante
= E (Y a)2
E{ } = E Y Y
Entonces el valor de a optimo ser
a (llamemos al optimo a )
$
162
C. Alberola L
opez
y por ello
$
dE (Y a)2
da
= E{2 (Y a) (1)}
2
E{2 } = E (Y a )2 = E (Y E{Y})2 = Y
3.7.4
Estimaci
on mediante una funci
on lineal de la observaci
on
E{ } = E
&
YY
2 '
= E [Y (aX + b)]2
(3.58)
Derivando con respecto a cada uno de los par
ametros e igualando a cero
$
E [Y (aX + b)]2
a
%
E [Y (aX + b)]2
$
A partir de la ecuaci
on (3.60) despejamos para obtener
E{Y} aE{X} b = 0 b = E{Y} aE{X}
y sustituyendo en (3.59)
E{XY} aE{X2 } bE{X} = 0
(3.60)
163
a =
(3.61)
(3.62)
E{2 } = 2 = E [Y (a X + b )]2
= E [Y (a X + E{Y} a E{X})]2
$
= E [Y E{Y} a (X E{X})]2
(3.63)
2
2
= Y
+ (a )2 X
2a E{(Y E{Y})(X E{X})}
2
2
+ (a )2 X
2a CXY
= Y
2
Y
CXY
2
X
2
2
X
2
CXY
2 CXY
X
2
C2
CXY
2
2
= Y
XY
=
Y
2
2 2
X
Y
X
2
= Y
(1 2XY )
(3.64)
164
C. Alberola L
opez
3.7.5
Principio de ortogonalidad
La estimacion lineal cumple el llamado principio de ortogonalidad que consiste en lo siguiente: considerando, como ya hemos dicho, la operaci
on
E{XY} como un producto escalar de las variables X e Y, aplicamos esta
operacion al error
E{X} = E {(Y (a X + b ))X}
(3.65)
^ = g (X)
Y
X
3.7.6
165
Estimaci
on
optima sin restricciones
E{ } = E (Y g(X))
(3.66)
(3.67)
g(X)
fX (x)dx
(y g(x)) fY (y|x)dy =
(g(x))fX (x)dx
(3.68)
g(x)
= (2)
d(g(x))
dg(x)
= 0
g (x) =
(y g(x))2 fY (y|x)dy
(y g(x))fY (y|x)dy
(y g(x))fY (y|x)dy = 0
fY (y|x)dy = g (x)
(3.69)
166
C. Alberola L
opez
ydy
yfY (y)dy
= E{Y} E{Y} = 0
Respecto de la varianza:
2 = E{2 } = E{(Y E{Y|X})2 }
=
=
fX (x)dx
(y E{Y|x})2 fY (y|x)dy
2
Y|x
fX (x)dx
2
}
= E{Y|X
Captulo 4
Variable N-dimensional
4.1
Conceptos b
asicos
168
C. Alberola L
opez
4. Reduccion del n
umero de variables de las funciones. Si consideramos,
por ejemplo, que N = 4, podemos escribir
FX1 X3 (x1 , x3 ) = FX1 X2 X3 X4 (x1 , , x3 , )
fX1 X4 (x1 , x4 ) =
(4.1)
(4.3)
(xi1 ,...,xiN )
g1
x1
..
.
gN
x1
..
.
g1
xN
..
.
gN
xN
(4.4)
y los puntos (xi1 , . . . , xiN ), i = (1, . . . , M ) son los M puntos del dominio origen que se convierten en el punto (y1 , . . . , yN ) donde estamos
construyendo la funci
on de densidad de la VA Y.
Si el n
umero de transformaciones gi fuese k < N , entonces podramos
hacer uso de N k variables auxiliares para poder aplicar el teorema
fundamental. Con ello, extenderamos a N VAs el metodo de la VA
auxiliar visto en la seccion 3.5.4.
6. Independencia: tambien este concepto se extiende de una forma natural al caso de N variables. Si estas son independientes se verica que
existe independencia entre los sucesos denidos a partir de las mismas, en particular, entre los sucesos {Xi xi } y {Xj xj } i = j.
Por ello podremos escribir1
FX1 X2 ...XN (x1 , x2 , . . . , xN ) =
N
FXi (xi )
(4.5)
i=1
1
En terminos estrictos y seg
un la notaci
on de la secci
on 1.7, el suceso en el experimento
compuesto asociado al suceso {Xi xi } debera escribirse S1 Si1 {Xi
on simplicada, no obstante.
xi } Si+1 SN . Emplearemos la notaci
169
N
fXi (xi )
(4.6)
i=1
N
otese que esta expresion implica independencia entre cada dos variables, entre cada tres etc ..., hasta la independencia conjunta de las
N variables. El motivo no es otro que a partir de las expresiones
anteriores podemos reducir a nuestro gusto el n
umero de VAs involucradas sin mas que aplicar la operativa indicada en las expresiones
(4.1) y (4.2) y la igualdad se seguira manteniendo.
7. Distribuciones condicionadas: en el captulo anterior obtuvimos que
fXY (x, y) = fX (x|y)fY (y)
(4.7)
170
C. Alberola L
opez
(a) Para eliminar una variable a la izquierda de la lnea del condicionante, integramos con respecto a ella. Por ejemplo, para
pasar de f (x1 , x2 |x3 ) a f (x1 |x3 ), integramos con respecto a x2 .
En efecto, vease que
f (x1 , x2 |x3 ) =
f (x1 , x2 , x3 )
f (x3 )
y, como sabemos, para eliminar la dependencia de x2 en la variable conjunta, integramos respecto a ella. As pues
f (x1 , x3 )
f (x1 , x2 , x3 )dx2
=
= f (x1 |x3 )
f (x3 )
f (x3 )
f (x1 , x2 , x3 )
f (x2 , x3 )
f (x1 , x2 , x3 ) f (x2 , x3 )
f (x2 , x3 )
f (x3 )
on
de forma que ya aparece la dependencia de x2 solo en la funci
conjunta. Por tanto, integrando respecto a ella tendramos
f (x1 , x2 , x3 ) f (x2 , x3 )
dx2
f (x2 , x3 )
f (x3 )
f (x1 , x2 , x3 )
=
dx2
f (x3 )
f (x1 , x3 )
=
= f (x1 |x3 )
f (x3 )
(4.11)
N
i=1
ai Xi + b
(4.12)
171
Los coecientes ai , i={1,. . . ,N} y b se obtienen siguiendo un procedimiento similar al empleado para obtener las ecuaciones (3.59) y (3.60)
de la seccion 3.7.4. En este caso el n
umero de ecuaciones resultante
sera de N +1, coincidente con el n
umero de incognitas en la expresion
(4.12).
Si el estimador es el optimo sin restricciones, la extension al caso de
N variables de lo visto en la seccion 3.7.6 es inmediata: debe calcularse la esperanza de Y condicionada a todas las variables observadas.
Concretamente, la expresion (3.69) ahora se generaliza de la forma
= g (X1 , . . . , XN ) =
Y
yfY (y|X1 , . . . , XN ) dy
= E {Y|X1 , . . . , XN }
4.2
(4.13)
Esperanzas matem
aticas
= E{X} =
X1
X2
..
.
(4.14)
XN
2. Matriz de correlaci
on:
RX
= E{XX } =
E{X1 X1 }
E{X2 X1 }
..
.
E{X1 X2 }
E{X2 X2 }
..
.
..
.
E{X1 XN }
E{X2 XN }
..
.
172
C. Alberola L
opez
(4.15)
Notese, pues, que esta matriz no es otra cosa que una tabla de N 2
elementos, donde los terminos de la diagonal principal son los VCMs
de cada variable y el resto de los elementos son las correlaciones cruzadas entre cada dos variables distintas. Obviamente, para variables
reales esta matriz es simetrica.
3. Matriz de covarianza: matriz similar a la anterior, pero ahora el termino cij es la covarianza entre Xi y Xj , es decir, cij = E{(Xi Xi )(Xj
Xj )}. Ello trae consigo que, en particular, los elementos de la diagonal principal sean las varianzas de cada una de las variables. As pues3
CX =
2
X
1
CX2 X1
..
.
CX1 X2
2
X
2
..
.
CXN X1
CXN X2
CX1 XN
CX2 XN
..
..
.
.
2
X
N
(4.16)
Seg
un la expresi
on (4.16) deberamos llamar a esta matriz de varianzas y covarianzas, as como a la matriz de la expresi
on (4.15) matriz de valores cuadr
aticos medios y
correlaciones. Aqu se ha empleado, sin embargo, la denominaci
on m
as com
un en el
area
de Teora de la Se
nal, aun a riesgo de pecar de anglicista.
173
de la variable Z = N
i=1 Xi es igual a la suma de los VCMs. En efecto
E{Z2 }
N
2
Xi
i=1
N
X2i
+E
i=1
N
E X2i +
i=1
N
E X2i +
N
Ortog.
i=1
N
N
Xi Xj
i=1 j=1
Xi Xj
j=1
j=i
E {Xi Xj }
j=1
j=i
N
N
i=1
E X2i
N
N
i=1
i=1
=
=E
N
N
R Xi Xj
j=1
j=i
(4.17)
i=1
N
i=1
N
Xi
2
Xi
i=1
i=1
(Xi Xi )(Xj Xj )
i=1 j=1
N
2
(Xi Xi )
i=1
N
N
N
#
2
(Xi Xi )
174
C. Alberola L
opez
N
N
i=1
N
N
N
Incorr.
E (Xi Xi )(Xj Xj )
j=1
j=i
E (Xi Xi )2 +
i=1
=
(Xi Xi )(Xj Xj )
j=1
j=i
E (Xi Xi )2 +
i=1
N
N
i=1
N
N
i=1
2
X
i
CXi Xj
j=1
j=i
(4.18)
i=1
4.3
2. que cualquier subconjunto de k < N VAs extrado del vector X tambien constituye un vector de VAs conjuntamente gaussianas;
3. que la funci
on de densidad de cualquier conjunto de k < N VAs
del vector X, condicionada al conjunto de N k VAs restantes, es
tambien conjuntamente gaussiana.
El estudio de variables gaussianas y conjuntamente gaussianas es particularmente interesante por diversas razones. Entre ellas:
175
(xi Xi )2
exp
2
2X
i
176
C. Alberola L
opez
5. La transformaci
on lineal Y = AX del vector X de VAs conjuntamente
gaussianas da lugar a un vector Y de VAs tambien conjuntamente
gaussianas si la matriz Y es cuadrada y de rango completo N .
Ejercicio 1: Demuestrese por medio del Teorema Fundamental
N-dimensional (expresi
on 4.3) que si A es una matriz cuadrada
de N N y rango completo, entonces la VA generada mediante
Y = A X es un vector de VAs conjuntamente gaussianas si el
vector X lo es. Obtenga la expresi
on de Y y C Y en funci
on
de X y C X .
Soluci
on: Si A es de rango completo entonces la combinacion
lineal asociada a ella es biyectiva. Por ello, podemos escribir:
|C X | 2 (2)
e 2 (A
N
2
y X )T C X (A
y X )
|A|
= fY (y)
Denominando por conveniencia
= A X
(4.20)
1
2
N
2
1
2
N
2
|C X | |A|(2)
1
|C X | |A|(2)
1
1
e 2 (A
1
e 2 (A
yA
(y))T C X (A
|C X | 2 |A|(2) 2
)T C X (A
e 2 (y)
yA
(y))
1
1 1
T (A
)T C X A (y)
(4.21)
Si denominamos ahora
T
C = A C XA
(4.22)
177
y recordando que
(A B)T
(B
1 T
= B A
= (B )1
|A B| = |A||B|
(suponiendo en el u
ltimo caso que ambas matrices son cuadradas y de la misma dimension), entonces
C
= (A )1 C X A
= (A
1 T
) CX A
1
1
2
|C| (2)
N
2
e 2 (y)
TC
(y)
(4.23)
por lo que concluimos que, en efecto, el vector Y es un vector
de variables conjuntamente gaussianas.
Asimismo, comparando la expresion obtenida con la indicada
por denici
on en la ecuacion (4.19) vemos que los parametros
Y y C Y , coinciden con los denidos por comodidad en las
expresiones (4.20) y (4.22), por tanto
Y = A X
C Y = A C XA
178
C. Alberola L
opez
Y
Z
= BX
B=
A
0 I N M
= E{A(X X )(X X )T A }
T
= AE{(X X )(X X )T }A = A C X A
(4.24)
expresiones que coinciden, respectivamente, con (4.20) y (4.22)
179
C XY =
2
X
CXY
2
CXY Y
cuyo determinante es
2 2
2
2 2
|C XY | = X
Y CXY
= X
Y (1 2XY )
y su inversa
1
C XY
1
= 2 2
X Y (1 2XY )
2
Y
CXY
2
CXY X
2 2 (1
X
Y
2XY )
e 2
2XY )
2 2 (1
X
Y
x X y Y
x X y Y
1
C XY
x X
y Y
2
Y
CXY
2
CXY X
x X
y Y
2 (x )2 2C
2
2
Y
X
XY (x X )(y Y ) + X (y Y )
2 2 (1 2 )
X
Y
XY
1
(1 2XY )
(x X )2
(x X )(y Y ) (y Y )2
2XY
+
2
2
X X
X
Y
180
C. Alberola L
opez
X Y 2 1 2XY
1
12
(12
)
XY
(xX )(yY )
(xX )2
(yY )2
2XY
+
X X
2
2
X
Y
(4.25)
X Y 2 1 2XY
1
12
(12
)
XY
e
=
12
2
2XY 1 2 + 22
2
X
X
X
Y
X Y 2 1 2XY
12
1
(1 ,2 )
(12
)
XY
(4.26)
Entonces
(1 , 2 ) =
2 2 2
2 2
Y
XY X Y 1 2 + X 2
1
2
2
X Y
(1 , 2 ) =
2 2 2
2 2
Y
XY X Y 1 2 + X 2
1
+
2 2
X
Y
2 2 2 2 2
2XY Y
1
XY Y 1
2 2
X
Y
2 2 1 2
(X 2 XY Y 1 )2 + Y
1
XY
2 2
X
Y
181
Y
2
X
2
XY X 1
2
2 2 1 2
+ Y
1
XY
2 2
X
Y
2 XY Y
1
X
2
2 1 2XY
+ 1
2
X
2
Y
X 2
12 12
XY
1
2(12
2
)
XY
X
Y 2(1 2XY )
1
2(12
)
XY
2 XY Y 1
X
2
Y
X 2
(xX )2
2
X
Y 2(1 2XY )
=
X 2
(xX )2
2
X
Y 2(1 2XY )
y Y +XY Y (xX )
X
2
2(1
) 2
XY Y
2
= fX (x)fY (y|x)
donde la u
ltima igualdad procede de las identidades (3.24) y
(3.25). Entonces podemos armar que
X N (X , X )
!
Y
Y|x N Y + XY
(x X ), Y 1 2XY
X
(4.27)
por lo que, seg
un se desprende de (4.27)
Y
(X X )
E{Y|X} = Y + XY
X
182
C. Alberola L
opez
h[k]x[n k]
k=
y[0]
y[1]
y[2]
y[3]
y[4]
y[5]
h[0]
h[1]
h[2]
0
0
0
0
h[0]
h[1]
h[2]
0
0
0
0
h[0]
h[1]
h[2]
0
0
0
0
h[0]
h[1]
h[2]
x[0]
x[1]
x[2]
x[3]
183
4.4
Variables complejas
En el caso en que las variables involucradas sean complejas, los resultados que hemos visto hasta ahora son aplicables con peque
nas variaciones.
Concretamente, una variable compleja Z = X + jY tiene dos componentes
reales, de forma que la funci
on de densidad de la variable compleja coincide
con la funci
on de densidad de la variable bidimensional (X, Y). Para el caso de dos variables complejas tendramos cuatro variables reales, de forma
que la funci
on conjunta sera una funci
on de densidad tetradimensional.
Estos resultados se extenderan al caso de N variables.
Con respecto a las esperanzas, E{Z} = E{X + jY} = E{X} + jE{Y}.
Como puede verse, una esperanza es una medida de tendencia central, de
forma que la media localiza a la variable compleja en torno a un punto del
plano complejo.
Por otra parte, la varianza es una medida de dispersi
on, y medira en
este caso como se dispersa la variable compleja con respecto a su valor
medio. As pues, se plantea como un radio de dispersion de la forma
2
Z
= E{|Z Z |2 } = E{(Z Z )(Z Z ) }
= E{ZZ } Z Z
= E{|Z|2 } |Z |2
(4.28)
(4.29)
Estrictamente hablando, s
olo las L primeras VAs seran conjuntamente gaussianas
pues las P 1 restantes son calculables a partir de las primeras. No obstante, en casos
pr
acticos el valor de L suele ser mucho mayor de P , por lo que los efectos de bordes de
los transitorios del ltro son despreciables.
184
C. Alberola L
opez
(4.30)
Finalmente, la correlaci
on y la covarianza se generalizan al caso complejo, simplemente, conjugando la segunda variable. Concretamente
RZ1 Z2
= E{Z1 Z2 }
CZ1 Z2
= E{(Z1 Z1 )(Z2 Z2 ) }
(4.31)
= RZ1 Z2 Z1 Z
2
(4.32)
= E{Z2 Z1 } = E {(Z1 Z2 )} = RZ
1 Z2
(4.33)
= E {(Z1 Z1 )(Z2 Z2 ) } = CZ 1 Z2
(4.34)
= E{(Z2 Z2 )(Z1 Z1 ) }
de modo que las expresiones dadas para las matrices de correlacion y covarianza (ecuaciones 4.15 y 4.16) eran especcas del caso real. Para VAs
complejas las matrices tienen que incorporar los complejos conjugados, de
modo que las matrices no seran simetricas sino hermticas (la matriz coincide con su conjugada traspuesta).
4.5
4.5.1
Teoremas asint
oticos
Teorema del Lmite Central
185
a)
b)
c)
d)
i = 1, . . . , N
2. E{|Xi Xi |3 } > B2
i = 1, . . . , N
N
i=1
Xi
186
C. Alberola L
opez
tiene el comportamiento
FZ (z) N
z Z
G
Z
(4.35)
con
Z =
2
Z
=
N
i=1
N
Xi
2
X
i
i=1
1
2
e 2Z
fZ (z) N
(4.36)
Z 2
on de densidad
No obstante, si las variables Xi fuesen discretas, la funci
de la suma sera la correspondiente a una VA tambien discreta (es decir,
formada por impulsos) de forma que una funci
on de densidad gaussiana
no tendra por que poder ajustarse a este esquema. Un caso particular de
esto, como veremos a continuacion, es el caso en que los valores que tomen
las VAs Xi sean equiespaciados, es decir, Xi = a i.
Intuitivamente puede ilustrarse el funcionamiento del teorema en base al
teorema de la convolucion (vease seccion 3.5.1). Como es sabido, la funci
on
de densidad de la suma de variables independientes es igual a la convoluci
on
de sus funciones de densidad. Considerando variables IID uniformes entre
cero y uno, la gura 4.1a) muestra el histograma normalizado de la VA
Z1 = X1 ; la gura 4.1b) lo hace para la VA Z2 = X1 + X2 y las guras
10
y Z10 = i=1 Xi Como puede verse, la funci
on de densidad resultante
va adquiriendo progresivamente una envolvente m
as parecida a la curva
gaussiana, tanto m
as cuantas mas funciones de densidad intervienen en la
convoluci
on.
4.5.2
Teorema de DeMoivre-Laplace
Es el caso particular del anterior teorema para VAs discretas con valores
equiespaciados, en concreto, VAs Xi de Bernoulli (de par
ametro p). En
187
N
Xi
i=1
que, como sabemos, en terminos exactos es una binomial, puede aproximarse (con N >> 1) mediante
FZ (z) G
z Z
Z
con
Z = N p
Z = N pq
Asimismo, por ser una VA de valores equiespaciados zi = i a = i, i =
(0, . . . , N ) la envolvente de la funci
on de densidad de la misma tambien
es gaussiana (vease ecuacion (1.51) y gura 1.5 del primer captulo). Esta
aproximacion es tanto mas valida cuanto m
as cerca esten los valores de la
VA de su valor medio. Por este motivo, se plantearon en el captulo primero
condiciones adicionales de validez de la expresion (1.51).
4.5.3
188
C. Alberola L
opez
(4.37)
> 0, R.
Para ver que esto es as basta caracterizar la VA NA . Esta VA es
igual, como hemos dicho antes, al n
umero de veces que se verica el suceso
deseado, de N veces posibles, cuando se ejecutan experimentos independientes. Esta VA, por denici
on, es una VA Binomial, concretamente, B(N, p).
As pues, aplicando la aproximaci
on de DeMoivre-Laplace, podemos escribir:
P (|fr (A) p| < ) = P ( < fr (A) p < )
NA
= P ( <
p < )
N
= P (N (p ) < NA < N (p + ))
N (p + ) N p
N (p ) N p
G
G
N pq
N pq
N
N
= G
G
N pq
N pq
N
N
= G
1G
N pq
N pq
N
= 2G
1
(4.38)
N pq
Por lo tanto
N
lim 2G
1
N
N pq
= 2G() 1 = 2 1 = 1
(4.39)
189
Soluci
on: Aplicando la expresi
on (4.38) tenemos
N
1 = 0.98
P (|fr (A) p| < ) = 2G
N pq
N
= G
= 0.99
N pq
Por tanto
= G1 (0.99) 2.33
N pq
por lo que
N
N
pq
2
pq
0.6 0.4
2.33
= (2.33)2
= 521.17
=
0.052
= 2.33
2
X
2
(4.40)
E{fr (A)} = E
f2r (A) =
NA
N
'
N
1
E{Xi } = p
N i=1
N
1 2
1
N pq
pq
2
=
X
=
=
NA
i
2
2
2
N
N i=1
N
N
190
C. Alberola L
opez
pq
N 2
pq
= 1 lim
= 1 (4.41)
N N 2
pq
N
2
lim 1
4.6
191
sistema de control para tomar una decision se propone otra estrategia; esta
consiste en los subsistemas en orden creciente de ndice (de 1 a N ), y dar
alarma en cuanto alguno de ellos haya enviado se
nal de alarma. Obtenga
el umbral para cada subsistema de modo que la Pfa de esta estrategia
coincida con la del apartado c), as como el n
umero medio de operaciones
realizadas por el sistema de control para tomar una decision, suponiendo
que la consulta a cada subsistema requiere P operaciones.
Soluci
on:
a) La funci
on de densidad de la VA cada Yi puede obtenerse mediante el Teorema Fundamental para variables unidimensionales (vease seccion 2.6.3) cuya expresi
on es
fX (x)
i
fYi (y) =
|g (x)|
N (y)
i=1
.
x=xi
1
1
[ln(x)]
1
1
1
1
[ln(x)]
x
1
1
1
[ln(x)]
1
1
(y) e(y)
1
|g (x)|
1
1
[(y)1 ] e(y)
= y 1 e(y)
= (y)1 e(y)
192
C. Alberola L
opez
1
1
(ln(x)) dx
1
1
( ) e d
3
4
1 1
1 ( 1 +1)1
e d =
=
e d
0
0
1
1
1
1
1+
=
=
= P f a = P (Yi > ) =
=
=
fYi (y)dy
y 1 e(y) dy
e(y)
= e()
Por ello
() = ln()
1
= [ln()]
1
1
=
[ln()]
(4.42)
Pfa = P
N
k=M
Bk
=1P
M 1
k=0
Bk
=1
M
1
k=0
P (Bk )
193
M
1
N k N k
p q
k
k=0
M
1
N k
(1 )N k
k
k=0
(4.43)
M 1 N
Pfa
=1G "
N (1 )
A1
A2
A1
A2
A3
...
N 1
Ai
AN
i=1
N
i=1
Ai
194
C. Alberola L
opez
por lo que
P f a = P (F A) = 1 P (F A) = 1 P
N
Ai
i=1
= 1
N
P (Ai ) = 1 (1 p)N
i=1
Z=P
Z = 2P
Z = 3P
..
.
Z = (N 1)P
P (Z = (N 1)P ) = P
N
2
Z = NP
P (Z = N P ) = P
Ai
i=1
N
1
Ai
AN
= q N 2 p
AN 1
AN
i=1
= q N 1 (p + q) = q N 1
A partir de ello el calculo del valor medio E{Z} se llevara a cabo en base
a la expresion (2.41) y operando de forma acorde. Concretamente
E{Z} =
N
zi P (Z = zi ) =
N
1
i=1
(iP )q i1 p + (N P )q N 1
i=1
Esta expresi
on puede reformularse para extender el sumatorio al u
ltimo
N
1
N
1
=q
(p + q), de modo
valor de la VA empleando el hecho de que q
que
E{Z} = pP
N
i=1
iq i1 + N P q N
195
N
qi =
i=1
q q N +1
q(1 q N )
=
1q
1q
N
iq i1 =
1 (N + 1)q N [1 q] + (q q N +1 )
(1 q)2
i=1
Por tanto
E{Z} = pP
P
=
=
=
1 (N + 1)q N [1 q] + (q q N +1 )
(1 q)2
+ qN N P
1 (N + 1)q N (1 q) + (q q N +1 ) + pq N N P
p
P (1 q N )p P N q N p + P q(1 q N ) + P N q N p
p
N
P (1 q )(p + q)
1 qN
=P
p
p
i i 1 x/
e
x
(i )
x0
196
C. Alberola L
opez
FXi (x) = 1 e
i 1
j=0
(x/)j
j!
x 0,
Entonces
fX1 X2 (x1 , x2 )
1 x1 = x2 fX1 X2 (x1 , x2 )
x2
x2
fZW (z, w) =
0
1
= x2 fX1 (x1 )fX2 (x2 ) = wfX1 (zw)fX2 (w), w 0, z 0
Marginalizando, obtenemos
fZ (z) =
=
=
2
1
(zw)1 1 ezw/
(w)2 1 ew/ dw
(
)
(
)
0
1
2
1 2 1 1 1 +2 1 z+1
w
w
e dw
z
(1 ) (2 )
0
on de la
Denominando k = z+1
y p = 1 + 2 , y recordando la denici
funci
on () (expresi
on (2.63)), podemos escribir
fZ (z) =
=
(1 +2 ) 1 1 1 + z
z
(1 )(2 )
1
1
z
(1 + 2 )
(1 )(2 ) (1 + z)1 +2
(1 +2 )
(1 + 2 )
197
expresi
on v
alida para z 0.
b)
Z = E{Z} =
zfZ (z)dz
&
'
X1
=
x1 x1
= E
2 fX1 (x1 )fX2 (x2 )dx1 dx2
X2
0
0
1
2
=
x1 1 ex1 / dx1
x2 2 ex2 / dx2
(1 )
(2 )
0
0
1
(1 )
(1 +1)
(2 1)
2 1
(2 )
1
(1 + 1)(2 1)
= (1 +2 ) ( + )
1
2
(1 )(2 )
1 (1 )
(2 1)
1
=
=
(1 ) (2 1)(2 1)
2 1
=
(1 + 1)
(2 1)
P (A) = P (Z 1) = P
=
=
=
0
dx1
x1
0
0
= 1
= 1
= 1
X1
1 = P (X1 X2 )
X2
50
1 ex1 / 1 +
x1
x1
ex1 / 1 +
6
(1 )
1
x1
1+
fX1 (x1 )dx1
x1 1 1 1 x1 /
e
dx1
x
(1 ) 1
1 1 1 2x1 /
e
dx1
x
(1 ) 1
0
1
x1 /
0
(
+1)
1
(1 +1) 1 2x1 /
dx1
x e
(1 ) 1
(1 +1)
2
(1 )
1
3
11
=1
=
8 16
16
(1 )
= 1 21 1 2(1 +1)
(1 + 1)
198
C. Alberola L
opez
X1
f()
Y1
Y2
...
X2
f()
XN
f()
YN
(p) = k p
199
p1 exp(k )d ; p, k > 0
(p + 1) = p(p), p R; ( 12 ) = ; (z + 1) = z!, z N
0
Soluci
on:
a) Recordando que la desigualdad de Tchebyche (vease seccion
2.5.5)
2
P (|Z Z | ) 2Z
donde, seg
un dice el enunciado, = 3Z , entonces el problema se reduce a
calcular la media y la varianza de la VA Z. En las condiciones del apartado
N
se verica que Z = N
i=1 Yi =
i=1 Xi de forma que
N
E{Xi } = N
E{Z} =
i=1
N
2
Z
=
2
X
=
i
i=1
N
E{X2i } E 2 {Xi }
i=1
0
x
x+1 exp(( ) )dx
=
0
Seg
un el enunciado (p) = k p 0 p1 exp(k )d , de forma que haciendo
1+
1++1
= ( )
0
2+
k p p1 ek d = k p (p)
2
2
= 2
2
+1
200
C. Alberola L
opez
Por ello
2
X
i
2
Z
2
2
=
2
= N Xi
2
1
2
2 2
2
2
=
2
6
1
1
2
2
Z
= =
(3Z )2
N 2
2
1 2
2 2
9 N2 2
2
9N
2
1 2
1
1 1 2 (4) 22 (2)
1 1 10
5
=
=
2
2 9N
(2)
2 9N 1
9N
b)
P (|Z Z | > 2Z ) = 1 P (|Z Z | 2Z )
= 1 P (2Z < Z Z 2Z )
= 1 P (Z 2Z < Z Z + 2Z )
5
6
Z + 2Z Z
Z 2Z Z
1 G
G
Z
Z
= 1 [G (2) G (2)] = 1 [G (2) (1 G (2))]
= 1 [2G (2) 1] = 1 0.9546 = 0.0454
donde se ha empleado el Teorema del Lmite Central (vease seccion 4.5.1),
as como la simetra de la funci
on G() (vease p
agina 62).
c) Si escribimos la denici
on de funci
on caracterstica (ecuacion
2.95) adaptada al caso que se plantea
jU
U () = E{e
}=
0
ju
fU (u)e
a
du =
(a)
0
ua1 e
1
j u
du
201
j y a = p entonces
a a a a1 ku
k
k u e
du
(a)
0
a a
=
k (a)
(a)
a
1 j a
1
=
= a
1 j
U () =
d) En este caso Z =
i=1 Yi
Z () = E{ejZ } = E{ej
X
i
i=1
i=1 Xi .
}=
N
Por ello
E{ejXi } =
i=1
N
Xi ()
i=1
Xi () = E{ejXi } =
x1 e
e
1
j
x
(
) jx
x1 e
1
j
1
j
dx
dx
0
1
1
=
1 j
j
Por lo que
Z () =
1
1 j
N
Seg
un el resultado del apartado anterior, podemos escribir
fZ (z) =
a a1
z
z exp( ), z > 0
(a)
con a = N y = .
202
C. Alberola L
opez
4.- Sean Yi , i = {1, . . . , n}, n variables aleatorias independientes e identicamente distribuidas (IID), con funci
on de distribuci
on F (y) (com
un para
todas), tal que F (y) = 0 y < 0. Se pide:
a) Deniendo Z = max(Y1 , . . . , Yn ) y W = min(Y1 , . . . , Yn ), obtenga la funci
on FZW (z, w) para z w 0.
b) Suponiendo que Y0 es una variable IID con respecto a las Yi
anteriormente denidas, obtenga P (W < Y0 Z) como funci
on exclusivamente de n. Para resolver las expresiones que obtenga se recomienda que
analice el parecido formal de la funci
on fZW (z, w) calculada a partir de n
y n + 1 variables IID.
c) Suponga que Xj es una variable que toma el valor 1 cuando
{W < Y0 Z} y 0 en cualquier otro caso, con j = {1, . . . , N } y N el
n
umero de veces que se ejecutan experimentos independientes del tipo del
indicado (N >> 1). Se pide que obtenga el valor de que hace que
1 N
P
Xj p < = 1
N j=1
n
P (Y < w)k P (w < Y z)nk
k
P (Bk ) =
n
F k (w)(FY (z) FY (w))nk
k Y
=
Entonces
FZW (z, w) = P
n
k=1
n
k=1
Bk
n
P (Bk )
k=1
n
F k (w)(FY (z) FY (w))nk
k Y
203
con 0 w z.
b) Recordando la denici
on de funci
on de densidad conjunta (ecuacion 3.7)
2 FZW (z, w)
zw
2
[FY (z) [FY (z) FY (w)]n ]
=
zw
=
n [FY (z) FY (w)]n1 fY (w)
z
= n(n 1) [FY (z) FY (w)]n2 fY (z)fY (w)
fZW (z, w) =
zw
=
zw
=
zw
=
zw
n(n 1)
n(n + 1)
zw
204
C. Alberola L
opez
=
=
n(n 1)
f n+1 (z, w)dzdw
n(n + 1) zw ZW
n(n 1)
(n 1)
=
n(n + 1)
(n + 1)
Xi
Deniendo
U=
n1
n+1
2
n+1
N
V
1
=
Xi
N
N i=1
G
G
N pq
N pq
N
N
N
= G
G
= 2G
1
N pq
N pq
N pq
= 1
donde se ha hecho uso de la simetra de la funci
on G() (vease p
agina 62).
Entonces
G1
N
1 = 1
2G
N pq
N
= 1
G
2
N pq
1
2
= G1 (0.9750) =
por lo que
= 1.96
N
= 1.96
pq
pq
N
205
PP
a
c
AP
b
d
a) I = N
i=1 [Xi Yi ] donde, Xi = 0 si el primer especialista dice
P P y Xi = 1 en caso contrario, y lo propio para el segundo especialista
206
C. Alberola L
opez
con la VA Yi .
b) Por denici
on la VA I es binomial en ambos supuestos (esto es,
en supuestos H0 y H1 ), ya que esta variable se construye en base a una
composicion de ensayos de Bernoulli independientes (vease secciones 1.7.1
y 2.3.2). Lo que cambia entre H0 y H1 es la probabilidad de cada valor de
la VA I.
As pues
IH0
B(N, pH0 )
IH1
B(N, pH1 )
donde
pHj
pH0
= p11 + p00
pH1
Para calcular las probabilidades pH0 y pH1 empleamos los datos siguiendo las expresiones escritas en el apartado anterior, e identicando seg
un
indica el enunciado probabilidad con frecuencia relativa. As pues
pHj
pH0
pH1
207
Captulo 5
Procesos estoc
asticos
Hasta ahora, hemos abordado el estudio de los conceptos basicos de Teora
de la Probabilidad, as como de las VAs a traves de un planteamiento
incremental de una, dos y N variables.
En este tema encontraremos ya la relacion que liga a las se
nales con las
VAs. Toda se
nal que transporte informaci
on tendr
a alg
un grado de aleatoriedad, de forma que en general no podremos predecir sin error el valor que
tomar
a una se
nal en el futuro, conocidos los valores que ha tomado en el
pasado. Pero, no obstante, hemos visto formas de predecir de manera optima haciendo uso de la informaci
on probabilstica de que dispongamos. Por
otra parte, las se
nales de comunicaciones siempre se mueven en entornos
ruidosos, siendo el ruido tambien una se
nal aleatoria, en este caso indeseada. Por ello, sera necesario disponer de herramientas que nos permitan
minimizar el efecto del ruido.
En el tema que comenzamos, por lo tanto, conectaremos los conceptos
vistos hasta ahora con el tratamiento de la se
nal.
5.1
210
C. Alberola L
opez
x (t) = X(t, a )
1
x (t) = X(t, a )
2
x (t) = X(t, a )
3
t0
t
X(t 0)
211
212
C. Alberola L
opez
5.1.1
Clasicaci
on de procesos estoc
asticos
5.2
213
Funciones de distribuci
on y densidad
Dado que un proceso estocastico no es otra cosa que una coleccion de VAs,
indexadas estas mediante un ndice continuo (procesos estocasticos propiamente dichos) o discreto (secuencias aleatorias), podemos hablar tambien
de funciones de densidad y distribuci
on del proceso, bien entendido que tales funciones se denen sobre cada una de las VAs del proceso. Por tanto,
podemos denir
Funci
on de densidad (de primer orden) del proceso
FX (x; t) = P (X(t) x)
(5.1)
dFX (x; t)
dx
(5.2)
214
C. Alberola L
opez
Obtenci
on de las marginales a partir de las anteriores
FX (x1 , t1 ) = FX (x1 , ; t1 , t2 )
fX (x1 , t1 ) =
fX (x1 , x2 ; t1 , t2 )dx2
Funciones de distribuci
on y densidad de orden N
N
X(ti ) xi
i=1
En el caso en que tengamos dos procesos, la caracterizacion probabilstica total del mismo vendra dada por la funci
on de densidad
conjunta de ordenes N y M (N y M ), es decir, a partir de la
funci
on:
fXY (x1 , . . . , xN , y1 , . . . , yM ; t1 , . . . , tN , t1 , . . . , tM )
(5.3)
En la pr
actica, salvo para procesos gaussianos, es impensable poder
disponer de toda esta informaci
on probabilstica, tanto para uno como para
dos o mas procesos, de forma que es habitual trabajar con par
ametros de
caracterizacion parcial del proceso, lease, medias, varianzas, covarianzas
etc . . . . Este
es nuestro siguiente punto de atencion.
5.3
Caracterizaci
on parcial de procesos estoc
asticos. Ruido blanco
Media:
X (t) = E{X(t)} =
(5.4)
E{X (t)} =
x2 fX (x; t)dx
(5.5)
215
Varianza:
2
X
(t) = E{(X(t) X (t))2 } =
2
(t)
= E{X2 (t)} X
(5.7)
Notese que RX (t, t) = E{X2 (t)}, es decir, es igual al VCM de la VA
X(t).
Autocovarianza
CX (t1 , t2 ) = E{(X(t1 ) X (t1 ))(X(t2 ) X (t2 ))}
(5.8)
CX (t1 , t2 )
X (t1 )X (t2 )
(5.9)
Para el caso de procesos complejos, las cosas funcionan como conocemos. Concretamente:
2 (t) = E{|X(t) (t)|2 } = E{|X(t)|2 } | (t)|2
X
X
X
216
C. Alberola L
opez
2 [n]
X
= E{(X[n]
t por n en la expresion (5.6).
2 [n], sustituyendo
X
2 (t)
X
i (xi
RX (t1 , t2 ) =
i xi P (X(t) = xi )
X (t))2 P (X(t) = xi )
5.3.1
Un proceso se denomina ruido blanco si cumple unas determinadas condiciones. Dentro del ruido blanco se distinguen tpicamente dos casos, aunque
en la pr
actica el empleado es el primero. Estos
son:
Ruido blanco en sentido amplio: un proceso se dice que es un proceso
de ruido blanco en sentido amplio si presenta incorrelaci
on total, es
decir, si cada dos variables del mismo estan incorreladas. Por ello,
para el caso de procesos estocasticos (esto es, para ndices temporales
continuos) se puede escribir
CX (t1 , t2 ) = q(t1 )(t1 t2 )
(5.10)
217
(5.11)
N
fX (xi ; ti )
(5.12)
i=1
En la pr
actica, como hemos dicho, el modelo com
unmente empleado es el
de ruido blanco en sentido amplio. Asimismo, salvo mencion expresa, se
asumira que el ruido blanco tiene media nula.
5.3.2
Cuando los procesos involucrados sean dos, por ejemplo, X(t) e Y(t), la
caracterizacion conjunta de ambos vendra dada por la funci
on de densidad
conjunta de ordenes N y M , con estos par
ametros arbitrariamente grandes.
No obstante, no suele ser posible poder calcular esta funcion, de forma que el
recurso es limitarse a caracterizaciones parciales del tipo medias, varianzas
y covarianzas. Las covarianzas, en este caso, involucran a variables de dos
procesos y por ello se las denomina covarianzas (o correlaciones, en su caso)
cruzadas. As pues, se denen:
(5.13)
218
C. Alberola L
opez
De manera similar a lo ya conocido, podemos hablar de procesos incorrelados, ortogonales e independiente. Formalmente:
Incorrelacion: dos procesos son incorrelados si CXY (t1 , t2 ) = 0, t1 , t2 .
N
otese que esto implica que RXY (t1 , t2 ) = X (t1 )Y (t2 ), t1 , t2
Ortogonalidad: dos procesos son ortogonales si RXY (t1 , t2 ) = 0,
t1 , t2
Independencia: dos procesos son independientes si N y M se verica
fXY (x1 , ..., xN , y1 , ..., yM ; t1 , ..., tN , t1 , ..., tM ) =
(5.14)
Todo lo conocido para el caso de VAs, como es natural, aplica en este momento. En particular, independencia implica incorrelaci
on, y si dos
procesos son gaussianos (esto es, si las variables que podamos extraer de
estos son conjuntamente gaussianas) incorrelaci
on implicara independencia. Piensese en ello.
5.4
Estacionariedad
219
(5.16)
(5.18)
(5.19)
220
C. Alberola L
opez
CX ( ) = E{(X(t + ) X )(X(t) X ) } = RX ( ) |X |2
(5.20)
Para el caso de secuencias aleatorias el convenio sera el mismo salvo
sustituir los ndices continuos por ndices discretos. Por ejemplo,
RX [m] = E{X(n + m)X [n]}.
En lo que sigue, y hasta el nal del tema, con el objetivo de no duplicar resultados consideraremos procesos de ndices continuos, bien
entendido que los resultados a los que llegaremos aplican tambien a
secuencias aleatorias sin mas que hacer las oportunas adaptaciones
de operadores continuos a operadores discretos (el ejercicio 3 de la
seccion 5.8 es un ejemplo de manejo de una secuencia aleatoria).
5.4.1
Propiedades de la correlaci
on de procesos estacionarios
Autocorrelaci
on
Si X(t) es un proceso WSS se verica:
221
1. La autocorrelaci
on del proceso en = 0 es igual al VCM del proceso,
el cual coincide con la potencia del mismo (seg
un indica la ecuacion
(5.55) de la seccion 5.6.3). Formalmente
RX (0) = E{|X(t)|2 } = PX
(5.21)
(5.22)
i=1 j=1
K
Ak ej(ko t+k )
k=1
222
C. Alberola L
opez
implica incorrelaci
on y lo que ello conlleva en relaci
on a la esperanza del producto (seccion 3.6.2), podemos escribir
X (t) = E{X(t)} = E
K
#
j(ko t+k )
Ak e
k=1
=
=
=
K
k=1
K
k=1
K
ejko t E Ak ej k
ejko t E {Ak } E ej k
ejko t E {Ak }
k=1
1
2
%
= 0
pues la integral de una sinusoide en un periodo de la misma es
nula.
Respecto de la autocorrelacion:
RX (t1 , t2 ) = E{X(t1 )X (t2 )}
= E
K
K
Ap Aq ej(po t1 +p ) ej(qo t2 +q )
p=1 q=1
K
K
ejpo t1 ejqo t2 E Ap Aq E ej p eq
p=1 q=1
Centr
andonos en la u
ltima esperanza rep
arese que para p = q
tendramos la esperanza del producto de funciones de VAs independientes. La independencia implica incorrelaci
on, luego la
esperanza del producto sera igual al producto de las esperanzas.
La esperanza de cada exponencial compleja, seg
un acabamos de
ver, es nula. Por ello, los u
nicos terminos que permanecen en
la expresion anterior son los terminos de ndice p = q, para los
cuales la exponencial compleja es constante y de valor unidad
(el exponente es nulo). Por ello, resulta
RX (t1 , t2 ) =
K
p=1
K
p=1
E |Ap |2 ejpo
223
= RX ( )
En virtud del resultado, el proceso es WSS. Deniendo el proce
j(ko t+k ) ,
so X(t) como X(t) = K
k=1 Xk (t), con Xk (t) = Ak e
puede comprobarse que la autocorrelacion de X(t) es igual a la
suma de las autocorrelaciones de los procesos Xk (t). Asimismo, rep
arese en que la autocorrelacion es periodica de periodo
2
T = 0 , de la misma manera que cada proceso lo es; nalmente, n
otese que tambien presenta simetra conjugada as como un
maximo en = 0.
Correlaci
on cruzada
Si los procesos X(t) e Y(t) son procesos conjuntamente WSS entonces se
verica que:
( )
1. RXY ( ) = RYX
2. |RXY ( )|
"
RX (0)RY (0)
5.5
5.5.1
Ergodicidad
Ergodicidad con respecto de la media
Seg
un conocemos de los temas anteriores, si observamos el valor que han tomado N variables Xi identicamente distribuidas, cada una con valor medio
y varianza 2 , entonces si creamos otra variable
Z=
N
1
Xi
N i=1
(5.23)
224
C. Alberola L
opez
podemos armar que E{Z} = y, si estas variables son, al menos, incorre2 = 2 /N . Por tanto, conforme N aumenta, la variable
ladas, entonces Z
Z tiene cada vez una varianza menor y, en el lmite (N ), Z pasara
a ser una constante de valor igual a . En terminos pr
acticos, dado que
nunca podremos llegar al lmite, diremos que Z es un buen estimador del
valor de la media de cada una de las variables Xi .
Consideremos ahora el caso de un proceso estocastico WSS X(t). Por
ser estacionario, su media es constante, esto es, no es funcion del tiempo,
tampoco lo es su varianza y la correlacion es funci
on de la separaci
on entre
las variables escogidas. Pensemos que queremos calcular la media de la
variable X(t0 ), con t0 un valor concreto del tiempo. Para ello, seg
un acabamos de ver, necesitaramos m
ultiples realizaciones del proceso X(t, ai ),
desecharamos todos los valores de las realizaciones en instantes diferentes
de t0 y nos limitaramos a promediar en el ndice i, es decir
Z=
N
1
X(t0 , ai )
N i=1
(5.24)
225
Este operador, como es natural, resulta en una VA puesto que es una funcion de las innitas variables del proceso estocastico. Cuales son la media
y la varianza de dicho operador? Al respecto de la media:
E{MT } = E
1
2T
1
2T
X(t)dt
1
E{X(t)}dt =
2T
X dt = X
(5.26)
la cual, como puede verse, coincide con la media del proceso. Al respecto
de la varianza el calculo es un poco mas complejo, pero metodologicamente
interesante:
2
M
T
= E{(MT X )(MT X ) }
= E
1
2T
1
(X(t1 ) X )dt1
2T
T
(X(t2 ) X ) dt2
1 2 T T
=
E{(X(t1 ) X )(X(t2 ) X ) }dt1 dt2
2T
T T
1 2 T T
=
CX (t1 , t2 )dt1 dt2
2T
T T
1 2 T T
=
CX (t1 t2 )dt1 dt2
(5.27)
2T
T T
Para calcular esta integral es conveniente hacer el cambio de variable
t2
2T
T
-T
-2T
2T
t1
-T
-2T
= t1 t 2
(5.28)
s
t1
t1
s
t1
t1
1 1
=
1 1
= 2
(5.29)
226
C. Alberola L
opez
entonces
= | 2|dt1 dt2 = 2dt1 dt2
1
=
dsd
2
dsd
dt1 dt2
(5.30)
=
1
2T
2
2T
2T
2
(2T | |)
1
CX ( ) ds
2
(2T | |)
2T 1
1
CX ( )2(2T | |)d
2T
2T 2
1 2 2T
| |
CX ( )2T 1
d
=
2T
2T
2T
2T
| |
1
CX ( ) 1
d
=
2T 2T
2T
(5.31)
Seg
un hemos visto en la ecuacion (5.26), la media de la variable media
temporal MT coincide con la media (estadstica) X del proceso. Pues bien,
para que el proceso sea ergodico con respecto de la media hace falta que
la varianza de esta variable tienda a cero cuando el tiempo de integraci
on
tienda a innito, de forma que, en el lmite, la variable media temporal
sea igual, sin error ninguno, a X . Formalmente el proceso es ergodico con
respecto de la media si
2
lim M
=0
(5.32)
T
T
5.5.2
2T
2T
| |
CX ( ) 1
2T
d = 0
(5.33)
1
2T
X(t + )X (t)dt
(5.34)
227
(5.35)
Para que esto sea as se pueden hacer las mismas consideraciones que en el
caso de ergodicidad con respecto de la media. Es sencillo comprobar que la
esperanza de la ecuacion (5.34) coincide con la autocorrelacion RX ( ) del
proceso. Por la tanto, se cumple la primera condicion para que el anterior
lmite se verique. La segunda condicion tiene que ver con la reduccion
progresiva de la varianza del anterior operador conforme el intervalo de
integracion crece. Se puede vericar que la varianza de AT ( ) es:
2
A
T ( )
1
=
2T
2T
2T
||
CY () 1
d
2T
(5.36)
5.5.3
(5.37)
La ergodicidad es una propiedad que nos permite conectar conceptos probabilsticos con ideas intuitivas que podemos obtener haciendo razonamientos
temporales. Por ejemplo, imaginemos que un proceso estocastico X(t) es
igual a una VA Y, es decir
X(t) = Y, t
(5.38)
1
2T
ydt = y
(5.39)
228
C. Alberola L
opez
229
2.5
1.5
0.5
0.5
1.5
2.5
10
20
30
40
50
60
70
80
90
100
80
90
100
a)
7
10
20
30
40
50
60
70
b)
Figura 5.3: a) Realizacion de un proceso estocastico ergodico de media
nula. b) Realizacion de un proceso estocastico ergodico de media cinco.
otra realizacion del mismo desplazada 2 unidades temporales (uts). Seg
un
se observa, el periodo del proceso es de 10 uts. La realizacion en lnea
discontinua ha desplazado su m
aximo al instante t = 8, mientras que el
maximo central de la realizacion en lnea continua se encuentra en t = 10.
Asimismo, en la realizacion en lnea discontinua observamos que un segundo m
aximo aparece por la derecha de la ventana. Por tanto, si seguimos
desplazando el proceso en lnea discontinua hasta 10 uts, el maximo que
ha entrado por la derecha se habr
a desplazado hacia la izquierda hasta encajar perfectamente con el maximo de la realizacion del proceso en lnea
continua situado en t = 10. En este momento ( = 10) la autocorrelacion
230
C. Alberola L
opez
2
1
0
1
2
3
10
12
14
16
18
20
10
12
14
16
18
20
2
1
0
1
2
3
1.5
0.5
0.5
1.5
10
12
14
16
18
5.6
5.6.1
231
5.6.2
Deducci
on de la densidad espectral de potencia
232
C. Alberola L
opez
X(t) |t| T
0
|t| > T
(5.40)
(5.41)
|XT (t)|2 dt =
|X(t)|2 dt = ER=1
(5.42)
dado que en esa ventana temporal los dos procesos coinciden. Asimismo, si
aceptamos que los procesos son una magnitud electrica (tension o corriente)
la anterior expresi
on se puede considerar que es igual a la energa disipada
por el proceso sobre una resistencia normalizada de valor igual a 1. No se
pierda de vista que, naturalmente, dado que el proceso estoc
astico es una
coleccion de VAs, dicha energa es una funci
on de VA y, por ello, una VA.
En virtud del teorema de Parseval para se
nales continuas podemos escribir
T
1
|X(t)|2 dt =
|XfT ()|2 d
(5.43)
ER=1 =
2
T
233
1
ER=1
=
=
2T
2T
1
|X(t)| dt =
2
2
|XfT ()|2
d
2T
(5.44)
lim E{PR=1 }
lim E
1
= lim
T 2T
=
=
lim E
1
2
1
2T
1
2
#
2
|X(t)| dt
E |X(t)|2 dt =
lim E
|XfT ()|2
d
2T
|XfT ()|2
2T
(5.45)
|XfT ()|2
2T
(5.46)
5.6.3
234
C. Alberola L
opez
$
%
T
1
P X = lim
E |X(t)|2 dt,
(5.47)
T 2T T
podemos escribir esta expresion haciendo uso del operador media temporal,
de forma que
$
%
P X = lim MT E |X(t)|2
(5.48)
T
E |XfT ()|2
T
T
X(t)ejt dt
podemos escribir
$
E |XfT ()|2
2T
(5.51)
2T
(2T | |)
1
1
d
RX ( )ej ds
2T 2T
2
(2T | |)
2T
1
1
RX ( )ej 2(2T | |)d
=
2T 2T
2
2T
| |
1
RX ( )ej 2T (1
)d
=
2T 2T
2T
2T
| |
RX ( )ej (1
)d
=
2T
2T
(5.52)
235
SX () = lim E
T
RX ( )ej d
(5.53)
SX () =
RX ( ) =
1
2
RX ( )ej d
SX ()ej d
(5.54)
1
=
2
(5.55)
236
5.6.4
C. Alberola L
opez
La relaciones de Wiener-Khinchin se pueden extender al caso de dos procesos X(t) e Y(t) conjuntamente estacionarios en sentido amplio. Podemos,
por tanto, denir el par de transformadas
SXY () =
RXY ( ) =
1
2
RXY ( )ej d
SXY ()ej d
(5.56)
Estos espectros cruzados son, en general, funciones complejas incluso aunque los procesos X(t) e Y(t) sean reales. Ademas, habida cuenta de
las propiedades de la correlacion cruzada RXY ( ) es facil comprobar que
().
SXY () = SYX
Por otra parte, los espectros cruzados surgen con frecuencia en la pr
actica. Por ejemplo, supongamos que necesitamos calcular la densidad espectral de un proceso Z(t) = X(t) + Y(t). Entonces, calculando su autocorrelacion
RZ ( ) = E{Z(t + )Z (t)}
(5.57)
(5.58)
5.7
237
como Y(t). El objetivo de esta seccion es obtener las principales propiedades del proceso de salida en funci
on de las propiedades del proceso de
entrada.
Como es sabido [15], la relacion entrada-salida se obtiene mediante la
operacion de convoluci
on:
Y(t) =
5.7.1
X(t )h( )d
E{Y(t)} = E
'
X(t )h( )d
h( )E {X(t )} d =
h( )X (t )d
(5.59)
y si el proceso es WSS
E{Y(t)} = X
h( )d = X H( = 0)
(5.60)
E{|Y(t)| } = E
'
h (2 )X (t 2 )d2
E{|Y(t)|2 } =
RX (2 1 ) h(1 )h (2 )d1 d2
(5.62)
238
C. Alberola L
opez
5.7.2
(5.63)
(5.64)
Correlaci
on cruzada y autocorrelaci
on
Calculemos ahora la autocorrelacion RY (t1 , t2 ) del proceso Y(t) como funcion de RX (t1 , t2 ). Al respecto del proceso X(t), consideraremos que es
WSS.
Para calcular la autocorrelaci
on del proceso Y(t) emplearemos como
paso intermedio la correlacion cruzada RXY (t1 , t2 ):
&
'
X (t2 )h ()d
h ()RX ( + ) d
= RXY ( )
(5.65)
&5
=
=
'
h()X(t1 )d Y (t2 )
= RY ( ) = h( ) RXY ( )
h()RXY ( ) d
(5.67)
239
es decir,
RY ( ) = h( ) RXY ( )
= h( ) h ( ) RX ( )
5.7.3
(5.68)
(5.69)
as como que
SY () = SX ()H ()H() = SX ()|H()|2
5.8
(5.70)
(n+1)T
Z[n] =
nT
X(t)cos (2f1 t) dt
(n+1)T
W[n] =
nT
X(t)cos (2f2 t) dt
240
C. Alberola L
opez
par
ametros que se piden emplearemos las expresiones (2.41) y (2.50).
As pues
2
X (t) = E{X(t)} =
xi pi
i=1
A
[cos (2f1 t) + cos (2f2 t)]
2 5
6
A
1
2
cos 2 t + cos 2 t
2
T
T
=
=
X t =
T
4
A
[1 + 1] = A
2 5
6
A
A
cos
+ cos () =
2
2
2
on del
de forma que es evidente que X (t) = X , es decir, la media es funci
tiempo, por lo que el proceso no puede ser WSS.
Para calcular la varianza, calculemos primero el VCM
E{X2 (t)} =
=
2
i=1
A2
x2i P (X(t) = xi ) =
5
cos
2
i=1
x2i pi
1
2
2 t + cos2 2 t
T
T
6
241
(n+1)T
Z[n] =
nT
(n+1)T
= A
nT
(n+1)T
cos2 (2f1 t) dt
= A
=
=
(n+1)T
Z[n] =
nT
A (n+1)T
[cos (2(f2 + f1 )t) + cos (2(f2 f1 )t)] dt
2 nT
5
6
A (n+1)T
3
1
=
cos 2 t + cos 2 t dt
2 nT
T
T
(n+1)T
A T
6
2 (n+1)T
T
=
+
sen
t
sen
t
2 6
T nT
2
T nT
= 0
i
zi wi P (Z[n] = zi , W[n] = wi )
A
1
A
0 T + T 0 =0
2
2
2
242
C. Alberola L
opez
AT
4
2
AT 1
1
+0
2 2
2
2
= 0
N
y
x
X(t) = N
i=1 Ai cos(i t + i ), Y(t) =
j=1 Bj cos(j t + j ), siendo Ai
exponenciales de par
ametro i, Bj exponenciales de par
ametro j y
las fases iniciales i y j uniformes [0, 2], i, j. Considere, asimismo,
independencia entre todas las variables Ai , Bj , p , q , i, j, p, q. Se pide:
a)Denominando Z(t) al proceso suma de los tres arriba indicados,
obtener E{Z(t)} y RZ (t1 , t2 ). Es el proceso Z(t) estacionario en sentido
amplio?
b) Es el proceso Z(t) ergodico respecto de la media? Sin necesidad
de hacer las operaciones, razone la ergodicidad respecto de la autocorrelacion del proceso X(t) + Y(t).
c) El proceso Z(t) es ltrado mediante un ltro cuya respuesta al
impulso es h(t) = (t) (t T0 ) originando un proceso de salida W(t).
Obtener la densidad espectral del proceso de salida W(t), sabiendo que
y
fix = 2i+1
on
2 f0 , fj = jf0 , siendo f0 = 1/T0 . Explique brevemente la misi
243
N
Ai cos(ix t
+ i )
i=1
N
E{Ai cos(ix t + i )}
i=1
N
E{Ai }E{cos(ix t + i )}
i=1
N
1
=
E{Ai }
2
i=1
0
cos(ix t + i )di
donde el paso de la segunda a la tercera lnea se ha hecho en base a la independencia de las VAs Ai y i (vease apartado 3.6.2). Con ello, la integral
resulta ser nula, dado que es la integraci
on de un coseno en un periodo del
mismo (recuerdese que se integra en la variable i y esta vara en el intervalo
[0, 2]). Por ello, E{X(t)} = 0. Similares consideraciones podran hacerse
con el proceso Y(t); ademas el enunciado dice que el proceso N(t) tiene
media nula. Ello hace nalmente que E{Z(t)} = 0.
Respecto de la autocorrelacion:
RZ (t1 , t2 ) = E{Z(t1 )Z(t2 )}
= E{(X(t1 ) + Y(t1 ) + N(t1 ))(X(t2 ) + Y(t2 ) + N(t2 ))}
Si se realiza el producto indicado tendremos numerosos factores del tipo
E{AB} con A y B VAs independientes (las procedentes de cada uno de
los procesos). Dado que E{AB} = E{A}E{B} para el caso de VAs independientes, y dado que la media de cada proceso es nula, del producto
anterior basta con que nos quedemos con los terminos consistentes en productos de variables que proceden del mismo proceso. Por ello
RZ (t1 , t2 ) = E{Z(t1 )Z(t2 )}
244
C. Alberola L
opez
N
N
i=1 j=1
N
i=1
N
N
i=1
N
j=1
j=i
i=1
N
N
i=1
E{Ai }E{Aj }
j=1
j=i
E{cos(ix t1 + i )}E{cos(jx t2 + j )}
=
=
N
i=1
N
i=1
N
E{A2i }
i=1
N
1
i=1
cos(ix (t1
t2 )) =
N
2/2
i=1
cos(ix (t1 t2 )) =
N
1
i=1
cos(ix (t1 t2 ))
cos(ix )
N
1
i=1
cos(ix ) +
2
N
1
j=1
cos(jy ) +
N0
( )
2
245
= RZ ( )
por lo que el proceso es WSS (apartado 5.4).
b) La ergodicidad respecto de la media se puede plantear analizando
si el lmite del operador media temporal (expresion 5.25) coincide con la
esperanza matematica del proceso. Para tal n
MT [Z] = MT [X + Y + N] = MT [X] + MT [Y] + MT [N]
(5.71)
Respecto del proceso N(t), el enunciado dice que es ergodico. Queda pues
comprobar que sucede con los otros dos. Razonando, como anteriormente,
con el proceso X(t)
MT [X] =
1
2T
1
2T
X(t)dt
N
T i=1
N
1
T 2T
i=1
lim MT [X] =
lim
Ai cos(ix t + i )dt
Ai cos(ix t + i )dt
=
=
=
=
=
2T
1
| |
CX ( ) 1
d
2T 2T
2T
2T
| |
1
RX ( ) 1
d
2T 2T
2T
1
T
N
1
2T
N
1
i=1
N
i=1
T
i2
i=1
2T
cos(ix )
2
1
2T
cos(ix ) 1
2
2T
246
C. Alberola L
opez
Centr
andonos, por simplicidad, en un u
nico valor de i podemos escribir
i2
I1
2T
2T
1
1
x
=
cos(
)d
cos(ix ) d
i
2
2
T 0
T 0
2T
= I1 + I2
1 1
1
=
sen(ix )|2T
sen(ix 2T )
0 =
x
2
T i
T 2 ix
1
2T 2 2
1
2T 2 2
1
2T 2 2
1
x sen(ix )|2T
0
i
0
2T
1
sen(ix )d
ix
2T
1
sen(ix 2T ) + x 2 cos(ix )|2T
0
ix
(i )
2T
1
sen(ix 2T ) + x 2 (cos(ix 2T ) 1)
x
i
(i )
N
i=1
[( ix ) + ( + ix )] +
N
j=1
( jy ) + ( + jy ) +
N0
2
247
Rep
arese entonces que:
1
T0
= kf0
2k + 1
=
2T0
2k + 1
=
f0
2
|H()|2 = 0 T0 = 2k 2f T0 = 2k fk = k
|H()|2 = 4 T0 = (2k + 1) 2f T0 = (2k + 1) fk
Por ello, habida cuenta de los valores que toman fix y fjy es claro que el
ltro elimina la componente de color Y(t) de la se
nal Z(t), multiplica por
4 la componente de intensidad X(t) y colorea el ruido adoptando este un
espectro sinusoidal. As pues
SZ () = 4SX () + 2(1 cos(T0 ))SN ()
X[n]
= a21 X[n 1] + a22 X[n 2]
Obtenga los valores de los coecientes a11 y a22 de modo que X[n]
sea el
estimador lineal de mnimo error cuadr
atico medio, y deduzca la relacion
entre estos y 2 .
Soluci
on:
a) Dado que las medias de las VAs del proceso X[n] son nulas,
la expresion del estimador lineal optimo es, en efecto, la indicada en el
enunciado (pues el valor de la ordenada en el origen b sera nulo seg
un
indica la expresi
on (3.62)). Por otra parte el coeciente a11 se puede obtener
directamente del empleo de la expresion (3.61). Asimismo y tambien debido
248
C. Alberola L
opez
Dado que
RX [1]
RX [1]
"
X [1] = "
=
= a11
RX [0]
RX [0] RX [0]
entonces
2 = RX [0](1 a211 )
b) El ltro planteado tiene una respuesta al impulso [15] h[n] =
an u[n], con u[n] la funci
on escalon. La autocorrelaci
on a la salida del ltro
puede calcularse mediante el equivalente discreto de la expresion (5.68)
o bien a traves del dominio transformado, haciendo uso de la expresi
on
(5.70) adaptada al dominio discreto. Empleando el dominio original, la
autocorrelaci
on pedida puede calcularse mediante
RY [m] = h[m] h [m] RW [m]
En este caso, dado que la autocorrelaci
on a la entrada es la correspondiente
a un ruido blanco, la expresi
on anterior se puede escribir
RY [m] = 2 (h[m] h [m])
(5.72)
h[n]h[n m]
n=0
n=m
an anm = am
n=m
a2n ,
(5.73)
249
expresi
on v
alida m 0. Denominando a2 = debemos hacer la suma
n=m
n = m + m+1 + . . .
n = m+1 + m+2 + . . .
n=m
(5.74)
250
C. Alberola L
opez
sistema de dos ecuaciones con dos incognitas que podemos resolver, por
ejemplo, mediante la regla de Cramer, esto es:
a21
a22
=
=
RX [1] RX [1]
RX [2] RX [0]
RX [0] RX [1]
RX [1] RX [0]
RX [0] RX [1]
RX [1] RX [2]
RX [0] RX [1]
RX [1] RX [0]
2 [1]
RX [2]RX [0] RX
2 [0] R2 [1]
RX
X
RX [0] RX [2]
=
RX [0] 1
=
2 [1]
RX
2 [0]
RX
2 [1]
RX
RX [0]
RX [0]
4.- El proceso estocastico real M(t) es WSS, de media nula, con densidad
espectral SM (), de la que se sabe que SM () = 0 para || > 0 . A partir
de este se construye el proceso X(t) de la forma
(c t)
X(t) = M(t)cos (c t) M(t)sen
el proceso M(t)
se obtiene a partir de M(t) mediante un sistema lineal e
251
$
1 )sen (c t1 )
M(t1 )cos (c t1 ) M(t
%
2 )sen (c t2 )
M(t2 )cos (c t2 ) M(t
RM
(t1 t2 )sen (c t1 ) sen (c t2 )
En virtud de las relaciones entrada-salida obtenidas en la seccion mencionada y de las propiedades de las autocorrelaciones y correlaciones cruzadas
vistas en la seccion 5.4.1, podemos escribir
( ) = RMM
RMM
( )
1
1
= RM ( )
R MM
( ) = RM ( ) h ( ) = RM ( )
( )
1
1
RMM
( ) = RM ( )
= RM ( )
= RMM
( )
Por otra parte recuerdese que la funcion sgn() es igual a 1 para > 0 y a
1 para < 0. Para = 0 la funci
on vale cero. Sin embargo, dado que el
proceso M(t) se ha supuesto de media nula, la densidad espectral SM () no
presenta una delta en el origen (no esta presente un termino proporcional
a ()), de forma que el comportamiento de la funci
on sgn() en = 0 es,
a todos los efectos, irrelevante. Por ello, podemos escribir
2
SM
() = |H()| SM ()
= (jsgn()) (jsgn()) SM ()
= SM ()
= 0. Por ello podemos armar que RM
( ) = RM ( ) . Volviendo a la
expresion de RX (t1 , t2 ), y aceptando que = t1 t2 , podemos escribir
RX (t1 , t2 ) = RM ( )cos (c t1 ) cos (c t2 )
252
C. Alberola L
opez
R MM
( )cos (c t1 ) sen (c t2 ) +
R MM
( )sen (c t1 ) cos (c t2 ) +
RM ( )sen (c t1 ) sen (c t2 )
= RM ( ) [cos (c t1 ) cos (c t2 ) + sen (c t1 ) sen (c t2 )] +
R MM
( ) [sen (c t1 ) cos (c t2 ) cos (c t1 ) sen (c t2 )]
SMM
() = H ()SM () = jsgn()SM ()
Con todo ello la densidad espectral SX () se puede expresar
SX () = SM () ( [( c ) + ( + c )]) +
[(
SMM
()
(
+
)]
c
c
j
= [SM ( c ) + SM ( + c )] +
4
3
S MM
( c ) SMM
( + c )
j
= [SM ( c ) + SM ( + c )] +
[SM ( c )sgn( c ) SM ( + c )sgn( + c )]
La gura 5.6 muestra, para una forma escogida de SM () que cumple
la restricci
on del enunciado, la densidad espectral de potencia SX () del
proceso X(t). Como puede verse, se ha desplazado la densidad espectral
SM () del proceso M(t) al valor = c pero solo se ha conservado la
banda lateral superior de tal densidad espectral (esto es, los valores SM ()
para > 0). Al ser M(t) un proceso real su densidad espectral es par,
de forma que al conservar solo la banda lateral superior (o la inferior) no
perdemos informaci
on de dicha funci
on. El procedimiento descrito en este
253
A
S ( )
M
0
1
S ( )
c
( c+ 0)
c +
c 0
S ( )
c+ 0
c +
c
( c+ 0)
c 0
c+ 0
-A
-A
S ( )
X
2A
c
( c+ 0)
2A
c
0
c+ 0
1 () = S ( ) +
Figura 5.6: Figura problema 4. Se ha denominado SX
c
M
2
SM ( + c ) y SX () = SM ( c )sgn( c ) SM ( + c )sgn( + c ).
Bibliografa
B
asica
[1] P. Z. Peebles, Probability, Random Variables and Random Signal Principles, Mc-Graw Hill Int. Ed., 3rd Ed., 1994.
[2] A. Papoulis, Probability, Random Variables and Stochastic Processes,
Mc-Graw Hill Int. Ed., 3rd Ed., 1993.
[3] H. Starks, J. W. Woods, Probability, Random Processes and Estimation Theory for Engineers, Mc-Graw Hill Int. Ed., 2nd Ed., 1994.
Avanzada
[4] S. M. Kay, Fundamentals of Statistical Signal Processing. Estimation
Theory, Prentice-Hall Int. Ed., 1st Ed., 1993.
[5] S. M. Kay, Fundamentals of Statistical Signal Processing. Detection
Theory, Prentice-Hall Int. Ed., 1st Ed., 1998.
[6] H. L. Van Trees, Detection, Estimation and Modulation Theory, Part
I, John Wiley and Sons Inc., 1st Ed., 1968.
[7] H. V. Poor, An Introduction to Signal Detection and Estimation,
Springer-Verlag, 2nd Ed., 1994.
[8] L. L. Scharf, Statistical Signal Processing, Adddison Wesley, 1st Ed.,
1991.
[9] R. O. Duda, P. E. Hart, Pattern Analysis and Scene Classication,
John Wiley and Sons Inc., 1st Ed., 1973.
255
256
C. Alberola L
opez
Sistemas de comunicaci
on
[13] S. Haykin, Communication Systems, John Wiley and Sons Inc., 3rd
Ed., 1994.
[14] B. Sklar, Digital Communications: Fundamentals and Applications,
Prentice Hall Int. Ed., 1st Ed., 1988.
Procesado de Se
nal e Imagen
[15] A. V. Oppenheim, A. S. Willsky, I. T Young, Signals and Systems,
Prentice Hall Int. Ed., 1st Ed., 1983.
[16] A. K. Jain, Fundamentals of Digital Image Processing, Prentice-Hall
Int. Ed., 1st Ed., 1989.
[17] J. S. Lim, Two dimensional Signal and Image Processing, Prentice-Hall
Int. Ed., 1st Ed., 1990.
Indice General
Pr
ologo
1 Teora de la Probabilidad
1.1 Introducci
on . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
13
15
15
16
19
20
20
21
26
28
28
31
32
32
32
33
47
47
257
34
37
40
49
258
C. Alberola L
opez
2.3
2.4
2.5
2.6
2.7
2.8
2.2.1 Funci
on de distribuci
on . . . . . . . . . . . . . . . .
2.2.2 Funci
on de densidad de probabilidad . . . . . . . . .
Algunas variables aleatorias frecuentes . . . . . . . . . . . .
2.3.1 Continuas . . . . . . . . . . . . . . . . . . . . . . . .
2.3.2 Discretas . . . . . . . . . . . . . . . . . . . . . . . .
Funciones condicionadas . . . . . . . . . . . . . . . . . . . .
2.4.1 Teoremas de la Probabilidad Total y de Bayes . . .
2.4.2 Teoremas de la Probabilidad Total y de Bayes mediante partici
on continua . . . . . . . . . . . . . . .
Caracterizacion parcial de una variable aleatoria. . . . . .
2.5.1 Media . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5.2 Otras medidas de tendencia central . . . . . . . . . .
2.5.3 Varianza . . . . . . . . . . . . . . . . . . . . . . . . .
2.5.4 Ejemplos para varias distribuciones . . . . . . . . . .
2.5.5 Desigualdad de Tchebyche . . . . . . . . . . . . . .
Transformaci
on de variable aleatoria . . . . . . . . . . . . .
2.6.1 Caso de X discreta . . . . . . . . . . . . . . . . . . .
2.6.2 Caso general. Obtenci
on de la funci
on de distribuci
on
2.6.3 Caso general. Obtenci
on de la funci
on de densidad:
Teorema Fundamental . . . . . . . . . . . . . . . . .
Caracterizacion parcial de una funci
on de variable aleatoria
2.7.1 Momentos de una variable aleatoria . . . . . . . . .
Funciones que generan momentos . . . . . . . . . . . . . . .
2.8.1 Funci
on caracterstica . . . . . . . . . . . . . . . . .
2.8.2 Funci
on generadora de momentos . . . . . . . . . . .
50
55
58
58
65
67
69
70
73
73
75
76
78
85
87
89
90
94
99
101
103
103
109
111
111
114
114
117
119
122
127
128
131
132
135
135
INDICE GENERAL
3.6
3.7
259
4 Variable N-dimensional
4.1 Conceptos b
asicos . . . . . . . . . . .
4.2 Esperanzas matematicas . . . . . . . .
4.3 Variables conjuntamente gaussianas .
4.4 Variables complejas . . . . . . . . . . .
4.5 Teoremas asintoticos . . . . . . . . . .
4.5.1 Teorema del Lmite Central . .
4.5.2 Teorema de DeMoivre-Laplace
4.5.3 Ley de los Grandes N
umeros .
4.6 Algunos ejercicios ilustrativos . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
141
144
149
151
153
153
157
157
161
161
162
164
165
167
167
171
174
183
184
184
186
187
190
5 Procesos estoc
asticos
209
5.1 Concepto de proceso estocastico. Clasicacion . . . . . . . . 209
5.1.1 Clasicaci
on de procesos estocasticos . . . . . . . . . 212
5.2 Funciones de distribuci
on y densidad . . . . . . . . . . . . . 213
5.3 Caracterizacion parcial de procesos estocasticos. Ruido blanco214
5.3.1 Concepto de ruido blanco . . . . . . . . . . . . . . . 216
5.3.2 Caso de dos procesos . . . . . . . . . . . . . . . . . . 217
5.4 Estacionariedad . . . . . . . . . . . . . . . . . . . . . . . . . 218
5.4.1 Propiedades de la correlacion de procesos estacionarios220
5.5 Ergodicidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
5.5.1 Ergodicidad con respecto de la media . . . . . . . . 223
5.5.2 Ergodicidad con respecto de la autocorrelacion . . . 226
260
C. Alberola L
opez
5.5.3
5.6
5.7
5.8
Bibliografa
227
231
231
231
233
236
236
237
238
239
239
255