Probabilidad Variables Aleatorias y Procesos

Carlos Alberola Lpez
X1
X
X
2
3
X
X
X
X8
PROBABILIDAD, VARIABLES ALEATORIAS

Y PROCESOS ESTOCSTICOS
Una introduccin orientada a las Telecomunicaciones
fY(y|H )
fY(y|H )
Y
m0
t*
m1
Universidad de Valladolid
PROBABILIDAD, VARIABLES ALEATORIAS Y

PROCESOS ESTOCSTICOS
Una introduccin orientada a

las Telecomunicaciones
Serie: INGENIERA, n 12
ALBEROLA LOPZ, Carlos

Probabilidad, variables aleatorias y procesos estocsticos : una introduccin
orientada a las Telecomunicaciones / Carlos Alberola Lpez. Valladolid : Universidad de Valladolid, Secretariado de Publicaciones e Intercambio Editorial, 2004
260 p.; 24 cm. (Ingeniera ; 12)
ISBN 978-84-8448-307-6
1. Telecomunicaciones Procesos estocsticos Variables aleatorias Probabilidades
I. Alberola Lpez, Carlos, aut. II. Universidad de Valladolid, Secretariado de Publicaciones
e Intercambio Editorial, ed. III. Serie
519.21:621.39
CARLOS ALBEROLA LPEZ
PROBABILIDAD, VARIABLES ALEATORIAS Y

PROCESOS ESTOCSTICOS
Una introduccin orientada a

las Telecomunicaciones
Universidad de Valladolid
Secretariado de Publicaciones
e Intercambio Editorial
No est permitida la reproduccin total o parcial de este libro, ni su

tratamiento informtico, ni la transmisin de ninguna forma o por
cualquier medio, ya sea electrnico, mecnico, por fotocopia, por
registro u otros mtodos, ni su prstamo, alquiler o cualquier otra
forma de cesin de uso del ejemplar, sin el permiso previo y por
escrito de los titulares del Copyright.
CARLOS ALBEROLA LPEZ, VALLADOLID, 2004

SECRETARIADO DE PUBLICACIONES E INTERCAMBIO EDITORIAL
UNIVERSIDAD DE VALLADOLID
Primera edicin: 2004
Segunda reimpresin: 2011
Diseo de cubierta: Miguel ngel de la Iglesia
lvaro Tapias Garca
ISBN: 978-84-8448-307-6
Dep. Legal: SE-3851-2004
Composicin del autor
Imprime: Publidisa
A quien fue,
a quien es,
a quien no pudo ser
y a quienes ser
an.
Pr
ologo
Este libro es el resultado de los diez a
nos de docencia en la materia
de Teora de la Probabilidad y Se
nales Aleatorias que, en el momento de
redaccion de este prologo, el autor del mismo ha impartido en la Escuela
Tecnica Superior de Ingenieros de Telecomunicacion de la Universidad de
Valladolid. Pretende ser, como objetivo prioritario, un manual que incluya
los conocimientos probabilsticos b
asicos que se precisan para abordar el
an
alisis y dise
no de los Sistemas de Comunicacion.
En el Plan de Estudios de la titulaci
on de Ingeniero de Telecomunicacion, tanto el que tuvo esta Escuela en su origen, como en el que actualmente
esta en vigor, la materia arriba mencionada se concentra fundamentalmente en una asignatura, a saber, Se
nales y Sistemas de Transmisi
on I en el
plan antiguo, y Se
nales Aleatorias en Ruido (SAR, en adelante), en el plan
actual. El resto de asignaturas que hacen uso de estos temas (fundamentalmente Teora de la Comunicaci
on, Teletraco, Tratamiento Digital de
la Se
nal y optativas anes as como alguna Telematica) construyen sobre
los pilares de esta. Por tanto, es SAR el soporte teorico sobre el que otras
asignaturas se basan para impartir sus conocimientos especcos.
Este libro esta dise
nado para constituir el material docente, a impartir
en un u
nico cuatrimestre, de la u
nica asignatura que proporciona formaci
on
en temas de probabilidad para los alumnos de este Plan de Estudios. Para
el autor tal armaci
on supone un reto; no es f
acil sintetizar una materia tan
amplia en un u
nico cuatrimestre, partiendo ademas de un desconocimiento
por parte de los alumnos pr
acticamente total de conceptos probabilsticos
(la experiencia dice que es el caso). Se debe por tanto hacer una seleccion
minuciosa de los temas a tratar, as como del grado de profundidad en su
tratamiento, para conseguir transmitir esta materia persiguiendo, asimismo, que el alumno pueda llegar a verla como una poderosa herramienta
que le sea u
til para abordar problemas futuros.
Dado que la materia es clasica, es evidente que existe una enorme bibliografa al respecto. Sin embargo el autor (que es ingeniero del ramo) ha
pretendido escribir un libro para ingenieros y para aspirantes a ello. Por
ello las fuentes bibliogr
acas que se han tenido presentes (vease la seccion
de Bibliografa, epgrafe Basica) responden a este perl de probabilidad
aplicada a las se
nales y comunicaciones. De tales fuentes bibliogr
acas destaca, en el campo de la Ingeniera de Telecomunicacion y, en concreto, en el
area de conocimiento de Teora de la Se
nal, la obra de Athanasios Papoulis, recientemente fallecido. Sin exageracion ninguna, esta obra es referente
mundial y cubre, con creces, los contenidos de la asignatura a que va dirigi-
10
C. Alberola L
opez
do este libro. Sin embargo, como se dijo antes, el autor dispone de un u

nico
cuatrimestre para realizar su funci
on. En tan poco tiempo esta obra resulta
exhaustiva en exceso de forma que, si bien se tendra presente a lo largo de
todo el tratado, se debe realizar un trabajo de sntesis importante, sntesis
que, a juicio de su autor, consigue el libro que ahora comienza. Se podra
argumentar que existen otra obras tambien sinteticas; tal es el caso, por
ejemplo, de la obra de Peebles, tambien referenciada en el epgrafe anteriormente indicado. No obstante, esta obra tal vez adolece de simplicacion
excesiva en determinados momentos, carencia que aqu hemos tratado de
evitar.
Este libro no es un libro de estadstica hemos incluido, no obstante
alguna referencia bibliogr
aca al respecto , si entendemos por tal el conjunto de procedimientos a llevar a cabo para extraer conclusiones acerca
de una poblaci
on a partir de observaciones de una muestra. Por tanto, en
el libro no se encontrar
a una sola menci
on, por ejemplo, del concepto de
intervalo de confianza, ni de la estimacion de m
axima verosimilitud, ni se
hablar
a de funciones como la t de Student o la F de Snedecor. Sin embargo, s que se proporciona una base probabilstica que permita al alumno,
si resultase interesado en estos temas, avanzar en esa direccion. Excepcion a lo dicho, esto es, descripcion de un procedimiento estadstico, es el
caso de la estimacion de mnimo error cuadr
atico medio que se incluye al
nal del captulo tercero. El objetivo de la impartici
on de tal concepto es
proporcionar al alumno una peque
na base sobre la que construir, en otras
asignaturas, procedimientos optimos de ltrado de se
nales. Estaramos hablando, concretamente, de proporcionar las bases para la comprension del
ltro de Wiener y, adicionalmente, del ltro de Kalman. Tampoco se describe formalmente el concepto de test de hipotesis (se hace una mencion
indirecta en el primer captulo para ilustrar la trascendencia del Teorema
de Bayes) ni se deducen las soluciones optimas en sentido bayesiano ni en
sentido Neyman-Pearson. Sin embargo, a lo largo del texto se plantean
ejemplos de estos y el alumno puede observar que, en un momento dado,
dispone de las herramientas que le permiten calcular, pongamos, umbrales
para conseguir un determinado requisito. Por tanto, este libro tiene como
objetivo adicional proporcionar una base para poder profundizar, si es deseo del alumno, en temas de tratamiento estadstico de se
nales (estimacion
y deteccion) y reconocimiento de patrones, para lo cual hemos incluido en
la bibliografa varias referencias enormemente conocidas.
El libro se ha estructurado en cinco captulos, de los cuales los cuatro
primeros formaran una unidad conceptual (probabilidad y variables aleato-
11
rias) y el quinto, segunda unidad conceptual, constituira una introducci

on
a los procesos estocasticos. El primer captulo es una introducci
on a la
Probabilidad, y el segundo describe el concepto de variable aleatoria. El
tercero ampla el marco a dos variables aleatorias (haciendo especial hincapie en el concepto de comportamiento conjunto) y el cuarto extiende (con
respecto a dos) el n
umero de variables a considerar de forma conjunta. Los
tres primeros captulos contienen varios ejemplos de aplicacion de los conceptos expuestos, y los captulos cuatro y cinco nalizan con una seccion
de ejercicios ilustrativos, recopilatorios de los conceptos y procedimientos
impartidos en las dos unidades conceptuales consideradas en el libro. Los
ejercicios, que proceden fundamentalmente de examenes de antiguas convocatorias de las asignaturas mencionadas arriba, se han resuelto en su
totalidad y, algo que el autor considera de utilidad, contienen numerosos
punteros a las secciones y ecuaciones que se requieren en cada momento. El
autor entiende pues que, a pesar del n
umero reducido de ejercicios incluidos, estos abarcan un porcentaje muy elevado de los conceptos expuestos en
el libro. Asimismo, los problemas del quinto captulo introducen al lector
en el mundo de las comunicaciones, tanto analogicas como digitales, con
ejemplos de algunas modulaciones. De forma complementaria, algunos de
los ejercicios del captulo cuatro analizan el comportamiento de detectores,
tanto de sistemas radar como de sistemas de comunicacion.
Esto u
ltimo hace que este libro no este dirigido solo a estudiantes de
la titulaci
on de Ingeniero de Telecomunicacion, sino a todos los alumnos
de las diversas titulaciones que se imparten actualmente en la Escuela de
Telecomunicacion de la Universidad de Valladolid. Todos ellos (ingenieros
tecnicos e ingenieros, de Telecomunicacion o Electr
onica) debe conocer los
conceptos fundamentales de los Sistemas de Comunicacion, y este libro
proporciona una recopilaci
on de los fundamentos probabilsticos en los que
se basan. Para estos otros alumnos, igualmente, los problemas incluidos al
nal constituyen a juicio del autor una herramienta de interes teoricopr
actico.
Finalmente, se debe hacer mencion expresa de que este libro ha sido
escrito bajo el supuesto de que el lector dispone de unos conocimientos
b
asicos de Teora de la Se
nal, en particular, de Sistemas Lineales. Se asume pues que el lector conoce fundamentos de se
nales, sistemas lineales e
invariantes, la operaci
on de convoluci
on, se
nales basicas empleadas como
soporte (nos referimos a funciones escalon y delta) y Transformada de Fourier. En el texto, por lo tanto, no se hace hincapie en tales cuestiones, sino
que, simplemente, se emplean. No obstante, la necesidad de tales concep-
12
C. Alberola L
opez
tos se produce de forma paulatina, de forma que si el lector de este prologo

no conoce los conceptos que se acaban de mencionar, pero planea leer este
libro conjuntamente con otro de Sistemas Lineales, no debera tener mayor
problema en tal simultaneidad.
Captulo 1
Teora de la Probabilidad
1.1
Introducci
on
La mayor parte de los fenomenos en la naturaleza tienen un car

acter aleatorio si bien, en numerosos casos, se simplican la situaciones con el n de
hacerlas abarcables y as se tratan de cerrar los experimentos en formulas
determinsticas. Por ejemplo, si dejamos caer un objeto desde una cierta
altura, asumimos que conocemos con que aceleracion se produce la cada y,
asimismo, damos por supuesto que la posicion de parada del objeto se producir
a en la proyeccion vertical del mismo sobre el suelo. Tal aproximacion
deja de ser v
alida si se introducen otros factores que hacen del problema
algo mas complejo como, por ejemplo, la existencia de fuerzas descontroladas (digamos, la accion del viento). Asimismo, si medimos el tiempo de
cada del objeto en varias ocasiones raramente conseguiremos dos medidas exactamente iguales. No es difcil por tanto aceptar que la realidad
se puede aproximar mediante un modelo matematico, mas un termino de
ambig
uedad (al que tpicamente se denomina ruido).
Podemos pensar en experimentos implcitamente aleatorios. Piensese,
por ejemplo, el tiempo que se invierte en llegar de un punto a otro en una
ciudad mediante tr
aco rodado. Claramente, este tiempo sera uno u otro
en funci
on de las condiciones del traco, las cuales no son completamente
predecibles.
Los sistemas de comunicacion no son ajenos a estos escenarios de incertidumbre. En primer lugar, las se
nales que se manejan transportan
informaci
on, de forma que no son caracterizables con exactitud mediante
un conjunto nito de par
ametros. Es decir, si una se
nal transporta informacion, no podremos predecir sin error en general el valor que toma
13
14
C. Alberola L
opez
dicha se
nal en un cierto instante conocido el valor que ha tomado en instantes pasados. Tan solo podremos hacer una caracterizacion parcial de la
misma y as poder extraer conclusiones del tipo, por ejemplo, que valores
tpicamente toma la se
nal, con que velocidad vara etc ..., esto es, caractersticas promedio o caractersticas globales, ante nuestra incapacidad de
hacer una caracterizacion m
as pormenorizada.
Asimismo, inherentes a los sistemas de comunicacion son las se

nales
aleatorias perturbadoras, superpuestas a las se
nales de interes. Las primeras, completamente inevitables en los sistemas de comunicacion, deben ser
estudiadas, con el n de ser caracterizadas y as poder dise
nar sistemas que
sean inmunes, o que, cuanto menos, consigan minimizar el efecto de tales
perturbaciones sobre las se
nales deseadas y, por ende, sobre la informaci
on
que se trata de enviar de un punto a otro.
Tambien en el dise
no de sistemas de comunicacion nos encontramos
casos en los que se deben tomar decisiones de dimensionamiento en ambientes de incertidumbre. Por ejemplo, si pretendemos proporcionar un
servicio telef
onico en un edicio, una posibilidad de dise
no sera colocar
tantas lneas como individuos esten presentes en dicho edicio. De esta
manera, al descolgar un telefono, el usuario tendra seguridad de disponer
de lnea telef
onica para hacer la llamada. No obstante, esta solucion es
claramente ineciente, como dicta el sentido com
un. Parece mucho mas
razonable estudiar como es el traco que tpicamente se generara en dicho
edicio (en base, por ejemplo, a mediciones de tr
aco solicitado en otros
edicios de caractersticas similares) y dise
nar el sistema de modo que la
probabilidad de disponer de lnea telef
onica al descolgar el telefono sea lo sucientemente elevada como para que el usuario, en general, disponga de la
posibilidad de comunicarse, si bien en algunos y poco frecuentes casos
esta persona tendr
a que colgar y esperar unos instantes. De esta manera
se consigue un uso de los recursos mucho mas ajustado a la necesidad real.
Todos estos ejemplos ponen de maniesto que debe haber un cuerpo

de doctrina que, en base a datos recogidos de situaciones similares, nos
permita caracterizar, aunque sea parcialmente, el comportamiento de un
sistema que se vea sujeto a incertidumbre. Tal cuerpo doctrinal es la Teora
de la Probabilidad, objeto de este primer tema.
Captulo 1. Teora de la Probabilidad
1.2
15
Algebra
de conjuntos
Como se pondr
a de maniesto en posteriores secciones, la teora de la probabilidad1 se asienta sobre el algebra de conjuntos, de forma que es conveniente repasar, aunque sea de manera sucinta, los conceptos basicos en
relacion con la teora de conjuntos. El lector interesado en un tratamiento
mas riguroso del que aqu se va a hacer puede consultar [2].
1.2.1
Deniciones, terminologa y notaci

on
Un conjunto se dene genericamente como una coleccion de elementos.

Tpicamente los elementos que forman parte de un conjunto tienen alg
un
tipo de propiedad en com
un que les haga susceptibles de pertenecer al
conjunto, pero tal requisito es meramente anecdotico. El conjunto se suele
representar con una letra may
uscula, tipo A, B, C, etc. . . , y los elementos
del mismo se representan con una letra min
uscula (a,b,c, etc).
Sobre los conjuntos se dene una relacion de pertenencia, la cual se
denota con el smbolo . As pues, si el elemento a pertenece al conjunto
A, este hecho se formaliza mediante la expresion a A. En el caso en que
b no pertenezca a A se escribe b
/ A.
Respecto a la forma de descripcion del conjunto, esta se puede realizar
de manera enumerativa, A = {a1 , a2 , . . . , an }, o bien, mediante la ley de
formacion a la que antes hacamos referencia A =los diez primeros n
umeros
naturales. Tal denici
on, como puede imaginarse, es equivalente a escribir
de forma enumerativa A = {1, 2, 3, . . . , 10}.
Se dene el cardinal de un conjunto como el n
umero de elementos que
forman parte de dicho conjunto. Si dicho cardinal es un n
umero nito,
el conjunto se denominara nito. Caso contrario sera innito. Dentro
de estos u
ltimos, debemos distinguir los de cardinal numerable, que seran
aquellos cuyos elementos se pueden poner en relacion 1:1 con los n
umeros
enteros (por ejemplo, el conjunto de los n
umeros pares); por otra parte nos
encontraremos conjuntos de cardinal no numerable, como, por ejemplo, el
conjunto de los n
umeros reales comprendidos entre dos n
umeros a y b.
La relacion de inclusi
on se deriva de la relacion de pertenencia; un
conjunto B se dice que esta incluido dentro de un conjunto A si todos los
elementos de B estan en A. Si tal es el caso, podemos expresar de forma
abreviada que B A, o bien que A B. Si se verica que B A y que
A B de forma simult
anea, entonces es que los dos conjuntos son iguales.
1
Veremos en la secci
on 1.3.3 que esta teora se dene a partir de tres axiomas, de forma
que, en sentido estricto, deberamos denominarla teora axiom
atica de la probabilidad.
16
C. Alberola L
opez
Dos conjuntos de dice que son disjuntos si no tienen ning

un elemento
en com
un. A estos conjuntos se les denomina tambien mutuamente excluyentes.
Dado un problema, el conjunto universal, denotado por S, sera el conjunto formado por todos los elementos del problema. De forma complementaria, el conjunto vaco, denotado por sera un conjunto sin ning
un
elemento. Como es natural, los conjuntos S y son mutuamente excluyentes.
1.2.2
Operaciones con conjuntos
Para operar con conjuntos, una representacion muy u

til e intuitiva son los
diagramas de Venn. Tales diagramas consisten, simplemente, en contornos
cerrados en los que los elementos se representan como puntos. En base a
tales diagramas la pertenencia de un elemento a un conjunto, la inclusion
de un conjunto en otro, as como las operaciones que vamos a ver a continuaci
on, se representan de forma natural y muy gr
aca. Un ejemplo de
diagrama de Venn puede verse en la gura 1.1.
A
a
Figura 1.1: Ejemplo de diagrama de Venn.
Igualdad de conjuntos y conjunto diferencia

Como se ha indicado, dos conjuntos son iguales si el primero incluye al
segundo, y viceversa. En tal caso se puede expresar que A = B.
Por otra parte, el conjunto diferencia de dos conjuntos A y B sera el
conjunto formado por aquellos elementos del primero que no estan en el
segundo, es decir si C = A B entonces C = {a A, t.q. a B}. La
gura 1.2 ilustra mediante diagramas de Venn este concepto.
17
A
B
C=A-B
Figura 1.2: Conjunto diferencia.

Notese que esta operacion no es conmutativa, es decir A B = B A.
Uni
on e intersecci
on de conjuntos
Dados dos conjuntos A y B, el conjunto uni
on de estos, denotado como
AB, es el conjunto formado por los elementos que pertenecen a cualquiera
de los dos. De forma complementaria, el conjunto interseccion, denotado
por AB, es el conjunto formado por los elementos que pertenecen a ambos
conjuntos simult
aneamente. Notese pues que (A B) A y (A B) B
mientras que (A B) A y (A B) B.
A
A UB
B
B
B
Figura 1.3: Uni

on e interseccion de conjuntos.
En el caso en que se aplique esta operacion de forma m
ultiple, la manera
de escribirlo de forma compacta es la siguiente
A1 A2 . . . AN
N

i=1
Ai
(1.1)
18
C. Alberola L
opez
A1 A2 . . . AN
N
Ai
(1.2)
i=1
Por razones que se veran posteriormente, es habitual en calculo probabilstico escribir

AB = A+B
(1.3)
A B = AB
(1.4)
y, extendido al caso de operaciones m

ultiples,
A1 A2 . . . AN
A1 A2 . . . AN
=
=
N

i=1
N
Ai
(1.5)
Ai
(1.6)
i=1
Debe repararse que estos signos no tienen el signicado algebraico de suma

y multiplicaci
on sino, como hemos dicho, de union e interseccion respectivamente.
Es interesante, por su utilidad, recordar que estas dos operaciones cumplen las propiedades conmutativa, asociativa y distributiva. Esta u
ltima
hace referencia al uso combinado de las mismas, mientras que las dos primeras se reeren a cada una de las operaciones por separado. Concretamente,
la conmutatividad implica que
AB = BA
(1.7)
AB = BA
(1.8)
Con respecto a la propiedad asociativa

A (B C) = (A B) C
(1.9)
A (B C) = (A B) C
(1.10)
Finalmente la propiedad distributiva permite escribir

A (B C) = (A B) (A C)
(1.11)
A (B C) = (A B) (A C)
(1.12)
Complemento de un conjunto
El conjunto complemento (o complementario) de un conjunto A (vease gura 1.4) es el conjunto diferencia entre el conjunto universal S y el conjunto
A. Formalmente podemos escribirlo como A = S A. Es facil ver que
A A = S as como que A A = .
19
A
A
Figura 1.4: Conjunto A y su complementario A.

Leyes de Morgan. Principio de dualidad
Las leyes de Morgan constituyen una relacion entre las operaciones de uni
on
e interseccion y la operacion de complementacion. Concretamente son:
AB = AB
(1.13)
AB = AB
(1.14)
Ambas expresiones pueden comprobarse con facilidad mediante diagramas

de Venn.
Las expresiones anteriores, aplicadas de forma repetida, llevan a la armacion: si en una expresi
on de igualdad de conjuntos se reemplazan todas
las uniones por intersecciones, las intersecciones por uniones y los conjuntos
por sus complementarios, la igualdad se mantiene.
Por ejemplo, el principio anterior llevara a armar que, en vista de la
igualdad (1.12), podemos escribir
A (B C) = (A B) (A C)
(1.15)
Finalmente, el principio de dualidad dice que si en una igualdad de conjuntos se reemplazan todas las uniones por intersecciones, todas las intersecciones por uniones, el conjunto S por y viceversa, la igualdad se mantiene.
Un ejemplo de ello seran las expresiones (1.11) y (1.12).
1.3
Denici
on de probabilidad
Se trata ahora de denir de forma precisa el concepto de probabilidad que

vamos a manejar a lo largo de la asignatura. Dicho concepto, si bien lo
tenemos todos asumido de alguna manera (piensese, por ejemplo, en los
apreciaciones que se hacen cuando se juega a las quinielas o a la ruleta)
esta basado en la intuici
on y no en un cuerpo matematico riguroso. Trataremos, por tanto, de conectar sentido com
un con rigor para crear un todo
u
nico.
20
C. Alberola L
opez
Para ello, propondremos en primer lugar las deniciones m

as o menos
intuitivas de la probabilidad, para luego integrarlas en un marco formal
mas ambicioso.
En lo que sigue haremos uso del concepto experimento aleatorio. Si
bien este puede denirse de forma rigurosa, entenderemos por tal aquel
experimento cuyo resultado no es completamente predecible. Encajan en
esta denici
on el lanzamiento de una moneda, el lanzamiento de un dado,
el juego de la ruleta o, mas cercano a las telecomunicaciones, la deteccion
de un smbolo dentro de un alfabeto nito en un entorno ruidoso.
1.3.1
Probabilidad como frecuencia relativa
La probabilidad entendida como una frecuencia relativa se basa en la experimentaci

on, y asocia a un determinado resultado de un experimento
aleatorio una medida de posibilidad de aparici
on de dicho resultado mediante:
NA
fr (A) = lim
(1.16)
N N
on del resultado A,
donde fr (A) representa la frecuencia relativa de aparici
NA el n
umero de veces que se ha obtenido como resultado precisamente el
A y N representa el n
umero de ejecuciones del experimento.
Si bien es cierto que este planteamiento de la probabilidad encaja perfectamente con la intuici
on (y, de hecho, como se vera, la Ley de los Grandes
N
umeros seccion 4.5.3 asegura la convergencia de este par
ametro a la
probabilidad axiom
atica del resultado) emplearlo como base para la creacion de una teora matematica que nos permita calcular una probabilidades
a partir de otras es bastante pobre, habida cuenta que estamos obligados a
experimentar para conseguir obtener el valor deseado. No hay pues posibilidad de anticipar la probabilidad de resultados de un experimento en base
al conocimiento de las probabilidades de otros experimentos relacionados.
1.3.2
Denici
on cl
asica
La denici
on cl
asica de la probabilidad se basa, a diferencia de la anterior,
en un an
alisis del problema en vez de en la experimentaci
on. Concretamente, dado un experimento aleatorio, la probabilidad asociada a un resultado
A se dene como
NA
(1.17)
Pc (A) =
N
asica asociada a
donde, en este caso, Pc (A) representa la probabilidad cl
dicho resultado, NA representa el n
umero de casos favorables a dicho resul-
21
tado y N el n
umero total de casos posibles. Reparese que se han empleado
la misma notacion para ambas deniciones, pero los conceptos subyacentes
son completamente distintos. Un ejemplo aclarara todava mas esta idea:
si se pretende hallar la probabilidad de que salga el resultado uno ante
el lanzamiento de un dado, para la denici
on clasica NA = 1 y N = 6.
Sin embargo, para la denici
on basada en frecuencia relativa es necesario
experimentar. Si suponemos que se lanza el dado mil veces y que sale el
otese
resultado 1 doscientas veces, entonces NA = 200 y N = 1000. N
por tanto que la denici
on clasica proporciona un valor u
nico para la probabilidad del resultado deseado, mientras que el planteamiento basado en
frecuencia relativa proporciona un resultado distinto (en general) cada vez
que se realice el experimento.
A priori, pues, parece mas interesante la denicion de la probabilidad
en su versi
on clasica, basicamente porque los resultados son siempre los
mismos y, a su vez, porque no estamos obligados a experimentar. Sin embargo, debemos notar que esta denici
on no esta exenta de inconvenientes.
Concretamente:
1. Esta denici
on lleva implcito un concepto de equiprobabilidad en los
resultados. Que sucedera en el ejemplo del dado si este fuese un dado
sesgado, es decir, si alg
un resultado tendiese a observarse de forma
mas habitual que otros? N
otese que el planteamiento clasico de la
probabilidad no sera capaz de modelar correctamente esta situacion,
si bien a traves del planteamiento basado en frecuencia relativa este
sesgo s que se hara patente.
2. Que sucedera si el n
umero de casos posibles fuese innito? En
esta situacion todas las probabilidades seran cero, si bien la realidad
puede ser muy otra.
A pesar de sus inconvenientes, el planteamiento clasico es algo intuitivo
y razonable, y funciona en un elevado n
umero de casos. No obstante, tiene
que plantearse algo mas amplio tal que, englobando a los anteriores, no se
quede atrapado en deciencias como las comentadas.
1.3.3
Denici
on axiom
atica de la probabilidad
El planteamiento axiom
atico de la probabilidad hace uso del algebra de
conjuntos vista anteriormente; necesitamos, no obstante, alguna precisi
on
terminol
ogica antes de introducir la denici
on axiomatica:
22
C. Alberola L
opez
1. El conjunto universal que hemos denotado por S, recibir

a ahora el
nombre de espacio muestral o, alternativamente, y en base al segundo de los axiomas que denimos a continuaci
on, suceso seguro.
Complementariamente, el conjunto vaco recibe el nombre de suceso
imposible.
2. Cada subconjunto del espacio muestral recibir
a ahora el nombre de
suceso. En particular, cada elemento del espacio muestral se denominar
a suceso elemental.
Con estos terminos, el planteamiento de la probabilidad es el siguiente:
dado un experimento con un espacio muestral S asociado, la probabilidad
es una funci
on que asocia a cada suceso del espacio muestral un n
umero
real, y que cumple los siguientes tres axiomas:
1. P (A) 0
2. P (S) = 1
3. P (A B) = P (A) + P (B)
si
AB =
Notese que de estos axiomas se pueden extraer conclusiones muy u

tiles,
sin mas que aplicar operaciones sobre conjuntos. Entre ellas
P (A) = 1 P (A). Esto es debido a que S = A A. Aplicando los
axiomas 3 y 2 el resultado es directo.
P () = 0. N
otese que esto es un caso particular del anterior, para
cuando A = S.
P (AB) = P (A)+P (B)P (AB), si AB = . Esta consecuencia
generaliza el axioma 3 y se deducira de la forma siguiente:
A B = A (B A) = A C
B = C (A B)
P (A B) = P (A C) = P (A) + P (C)
P (B) = P (C) + P (A B)
Uniendo las dos u
ltimas ecuaciones obtenemos el resultado anticipado.
23
Si A B entonces P (A) P (B). Esta consecuencia se debe a que

si A esta incluida en B entonces podemos escribir B = A (B A)
y esta uni
on esta formada por conjuntos disjuntos. Entonces, seg
un
el axioma tercero, P (B) = P (A) + P (B A), y acorde con el axioma
1, P (B A) 0.
Debe hacerse notar, por lo tanto, que la probabilidad de todo suceso es
un n
umero entre 0 y 1 (rep
arese que A S).
Finalmente, demostremos que la probabilidad clasica esta dentro de este
planteamiento axiom
atico. Para ello, veamos que la denici
on proporcionada anteriormente cumple los axiomas. As pues:
Pc (A) = NNA 0, dado que es el cociente entre dos magnitudes no
negativas.
Pc (S) =
tral.
N
N
= 1, pues todos los casos son favorables al espacio mues-
Suponiendo que los resultados A y B no puedan darse de forma simult

anea, es decir, que NAB = NA + NB , entonces
Pc (A B) =
NAB
NA + NB
NA NB
=
=
+
= Pc (A) + Pc (B)
N
N
N
N
Por ello, el planteamiento cl

asico forma parte del planteamiento axiomatico.
Finalmente, podramos hacer algo similar con respecto a la frecuencia
relativa. No obstante, debemos esperar hasta el estudio de los teoremas
asintoticos para demostrar que esto es as (en concreto, la ya indicada Ley
de los Grandes N
umeros, descrita en la seccion 4.5.3). Por ahora, pidamos
al lector un poco de fe.
Ejercicio: Se desea validar un sistema automatico de medici
on de alturas de edicaciones. Con el objetivo de reducir
costes en el proceso de validacion se descarta la medicion directa de los edicios para contrastar con la automatica, de forma
que se recurre a la medicion por parte de n expertos, los cuales
emplean sus propios sistemas de medida y que, naturalmente,
no estan exentos de errores. El sistema a validar se considerar
a apto para su uso si la medicion que proporciona no se
encuentra en ninguno de los dos extremos, esto es, no es ni la
mayor ni la menor de las n + 1 mediciones. Bajo la hip
otesis de
24
C. Alberola L
opez
que los n + 1 equipos de medida proporcionen medidas similares (es decir, que todos funcionen correctamente, afectados por
errores similares), obtenga la probabilidad de que el sistema sea
validado.
Soluci
on: Si las medidas son similares, el hecho de que la
medida de un determinado equipo sea la mayor, o la menor, o
caiga en cualquier otra posicion con respecto a las demas, se
debe exclusivamente al azar y no hay razon para pensar que
exista tendencia por parte de ninguna medida a situarse en una
determinada posicion. Por ello, si se ordenan las medidas de
manera creciente (o decreciente) cualquiera de las n + 1 medidas puede caer en cualquiera de las n + 1 posiciones de forma
equiprobable. Consideremos la posicion 1 como la asociada a la
medida m
as peque
na y la posici
on n + 1 a la mas grande. Sean
los sucesos Ai = La medida autom
atica cae en la posicion i,
i = {1, . . . , n + 1} y B = el sistema automatico es validado.
Entonces podemos escribir
P (B) = 1 P (B)
= 1 P (A1 An+1 ) = 1 (P (A1 ) + P (An+1 ))

1
1
2
n1
= 1
=1
=
(1.18)
n+1 n+1
n+1
n+1
Espacio de Probabilidad
Un experimento aleatorio se formalizar
a mediante la terna < S, F, P >.
El primer elemento de la terna es el espacio muestral; el segundo es la clase
de sucesos que podemos extraer del espacio muestral y el tercero es la ley
de asignaci
on de probabilidades.
Al respecto de la clase de sucesos debemos mencionar que si el espacio muestral tiene cardinal nito igual a N , la clase de sucesos tendra un
n
umero de subconjuntos igual a 2N . No obstante, si el cardinal del espacio
muestral es innito, el n
umero de subconjuntos tambien lo sera, de forma
que podramos pensar en uniones e intersecciones de innitos sucesos. Para
que el espacio de probabilidad este bien denido la clase de sucesos a considerar debe tener estructura de campo de Borel2 , esto es, la clase debe ser
cerrada frente a una cantidad numerable de aplicaciones de las operaciones
2
Tambien denominado -algebra [3].
25
de complemento, uni
on e interseccion entre los sucesos de la clase [2]. No
obstante, no nos preocuparemos de estos detalles, y consideraremos que, a
todos los efectos pr
acticos, esto sera siempre as.
Finalmente, debemos repetir que el objetivo de la axiomatica de la probabilidad es permitir calcular las probabilidades de unos sucesos en funcion
de las probabilidades de otros que se asumen conocidas o que seran proporcionadas como datos del problema. De ah que sea necesario, para denir
completamente un experimento aleatorio, una ley de asignacion de proba
bilidades. Este
es el signicado del tercer elemento de la terna.
Respecto a dicho elemento, si el espacio muestral es nito, o si es innito
numerable, nos deben proporcionar la probabilidades de cada elemento del
espacio muestral3 . A tales probabilidades se les denominar
a probabilidades
elementales. Si, por contra, el espacio muestral es innito no numerable,
deberemos ser informados de una ley continua de asignacion de probabilidades. Esta ley sera, seg
un veremos en captulos posteriores, una funci
on
de densidad de probabilidad o, dualmente, una funci
on de distribuci
on.
Ejemplo: Supongamos que un experimento aleatorio consiste en lanzar dos dados. Nos dicen que ambos dados son
simetricos y que no existe interrelacion entre los dados, esto es,
que el lanzamiento del primero no afecta en nada al segundo, y
viceversa.
Con esta informaci
on, el experimento aleatorio queda completamente denido. Veamos que es as:
1o \ 2o
1
2
3
4
5
6
1
(1,1)
(2,1)
(3,1)
(4,1)
(5,1)
(6,1)
2
(1,2)
(2,2)
(3,2)
(4,2)
(5,2)
(6,2)
3
(1,3)
(2,3)
(3,3)
(4,3)
(5,3)
(6,3)
4
(1,4)
(2,4)
(3,4)
(4,4)
(5,4)
(6,4)
5
(1,5)
(2,5)
(3,5)
(4,5)
(5,5)
(6,5)
6
(1,6)
(2,6)
(3,6)
(4,6)
(5,6)
(6,6)
1. El espacio muestral S viene dado por el conjunto de todos

los posibles resultados, los cuales se muestran en la tabla
adjunta. Como puede verse, consta de 36 elementos.
2. La clase de sucesos consta de todos los posibles subconjuntos que puedan extraerse de S. Sabemos de antemano
que el n
umero total de estos es de 2N = 236 .
3
Estrictamente hablando, bastara con que nos proporcionasen todas las probabilidades menos una, ya que la suma de todas ellas debe ser igual a la unidad.
26
C. Alberola L
opez
3. Finalmente, no nos dicen de forma explcita la ley de asignacion de probabilidades. Sin embargo, nos dicen que los
datos son simetricos (luego no hay por que pensar que los
resultados no son equiprobables) y que adem
as no existe
inuencia entre ellos (luego los resultados conjuntos mantienen esa equiprobabilidad). As pues, la probabilidad de
cada resultado elemental, digamos aij , con 1 i, j 6
1
sera igual a 36
(consideremos que el ndice i direcciona las
las de la tabla, y el j las columnas). En la seccion 1.7 se
discute una posible asignaci
on de probabilidades en la que
hay equiprobabilidad de cada dado por separado, pero no
de ambos de manera conjunta.
Con ello podemos calcular la probabilidad de cualquier suceso que sea de interes. Por ejemplo, podemos calcular la probabilidad del suceso B=la suma de las componentes es igual a
7. Para ello, si denominamos Aij = {aij } entonces
P (B) = P (A61 A52 A43 A34 A25 A16 )
= P (A61 (A52 A43 A34 A25 A16 ))
= P (A61 ) + P (A52 A43 A34 A25 A16 )
..
.
= P (A61 ) + P (A52 ) + P (A43 ) + P (A34 ) +
P (A25 ) + P (A16 )
1
1
= 6 =
36
6
El paso de la primera lnea a la segunda se ha realizado aplicando la propiedad asociativa de la uni
on (expresi
on 1.9). Ello,
junto con el tercer axioma de la probabilidad, permite pasar a la
tercera lnea. La repetici
on de este proceso lleva a la pen
ultima
igualdad y, nalmente, a su valor numerico.
1.4
Probabilidad condicionada
La probabilidad condicionada es una denici

on que se une a los axiomas
para formar los pilares de la teora de la probabilidad. Esta modalidad
de probabilidad, la cual se denota por P (A|B), mide como cambia nuestro
conocimiento probabilstico de un suceso A cuando conocemos que otro
suceso (digamos, B) se ha vericado.
27
El hecho de conocer que el suceso B se ha vericado implica que el

experimento aleatorio con el que trabajamos ha cambiado. La situacion
puede expresarse como
B
< S, F, P >= B < SB , FB , PB >
(1.19)
esto es, partimos del experimento y la vericacion de B nos hace pasar a un

experimento B en el que las tres entidades involucradas (espacio muestral,
clase de sucesos y ley de asignacion de probabilidades) han cambiado. Es
precisamente esta u
ltima la probabilidad condicionada.
La probabilidad condicionada puede calcularse en el experimento B
pero es pr
actica habitual calcularse directamente en el experimento original.
Para ello se establece, por denicion, que:
P (A|B) =
P (A B)
P (B)
(1.20)
denici
on en la que se asume que el suceso condicionante B tienen probabilidad no nula, esto es, P (B) = 0. En lo que sigue, aunque no hagamos
mencion expresa de esta asuncion, debemos tenerla en mente siempre que
manejemos probabilidades condicionadas (de forma inmediata en las secciones 1.5.1 y 1.6, y a lo largo de los diferentes captulos).
Esta nueva denici
on debe ser coherente con los axiomas de la probabilidad. Veamos que, en efecto, as es:
0, pues es el cociente de dos probabilidades
1. P (A|B) = P P(AB)
(B)
axiomaticas y, por ello, el cociente de dos magnitudes no negativas.
2. P (S|B) =
P (SB)
P (B)
P (B)
P (B)
=1
3. Si A C = entonces P (A C|B) debe ser igual a P (A|B) + P (C|B).

En efecto,
P (A C|B) =
=
=
P ((A C) B)
P (B)
P ((A B) (C B))
P (B)
P (A B) P (C B)
+
= P (A|B) + P (C|B)
P (B)
P (B)
puesto que si A y C son sucesos disjuntos, lo son tambien cualesquiera

otros sucesos extrados de estos.
28
C. Alberola L
opez
Ejemplo: Retomemos el ejemplo de los dos dados y pensemos que nos informan de que se ha vericado un suceso,
llamemoslo B, consistente en que ha salido al menos un seis en
las tiradas. Se pide que calculemos, en estas nuevas condiciones, la probabilidad del suceso A =la suma de las componentes
es igual a 7.
Podemos calcular dicha probabilidad en ambos experimentos:
a for1. En experimento B : el espacio muestral SB ahora est
mado por la u
ltima la y la u
ltima columna de la tabla
de resultados vista anteriormente, es decir aij SB si i =
6 o j = 6. Por tanto Card(SB ) = 11, y habida cuenta
de que los dados son fsicamente los mismos, todos los resultados de este espacio muestral son equiprobables. Por
1
aij SB . En estas condiciones:
tanto P (aij |B) = 11
P (A|B) = P (A16 A61 |B) = P (A16 |B) + P (A61 |B)
1
1
2
+
=
11 11
11
2. En experimento : aplicando la denici
on de probabilidad
condicionada (ecuacion 1.20)
P (A|B) =
=
1.5
1.5.1
P (A B)
P (A16 A61 )
=
P (B)
P (B)
P (A16 A61 )

=
P ( i=6 o j=6 Aij )
2
36
11
36
2
11
Independencia de sucesos
Independencia de pares de sucesos
Sean dos sucesos A y B con probabilidades distintas de 0. Se dice que los

sucesos A y B son independientes entre s si se verica que
P (A|B) = P (A)
(1.21)
es decir, si la probabilidad de A condicionada a la vericaci

on del suceso B
coincide con la probabilidad incondicional de A. Esto signica que el hecho
de que se haya vericado B no afecta, en absoluto, al suceso A, es decir,
29
A no es ni mas probable ni mas improbable cuando sabemos que B se ha

vericado con respecto a cuando no lo sabamos.
Notese que si un primer suceso es independiente de un segundo, el segundo, como es natural, lo es del primero. Esto puede observarse de forma
inmediata sin m
as que operar con la expresion anterior y con la denici
on
de la probabilidad condicionada:
P (A|B) =
P (A B)
P (B|A)P (A)
=
P (B)
P (B)
(1.22)
Si la condici
on anterior se cumple, entonces
P (A|B) = P (A) =
P (B|A)P (A)
P (B|A)
1=
P (B)
P (B)
(1.23)
por ello, obtenemos la expresion de la condici

on de independencia con el
suceso condicionante cambiado.
Una conclusi
on operativa de la independencia de sucesos es el hecho de
que la probabilidad de la intersecci
on de sucesos independientes se puede
escribir como el producto de las probabilidades de cada uno de ellos. Esto
se obtiene de forma directa dado que, para el caso que nos ocupa,
P (A|B) =
P (A B)
= P (A)
P (B)
entonces, a partir de la segunda igualdad, despejamos la probabilidad de

la interseccion de los sucesos, y se deduce que
P (A B) = P (A)P (B)
(1.24)
Esta expresion podemos tomarla como denici

on alternativa a la indicada
en la expresion (1.21), la cual, asimismo, nos permite abordar de forma
comoda el caso de sucesos de probabilidad nula. En particular, a la vista
de esta podemos armar que si al menos uno de los dos sucesos involucrados
tienen probabilidad nula entonces los sucesos son independientes. En efecto,
supuesto que P (A) = 0, dado que A B A entonces, recordando la
cuarta consecuencia de los axiomas (p
agina 23), podemos armar que P (A
B) P (A) = 0. Por tanto P (A B) = 0 = P (A)P (B) y, por ello, los
sucesos son independientes. Por otra parte, notese que si dos sucesos de
probabilidad no nula son disjuntos no pueden ser independientes; esto viene
dado porque en la expresi
on anterior la probabilidad de la intersecci
on sera
cero (dado que lo sucesos son disjuntos), lo cual sera distinto del producto
30
C. Alberola L
opez
de la probabilidades de cada uno de ellos. Un razonamiento alternativo se

basa en la intuici
on: si dos sucesos son disjuntos, no pueden vericarse de
forma simult
anea. Si es as, y se verica uno de ellos, la vericaci
on de este
impide la vericaci
on del otro, lo cual est
a muy alejado del concepto de la
independencia. Es por este motivo por el que los sucesos disjuntos reciben
tambien el nombre de mutuamente excluyentes.
Ejemplo: Supongamos una baraja espa

nola de la que extraemos una carta. Calculemos las probabilidades siguientes:
a) P (as|rey) y b) P (as|oros).
a) P (as|rey) =
P (asrey)
.
P (rey)
Es obvio que si la carta
que tenemos en la mano es un rey (como dice el condicionante) esa carta no puede ser un as. Por tanto, el suceso
del numerador es el conjunto vaco y por tanto, la probabilidad que nos piden es nula. Estamos hablando pues de
sucesos disjuntos y, por ello, no independientes.
oros)
. Si tenemos una carta
b) P (as|oros) = P (as
P (oros)
en la mano que es un oro, la probabilidad que dicha carta
sea un as es 1 de 10 (1/10). En efecto, la probabilidad
del numerador es la probabilidad de extraer el as de oros,
esto es, 1 de 40, y la probabilidad del denominador es la
de extraer un oro, la cual, habiendo diez oros en la baraja,
es de 10 de 40.
Por otra parte, n

otese que la probabilidad de extraer un
as, dado que hay cuatro ases en la baraja, es 4 de 40, es
decir, 1 de 10. Por tanto, P (as|oros) = P (as), y
podemos concluir que ambos sucesos son independientes.
La interpretaci
on parece clara: dado que en cada palo hay
un as, el hecho de que salga un palo en particular no hace
variar la probabilidad de que salga un as con respecto al
hecho de no saber que palo ha salido. N
otese que si en
una hipotetica baraja hubiese asimetra en alg
un palo, por
ejemplo, hubiese un palo con m
as de un as, o hubiese un
palo con mas de diez cartas, tales sucesos ya no seran
independientes.
1.5.2
31
Independencia de m
ultiple sucesos
La extension del concepto de independencia al caso de N sucesos, digamos,

A1 , A2 , . . . , AN , es mas o menos inmediata. Sin embargo, conviene hacer
la precisi
on de que la independencia de N sucesos requiere el cumplimiento
de forma simult
anea de la independencia entre todos los subconjuntos
(de al menos dos sucesos) que podamos extraer de tales sucesos. Por tanto,
para que N sucesos sean independientes se requiere que se veriquen las
siguientes condiciones:
Independencia de pares: P (Ai Aj ) = P (Ai )P (Aj ) i = j
Independencia de tros: P (Ai Aj Ak ) = P (Ai )P (Aj )P (Ak ) i =
j, k; j = k
..
.

Independencia global: P
N

Ai
i=1
p(Ai )
i=1
Caso de que los sucesos no sean independientes, podamos hacer uso de

la denici
on de probabilidad condicionada para expresar la probabilidad de
la interseccion m
ultiple de formas alternativas. Por ejemplo

N
Ai
= P
i=1
AN |

= P
AN |

= P
AN |

N
1
i=1
N
1
Ai P

Ai P
i=1
N
1
Ai
i=1
N
3
AN 2 |
N 1
Ai
i=1
AN 1 |

P

AN 1 |
N
2
i=1
N
2
Ai P

N 2
Ai
i=1
Ai
i=1
Ai P (A2 |A1 )P (A1 )
(1.25)
i=1
Esta forma de plantear la probabilidad global parece ser, a priori, m

as
compleja que la inicial. Sin embargo, en muchas ocasiones se pueden hacer
simplicaciones. Por ejemplo, en el caso en que los sucesos Ai estuviesen ordenados temporalmente, parece razonable pensar que la dependencia entre
sucesos sea tanto menos intensa cuanto mas alejados esten temporalmente.
32
C. Alberola L
opez
De hecho, existir
an muchas situaciones en que la expresion de arriba pueda
simplicarse para dar lugar a:

N
Ai
P (AN |AN 1 )P (AN 1 |AN 2 )
i=1
P (AN 2 |AN 3 ) P (A2 |A1 )P (A1 )
(1.26)
En tal caso, es decir, si lo anterior es razonablemente valido, el calculo de

la probabilidad de la intersecci
on m
ultiple se simplica notablemente.
1.6
Teoremas de la Probabilidad total y de Bayes
En esta seccion presentaremos dos teoremas de enorme importancia en la

Teora de la Probabilidad. Para tal n, introduciremos en primer lugar el
concepto de partici
on del espacio muestral.
1.6.1
Concepto de partici
on
Una partici
on del espacio muestral consiste en un conjunto de sucesos Ai ,
i = 1, . . . , N , que cumplen las dos condiciones siguientes:
1. Ai Aj = , i = j;
2. S =
N

Ai
i=1
Por tanto, una partici

on es un conjunto de sucesos disjuntos, tales que todos
ellos unidos dan lugar al espacio muestral. N
otese que los elementos de la
partici
on seran como las teselas de un mosaico.
Rep
arese en que hemos hablado de una partici
on del espacio muestral
tratando as de enfatizar el hecho de que sobre un espacio muestral se puede
denir, en general, un n
umero arbitrario de particiones. Un caso particular
de tal sera el conjunto de sucesos A1 = A y A2 = A, esto es, un suceso
cualquiera y su complementario.
1.6.2
Teorema de la Probabilidad Total
Este teorema consiste en escribir la probabilidad de un suceso como una

superposici
on de probabilidades de dicho suceso, condicionadas a cada uno
de los elementos de una partici
on del espacio muestral. Concretamente, si
B es un suceso del cual queremos hallar su probabilidad y Ai , i = 1, . . . , N
33
es una partici
on del espacio muestral, podemos escribir dicho suceso como
una superposici
on de las partes del suceso que caen sobre cada elemento de
la partici
on, es decir,
B=
N
(B Ai )
(1.27)
i=1
Por tanto, podemos escribir P (B) haciendo uso de la anterior igualdad

P (B) = P
N
(B Ai )
i=1
N
P (B Ai )
(1.28)
i=1
dado que si los elementos de la partici

on son disjuntos, tambien lo seran
on de
los sucesos B Ai , i = 1, . . . , N . As pues, recordando la denici
probabilidad condicionada, podemos escribir
P (B) =
N
P (B|Ai )P (Ai )
(1.29)
i=1
que es la expresion del teorema.

Ejemplo: Podemos plantear el ejemplo propuesto en el
apartado 1.4 mediante el teorema que acabamos de ver. Concretamente:
P (A) = P (A|B)P (B) + P (A|B)P (B)
2 11
4 25
=
+
11 36 25 36
2
4
6
1
=
+
=
=
36 36
36
6
1.6.3
Teorema de Bayes
Consecuencia de lo anterior, pero con un enorme trasfondo probabilstico

que en este momento es difcil vislumbrar, es el teorema de Bayes. En este
caso, tratamos de calcular la probabilidad de cada elemento de la partici
on
supuesto que el suceso B se ha vericado. As pues, podemos escribir
P (Ai |B) =
P (Ai B)
P (B|Ai )P (Ai )
=
P (B)
P (B)
(1.30)
y en virtud del teorema de la probabilidad total

P (Ai |B) =
P (B|Ai )P (Ai )
N
j=1
P (B|Aj )P (Aj )
(1.31)
34
C. Alberola L
opez
1.6.4
Sobre el teorema de Bayes y los sistemas de comunicaciones
El teorema de Bayes tiene un enorme interes para el planteamiento y resolucion de muchos problemas de sistemas de comunicaciones y, como es
natural, de otras muchas disciplinas. En lo que sigue, trataremos de hacer
ver la importancia conceptual del mismo.
Pensemos que un sistema de comunicaciones puede enviar, en cada instante, uno de dos posibles smbolos. Al envo del primero, digamos, el
smbolo l
ogico 0, le asociaremos el suceso H0 . Al envo del segundo smbolo, lease, el smbolo l
ogico 1, le asociaremos el suceso H1 . Tales sucesos4
llevan unas probabilidades asociadas, digamos, P (H0 ) = p0 y P (H1 ) = p1 .
Naturalmente p0 +p1 = 1. Estas probabilidades miden nuestro conocimiento previo de c
omo de probable es el envo de cada uno de los dos smbolos.
Por esta razon, es costumbre denominar a estas probabilidades probabilidades a priori, pues miden, en ausencia de observacion ninguna, nuestro
estado de conocimiento del problema.
Supongamos que a cada smbolo le asociamos una determinada se
nal
fsica; por ejemplo, la hip
otesis H0 llevar
a asociada una se
nal de amplitud
A0 voltios, con una duraci
on de T segundos. La hip
otesis H1 tendr
a asociada una se
nal de amplitud A1 voltios, con una duraci
on de T segundos.
En un momento dado se enva uno de los dos smbolos, es decir, el
transmisor enva una de las dos se
nales que se acaban de proponer. Como
es natural, el receptor desconoce que smbolo se ha enviado (si lo conociese
no habra comunicacion) y su mision es, en base a la observacion obtenida,
tomar una decisi
on sobre cu
al de las dos se
nales se ha recibido y, por tanto,
cual de los dos smbolos se ha enviado.
Todo esto no sera problema si las se
nales recibidas fuesen exactamente
iguales a las se
nales enviadas. En tal caso, dado que las se
nales en origen
son distintas, las se
nales en destino tambien lo seran. Lamentablemente,
la realidad es muy otra y las se
nales, conforme atraviesan el medio de
transmisi
on, sufren distorsiones varias (recortes en banda, superposicion de
interferencias, adici
on de ruido etc. . . ). Supongamos que la se
nal recibida
tiene una amplitud de X voltios; el problema procede del hecho de que la
amplitud X puede recibirse tanto si se enva un smbolo como si se enva el
otro debido a los efectos de canal comentados. Ahora bien, debe haber algo
que nos permita pronunciarnos de forma no arbitrariapor un smbolo
u otro a pesar de que los dos smbolos puedan, en un momento dado, dar
4
La letra hache corresponde a la inicial de hip

otesis.
35
lugar a la misma amplitud X.

Supongamos que tenemos la capacidad de calcular P (X|H0 ) y P (X|H1 ).
Esto podra hacerse siempre que conociesemos que tipo de distorsi
on sufre
la se
nal. Para los modelos de canal tpicamente empleados en la practica,
esto es perfectamente posible (de hecho, en buena medida el contenido
de este tratado esta encaminado a tal n). A estas probabilidades se les
denomina, generalmente, probabilidades de transici
on.
La cuestion es pues: recibidos X voltios, a que smbolo corresponde?
Podemos proporcionar varias respuestas al problema, cada una haciendo
uso de diferentes grados de informacion:
1. Soluci
on independiente de la observaci
on: con independencia de la
observacion X recibida, el detector decide siempre que el smbolo
enviado es el mas probable a priori. Por tanto, el detector escoge el
smbolo i de la forma siguiente:
Escoger Hi si P (Hi ) > P (Hj ), i = j; i, j = {0, 1}
(1.32)
Como el lector puede imaginar, este tipo de decision es muy pobre. El

despreciar el valor numerico de la informacion recibida es un lujo que
no es sensato permitirse. No obstante, si las probabilidades a priori
son muy asimetricas (es decir, si una hip
otesis es mucho mas probable
que otra) este detector no se equivocara con demasiada frecuencia.
2. Soluci
on basada en maximizar la probabilidad de la observaci
on: en
este caso, el detector escogera como correcta aquella hip
otesis que
tiene asociada una mayor probabilidad de observar la tensi
on recibida;
es decir, si se verica
P (X|H0 ) > P (X|H1 )
(1.33)
escogera la hip
otesis H0 y, si por el contrario, se verica que
P (X|H0 ) < P (X|H1 )
(1.34)
el detector escogera como cierta la hip

otesis H1 .
Obviamente, este criterio parece mas razonable que el anterior puesto
que la observacion recibida aglutina mucha informaci
on y, ademas,
no siempre tomaremos la misma decision (como sucede en el caso
anterior) sino que ahora la decisi
on de que smbolo se ha enviado
puede cambiar smbolo a smbolo en funci
on de los datos concretos
recibidos.
36
C. Alberola L
opez
No obstante, si bien este modo de decision parece mas acertado,

rep
arese que estamos despreciando una informaci
on muy valiosa, a
saber, como de probable (o improbable) es, a priori, cada smbolo.
Cabe pues pensar en una tercera losofa de decisi
on:
3. Escoger la hip
otesis mas probable dada la observaci
on: en este caso
el detector escogera la hip
otesis H0 si se vericase que
P (H0 |X) > P (H1 |X)
(1.35)
y escogera H1 si, por el contrario,

P (H0 |X) < P (H1 |X)
(1.36)
Estas probabilidades reciben el nombre de probabilidades a posteriori,

es decir, probabilidades una vez obtenida la observaci
on.
No obstante, estas probabilidades no son conocidas. O s? Pues
s que lo son, dado que el teorema de Bayes nos permite escribir
P (H0 |X) =
P (X|H0 )P (H0 )
P (X|H1 )P (H1 )
< P (H1 |X) =
(1.37)
P (X)
P (X)
Podemos ver que como nos interesa la comparacion entre ambas, la

probabilidad P (X) no hay por que calcularla. No obstante, si se desea
conocer su valor, podemos hacerlo sin mas que hacer uso del teorema
de la probabilidad total.
Esta tercera losofa es una losofa bayesiana. Rep
arese que estamos
actualizando la probabilidad a priori de cada hip
otesis sobre la base de
la informaci
on proporcionada por la observaci
on recibida. Es decir,
tenemos un conocimiento inicial del problema P (H0 ) y P (H1 )
pero la observaci
on nos hace cambiar dicho conocimiento P (H0 |X)
y P (H1 |X) a partir del cual tomamos una decisi
on.
Por todo ello, y a modo de resumen, el teorema de Bayes nos permite
pasar de probabilidades a priori a probabilidades a posteriori, en base al
conocimiento de las probabilidades de transici
on. En las secciones 2.4.1 y
2.4.2 incluimos un ejemplo numerico basado en esta losofa.
1.7
37
Experimentos compuestos. Composici

on de
ensayos de Bernoulli
Un experimento compuesto, como indica su nombre, consiste en la composici

on de experimentos simples, a los que, en este entorno, podemos llamar
subexperimentos. As pues, dados (al menos) dos experimentos aleatorios
1 < S1 , F1 , P1 > y 2 < S2 , F2 , P2 >, podemos denir un experimento
compuesto en base a la composicion de estos, el cual, asimismo, tendra las
tres componentes necesarias c < Sc , Fc , Pc >. Veamos cada una de ellas:
a dado por el producto cartesiano de
1. Sc : El espacio muestral Sc vendr
los espacios muestrales S1 y S2 , es decir Sc = S1 S2 . Consecuentemente, los sucesos elementales del espacio Sc consisten en los pares
ordenados (a, b), donde a F1 y b F2 . En el ejemplo del lanzamiento de los dos dados que veamos en la seccion 1.3 dicho producto
cartesiano dio lugar a una tabla de 36 elementos, la cual escribimos
en su momento de forma natural. Otro ejemplo consistira en que los
espacios muestrales S1 y S2 fuesen la recta real. En tal caso S1 S2
sera el plano R2 .
2. Fc : Denotemos por A B el suceso formado por los pares ordenados (a, b), donde a A F1 y b B F2 . La clase de sucesos
estara formada por sucesos de la forma A B, as como por sus
uniones e intersecciones. Ejemplos de tales sucesos, de nuevo con el
experimento de los dos dados, son que la suma de las componentes
sea igual a 4, o que aparezca al menos un seis en las tiradas. Si los
sucesos A y B fuesen sucesos denidos sobre la recta real, por ejemplo, A = {x1 < x x2 } y B = {y1 < y y2 }, entonces el suceso
A B sera el rectangulo {x1 < x x2 , y1 < y y2 }.
Rep
arese que los sucesos A S2 y B S1 pertenecen a la clase Fc , y
que el suceso AB puede escribirse como AB = (AS2 )(B S1 ).
Por otra parte, n
otese que el suceso A S2 se verica siempre que
en el primer experimento se verique A, con independencia de lo que
suceda en el segundo, ya que S2 es el suceso seguro en el segundo
experimento. De forma complementaria el suceso B S1 se verica
siempre que en el experimento segundo se verique B.
3. Ley de generacion de probabilidades Pc : al contrario que los anteriores conceptos, la ley de asignacion de probabilidades compuestas,
en general, no viene unvocamente caracterizada por el u
nico conocimiento de las probabilidades P1 y P2 de cada subexperimento; esto
38
C. Alberola L
opez
trae como consecuencia pensar que la composicion de experimentos es

una entidad formada por tres subentidades: el primer subexperimento, el segundo, y la forma de llevar a cabo la propia composici
on. Si
no nos informan de alguno de los tres, no es posible, en general, conocer la ley de asignacion de probabilidades del experimento compuesto.
Un caso particular de esto es la composicion de experimentos independientes. Dos experimentos seran independientes si el resultado de
uno no afecta al resultado del otro. Formalmente los experimentos
seran independientes si se verica que los sucesos A S2 y B S1
lo son. Rep
arese que ambos sucesos pertenecen a la clase Fc y, por
tanto, podemos denir su independencia sobre la base de la expresi
on
(1.24). Por ello, en caso de independencia de tales sucesos, podramos
escribir
Pc (A B) = Pc ((A S2 ) (B S1 ))
= Pc (A S2 )Pc (B S1 )
= P1 (A)P2 (B)
(1.38)
donde la u
ltima igualdad procede del hecho de que Pc (AS2 ) = P (A)
y Pc (B S1 ) = P (B). N
otese que en caso de independencia, por lo
tanto, s que es posible conocer Pc a partir del conocimiento de P1 y
P2 .
La igualdad que acabamos de obtener justica la notaci
on que habitualmente emplearemos en la composicion de experimentos. Dado
que en el caso de experimentos independientes se verica (1.38), expresi
on similar a la igualdad (1.24), escribiremos, aun resultando un
abuso en la notaci
on, A B en vez de A B. Esto debe entenderse
como una simplicaci
on operativa, puesto que la operaci
on de interseccion debe realizarse entre sucesos pertenecientes a la misma clase
F, lo cual, naturalmente, no es el caso. Esta notaci
on, sin embargo,
siempre que se tenga en mente la relacion de orden en la composicion
de los experimentos, resulta muy comoda para manejar casos m
as
complejos (como es el propuesto en la seccion 1.7.1).
Finalmente, ilustremos con un ejemplo que, en funci
on de como sea la
composicion de experimentos, la ley de asignaci
on de probabilidades
puede ser, o no, determinada a partir de las leyes individuales de cada
subexperimento:
Consideremos el ejemplo del lanzamiento de dos dados. Asumamos que los dados son simetricos e independientes. Denamos
39
el suceso Ai como ha salido la cara i-esima en el primer dado,

y el suceso Bj como ha salido la cara j-esima en el segundo
dado, donde, naturalmente, tanto i como j varan en el rango
1, . . . , 6.
Con esta informaci
on, si denimos el suceso Cij como ha salido la cara i-esima en el primer dado, y la cara j-esima en el
segundo, podemos escribir que
P (Cij ) = P (Ai Bj ) = P (Ai )P (Bj ) =
11
1
=
66
36
(1.39)
En la expresi
on anterior la probabilidad P (Cij ) sera una probabilidad calculada en el experimento compuesto, mientras que
las probabilidades P (Ai ) y P (Bj ) (con los ndices i y j variando en los intervalos oportunos) procederan de cada uno de los
subexperimentos.
Imaginemos ahora que simulamos mediante ordenador el experimento de lanzamiento de dos dados, ambos simetricos. Esto
sera sencillo, sin mas que generar aleatoriamente dos n
umeros
naturales entre 1 y 6. Supongamos, no obstante, que en nuestro
programa incluimos una sentencia que diga si en el primer dado
sale un cinco, en el segundo no puede salir un tres y si en el
primer dado sale un tres, en el segundo no puede salir un cinco.
Con este programa, escogiendo oportunamente las probabilidades de los sucesos elementales compuestos, sera perfectamente
posible que las caras de cada dado (por separado) fuesen equiprobables.
En estas condiciones, el u
nico conocimiento de la equiprobabilidad de las caras de cada dado no sera suciente para conocer la
ley de asignacion de probabilidades del experimento compuesto.
Ejercicio: Haciendo uso del teorema de la probabilidad
total, podemos escribir la probabilidad de cada cara de cada
dado de la forma siguiente:
P (Ai ) =
6

j=1
P (Ai |Bj )P (Bj ) =
6
P (Ai Bj )
j=1
(1.40)
40
C. Alberola L
opez
P (Bj ) =
6

i=1
P (Bj |Ai )P (Ai ) =
6
P (Ai Bj )
i=1
(1.41)
1
6
i, j = {1, . . . , 6}
Con la restriccion P (Ai ) = P (Bj ) =
construya una tabla con los valores P (Ai Bj ) que cumplan,
ademas, el condicionante de que las caras 3 y 5 no se pueden
dar conjuntamente.
Soluci
on: Las expresiones anteriores ecuaciones (1.40)
y (1.41) signican que la probabilidad de cada cara se obtendra sumando por las las probabilidades de cada resultado elemental del experimento compuesto para el primer
dado y por columnas para el segundo. As pues, una posible
tabla sera
Ai \ Bj 1 2 3 4 5 6
1
x x x x x x
2
x x x x x x
3
x x 2x x 0 x
4
x x x x x x
5
x x 0 x 2x x
6
x x x x x x
1
donde x = 36
. N
otese que nos hemos limitado a paliar
el efecto de la probabilidad cero en los resultados (3, 5) y
(5, 3) forzando probabilidad doble en los resultados (3, 3) y
(5, 5), sin necesidad de afectar a los demas elementos de la
tabla.
1.7.1
Composici
on de ensayos de Bernoulli
Un caso particular de enorme interes en la pr

actica es la composicion de
ensayos de Bernoulli independientes. Veremos que tal tipo de composicion
es enormemente frecuente y, adicionalmente, es la base para la introduccion
de la ley de los grandes n
umeros.
En primer lugar denamos y propongamos la notaci
on a emplear en los
ensayos de Bernoulli. Un experimento aleatorio es un ensayo de Bernoulli
si los resultados se engloban en dos (y solo dos) sucesos. Tales sucesos los
denotaremos por A y A, y les asignaremos las probabilidades p y q = 1 p
respectivamente. Notese que, como es natural, tales sucesos forman una
partici
on del espacio muestral, de forma que son disjuntos y sus probabilidades suman la unidad. N
otese, asimismo, que no estamos hablando de
41
que el n
umero de resultados del experimento sea solo dos, sino que estamos
dividiendo las soluciones en dos subconjuntos. As pues, el lanzamiento de
un dado y la observaci
on del resultado obtenido puede considerarse un ensayo de Bernoulli sin mas que dividir los resultados en, por ejemplo, A=ha
salido un valor superior a tres, y su complementario.
En este apartado nos interesa analizar la composici
on de tales ensayos. Supongamos que llevamos a cabo varias ejecuciones de un ensayo de
Bernoulli de forma independiente entre ellas (recuerdese que esta asuncion
permite emplear el resultado de la expresion 1.38). Pensemos que el n
umero de veces que realizamos el experimento es N . En estas condiciones, la
cuestion a resolver es cual es la probabilidad de que el resultado A haya
salido k veces (de N posibles)?
Si denominamos Bk al suceso cuya probabilidad buscamos conocer, el
proceso para el calculo de la misma sera, b
asicamente, escribir dicho suceso
Bk como funci
on de sucesos cuya probabilidad sea conocida. Como, por
ahora, solo conocemos la probabilidad de cada resultado elemental, tendremos que escribir dicho suceso como funcion de los resultados elementales
en cada uno de los ensayos.
Denominando Bkj a cada una de las posibles formas de darse el suceso
Bk , y denotando por Ai al suceso ha salido el resultado A en el ensayo
i-esimo, podremos escribir5 :
Bk1 = A1 A2 . . . Ak Ak+1 . . . AN
Bk2
(1.42)
= A1 A2 . . . Ak Ak+1 Ak+2 . . . AN 1 AN (1.43)
BkM
= A1 A2 . . . AN k AN k+1 . . . AN
(1.44)
En este momento ya se encuentra los sucesos escritos en funcion de la

interseccion de sucesos cuyas probabilidades conocemos. Observese que, si
suponemos conocido el n
umero de formas M en que puede darse el suceso
Bk entonces podramos escribir
Bk =
M
Bkj
(1.45)
j=1
No obstante, quedan cuestiones importantes por resolver:

5
En lo que sigue emplearemos la notaci
on simplicada que acabamos de proponer
para la composici
on de experimentos. En sentido estricto, y para el caso del suceso Bk1
por ejemplo el suceso A1 debera escribirse A1 S2 SN .
42
C. Alberola L
opez
1. Son los sucesos Bkj disjuntos?

2. Podemos calcular las probabilidades de cada Bkj en funci
on de p, q,
N y k?
3. Tenemos que ser exhaustivos en la tabla anterior, es decir, debemos
escribir todas las formas en que puede darse el suceso Bk ?
4. Cu
anto vale M ?
Tendremos que ir resolviendo cada pregunta:
1. Los sucesos son disjuntos. Observese que cada suceso representa una
forma de darse el resultado Bk , por ello, o se da de una forma, o
se da de otra, pero no puede hacerlo de dos maneras a la vez. Esto
puede verse de forma rigurosa escogiendo dos sucesos cualesquiera.
Por ejemplo, escogiendo Bk1 y Bk2 , si realizamos la operacion
Bk1 Bk2 = (A1 A1 ) (AN AN )
Notese que, con independencia del resto de las intersecciones, la primera es el conjunto vaco, de forma que la interseccion global tambien
lo es y por ello los sucesos son disjuntos.
As pues podremos escribir
P (Bk ) = P
M
Bkj
j=1
M
P (Bkj )
(1.46)
j=1
2. Para calcular la probabilidad de cada Bkj escojamos de forma generica

uno de ellos, por ejemplo, el suceso Bk1 . N
otese que hablamos de una
probabilidad de una intersecci
on m
ultiple, concretamente de
k
Ai
i=1
N
Aj .
j=k+1
Dado que la composici

on de experimentos se ha hecho de forma independiente, los sucesos Ai son independientes entre s, de forma que
on se puede escribir como el producto
de las probabilidades, es decir,
P (Bk1 ) = P
k

i=1
Ai
N

j=k+1
Aj =
k

i=1
P (Ai )
N
P (Aj ) = pk q N k
j=k
(1.47)
43
3. La respuesta a la segunda pregunta proporciona tambien respuesta a

la tercera. La ecuacion anterior indica que la probabilidad de cada
suceso Bkj solo es funci
on de cuantos resultados A aparecen y no
de su posicion dentro de los N posibles posiciones. Por tanto, la
probabilidad anterior es com
un para Bkj j = 1, . . . , M de forma que
la probabilidad (1.46) podremos escribirla
P (Bk ) = M pk q N k
(1.48)
y el problema queda reducido a la determinaci

on del par
ametro M .
4. Cu
anto vale M ? Para responder a esta pregunta podemos acudir a
varios planteamientos. Uno de ellos es el siguiente:
El n
umero buscado M se puede encontrar de la forma siguiente: disponemos de N posiciones donde introducir k veces el resultado A. En
las N k restantes tendremos que introducir el resultado A. Tomemos como referencia las ejecuciones del experimento de la ecuacion
(1.42) y siguientes. En el primer caso, introducimos el resultado A en
las k primeras posiciones. As pues, podemos extraer el subconjunto de ndices {1, 2, . . . , k} donde hemos introducido el resultado A.
En la segunda, dicho subconjunto de ndices sera {2, 3, . . . , k, k + 1}.
Por tanto, si extraemos todos los subconjuntos de k ndices donde
podemos introducir el resultado A habremos extrado todas las formas de presentarse el resultado A k veces. Y, cuantos subconjuntos
de k elementos podemos extraer de un conjunto de N elementos?
La respuesta a esta pregunta son las combinaciones de N elementos
tomados de k en k y dicho n
umero resulta ser M = Nk .
As pues, la expresi
on de la probabilidad que estamos buscando es

P (Bk ) =
N k N k
p q
k
(1.49)
Ejercicio: Un sistema de control de calidad de productos

qumicos decide, para cada producto que inspecciona, si este
cumple los requisitos normativos para su aceptacion. Supongamos que el protocolo de inspeccion rechaza los productos con
on es tal que peruna probabilidad pr y el proceso de fabricaci
mite aceptar independencia entre productos. Se pide:
a) Si se dispone de N productos, probabilidad de que
una fracci
on no superior al 10% de ellos sea rechazada.
44
C. Alberola L
opez
b) Probabilidad de que k productos sean rechazados antes de aceptar un n

umero s de estos.
Soluci
on:
a) Denominemos kr al primer n
umero entero menor que
0.1N (kr = oor(0.1N )). Dado que los experimentos son independientes entre s y el resultado de cada experimento es rechazar el producto (suceso A, con probabilidad p(A) = pr ) o
aceptarlo (suceso A, con probabilidad qr = 1 pr ), estamos
ante una composicion de ensayos de Bernoulli independientes.
En este caso el suceso (digamos) B cuya probabilidad se pide
se puede escribir, siguiendo la denici
on de los sucesos Bk dada
por la ecuacion (1.45), de la forma
B=
kr
Bk
k=0
Por otra parte los sucesos Bk , (0 k N ), son disjuntos (si

se verica Bk es que se rechazan exactamente k productos y se
aceptan N k, luego no puede vericarse ning
un otro Bj con
j = k). Por ello:
P (B) = P
kr
Bk =
k=0
kr
P (Bk ) =
k=0
kr

N k N k
p q
k r r
k=0
donde la u
ltima igualdad procede de la expresi
on (1.49).
b) La situaci
on que se plantea ahora consiste en tener,
por una parte, (s 1) + k productos, de los cuales se deben
aceptar s 1 y rechazar k y, a continuaci
on, aceptar el siguiente
producto. Con ello se habr
an rechazado k productos antes de
aceptar s. Deniendo el suceso As+k como el producto es aceptado en la inspeccion s + k-esima y denominando C al suceso
cuya probabilidad se pide en este apartado, entonces podemos
escribir (tengase en mente que ahora N = s + k 1 para usar
la terminologa de la seccion 1.7.1):
C = Bk
As+k
P (C) = P Bk

As+k = P (Bk ) P As+k

s + k 1 k (s+k1)k
pr q r
qr =
k
s+k1 k s
pr q r
k
45
Aproximaciones de la probabilidad P (Bk )

La expresi
on de la probabilidad deducida en la ecuaci
on (1.49) se puede
aproximar por expresiones alternativas, las cuales, en algunos casos, pueden
suponer una mayor comodidad en el calculo de las probabilidades asociadas
a composiciones de ensayos de Bernoulli. Dos de estas aproximaciones son
las siguientes:
1. Aproximaci
on de Poisson: esta primera aproximaci
on es de validez
cuando N >> 1, p << 1 y el producto N p = a < 5. En estas
condiciones se verica que

P (Bk ) =
N k N k
ak
p q
ea
k!
k
(1.50)
Notese que esta aproximacion hace que solo tengamos que calcular
un factorial (en vez de los tres que corresponden al n
umero combinatorio de la ecuaci
on (1.49). Asimismo, cuando las probabilidades son
peque
nas, el elevar un n
umero peque
no (p o q) a una potencia grande
puede traer consigo una perdida de precision en la operacion. Con
esta aproximaci
on tales operaciones son asimismo obviadas.
0.12
0.1
0.08
0.06
0.04
0.02
10
15
20
25
30
Figura 1.5: Ajuste de P (Bk ) mediante una curva dada por la expresi
on
(1.51).
2. Aproximaci
on de DeMoivre-Laplace: La gura 1.5 muestra en asteriscos el aspecto que presenta la expresion de la ecuacion (1.49) para
46
C. Alberola L
opez
p = 0.1 y N = 150. Asimismo, hemos superpuesto una aproximaci

on
de tales valores mediante la expresion
(xa)2
1
e 2b2
b 2
(1.51)
donde el par
ametro a = N p
es el par
ametro de simetra de la curva
anterior y el par
ametro b = N pq es tal que cuanto mayor sea este
valor m
as ancho es el lobulo de la curva. Como puede verse, las
probabilidades P (Bk ) se ajustan de manera bastante aproximada a
la curva anterior para valores de k pr
oximos al centro de simetra de
la curva. De hecho, esta aproximaci
on esvalida cuando N pq
>> 1 y
para valores de k en el intervalo N p 3 N pq k N p + 3 N pq.
Cuando el objetivo sea calcular la probabilidad de la uni
on de varios
Bk (es el caso del apartado a) del ejercicio anterior) debemos acudir
al area bajo esta curva. Concretamente:
k0
Bk
=
k=0
k0
(xa)2
1
k0 N p
e 2b2 dx = G
N pq
b 2
(1.52)
donde la funci
on G() representa el area bajo la curva (1.51), y se
encuentra tabulada (ella, u otras similares, vease pie de la pagina 62)
en cualquier texto de Teora de la Probabilidad (por ejemplo, [1, 2]).
En el caso en que el sumatorio no comience en cero, la expresion
anterior debe transformarse de la manera que se indica:
k1

k=k0
Bk
=G
k1 N p
N pq
(k0 1) N p
G
N pq
(1.53)
El motivo por el que esto es as, si bien en este momento no es evidente, lo sera en captulos posteriores (vease seccion 4.5.2).
Captulo 2
Variable aleatoria
unidimensional
2.1
Concepto de variable aleatoria
En numerosos experimentos pr
acticos en que existan fen
omenos aleatorios
no disponemos de acceso directo a los resultados del experimento aleatorio,
sino que, simplemente, observamos n
umeros que uct
uan. Por ejemplo, si
medimos la tension de salida de una antenasobre una determinada carga
en diferentes situaciones, observaremos niveles de tension uctuantes. Tales
uctuaciones depender
an de numerosos factores, muchos de ellos completamente incontrolables por nosotros (condiciones atmosfericas, ambiente
radioelectrico local etc ...). En tales situaciones es necesario disponer de
una herramienta que permita caracterizar probabilsticamente las mediciones que pueden obtenerse, de forma que, por ejemplo, podamos obtener
un valor en torno al cual uctuar
an las medidas, un indicativo de la mayor o menor uctuaci
on esperable, intervalos de valores de mayor o menor
probabilidad de aparici
on etc . . . Esta herramienta esta constituida por las
variables aleatorias.
Visto el concepto intuitivo, tratemos de formalizar el concepto de variable aleatoria (VA, en adelante). Una VA se puede denir como una
aplicacion del espacio muestral en el cuerpo de los n
umeros complejos de
orden N , que asocia a cada elemento del espacio muestral a S (por ende, para cada posible resultado del experimento aleatorio) un vector de N
n
umeros complejos Z = [Z1 . . . ZN ]
Z : S CN
47
48
C. Alberola L
opez
a S Z(a) = [Z1 (a) . . . ZN (a)]
(2.1)
Un posible ejemplo de tal variable (compleja de orden N ) sera la medicion simult

anea de N impedancias complejas de un circuito con el objetivo
de analizar el comportamiento de las mismas con el paso del tiempo. Los
elementos a S seran los resultados de un experimento aleatorio de caractersticas desconocidas (envejecimiento de las impedancias) y lo u
nico
que se observara del experimento sera el valor de las VAs (impedancias).
Otro ejemplo lo constituira la medicion de la tensi
on a la salida de una
antena. Imaginemos que se enva repetidamente una se
nal patr
on; en tal
caso, la medida de tension a la salida de la antena debera reejar elmente
esa repeticion y as lo har
a, pero con uctuaciones superpuestas respecto del valor que se espera. En tal caso no sabramos cual es el resultado
del experimento aleatorio que se esta produciendo (de hecho, no sabemos
que experimento aleatorio es) sino que simplemente tendramos acceso a
las mediciones de tension, las cuales son n
umeros reales.
Para poder analizar las cosas en un orden natural, consideremos en este
tema el caso mas sencillo, lease, el caso en que N = 1, y que el cuerpo sobre
el que se dene la aplicacion sea el cuerpo de los n
umeros reales R en vez
del cuerpo de los n
umeros complejos C. El resultado de esta simplicaci
on
sera una VA unidimensional (real), a la cual nos referiremos con letras
may
usculas del tipo (X, Y, Z . . .). En sentido estricto las VAs deberan
reejar la dependencia con respecto al resultado del experimento aleatorio
a S, es decir, deberamos escribir X(a). Sin embargo, tal dependencia
sera dada por supuesto para no sobrecargar la notaci
on.
Para terminar la formalizaci
on del concepto de VA debemos indicar que
para que esta sea tal, la aplicacion anterior debe cumplir dos condiciones.
Concretamente1 :
{X x} F, es decir, debe ser un suceso, de forma que sobre el
puedan denirse probabilidades.
P (X = ) = P (X = ) = 0, de forma que aunque las variables
puedan tomar valores arbitrariamente elevados, la probabilidad en el
lmite sera nula.
Es interesante hacer una clasicaci
on de las variables aleatorias en base
al conjunto de valores que estas pueden tomar. Esta clasicacion sera u
til
1
En lo que sigue, y acorde con numerosos tratados [1, 2, 3] igualaremos los valores
de las VAs a y evaluaremos las funciones que denen su comportamiento probabilstico en esos mismos valores. Tal igualdades debe entenderse, naturalmente, como
comportamientos en el lmite.
Captulo 2. Variable aleatoria unidimensional
49
durante el resto de la asignatura. Concretamente, si la VA puede tomar

valores dentro de un conjunto discreto, esto es, dentro de un conjunto a
lo sumo numerable, diremos que la VA es discreta. Un ejemplo tpico es
una variable que s
olo pueda tomar los valores 0 y 1, o los valores [a, b, c],
o cualquier valor entero etc. . . Reparese que no se esta exigiendo que el
conjunto de valores que la VA puede tomar sea finito sino a lo sumo
numerable, es decir, que se pueda hacer una correspondencia uno a uno
entre el conjunto de valores que puede tomar la VA y el conjunto de los
n
umeros enteros. Por contra, una variable continua tomara valores dentro
de un conjunto no numerable, por ejemplo, cualquier valor del intervalo
[1, 1] o, incluso cualquier valor real. Finalmente, hablaremos de variables
mixtas, que son las que presentan un comportamiento intermedio entre el
comportamiento de las continuas y el de las discretas. Para hablar mas en
detalle de estas u
ltimas necesitamos, no obstante, introducir conceptos de
caracterizacion probabilstica de las variables, lo cual es nuestro siguiente
paso.
2.2
Caracterizaci
on de las variables aleatorias: funciones de distribuci
on y densidad
Caracterizar una VA consiste, simplemente, en asociar un comportamiento

probabilstico a los valores que puede tomar una VA. De nada nos valdra
decir que una variable puede tomar cualquier valor entre y +. Si
as fuese, no estaramos haciendo m
as que expresar nuestra ignorancia.
Otra cosa sera decir que una variable puede tomar valores en ese rango,
pero que toma con mucha mayor probabilidad los valores cercanos al cero,
que los alejados de este. Este tipo de informaci
on es, precisamente, extrable
de las funciones que caracterizan a las VAs.
La caracterizacion de las VAs puede verse (por comodidad) de forma
distinta para variables continuas y para discretas. Decimos por comodidad
pues, como veremos posteriormente, existen herramientas matematicas que
posibilitan que la caracterizacion de ambos tipos de variables se haga de una
forma u
nica. No obstante, como indicamos a continuaci
on, es notablemente
mas sencillo considerarlas como casos distintos.
Empecemos por el caso de las variables discretas: una variable discreta
X queda completamente caracterizada si conocemos los valores que puede
tomar (digamos, si conocemos los valores xi , i Z) y las probabilidades
pi = P (X = xi ), i Z, con las que la variable toma cada uno de tales
valores. Conociendo esto conocemos todo lo conocible con respecto a esta
50
C. Alberola L
opez
variable X. Pongamos un ejemplo para ver que es as: imaginemos que

queremos conocer la probabilidad de que una variable X, de la cual nos
informan que puede tomar cualquier valor entero i Z, tome valores entre
2 y 2. Para poder hacer este calculo, supongamos conocidos los pi , con
i Z. La probabilidad deseada puede calcularse si conseguimos hacer uso
del algebra de sucesos que conocemos hasta ahora. En efecto
P (2 X 2) = P ({X = 2} {X = 1} {X = 0}
{X = 1} {X = 2})
= P (X = 2) + P (X = 1) + P (X = 0) +
P (X = 1) + P (X = 2)
= p2 + p1 + p0 + p1 + p2
=
2
pi
(2.2)
i=2
Rep
arese que el paso de la primera lnea a la segunda se ha hecho en
base a la extension a N sucesos del tercer axioma de la probabilidad ya
que, simult
aneamente, la variable no puede tomar dos valores distintos, de
forma que todos los sucesos involucrados son disjuntos.
El caso de las VAs continuas es un poco mas complejo. El motivo no
es otro que, para tales VAs, debemos proporcionar una funci
on, tambien
de variable continua, que caracterice probabilsticamente a todos y cada
uno de los valores de estas. Tales funciones son fundamentalmente dos,
a saber, la funci
on de distribuci
on y la funci
on de densidad de probabilidad. Empecemos por la primera, para pasar a continuaci
on a describir la
segunda.
2.2.1
Funci
on de distribuci
on
La funci
on de distribuci
on de una VA X se denota por FX (x) y se dene
mediante
(2.3)
FX (x) = P (X x)
Rep
arese que X representa la VA y x R es la abscisa donde se eval
ua
la funci
on FX (x). Esta funci
on, por tanto, es una funci
on real de variable
real y, como puede verse, esta funci
on indica cu
al es la probabilidad de
que la VA X tome valores menores o iguales que un determinado punto de
abscisa x. Reparese por ello que es imprescindible que {X x} F, como
antes hemos exigido, de forma que tenga sentido denir probabilidades
sobre esta entidad. Pues bien, esta funci
on nos permite hacer cualquier
51
calculo probabilstico en relacion con los valores que puede tomar la VA

X. Asimismo, esta funci
on, dado que mide probabilidades, no puede ser
una funci
on arbitraria, sino que debe cumplir un conjunto de condiciones.
Veamos esto paso por paso (vease gura 2.1 y recuerdese la nota en el pie
de la p
agina 48):
F (x)
X
Figura 2.1: Un ejemplo de funci

on de distribuci
on.
FX () = 0, esto es, esta funcion presenta una asntota horizontal
de cota nula. En efecto, hemos dicho que para que una VA sea tal,
P (X = ) = 0. Esto trae consigo que
FX () = P (X ) = P (X = ) = 0
FX () = 1, esto es, esta funcion presenta una segunda asntota horizontal, en este caso, de cota unidad. En efecto, el suceso {X } =
S, es decir, es el suceso seguro.
0 FX (x) 1, lo cual es consecuencia inmediata de los axiomas de la
probabilidad (rep
arese que los valores de una funci
on de distribucion
son probabilidades).
La funci
on es no decreciente, es decir, si x1 < x2 entonces se verica
que FX (x1 ) FX (x2 ). Esto se debe a que estamos trabajando con
sucesos, y, como es obvio, se verica que {X x1 } {X x2 } si
x1 x2 . Por ello, tambien es cierto que P (X x1 ) P (X x2 ).
Por esta razon a esta funci
on de le denomina tambien funci
on de probabilidad acumulada, ya que, conforme crece la abscisa donde evaluamos la funci
on, crece el intervalo de la recta real considerado en el
calculo de la probabilidad, y crece, de forma acorde, la probabilidad
asociada.
52
C. Alberola L
opez
Lo anterior nos permite realizar un c

alculo probabilstico con la funcion de distribuci
on. Pensemos que necesitamos conocer P (x1 < X
x2 ). Esto se puede realizar de manera sencilla haciendo uso del algebra de sucesos que conocemos hasta ahora. Concretamente,
{X x2 } = {X x1 } {x1 < X x2 }
FX (x2 ) = P (X x2 ) = P ((X x1 ) (x1 < X x2 )) =
= P (X x1 ) + P (x1 < X x2 )
= FX (x1 ) + P (x1 < X x2 )
(2.4)
Despejando de arriba es inmediato ver que

P (x1 < X x2 ) = FX (x2 ) FX (x1 ),
(2.5)
es decir, la probabilidad de que la VA tome valores en un intervalo

es igual a la diferencia de los valores de la funci
on de distribuci
on en
dicho intervalo.
Podemos calcular la probabilidad del suceso complementario {X >
x}. En efecto, podemos escribir el suceso seguro como
S = {X x} {X > x}
Tomando probabilidades y aplicando el hecho de que los sucesos del
segundo miembro de la igualdad anterior son disjuntos, concluimos
que P (X > x) = 1 FX (x).
Caso de las variables discretas
Al principio de esta seccion hemos hablado de la funci
on de distribuci
on de
una VA, sin especicar si esta tena que ser continua o discreta. Y, en efecto,
es as: la funci
on de distribuci
on se dene para VAs con independencia del
tipo de variables que se este manejando. No obstante, solo es informativa
en el caso de variables continuas, pues, para el caso de variables discretas,
como hemos dicho antes, basta conocer los valores que puede tomar la
variable, y las probabilidades con las que toma dichos valores.
Veamos que esto efectivamente es as mediante un ejemplo. Consideremos una VA discreta X que pueda tomar los valores (a, b, c) con probabilidades respectivas (pa , pb , pc ). Veremos que con estos datos podemos
construir la funci
on de distribuci
on de la variable X y as queda patente
que la funci
on de distribuci
on no a
nade nada que no sepamos a partir de los
53
F (x)
F (x)
p a +p b +p c
pc
p a +p b
px
pb
pa
0
x
a
a)
x
x0
b)
Figura 2.2: a) FX (x) para una VA discreta que toma tres valores. b) FX (x)
para una VA mixta que toma el valor x0 con probabilidad px0 .
datos iniciales. Construir la funci
on de distribuci
on FX (x) no es otra cosa
que calcular la probabilidad del suceso involucrado para todos los valores
de x (rep
arese que x es la variable independiente de la funcion FX (x) de
forma que nada tiene que ver con los valores a, b y c que toma la variable
X). Para tal n, distingamos diversos intervalos en la recta real en funci
on
de los valores (a, b, c). Concretamente:
un valor en esta
1. x < a; FX (x) = 0, dado que X no puede tomar ning
zona de la recta real.
2. a x < b; FX (x) = P (X x) = P (X = a) = pa , pues para valores
de x en el intervalo indicado, la variable aleatoria X solo puede ser
menor o igual que el valor a, lo cual sucede con probabilidad pa .
3. b x < c; FX (x) = P (X x) = P ((X = a) (X = b)) = pa + pb
4. x c; FX (x) = P ((X = a) (X = b) (X = c)) = 1, dado que
es el suceso seguro (repare que se esta calculando la probabilidad de
que la VA X sea menor igual que un valor de x que es, a su vez,
mayor que c. Dado que el valor maximo que puede tomar X es c, el
suceso cuya probabilidad buscamos es el suceso seguro, de forma que
su probabilidad es la unidad).
La forma de la funci
on de distribuci
on puede verse en la gura 2.2(a).
Como se aprecia de la gura, la funcion es constante a intervalos, con
comportamiento asintotico por la izquierda igual a cero y por la derecha
igual a uno. Los puntos de discontinuidad de la funci
on se encuentran
en los puntos donde la variable discreta toma valores, y la altura de cada
discontinuidad coincide con la probabilidad de que la variable X tome el
54
C. Alberola L
opez
valor de que se trate. Por ello, la expresi

on de la funci
on de distribuci
on se
puede escribir en base a los datos del ejemplo, de la forma
FX (x) = pa u(x a) + pb u(x b) + pc u(x c)
con u(x) la funci
on escalon. Generalizando a una variable que tome los
valores xi , i = {1, . . . , N }, con probabilidades respectivas pi , podemos escribir
FX (x) =
N
pi u(x xi )
(2.6)
i=1
Comentario adicional: Observe que, para que el comportamiento

asint
otico por la derecha de esta funci
on sea el esperado, es condicion ne
cesaria que pi = 1.
i
Variables mixtas
Las funciones de distribuci
on correspondientes a VAs continuas son funciones suaves, continuas, y derivables con continuidad salvo en una
cantidad, a lo sumo, numerable de puntos. No obstante, las funciones de
distribuci
on correspondientes a variables discretas hemos visto que consisten en superposiciones de funciones escalon desplazadas a los puntos donde
la VA toma valores. El tercer tipo de variable aleatoria, del cual hasta ahora
solo hemos dado el nombre, es un caso intermedio entre ambas. Tales variables las variables mixtas presentan funciones de distribuci
on suaves
y continuas pero presentan al menos un punto donde la funci
on de distribucion es discontinua. Un ejemplo de funci
on de distribuci
on correspondiente
a una variable mixta puede verse en la gura 2.2(b)
La funci
on de distribuci
on en discontinuidades
Las discontinuidades en las funciones de distribuci
on solo aparecen en las
variables discretas o mixtas. En tal caso, el manejo de probabilidades es
mas sencillo de realizar en terminos de algebra de sucesos que en terminos
de la funci
on de distribuci
on. No obstante, por completitud, maticemos el
comportamiento de esta funci
on, lo cual reviste solo interes en el caso de
discontinuidades2 :
2
En lo que sigue interpretemos FX (x+ ) = lim0 FX (x + ) y

FX (x ) = lim0 FX (x ), con R+ .
55
FX (x) = FX (x+ ), es decir, el valor que la funci

on de distribuci
on
toma en un punto es el que esta funcion toma inmediatamente a la
derecha de ese punto.
un hemos
P (X = x) = FX (x+ ) FX (x ) = FX (x) FX (x ), seg
visto en el ejemplo. Reparese que esto indica que la probabilidad de
que una variable continua tome exactamente el valor x es nula. Para variables continuas la probabilidad debe considerarse en terminos
de intervalos, aunque estos sean, como veremos a continuacion, de
longitud innitesimal.
P (x1 X x2 ) = FX (x2 ) FX (x
1 ), dado que si se incluye el
valor x1 en el suceso cuya probabilidad se desea calcular tenemos que
evaluar la funci
on de distribuci
on a la izquierda de dicho punto. Esta
propiedad se extiende a los otros dos casos que nos faltan de la forma
P (x1 < X < x2 ) = FX (x
2 ) FX (x1 )
P (x1 X < x2 ) = FX (x
2 ) FX (x1 )
De nuevo es interesante apuntar que para variables continuas estas propiedades no revisten ning
un interes, ya que la funci
on de distribuci
on es
continua, de forma que los comportamientos por la izquierda y por la derecha de cada punto que se considere coinciden.
2.2.2
Funci
on de densidad de probabilidad
La funci
on de densidad de probabilidad de una VA X se denota por fX (x)
y se dene a partir de la funci
on de distribuci
on mediante
fX (x) =
dFX (x)
dx
(2.7)
de forma que tambien es una funci

on real de variable real. Esta funci
on
tiene exactamente la misma informacion que la funci
on de distribuci
on. De
hecho, si, como hemos visto, de la primera podemos pasar a la segunda,
podemos hacer el paso inverso, esto es, de la segunda pasar a la primera.
Basta resolver la ecuacion diferencial resultante de la denici
on integral
anterior:

dFX (x) = fX (x)dx

dFX ( ) =
fX ( )d
56
C. Alberola L
opez
FX (x) FX () =
FX (x) =
fX ( )d
fX ( )d
(2.8)
donde la u
ltima igualdad procede del comportamiento asint
otico por el lazo
izquierdo de la funci
on de distribuci
on.
Dado que la funci
on de distribuci
on tiene un comportamiento marcado
por el conjunto de caractersticas analizadas en la seccion 2.2.1, la funci
on
de densidad de probabilidad no puede tener formas arbitrarias, sino que
debe ser coherente con las propiedades de la funci
on de distribuci
on. En
particular:
on de distribuci
on es una funci
on no decre fX (x) 0, pues la funci
ciente.
El area bajo una funci
on de densidad de probabilidad es siempre
unitaria. Esto procede de la expresi
on (2.8), si evaluamos en x =
(recuerdese que la funci
on de distribuci
on en dicho punto vale uno).

P (x1 < X x2 ) = FX (x2 ) FX (x1 ) = xx12 fX (x)dx, lo cual puede

obtenerse mediante el mismo procedimiento empleado para obtener
la expresi
on (2.8), integrando entre x1 y x2 .
Por lo tanto, rep
arese que si bien la funci
on de distribuci
on es igual a una
probabilidad, la funci
on de densidad es una funci
on que, integrada en un
cierto intervalo, proporciona el valor de que la VA tome valores dentro de
dicho intervalo. De aqu podemos deducir el motivo por el que dicha funci
on
recibe el nombre densidad de probabilidad. Concretamente, si consideramos
el intervalo (x, x + x), la probabilidad de que la variable tome valores en
dicho intervalo es, seg
un conocemos
P (x < X x + x) = FX (x + x) FX (x)
Dado que la funci
on de densidad es una derivada, podemos plantearla como
el lmite de un cociente incremental
fX (x) = lim
FX (x + x) FX (x)
P (x < X x + x)
= lim
x
x
x
lo cual nos permite ver que la funci

on de densidad mide la probabilidad de
un intervalo innitesimal alrededor del punto donde esta se eval
ua, dividido
por la longitud de dicho intervalo. Es pues un probabilidad por unidad de
longitud, de forma que es, en efecto, una densidad de probabilidad.
57
Variables discretas y mixtas

Seg
un hemos visto, la denici
on de la funci
on de densidad se lleva a cabo
mediante una derivada de la funci
on de distribuci
on. Cuando la variable
bajo estudio sea continua, la funci
on de distribuci
on lo es tambien, y sera en
general derivable salvo, tal vez, en puntos aislados. En esos puntos, la
funci
on de densidad es discontinua. Tal es el caso, por ejemplo, de las
variables uniformes que veremos a continuacion (seccion 2.3.1).
Sin embargo, cuando la funci
on de distribuci
on presenta el aspecto dado
por la ecuacion (2.6), las cosas se complican ya que la funcion de distribucion es discontinua en varios puntos (tantos como valores tome la variable
discreta en cuestion). Para tales casos debemos acudir a las funciones Delta
de Dirac, pues se verica3
(x) =
du(x)
dx
(2.9)
Esta funci
on es nula para todo punto de abscisa distinto de cero y, en ese
punto, presenta una singularidad (su valor es innito)de forma tal que el
(x)dx = 1.
area encerrada bajo esta funci
on es unitaria, es decir,
Haciendo uso de esta funci
on, as como de la linealidad del operador
derivacion, es obvio que la funci
on de densidad de una variable discreta (y
de una mixta en los puntos de discontinuidad de la funci
on de distribuci
on)
puede escribirse
fX (x) =
N
pi (x xi )
(2.10)
i=1
es decir, consiste en un tren de deltas, colocadas estas en cada uno de los

puntos donde la variable toma valores y con peso igual a la probabilidad
con que la variable toma el valor en cuestion.
Recuerde, no obstante, que raramente se acudira al empleo de la funci
on
(2.10) pues todo calculo probabilstico se puede hacer en terminos de las
probabilidades pi . Tan solo cuando se necesite explcitamente calcular la
expresi
on de la funci
on de densidad de tales variables sera necesario acudir
a este tipo de formulacion.
3
La expresi
on (2.9) debe tomarse con las oportunas reservas. La funci
on escal
on no
es derivable en el cero, de forma que la funci
on (x) no se podra denir de esta manera,
sino a traves del lmite de la derivada de una funci
on continua por intervalos, cuyo valor
1
. El lmite se calculara con tendiendo a cero, esto es, la
en el intervalo (0, ) sera
pendiente tendiendo a innito con x 0. Los detalles puede consultarlos en [15]. En
x
cualquier caso, lo que s es escrictamente cierto es que u(x) = (t)dt de forma que
el paso de (2.10) a (2.6) a traves de una integraci
on es claro.
58
C. Alberola L
opez
2.3
Algunas variables aleatorias frecuentes
En este apartado describiremos algunos tipos de VAs que aparecen con frecuencia en la pr
actica. Para el caso de las variables continuas plantearemos
la funci
on de densidad, obtendremos la funci
on de distribuci
on y comentaremos aspectos caractersticos de las variables. Para el caso de las discretas
indicaremos, como ya hemos visto que es necesario, que valores pueden
tomar las diferentes variables y con que probabilidad toman dichos valores.
Existen otros muchos tipos de VAs que los que aqu expondremos, pero
el manejo de las funciones de densidad y distribuci
on ser
a similar metodol
ogicamente al que aqu hagamos, si bien, como es natural, los c
alculos
analticos precisos dependeran de cada caso.
2.3.1
Continuas
Uniforme
Una VA X es una variable uniforme en el intervalo denido por los puntos4
a y b si su funci
on de densidad es constante (y no nula) en el interior de
dicho intervalo, y es nula fuera del mismo. Denotaremos tal tipo de variable
de la forma X U (a, b).
El valor de la constante asociada a esta funci
on de densidad no puede
ser arbitrario dado que, como hemos visto, el area bajo cualquier funci
on
de densidad es siempre unitaria. Aplicando esta restriccion tendremos

fX (x)dx =
a
b
fX (x)dx
kdx
= k
a
dx = k(b a) = 1
(2.11)
Por tanto los par

ametros a y b determinan el valor de la constante k y este
resulta ser igual al inverso de la longitud del intervalo, es decir, igual a
1/(b a).
Con respecto a la funci
on de distribuci
on tendremos que calcular

FX (x) =
4
fX ( )d
Todos los par

ametros involucrados en las funciones de densidad y distribuci
on ser
an
par
ametros reales, dado que estas funciones lo son.
59
integral que, en funci

on de donde se encuentre x, tomar
a una forma u otra.
As pues, distinguimos

x<a
FX (x) =
ax<b
FX (x) =
xb
x
a
x
FX (x) =
0d = 0
1
xa
d =
ba
ba

fX ( )d =
1
d = 1
ba
(2.12)
Puede observarse, por tanto, que FX (x) tiene los comportamientos asintoticos esperados (cero, por lado izquierdo, y uno por lado derecho) y que crece
linealmente en el interior del intervalo (a, b). Asimismo, dado que X es una
VA continua, FX (x) es una funci
on continua.
Es interesante realizar unos comentarios adicionales:
La variable uniforme solo puede tomar valores en el interior del intervalo (a, b). En efecto, si calculamos la probabilidad
P (x1 < X x2 ) = FX (x2 ) FX (x1 ) =
x2
x1
fX (x)dx
(2.13)
es f
acil ver que esta integral solo es distinta de cero si los intervaon
los (x1 , x2 ) y (a, b) tienen interseccion no vaca, dado que la funci
subintegral es no nula en el interior del segundo intervalo.
Lo anterior se generaliza a cualquier tipo de variable: aquellos valores
de abscisa x para los que la funci
on de densidad presenta un valor
nulo, son valores que la VA X no puede tomar.
Retomando la ecuacion (2.13) es directo comprobar que un intervalo
tiene probabilidad nula cuando los valores de la funci
on de distribucion en los extremos del intervalo coinciden. Por lo tanto, intervalos
de constancia en la funci
on de distribuci
on son intervalos de probabilidad nula para la VA. Este resultado, que es general, se concreta en
el caso de una VA X U (a, b) viendo que la funci
on de distribuci
on
para valores x < a y x > b es constante. Como hemos dicho, en estos
intervalos la VA no puede tomar valores.
Centremonos ahora en los valores de probabilidad. Para ello, consideremos cuatro puntos de abscisa xi (i={1,. . . ,4}), tales que cumplan
60
C. Alberola L
opez
a x1 < x2 < x3 < x4 b, y, asimismo, que se verique que

= x2 x1 = x4 x3 , esto es, que los intervalos (x1 , x2 ) y (x3 , x4 )
tengan la misma longitud. Calculemos las probabilidades respectivas
de que la VA X tome valores en cada uno de los intervalos
P (x1 < X x2 ) =
=
P (x3 < X x4 ) =
=
x2
x1
fX (x)dx =
x2 x1
=
ba
ba
x4
x3
x1
fX (x)dx =
x3 x4
=
ba
ba
x2
x4
x3
1
dx
ba
1
dx
ba
Como puede apreciarse, las dos probabilidades coinciden. Por tanto,
ambos intervalos son equiprobables. Esta

es una caracterstica general
de las variables uniformes: en el interior del intervalo donde la variable
toma valores no existe ning
un intervalo privilegiado, sino que todos los
intervalos son equiprobables. Si hacemos que el intervalo en cuesti
on
sea de anchura innitesimal podemos concluir que todos los valores
que la variable uniforme puede tomar son equiprobables.
Rep
arese que no se ha dicho de forma explcita si el intervalo (a,b) es
abierto o cerrado. De hecho, a efectos de calculo de probabilidades es
irrelevante. Como hemos visto ya, la contribuci
on a la probabilidad
total de puntos aislados es nula, de forma que s
olo toman sentido bajo
el signo integral, esto es, dentro de intervalos no puntuales. Cuando
se trabaje con variables discretas, sin embargo, puntos aislados s son
relevantes, pues estos llevan asociados probabilidades no nulas.
Gaussiana
Una VA X se dice que es gaussiana, de par
ametros a y b si su funci
on de
densidad tiene la expresion
(xa)2
1
fX (x) = e 2b2
b 2
(2.14)
donde a es cualquier n
umero real, b > 0 y la expresion es valida x. Denotaremos a este tipo de variable de la forma X N (a, b). El motivo de
emplear la letra N es que a este tipo de variables se les denomina tambien
61
variables normales puesto que es el tipo de variables normalmente asumido para el modelado y resoluci
on de numerosos problemas pr
acticos (hay
razones para ello, como veremos en la seccion 4.5.1).
0.35
0.3
0.25
b1
b2 > b1
0.2
b2
0.15
0.1
0.05
5
a=5
10
Figura 2.3: Ejemplos de funci

on de densidad gaussiana para dos valores de
b.
La gura 2.3 muestra la forma de la expresi
on (2.14) para dos valores
distintos de b; puede observarse que los parametros a y b tienen un claro
signicado gr
aco: el parametro a es el punto de simetra de la curva
(as como el punto de abscisa del maximo) y el par
ametro b controla la
anchura y altura de la curva. Rep
arese que cuanto mas grande sea b mas
tarda en decrecer la exponencial cuando nos separamos del punto de abscisa
x = a, de forma que mas ancha es la curva. Si esto es as, dado que el area
bajo esta funci
on ha de ser unitaria, una campana mas ancha implica una
menor altura con el n de que se cumpla este requisito.
Estos par
ametros reciben nombre propios. Posponemos la presentacion
de tales nombres hasta la seccion 2.5.4.
Respecto de la funcion de distribuci
on, esta se calculara mediante la
expresion

FX (x) =
fX ( )d =
( a)2
1
e 2b2 d
b 2
(2.15)
Sin embargo, no existe primitiva conocida para esta integral, de forma que
no existe una expresi
on cerrada para la funci
on de distribuci
on de una
variable gaussiana.
Si no existe expresi
on para la funci
on de distribuci
on cabe preguntarse
si es posible calcular probabilidades asociadas a este tipo de variables. La
62
C. Alberola L
opez
respuesta, naturalmente, es armativa. Para tal n, la integral anterior se

calcula numericamente, y existen tablas sobre los valores de esta funci
on
para numerosos valores de abscisa x. Alg
un comentario en relacion con
esto, no obstante:
Rep
arese que esta funci
on es biparametrica, de forma que, aparentemente, se requerira tabular la funci
on para cada par (a, b). Tales
par
ametros son n
umeros reales, de forma que existe una cantidad no
numerable de combinaciones (a, b); debe existir, naturalmente, alguna
manera de evitar semejante complicacion.
Aunque existen tablas publicadas de esta funci
on para valores de
abscisa tanto positivos como negativos [11], es mas frecuente [1] que
solo se proporcione el valor de esta funci
on en abscisa no negativas
(x 0).
Los dos problemas mencionados pueden resolverse oportunamente. Veamos como:
En primer lugar, denominemos variable normal est
andar a una VA
X N (a = 0, b = 1). La funci
on que tpicamente se encuentra
tabulada5
x
( )2
1
e 2 d
G(x) =
(2.16)
2
Sin embargo, esta funci

on puede amoldarse al caso de variables no
estandar. Para ello, basta que hagamos el cambio de variable =
a
en la expresion (2.15). Por tanto, para una VA X N (a, b)
b
tendremos

FX (x) =
fX ( )d =
( a)2
1
e 2b2 d
b 2
xa
2
b
1
e 2 bd
=
b 2
En [2] la funci
on tabulada es la funci
on erf (x), la cual se dene como erf (x) =
2
e
d
.
En
Teor
a
de
la
Comunicaci
on [13, 14] es habitual hablar de la funci
on
0
Q(x), la cual es el complemento a uno de G(x), y de la funci
on erf c(x), la cual se dene

2
acilmente
como erf c(x) = 2 x e d . Las funciones erf (x) y erf c(x) se relacionan f
con las funciones G(x) y Q(x).
2
x
63
xa
b
2
1
e 2 d
2

xa
= G
b
(2.17)
Por tanto, basta con que conozcamos la funcion de distribuci

on para una normal est
andar (funci
on G(x), ecuacion (2.16)) para poder
encontrar la probabilidad de cualquier VA gaussiana, est
andar o no.
Centremonos ahora en la funci
on G(x). Esta funci
on es igual al area
bajo la funci
on de densidad de una VA normal est
andar. Hemos
visto que, para tal VA, el par
ametro a = 0, de forma que la funci
on
de densidad es simetrica respecto a x = 0, es decir, es una funci
on
par. Por tanto, se ha de vericar que

2
1
e 2 d =
2
2
1
e 2 d
2
dado que la funci

on subintegral es par, y los intervalos de integraci
on
son simetricos respecto a x = 0. Demos un signicado probabilstico a
estas integrales, lo cual nos va a permitir relacionarlas con la funci
on
G(x). La integral de la izquierda no es otra cosa que P (X x) =
FX (x) = G(x). La segunda integral, por su parte, es igual a
P (X > x). Sabemos que P (X > x) = 1 P (X x) = 1 FX (x) =
1 G(x). Como ambas cosas son iguales, concluimos que G(x) =
1 G(x) y, por tanto, es claro que es suciente conocer el area bajo
la curva solo en la parte derecha de la recta real.
Finalmente, debemos comentar una diferencia de importancia de esta
variable, y en general, de todas las variables, con respecto a la uniforme:
la no equiprobabilidad de intervalos de anchura constante de valores de la
variable. En el caso de la VA uniforme cualquier intervalo de valores de
anchura (que se encuentre dentro del intervalo (a, b)) es equiprobable. Sin
embargo, en el caso de las variables gaussianas, son mucho mas probables
los intervalos de la misma cercanos al punto de abscisa x = a que los
alejados de este punto. En efecto, seg
un muestra la gura 2.4 y aceptando
que la base de los dos rectangulos dibujados mide x, el area encerrada por
el rectangulo situado en torno a x = a es muy superior al area del segundo
rectangulo. Como el area encerrada bajo la curva en el intervalo de que
se trate es igual a la probabilidad de que la variable tome valores en dicho
intervalo, es obvio que valores de la variable gaussiana son mas probables.
64
C. Alberola L
opez
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0
40
45
50
55
60
65
70
75
80
Figura 2.4: Comparaci

on de probabilidades de valores en una gaussiana.
Exponencial
0.4
0.3
0.2
0.1
0
5
10
10
1
0.8
0.6
0.4
0.2
0
5
Figura 2.5: fX (x) (superior) y FX (x) (inferior) de una VA exponencial de

par
ametro = 0.4.
Una VA X se dice que es exponencial de par
ametro , y se denota por
X exp(), si su funci
on de densidad tiene la expresi
on
fX (x) = ex u(x)
(2.18)
donde > 0 y u(x) es la funci

on escalon. En base a ello puede observarse que una VA exponencial puede tomar solo valores no negativos y que
65
la probabilidad de intervalos de anchura constante es tanto mas peque

na
cuanto m
as alejados se encuentren del cero (vease gura 2.5).
Asimismo:
fX (x) 0
x u(x)dx

0
ex dx = (ex )
0 = 1.
Finalmente, la funci
on de distribuci
on se obtiene facilmente; por una
on de densidad es nula
parte es claro que FX (x) = 0 si x < 0 pues la funci
en esta zona. Integrando en la zona en que la funci
on de densidad es no
nula, podemos escribir

FX (x) =
=
=
=
por lo que
0

fX ( )d
e d
x
0

x
1e
, x0
FX (x) = 1 ex u(x)
2.3.2
(2.19)
Discretas
Bernoulli
Una VA X discreta se dice que es de Bernoulli, de parametro p (p 0), si
solo puede tomar los valores x = 0 y x = 1 con probabilidades respectivas
P (X = 0) = 1 p = q y P (X = 1) = p.
Tales variables pueden asociarse de manera inmediata a un ensayo de
Bernoulli. Basta para ello llevar a cabo la igualdad
A = {X = 1}
A = {X = 0}
Binomial
Una VA X discreta se dice que es Binomial, de parametros N y p (N Z +
y p 0), si puede tomar los valores x = k con k = {0, 1, 2, . . . , N }, con
66
C. Alberola L
opez
probabilidades

P (X = k) =
N k N k
p q
k
(2.20)
donde q = 1 p. En tal caso la variable se denota X B(N, k).

Puede observarse que esta variable se asocia facilmente a la composicion
de ensayos (independientes) de Bernoulli, sin mas que hacer la igualdad
Bk = {X = k}, con k = {0, . . . , N } y Bk el suceso denido en la seccion
1.7.1.
Poisson
Una VA X discreta se dice que es de Poisson, de parametro a (a > 0), si
puede tomar los valores enteros x = k con k 0, con probabilidades
P (X = k) = ea
ak
k!
(2.21)
Observese que los valores que puede tomar esta variable no esta acotados
superiormente.
Geom
etrica
Una VA X discreta se dice que es geometrica, de par
ametro p (p 0), si
puede tomar los valores enteros x = k con k 0, con probabilidades
P (X = k) = q k p
(2.22)
donde q = 1 p. Esta variable se emplea, por ejemplo, para calcular la

probabilidad del n
umero de repeticiones (independientes) de un ensayo de
Bernoulli que se deben llevar a cabo hasta obtener el resultado A (supuesto
que la probabilidad de obtener A sea igual a p). En efecto, si el n
umero de
repeticiones6 es k es porque en los k 1 intentos anteriores se ha vericado
el resultado A y en el k esimo experimento el resultado A. Denominando
Ai al resultado del ensayo i esimo, procedamos con k creciente
P (X = 0) = P (A1 = A) = p
P (X = 1) = P ((A1 = A) (A2 = A)) = qp
6
La palabra repetici
on est
a aqu empleada en el m
as puro sentido academico: si se
repite un experimento (por ejemplo, cursar una asignatura) una vez es porque se ejecuta
dos veces (el alumno se ha matriculado dos veces) y en la primera ejecuci
on el resultado
no ha sido el deseado (esto es, no se ha aprobado en primera matrcula). En este sentido
repetir cero veces implica aprobar en primera matrcula.
67
P (X = 2) = P ((A1 = A) (A2 = A) (A3 = A)) = q 2 p

..
..
.
.

P (X = k) = P

k
(Ai = A)
i=1
k
P Ai = A
(Ak+1 = A)
P (Ak+1 = A)
i=1
k
= q p
(2.23)
Ejercicio: Compruebese que, para las variables discretas
denidas, se verica la igualdad

pi = 1, donde el recorrido
i
del ndice i depende de la denici

on de cada VA.
2.4
Funciones condicionadas
De igual manera que se denieron probabilidades condicionadas en el tema

anterior, podemos hablar de funciones de distribuci
on y densidad de probabilidad condicionadas. El condicionante ser
a un suceso relacionado con
la VA X y tal suceso nos proporcionar
a mas informaci
on sobre el comportamiento probabilstico de la variable.
Considerando pues que el suceso B es el suceso condicionante (P (B) >
0) la funci
on de distribuci
on condicionada se dene como
FX (x|B) = P (X x|B) =
P (X x, B)
P (B)
(2.24)
El suceso interseccion estara formado, como es sabido, por todos los a S

para los que, simult
aneamente se verica que a B y a {X x}.
A partir de la funci
on de distribuci
on condicionada se dene la funci
on
de densidad condicionada mediante el operador derivada, de forma similar
a como se hizo en la expresion (2.7)
fX (x|B) =
dFX (x|B)
dx
(2.25)
Consideremos dos casos particulares de suceso condicionante B, y, para caso

caso, obtengamos las funciones de distribuci
on y densidad condicionadas
como funci
on de las funciones incondicionales:
68
C. Alberola L
opez
B = {X a}, con a R. Procediendo seg

un la denici
on:
xa
FX (x|B) =
x>a
FX (x|B) = P (X x|B) =
P (Xx)
P (B)
FX (x)
FX (a)
FX (x|B) = P (X x|B) =
P (B)
P (B)
P (Xx,B)
P (B)
P (Xx,B)
P (B)
=1
(2.26)
por lo que la funci

on de densidad condicionada sera:
fX (x|B) =
xa
fX (x|B) =
x>a
fX (x|B) = 0
fX (x)
FX (x)
= a
fX (x)
fX (x)dx
(2.27)
Como puede observarse, dado que el condicionante informa de que la

variable X ha tomado valores menores o iguales que el valor de abscisa
a, es obvio que la variable no puede tomar valores a la izquierda de
dicho punto, de forma que la funci
on de distribuci
on condicionada es
constante para valores x > a, o, de forma equivalente, la funci
on de
densidad condicionada es nula en dicho intervalo. Por lo tanto, las
funciones condicionadas, como ya hemos dicho, actualizan nuestro
conocimiento probabilstico sobre la variable en cuestion a partir de
la informaci
on proporcionada por el condicionante.
B = {a < X b}. Distingamos ahora tres zonas:
()
x<a
FX (x|B) = P (Xx,B)
= PP(B)
=0
P (B)
P
(Xx,B)
a x b FX (x|B) = P (X x|B) =
=
P (B)
FX (x|B) =
P (a<Xx)
FX (x)FX (a)
= FX (b)FX (a)
P (B)
x>b
FX (x|B) = P (Xx,B)
= PP (B)
P (B)
(B) = 1
(2.28)
Derivando la expresi
on anterior obtenemos la funci
on de densidad
condicionada:
x<a
fX (x|B) =
fX (x|B) = 0
fX (x)
a x b fX (x|B) = FX (b)F
= b fX (x)
X (a)
x>b
fX (x|B) = 0
fX (x)dx
(2.29)
Sup
ongase ahora que X es discreta y que puede tomar valores en el
conjunto {x1 , x2 , x3 } con probabilidades respectivas P (X = xi ) = pi ,
69
i = {1, 2, 3}. Denominemos B = {X a}, donde x2 < a < x3 .

Entonces se verica que:
FX (x|B) =
pi|B u(x xi )
con pi|B = P (X = xi |B), i = {1, 2, 3}. En particular

p1|B =
p2|B =
p3|B =
2.4.1
P (X = x1 )
p1
P (X = x1 , X a)

=
=
P (X a)
P (X = x1 X = x2 )
p1 + p2
P (X = x2 , X a)
P (X = x2 )
p2

=
=
P (X a)
P (X = x1 X = x2 )
p1 + p2
P (X = x3 , X a)
0

=
=0
P (X a)
P (X = x1 X = x2 )
Teoremas de la Probabilidad Total y de Bayes
Los Teoremas de la Probabilidad Total y de Bayes vistos en el tema anterior

(vease seccion 1.6) se pueden aplicar de forma inmediata a las funciones
de distribuci
on y densidad condicionadas. En efecto, si consideramos que
on del espacio
los sucesos Ai , i = {1, 2, . . . , N }, constituyen una partici
muestral S, podemos identicar el suceso B empleado en la seccion 1.6 con
el suceso {X x} e, identicando termino a termino,
P (X x) =
FX (x) =
N

i=1
N
P (X x|Ai )P (Ai ) =
FX (x|Ai )P (Ai )
(2.30)
i=1
y, derivando con respecto a la variable x,

fX (x) =
N
fX (x|Ai )P (Ai )
(2.31)
i=1
Estas expresiones indican que se puede construir una funci

on de densidad
en base a la superposicion de funciones de densidad condicionadas, cada
una de ellas multiplicada por un peso relativo igual a la probabilidad del
elemento de la partici
on a que esta condicionada. A una funci
on de densidad
as constituida se le denomina mezcla de funciones de densidad.
70
C. Alberola L
opez
Ejemplo: Continuando con lo expuesto en la seccion 1.6.4 en

relacion con los sistemas de comunicacion, pensemos que las
observaciones asociadas al envo del smbolo l
ogico 0 son muestras de una VA X N (a0 , b0 ), mientras que las observaciones
asociadas al smbolo l
ogico 1 son muestras de X N (a1 , b1 ).
Manteniendo la terminologa de dicha seccion, la funci
on de
densidad fX (x) de la observacion podra escribirse
fX (x) =
b0 2
(xa0 )2
2b2
o
P (H0 ) +
b1 2
(xa1 )2
2b2
1
P (H1 )
La gura 2.6 muestra el aspecto de dicha gr

aca para los valores (a0 = 3, b0 = 1.5), (a1 = 3, b1 = 1.5), P (H0 ) = 1/3,
P (H1 ) = 1 1/3. Como puede observar, los maximos de las
curvas son distintos, dado que cada una de ellas se encuentra
multiplicada por un peso P (Hi ) (i = 0, 1) diferente. Por otra
parte existe un grado de solapamiento importante entre las dos
curvas, lo cual puede llevar a error al decisor del smbolo enviado instalado en el receptor. En efecto, si consideramos un
determinado valor dentro de la zona de solapamiento, digamos,
x = 0.5, si bien es mas probable que haya sido generado por
la distribuci
on fX (x|H1 ), tambien puede haber sido generado
por la distribuci
on fX (x|H0 ) y con una probabilidad razonablemente elevada (esa probabilidad ser
a tanto mayor cuanto mayor
sea la funci
on de densidad condicionada en dicho punto). Ello,
por lo tanto, induce a confusi
on en el receptor. Cuanticaremos
estas armaciones en el ejemplo de la seccion 2.4.2.
El Teorema de Bayes se obtiene sin mas que intercambiar los condicionantes en las expresiones anteriores
P (Ai |X x) =
FX (x|Ai )P (Ai )
FX (x|Ai )P (Ai )
= N
FX (x)
FX (x|Aj )P (Aj )
(2.32)
j=1
2.4.2
Teoremas de la Probabilidad Total y de Bayes mediante partici

on continua
Nada impide considerar como partici

on cada uno de los elementos de la
recta real R. En tal caso, no podremos indexar los elementos de la partici
on mediante un ndice entero, pues la partici
on sera no numerable, de
71
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
10
10
Figura 2.6: Funci

on de densidad mezcla de dos gaussianas.
forma que los operadores de suma pasaran a ser sumas continuas, esto es,
integrales. Sin embargo, conceptualmente, no existe diferencia alguna.
Para ver como podemos hacer esto, consideremos el suceso condicionante B = {x1 < X x2 }. Acorde con el, podemos escribir
P (x1 < X x2 |A)
P (x1 < X x2 )
FX (x2 |A) FX (x1 |A)
P (A)
FX (x2 ) FX (x1 )
P (A|B) = P (A|x1 < X x2 ) =

=
(2.33)
El objetivo es hacer que el suceso B tienda a contener solo un elemento.

no sea x
Para ello, hagamos que x1 = x y x2 = x+x. Cuanto mas peque
mas estrecho sera el intervalo que manejemos y, en el lmite, contendra solo
a X = x. Por ello:
lim P (A|x < X x + x) =
x0
FX (x + x|A) FX (x|A)
P (A)
FX (x + x) FX (x)
FX (x+x|A)FX (x|A)
x
FX (x+x)FX (x)
x
fX (x|A)
P (A) = P (A|X = x)
fX (x)
P (A)
(2.34)
La probabilidad P (A|X = x) debe entenderse como una forma compacta
de escribir la expresi
on del primer miembro de la igualdad en la ecuaci
on
72
C. Alberola L
opez
anterior (primera lnea de la ecuacion 2.34). Vease que, de no entenderlo de esta manera sino en termino estrictos, estaramos hablando de una
probabilidad condicionada en la que el condicionante sera un suceso de
probabilidad nula. Recuerdese (seccion 1.4) que la asunci
on de partida es
la no nulidad en la probabilidad del suceso condicionante.
Qued
andonos con la igualdad de la u
ltima lnea de (2.34) podemos
escribir
P (A)fX (x|A) = P (A|X = x)fX (x)
(2.35)
Integrando ambos miembros en toda la recta real, y recordando que el area
bajo una funci
on de densidad es unitaria, obtenemos

P (A) =
P (A)fX (x|A)dx
P (A|X = x)fX (x)dx
(2.36)
lo cual no es otra cosa que el Teorema de la Probabilidad Total, empleando

como partici
on cada uno de los elementos de la recta real.
Por otra parte, despejando de (2.34) la funci
on de densidad condicionada, podemos escribir
fX (x|A) =
=
P (A|X = x)fX (x)

P (A)
P (A|X = x)fX (x)

P (A|X = x)fX (x)dx
(2.37)
expresion que constituye el Teorema de Bayes en forma continua, es decir,

la probabilidad de cada elemento de la partici
on (X = x) condicionada
al suceso A que se ha vericado. Estrictamente hablando, en este caso
tendramos densidades de probabilidad en vez de probabilidades. No obstante, como es sabido, bastara multiplicar a ambos lados de la igualdad por
una longitud elemental de intervalo (digamos, dx) para convertir esta igualdad en igualdad de probabilidades, de ah que manejemos indistintamente
uno u otro termino.
Ejemplo: Podemos reescribir la ecuacion (2.35) de la forma
P (A|X = x) =
fX (x|A)P (A)
fX (x)
(2.38)
y, volviendo al ejemplo del sistema de comunicaciones digitales,

calcular esa probabilidad para cada uno de los smbolos cuando
73
el valor de se
nal observado sea x = 0.5. Si realizamos los calculos para la seleccion de valores indicada anteriormente (valores
para la construcci
on de la gura 2.6), tendramos
P (H0 |X = 0.5) =
P (H1 |X = 0.5) =
fX (x = 0.5|H0 )P (H0 )
= 0.1165
fX (x = 0.5)
fX (x = 0.5|H1 )P (H1 )
= 0.8835
fX (x = 0.5)
En efecto, el sistema actualiza su grado de conocimiento probabilstico sobre cada una de las hipotesis en base a la observacion realizada. Anteriormente, P (H1 ) = 2/3 0.67. Ahora, la
creencia en que el smbolo enviado haya sido el correspondiente
a H1 se refuerza (pasa a ser 0.8835) en base a la observacion
obtenida {X = 0.5}, de forma que el sistema decidira que el
smbolo enviado ha sido, efectivamente, el smbolo l
ogico 1 ya
que P (H1 |X = 0.5) > P (H0 |X = 0.5).
Sin embargo, el hecho de que P (H0 |X = 0.5) = 0 hace que, si
bien esta hip
otesis es mas improbable, que no sea imposible. De
hecho, de cada 100 observaciones del valor {X = 0.5}, aproximadamente 12 procederan del envo del smbolo l
ogico 0. Esto
hace que el sistema no sea infalible.
2.5
Caracterizaci
on parcial de una variable aleatoria.
La caracterizacion probabilstica de una VA viene dada, hasta donde conocemos, por dos funciones, bien la funci
on de distribuci
on, bien la de
densidad de probabilidad. Sin embargo, en numerosos problemas basta conocer algunos par
ametros que caracterizan aunque sea de forma parcial
a la variable. En esta seccion nos centraremos en los par
ametros mas
habituales de caracterizacion parcial de las variables, y analizaremos como
podemos obtener estos para algunos de los tipos de variables vistos en la
seccion 2.3.
2.5.1
Media
Consideremos que disponemos de M observaciones de una variable (por

ejemplo, medimos la altura de M personas). Aceptemos que medimos
74
C. Alberola L
opez
con una precisi

on de 5 centmetros, de forma que nuestras medidas son
1.60m, 1.65m etc. . . . Denotemos por hj los valores de estas medidas, con
j = 1, . . . , N . Pensemos, nalmente, que kj personas, de las M posibles,
han resultado tener una altura igual a hj . Es obvio pues que j kj = M .

Con estas premisas, el valor medio de las alturas medidas se obtendra, de
una forma natural, de la forma
h=
N

kj hj
j=1
N
kj
i=1 ki
j=1
hj =
N
rj h j
(2.39)
j=1
es decir, el valor medio sera la media ponderada de todas las alturas hj ,

donde el coeciente de ponderaci
on rj indica la importancia relativa de la
altura hj con respecto a las otras alturas, y esa importancia relativa no es
otra cosa que la fracci
on de observaciones, con respecto al total, cuya altura
es hj . Para el caso particular en que todas las alturas aparezcan por igual
en el registro de datos (rj = 1/N ), entonces la media ponderada pasa a ser
la media aritmetica tradicional
h=
N
rj hj =
j=1
N
1
hj
N j=1
(2.40)
Consideremos ahora una VA X y denamos su valor medio (al cual

denotaremos por X ). Centremonos, inicialmente, en las VAs discretas. El
valor medio de una VA X discreta se dene como la media ponderada de
los valores que puede tomar la variable. Si esta variable puede tomar los
valores xi con probabilidades respectivas pi = P (X = xi ), i = {1, 2, . . . , N },
la media se obtiene mediante
X =
N
xi P (X = xi ) =
i=1
N
xi pi
(2.41)
i=1
Como puede comprobarse, esta denici

on es una generalizaci
on de la ecuacion (2.39), donde los coecientes de ponderaci
on ri (los cuales seran funcion de los datos particulares de que se dispusiese) pasan a ser aqu las
probabilidades pi de cada uno de los valores de la variable. Huelga decir
que si la VA discreta tiene cardinal innito, el sumatorio se escribira en
ese mismo rango.
Para el caso general de variables continuas, la denici
on (2.41) se generaliza de la forma siguiente:

X = E{X} =
xfX (x)dx
(2.42)
75
donde E{} denota el operador esperanza matem

atica, operador que consiste en multiplicar su argumento por la funci
on de densidad de la VA involucrada e integrar ese producto en todo el recorrido de la variable. Observese
que esta denicion es la extension continua de la ecuaci
on (2.41), pues
el operador sumatorio se ha sustituido por su extension continua (integral), y las probabilidades pi se han sustituido por su equivalente continuo,
P (x < X x + dx) = fX (x)dx.
Asimismo, podemos comprobar de manera sencilla que la denici
on
continua se convierte en la discreta cuando la funci
on de densidad que se
emplee venga dada por la ecuacion (2.10). En efecto, si la VA X es discreta,
su funci
on de densidad vendr
a dada por la expresion
fX (x) =
pi (x xi )
(2.43)
de forma que el valor medio

X = E{X} =
=

i
pi
pi (x xi ) dx
i=1
x(x xi )dx
pi xi
(x xi )dx
pi xi
(2.44)
como se indic
o previamente.
2.5.2
Otras medidas de tendencia central
La media de una VA X es un par

ametro de tendencia central pues, como
hemos dicho, indica un valor en torno al cual se distribuyen los valores de
la variable. Este valor, sin duda alguna, es el m
as empleado, si bien no es
el u
nico. Otras medidas de tendencia central son las siguientes:
Moda: La moda de una VA X es el valor de dicha variable para el
cual la funci
on de densidad es maxima. Formalmente, si denotamos
a la moda por xM ODA , podemos escribir
xM ODA = arg max fX (x)
x
(2.45)
76
C. Alberola L
opez
El signicado de la moda es el valor de la VA de mayor probabilidad.

Por tanto, para el caso discreto, la moda se dene como aquel valor
xi cuya probabilidad pi es maxima.
Mediana: el valor mediano, o mediana de una distribuci
on, es el valor
de abscisa para el cual la probabilidad de que la VA tome valores menores o iguales que dicho valor de abscisa coincide con la probabilidad
de que la VA tome valores superiores a este. Puede tambien denirse
como el valor de la VA para el cual la probabilidad acumulada a su
izquierda es igual a 0.5. En cualquier caso, denotando a la mediana
por xM E , entonces

P (X xM E ) = P (X > xM E )
xM E
fX (x)dx =
xM E
fX (x)dx
(2.46)
Notese que para el caso de VAs discretas este valor en general no

coincidir
a con ning
un valor, digamos xi , que la VA X discreta pueda
tomar. En tal caso si el valor xp de la misma es tal que P (X xp ) <
0.5 y P (X xp+1 ) > 0.5 entonces podemos denir el valor mediano
x +x
como xM E = p 2 p+1 .
Tanto la moda como el valor mediano tiene interesantes aplicaciones
pr
acticas dentro del ambito de Teora de la Se
nal; algunos ejemplos son el
an
alisis de imagen mediante estimacion bayesiana [4] o el ltrado de ruido
impulsivo (en este u
ltimo caso, el ltro de mediana [16, 17]). A pesar de
ello no les prestaremos mayor atenci
on en el resto de este tratado.
2.5.3
Varianza
La varianza de una VA X es un valor de dispersi

on con respecto al valor
2 , y se dene
medio X . Concretamente, se denota por X
2
X
= E{(X X )2 } =
(x X )2 fX (x)dx
(2.47)
A partir de la denici
on dada en la ecuacion (2.42) se puede deducir que
la varianza de una VA X es la media de las desviaciones cuadraticas de los
valores de la VA con respecto a su valor medio.
on tpica de la variable
El par
ametro X (X > 0) se denomina desviaci
X. El signicado de este par
ametro es el mismo que el de la varianza, solo
que en la misma unidad de medida que la media (repare que la varianza es
una magnitud cuadr
atica con respecto a la de la media).
77
Si desarrollamos el cuadrado dentro de la funci

on subintegral anterior
2
X
= E{(X X ) } =

x fX (x)dx +
2
X
2
(x2 + X
2xX )fX (x)dx
fX (x)dx 2X
2
2
2
2X
= E{X2 } X
= E{X2 } + X
xfX (x)dx
(2.48)
donde al par
ametro E{X2 } se le denomina valor cuadr
atico medio (VCM,
en adelante) de la VA X puesto que es igual a la media de los valores de la
variable elevados al cuadrado.
Este resultado muestra varios conceptos de interes:
1. El operador esperanza matem
atica, dado que esta denido mediante
un operador integral, es un operador lineal. Podramos haber obtenido el resultado de la ecuacion (2.48) operando directamente sobre
el operador esperanza, de la forma
2
2
= E{(X X )2 } = E{X2 X
2X X}
X
2
2E{X X}
= E{X2 } + X
2
2X E{X}
= E{X2 } + X
2
= E{X2 } X
(2.49)
dado que la esperanza de una constante es esa misma constante, y

la esperanza de una constante multiplicada por una VA es igual a la
constante multiplicada por la esperanza de la VA.
2. La varianza, seg
un se desprende de su denici
on en la ecuacion (2.47),
es igual al valor medio de las desviaciones cuadr
aticas de los valores
on
de la VA con respecto a su media X . Por tanto, una VA cuya funci
de densidad este muy concentrada alrededor de la media tendr
a un
valor peque
no de varianza, y suceder
a la contrario con funciones de
densidad muy poco concentradas respecto a dicho valor medio.
3. La varianza puede calcularse de, al menos, dos maneras. La primera
sera aplicando la denici
on dada en (2.47). La segunda sera calcuun indica
lando previamente E{X2 } y X , para luego combinarlos seg
la ecuacion (2.48). Son dos procedimientos distintos, hasta el punto de que, en funci
on de las circunstancias, uno de ellos puede ser
notablemente mas sencillo que el otro.
78
C. Alberola L
opez
Para el caso de VAs discretas, es facil comprobar, sin m

as que sustituir
la expresi
on generica de la funci
on de densidad por la particularizaci
on de
la ecuacion (2.10), que la expresi
on de la varianza pasa a ser
2
X
=
(xi X )2 pi
i
2
= E{X2 } X
x2i pi

2
xi pi
(2.50)
La primera lnea de la ecuacion mostrara el calculo directo, equivalente discreto de la ecuacion (2.47), mientras que la tercera lnea sera el equivalente
discreto de (2.48).
Finalmente, es interesante mencionar que la varianza de una constante
es igual a cero. Insistimos que la varianza mide dispersi
on con respecto a la
media. Por ello, si hablamos de una constante, hablamos de una magnitud
que no tiene variabilidad ninguna, lo cual debe ser coherente con varianza
nula. En efecto, una constante es modelable como una VA discreta que solo
puede tomar un valor, digamos, valor a, con probabilidad pa = 1. Por ello,
su funci
on de densidad sera (llamemosla X) fX (x) = (x a). Haciendo
uso de las deniciones vistas anteriormente:
E{X} =
E{X2 } =
i pi xi
=a1=a
2
i pi xi
= a2 1 = a2
2 = E{X2 } E 2 {X} = a2 a2 = 0
X
2.5.4
Ejemplos para varias distribuciones
Uniforme
Consideremos X U (a, b). Los calculos en este caso son particularmente
sencillos dada la simplicidad de la funci
on de densidad
Media:

E{X} =
xfX (x)dx
x
a
a+b
1
dx =
ba
2
(2.51)
VCM
E{X } =
b
=
a
79
x2 fX (x)dx
1
1
x
dx =
ba
3
2
b3 a3
ba
(2.52)
Varianza: la integral es igualmente sencilla, pero requiere de un poco

mas de algebra. Se puede comprobar que el resultado es:
2
X
=
(x X )2 fX (x)dx
b
=
a
a+b
x
2
2
1
(b a)2
dx =
ba
12
(2.53)
Puede verse por lo tanto que la media de una VA uniforme es igual al

punto medio del intervalo donde la variable toma valores, y la varianza es
funci
on cuadr
atica de la longitud del intervalo. En efecto, cuanto mayor
sea el intervalo, dado que todos los valores de la variable son equiprobables,
mayor es la dispersion de los valores con respecto de la media.
Gaussiana
Consideremos ahora que X N (a, b). El c
alculo de media y varianza de
la distribuci
on se hara como sigue:
Media: debemos resolver la integral

E{X} = X =
=
xfX dx
(xa)2
1
x e 2b2 dx
b 2
(2.54)
Para resolver esta integral parece razonable, dado que la exponencial

presenta como punto de simetra el punto x = a, bien desplazar la
exponencial a x = 0, bien desplazar la funci
on f (x) = x al punto
x = a. Lo segundo se hace de manera sencilla sin mas que sumar y
restar la constante a, obteniendo

E{X} = X =
(xa)2
1
(x a + a) e 2b2 dx
b 2
80
C. Alberola L
opez
(xa)2
1
(x a) e 2b2 dx +
b 2

(xa)2
1
a e 2b2 dx
b 2
(2.55)
La segunda integral es igual a a, dado que es el calculo del area

bajo una funci
on de densidad, multiplicada por a. Al respecto de
la primera, rep
arese que la funci
on subintegral es el producto de la
funci
on f (x) = xa, la cual es impar con respecto al punto x = a, por
una exponencial con exponente al cuadrado, la cual es una funci
on
par con respecto al punto x = a. El producto por tanto es impar, e
integrado en toda la recta real, dado que la integral existe, el resultado
debe ser nulo. Por ello, podemos armar que
E{X} = X = a
(2.56)
Varianza: debemos resolver la integral

2
X
=
(x X )2 fX dx
(xa)2
1
(x a)2 e 2b2 dx
b 2
(2.57)
En este caso no podemos explotar la paridad/imparidad de las funciones, puesto que todas las funciones involucradas son cuadr
aticas.
El calculo directo de la integral parece tambien complicado.
Sin embargo, s que existen soluciones sencillas para resolver este
problema. Una forma de resolverlo sera explotar el conocimiento
previo de que disponemos. Concretamente, sabemos que

1 =
b =
(xa)2
1
e 2b2 dx
b 2
(xa)2
1
e 2b2 dx
2
(2.58)
La primera lnea procede del hecho de que el area bajo una funci
on
de densidad es igual a uno. La segunda igualdad se ha puesto por
conveniencia y se obtiene de multiplicar a ambos miembros de la
igualdad por el par
ametro b. Si consideramos ahora esta igualdad
como una funci
on del par
ametro b (por lo tanto, el par
ametro pasa a
ser una variable), nada impide que hagamos transformaciones sobre
81
esa funci
on, en particular, que derivemos. Que ganamos con esto? Si
comparamos las ecuaciones (2.57) y (2.58) veremos que para pasar de
la segunda a la primera necesitamos que el termino (x a)2 aparezca
multiplicando a la exponencial. Esto podemos conseguirlo derivando
la igualdad (2.58), considerada esta como funcion de b, ya que la regla
de la cadena dice que
def (b)
= ef (b) f (b)
db
(2.59)
y es obvio que al derivar la funci

on del exponente con respecto a b, el
ua como constante a efectos de b, pasar
aa
termino (xa)2 , el cual act
multiplicar a la exponencial, como necesitamos.
Procediendo de esta manera

(xa)2
1
(x a)2
e 2b2
1 =
2
2

2
(xa)
1
b2 =
(x a)2 e 2b2
b 2
(2)
1
dx
b3
(2.60)
2 = b2 .
de forma que, seg
un dice la expresion (2.57), X
Seg
un los resultados obtenidos, el primer par
ametro de la gaussiana
(a) es la media y el segundo par
ametro (b) es la desviacion tpica. Por
ello, es practica habitual denotar las variables gaussianas mediante X
N (X , X ).
Ejercicio: Obtenga los valores de xM ODA y xM E para X
N (X , X ).
Soluci
on: El primer par
ametro de la curva es el punto de simetra, que coincide con el maximo. Por ello, xM ODA = X .
Asimismo y, de nuevo, debido a la simetra de la curva con respecto a x = X , el area bajo la curva en el intervalo (, X )
coincide con el area en el intervalo (X , ). Por ello, xM E = X .
Exponencial
Consideremos ahora que X exp(). El calculo de media y varianza de la
distribuci
on se hara como sigue:
82
C. Alberola L
opez
Media: debemos resolver la integral

E{X} = X =
0
xfX dx
xex dx
(2.61)
VCM: en este caso, debemos resolver

E{X2 } = X =
x2 fX dx
x2 ex dx
(2.62)
Ambas integrales son de corte similar, y pueden resolverse sin mas que
aplicar integraci
on por partes, con la consiguiente dosis de paciencia. No
obstante, existen resultados conocidos, los cuales pueden servir de base
para obtener los par
ametros que nos piden de forma mas rapida y elegante.
Concretamente, hablamos de la funci
on gamma, o factorial generalizado, la
cual se dene

(p) =
xp1 ex dx = k p
xp1 ekx dx
(2.63)
donde se ha de vericar que k > 0 y p > 0. Esta funci

on verica la ley
de recurrencia (p + 1) = p(p), lo cual particulariza al caso de p Z + en
(p + 1) = p!.
As pues no tenemos mas que identicar terminos en media y VCM con
respecto a la funci
on . Por tanto
E{X} =
E{X2 } =
xex dx = 1 (2) =

0
1
(3)
2
x2 ex dx =
2 = E{X2 } E 2 {X} =
X
2
2
1
2
=
=
2
2
1
2
Bernoulli
Este caso es particularmente sencillo, pues los sumatorios se extienden a
solo dos valores. Por tanto
Media: E{X} = X =
VCM: E{X2 } =
i=1 xi pi
2
i=1 xi pi
=0q+1p=p
= 02 q + 12 p = p
2 = E{X2 } E 2 {X} = p p2 = p(1 p) = pq

Varianza: X
83
Binomial
Para el caso en que X B(N, p) tenemos:
Media:
N
E{X} = X =

N

N
xi pi =
i=0
VCM:
2
E{X } =
N
i=0
x2i pi
i=0
i pi q N i

N

N
i2 pi q N i
i=0
(2.64)
(2.65)
El c
omo llevar a cabo estos sumatorios de forma directa no parece
obvio, pero s que es abordable en base a un resultado conocido, que
no es otro que el desarrollo de un binomio de Newton:
N
(p + q)

N

N
pi q N i
i=0
Necesitamos que el ndice del sumatorio i multiplique a las probabilidades, tanto linealmente para el caso de la media como cuadraticamente, para el caso del VCM. Esto lo podemos conseguir sin mas
que considerar la expresi
on anterior como una funci
on f de la variable
p, y derivar con respecto a ella. En efecto:

N
N

N
N
df (p)
ipi1 q N i =
ipi1 q N i
= N (p + q)N 1 =
dp
i
i
i=1
i=0
donde la u
ltima igualdad procede de que el termino en i = 0 es nulo.
Basta ahora que multipliquemos ambos miembros por p para que la
u
ltima expresion coincida con la expresion (2.64). Por ello,
E{X} = X = p

N

N
i=0
ipi1 q N i |p+q=1
= pN (p + q)N 1 |p+q=1
= Np
(2.66)
Con respecto al VCM, partimos de la expresion

N 1
pN (p + q)

N

N
i=0
ipi q N i
84
C. Alberola L
opez
y derivando con respecto a p, obtenemos:

N 1
N (p + q)
N 2
+ pN (N 1)(p + q)

N

N
i=1

N
i=0
i2 pi1 q N i
N 2 i1 N i
i p q
i
de forma que multiplicando por p e igualando p + q = 1 obtenemos

N p + p2 N (N 1) =

N

N
i=0
i2 pi q N i
por lo que E{X2 } = N p(1 + p(N 1)).

Estos resultados nos permiten obtener la varianza
2
X
= E{X2 } E 2 {X} = N p + p2 N (N 1) (N p)2 = N p N p2
= N p(1 p) = N pq.
En vista de estos resultados, rep
arese que la aproximaci
on de DeMoivreLaplace (introducida en la seccion 1.7.1 y que veremos mas detalladamente
en la seccion 4.5) no es otra cosa que aproximar una variable B(N, p) por
una gaussiana, donde esta u
ltima tiene media y varianza iguales a las de la
variable binomial.
Poisson
Si X es una VA de Poisson de par
ametro a, es facil obtener que:
Media: X = a
VCM: E{X2 } = a2 + a
2 =a
Varianza: X
Ejercicio: Sabiendo que el desarrollo en serie de Taylor de la

funci
on exponencial es:
S(a) = ea =

ak
k=0
k!
obtenganse los valores de la media, VCM y varianza de una

variable exponencial de par
ametro a.
85
Geom
etrica
Si X es una VA geometrica de par
ametro p (q = 1 p), es f
acil obtener
que:
Media: X =
q
p
VCM: E{X2 } =
2 =
Varianza: X
q
(1
p2
+ q)
q
p2
Ejercicio: Sabiendo que la suma de los terminos de una progresi

on geometrica es:
S(p) =

p
qk p
=
1 q k=0
obtenganse los valores de la media, VCM y varianza de una

variable geometrica de parametro p.
2.5.5
Desigualdad de Tchebyche
La desigualdad de Tchebyche proporciona una cota a la probabilidad de

un determinado suceso de la VA X, cota que es de utilidad en aquellas
situaciones en las que se desconozca la funcion de densidad de la variable
en cuestion. En efecto, como es sabido, el calculo de cualquier probabilidad
en relacion con los valores de una VA requiere del conocimiento de, bien la
funci
on de distribuci
on, bien la funci
on de densidad. Sin embargo, cuando
esta no sea conocida pero se conozcan la media y la varianza de la VA, si
bien no es posible calcular de forma exacta probabilidad alguna, s que se
puede proporcionar una cota.
R
-
X
+
X
Figura 2.7: Ilustraci

on de la regi
on R para la cual P (|X X | ).
Rep
arese que por cota, entendemos cota no trivial. Es obvio que cualquier probabilidad se encuentra entre cero y uno, de forma que esta intrnsecamente acotada. Esta desigualdad pretende proporcionar un valor que
86
C. Alberola L
opez
sirva de gua en aquellas situaciones en las que se disponga solo de conocimiento parcial de la situaci
on.
Dicho esto, indiquemos cual es la cota. Se puede escribir como sigue:
P (|X X | )
2
X
2
(2.67)
El signicado fsico de la desigualdad parece inmediato: la probabilidad

de que una VA tome valores alejados de su media un determinado radio
es tanto mayor cuanto mayor sea la dispersion de los valores de la misma
con respecto al valor medio, es decir, es tanto mayor cuanto mayor sea la
varianza (y tanto menor cuanto mayor sea el radio ).
Es ilustrativo ver por que esto es as. Si planteamos el calculo estricto
de la probabilidad contemplada en la desigualdad, debemos escribir
P (|X X | ) =
X
fX (x)dx +
=
R
X +
fX (x)dx
fX (x)dx
(2.68)
donde, por brevedad, se ha denominado regi

on R a la regi
on (, X
) (X + , ) (vease la ilustraci
on de la gura 2.7).
Si recordamos ahora la denici
on de la varianza y explotamos el hecho
de que en la regi
on R se verica que (x X )2 2 , podemos escribir
2
X
R
(x X )2 fX (x)dx
(x X )2 fX (x)dx
2 fX (x)dx
R
= 2
fX (x)dx = 2 P (|X X | )
(2.69)
entonces, si mas que pasar 2 al primer miembro de la desigualdad, obtenemos el resultado deseado.
Esta desigualdad, si bien es una herramienta de enorme aplicabilidad
pues solo necesita del conocimiento de la media y la varianza de la VA,
paga un precio debido a su generalidad: el valor de la cota es bastante
conservador. Esto lo podemos comprobar escogiendo un caso en el que
conozcamos la caracterizacion completa de la VA, de tal forma que podamos
comparar el valor exacto de la probabilidad del intervalo pedido con el valor
87
de la cota previsto en la desigualdad. Consideremos, por ejemplo, que

X N (, ) y pensemos que estamos interesados en hallar la probabilidad
indicada en la ecuacion (2.67) para el caso en que = 3. Escogiendo un
valor del radio del intervalo proporcional a la desviaci
on tpica de la variable
podremos, como se vera, obtener un valor numerico de la probabilidad sin
necesidad de seleccionar valores numericos para los par
ametros y . En
estas condiciones comparemos valor exacto con valor de la cota:
Valor exacto:
P (|X | ) = P (X ) + P (X + )

+
= G(
) + (1 G(
))

3
3
+ 1G
= G

3
= 2 1G
= 0.0027
(2.70)
Valor previsto por la cota

P (|X | )
2
1
2
=
= = 0.11
2
2

9
9
(2.71)
Notese pues que, si bien la cota no es trivial, la diferencia entre el

valor real y el previsto por la cota es de dos ordenes de magnitud. Es
por tanto muy conservadora, como hemos indicado.
Ejercicio: Existen versiones derivadas del teorema. Una de
ellas es la siguiente: considere que X es una VA que solo puede
tomar valores no negativos. Se pide que demuestre que
P (X )
E{X}
con > 0.
2.6
Transformaci
on de variable aleatoria
Supongamos que a partir de un experimento aleatorio < S, F, P > se

dene la VA X. Aceptemos que conocemos la funcion de densidad de
probabilidad fX (x) de esta variable.
88
C. Alberola L
opez
En esta seccion consideraremos que denimos una funci

on y = g(x)
sobre los valores de la VA X de forma que para todo valor x de esta existe
una (y solo una) imagen en la funci
on g(x).
La situaci
on puede por tanto formalizarse de la manera
X:S R
a S X(a)
(2.72)
y
g:R R
x R y = g(x) R
(2.73)
Nada impide componer ambas operaciones para dar lugar a

X
SRR
(2.74)
de forma que, considerando los extremos de la composici

on, podemos resumir
g(X) : S R
a S Y(X(a)) R
(2.75)
Vemos por lo tanto que los valores reales que toma la funci
on g son funci
on
del resultado obtenido en el experimento aleatorio < S, F, P >. Cabe
pues considerar que la coleccion de resultados, Y, constituye una VA, generada a partir de la transformaci
on de X mediante la funci
on g(x). Pues,
en efecto, as sera siempre que, como hemos visto en la seccion 2.1, se
cumplan unas determinadas condiciones, a saber7 :
1. Que el dominio en que g(x) esta denida contenga a todos los valores
de X. Caso contrario, podran existir valores a S sin imagen en la
variable Y.
2. {Y y} = {x R t.q. g(x) y} F, es decir, debe ser un suceso,
de forma que sobre el puedan denirse probabilidades.
3. P (Y = ) = P (Y = ) = 0, de forma que aunque las variables
puedan tomar ambos valores, que lo hagan con probabilidad nula.
7
Recuerdese el tratamiento que hacemos de los valores innitos (vease secci

on 2.1).
89
Aceptando que se cumplen estas condiciones Y sera una variable aleatoria
y, por ello, susceptible de ser caracterizada probabilsticamente. Este

es
el objetivo a partir de este momento: conociendo la caracterizacion de la
variable X, origen de la transformacion, y conociendo la propia funci
on
de transformaci
on g(x), hallar la caracterizacion probabilstica de la VA
Y = g(X).
2.6.1
Caso de X discreta
Supongamos que la VA X puede tomar los valores xi , con probabilidades

P (X = xi ) = pi , con i ndice entero, variando en un cierto rango. Supongamos que se dene una funci
on de transformaci
on Y = g(X). En estas
condiciones es obvio que la VA Y tambien sera discreta, de forma que su
caracterizacion se hara hallando los valores que puede tomar, as como las
probabilidades con las que los toma. Veamos:
y=g(x)
y4
y3
x2
x3
x5
x4
x1
y2
y1
Figura 2.8: Transformaci

on de una VA discreta
1. Valores yj : Los valores que puede tomar Y son los valores transformados directamente de g(xi ). Si la transformaci
on es inyectiva,
es decir, si xi = xj g(xi ) = g(xj ) la variable Y tomara tantos
valores distintos como la variable X y estos valores seran yj = g(xi ).
Si la funci
on no es inyectiva hay que ver que valores origen xi se transforman en la misma imagen y. En este caso, la variable Y tomar
a un
n
umero menor de valores distintos que la VA X.
90
C. Alberola L
opez
2. Probabilidades P (Y = yi ):
Si g(x) inyectiva e yj = g(xi ) entonces pi = P (X = xi ) = P (Y =
yj ), con (i, j) variando en los rangos oportunos..
Si g(x) no es inyectiva: considerando la situaci
on representada
en la gura 2.8, en la cual la VA X toma cinco posibles valores
(x1 , . . . , x5 ), de ellos tres (x1 , x4 , x5 ) se transforman en distintas imagenes, pero existen dos puntos (x2 y x3 ) cuyas imagenes
coinciden. As pues, analizando cada caso individual, podemos
escribir
P (Y = y1 ) = P (X = x5 ) = p5
P (Y = y2 ) = P ((X = x2 ) (X = x3 ))
= P (X = x2 ) + P (X = x3 ) = p2 + p3
P (Y = y3 ) = P (X = x4 ) = p4
P (Y = y4 ) = P (X = x1 ) = p1
(2.76)
Esta metodologa es com
un y de aplicabilidad general para cualquier
VA discreta y cualquier transformaci
on.
2.6.2
Caso general. Obtenci

on de la funci
on de distribuci
on
El calculo de la funci
on de distribuci
on se lleva a cabo de manera constructiva. Recordando que la funci
on de distribuci
on se dene FY (y) = P (Y y),
el procedimiento consiste en ir barriendo el eje de ordenadas en los diferentes valores de y e ir escribiendo el suceso {Y y} como funci
on de los
sucesos correspondientes de la VA X, variable cuya caracterizacion probabilstica tenemos.
Para ilustrar este procedimiento, haciendo uso de la gura 2.9, analicemos los diferentes casos que pueden presentarse:
1. Si consideramos valores y < ymin , se verica que P (Y y) = 0. Esto
es debido a que ning
un valor de la VA X se transforma en valores de
la VA Y menores que ymin . Por ello, la funci
on de distribuci
on es
nula en el intervalo (, ymin ).
2. Centremonos ahora en la parte superior de la transformaci
on, es decir, en y > ymax . La probabilidad P (Y y) = 1 pues, como se
deduce de la gr
aca, todos los valores de X se transforman en valores
91
y=g(x)
ymax
y2
x11
x12
x13
x2
y1
ymin
Figura 2.9: C
alculo de la funci
on FY (y).
on de
de Y menores o iguales que ymax . De esta manera, la funci
distribuci
on toma el valor 1 en el intervalo (ymax , ).
3. Debemos ahora ir recorriendo el rango no explorado todava, es decir,
el intervalo y (ymin , ymax ). Un punto perteneciente a este intervalo
es y2 . Para este punto, podemos escribir
FY (y2 ) = P (Y y2 ) = P (X > x2 ) = 1 P (X x2 ) = 1 FX (x2 )
(2.77)
4. Consideremos ahora el punto Y = y1 . Para este caso podemos escribir
FY (y1 ) = P (Y y1 ) = P ((x11 X x12 ) (X x13 ))
= P (x11 X x12 ) + P (X x13 )
= (FX (x12 ) FX (x
11 )) + (1 FX (x13 ))
(2.78)
Si la VA X es continua, naturalmente, la expresion (2.78) se puede
reescribir FY (y1 ) = FX (x12 ) FX (x11 ) + (1 FX (x13 ) (vease seccion
2.2.1).
Ejercicio: Considerando que X U (1/2, 1/2) y que Y =
on de
g(X) = X2 , obtenga mediante el metodo expuesto la funci
distribuci
on FY (y).
92
C. Alberola L
opez
0
2 y
FY (y) =
Soluci
on:
y0
0<y
y > 14
1
4
Algunos casos particulares a tener en cuenta

El procedimiento anterior es v
alido para cualquier situaci
on. No obstante,
es interesante resaltar algunas situaciones particulares en las que, a primera
vista, pueden surgir dicultades de interpretaci
on.
y=g(x)
y=g(x)
y3
y2
y1
x2
x1
x
x2
x1
y1
a)
b)
y=g(x)
y2
y1
x
x0
c)
Figura 2.10: a) Transformaci
on con intervalo de constancia. b) Transformacion en escalera. c) Transformacion con discontinuidad.
1. Si la transformaci
on es constante en un intervalo de valores de la VA
X y esta VA es continua, entonces la VA resultante Y sera mixta
93
(gura 2.10a). Rep

arese que en la gura existe un rango continuo de
valores de la VA X que se transforma en el punto Y = y1 , en vez
de, como suceda en el caso general, un n
umero discreto de puntos
transform
andose en cualquier imagen. Por ello, el suceso {Y = y1 }
presenta una probabilidad
P (Y = y1 ) = P (x1 < X x2 ) = FX (x2 ) FX (x1 ) = py1
(2.79)
y eso trae consigo que la funci

on FY (y) presente una discontinuidad
de altura py1 en el punto de abscisa y = y1 . Una posible forma de
funci
on de distribuci
on resultante para este caso es la que se muestra
en la gura 2.11a).
F (y)
F (y)
P(Y =y1 )
y
y1
y
y1
a)
y2
b)
Figura 2.11: a) FY (y) resultante de transformacion con intervalo de constancia. b) FY (y) resultante de transformacion con discontinuidad.
2. Lo anterior generaliza a una transformaci
on en escalera (vease gura
2.10b). Para una transformaci
on como la de esta gura sabemos de
antemano que la VA Y sera discreta y que solo tomara los valores
(y1 , y2 , y3 ) con probabilidades respectivas:
P (Y = y1 ) = P (X x1 ) = FX (x1 )
P (Y = y2 ) = P (x1 < X x2 ) = FX (x2 ) FX (x1 )
P (Y = y3 ) = P (X > x2 ) = 1 FX (x2 )
(2.80)
3. La funci
on g(x) presenta una discontinuidad en el punto x0 , donde
g(x0 ) = y1 y g(x+
0 ) = y2 (gura 2.10c). En tal caso, dado que la
VA Y no puede tomar valores en el intervalo (y1 , y2 ) (dado que no
existen valores de la VA X que se transformen en dicho intervalo) la
funci
on de distribuci
on presentar
a un intervalo de constancia en el
intervalo (y1 , y2 ), es decir, FY (y2 ) = FY (y1 ). Un posible forma para
esta funci
on se muestra en la gura 2.11b).
94
2.6.3
C. Alberola L
opez
Caso general. Obtenci

on de la funci
on de densidad:
Teorema Fundamental
y=g(x)
x2 + dx 2
x1 + dx 1
x1
x3 + dx 3
x2
x
x3
y+dy
y
Figura 2.12: C
alculo de la funci
on fY (y).
Hemos visto que para el calculo de la funci
on de distribuci
on FY (y) no
existe un procedimiento cerrado sino que el proceso es enteramente constructivo. Sin embargo, para el calculo de la funci
on de densidad s que
podemos hacer uso de una expresion cerrada que nos de solucion al problema. Tal expresi
on cerrada se conoce bajo el nombre Teorema fundamental
y este sera nuestro foco de atencion en el resto de la seccion.
Consideremos la situaci
on representada en la gura 2.12. Para hacer
el calculo de la funci
on de densidad, consideremos un punto de la VA Y
y analicemos la probabilidad de que esta variable tome valores en un intervalo innitesimal en torno a dicho punto. El objetivo es expresar esa
probabilidad en funci
on de sucesos equivalentes de la VA X. En virtud de
la gr
aca, podemos escribir
P (y < Y y + dy) = P (x1 + dx1 < X x1 ) + P (x2 < X x2 + dx2 ) +
P (x3 + dx3 < X x3 )
fY (y)dy = fX (x1 )|dx1 | + fX (x2 )|dx2 | + fX (x3 )|dx3 |
(2.81)
La primera igualdad de la expresi
on anterior procede de la lectura directa de
la gr
aca. Como puede verse, en la graca hay zonas donde la pendiente es
negativa (zonas de puntos x1 y x3 ) de forma que los diferenciales dx1 y dx3
se han tomado con signos negativos. En la segunda lnea se ha igualado
95
la probabilidad de un intervalo diferencial al producto de la funci

on de
densidad por la longitud del intervalo elemental. Los diferenciales se han
tomado en valor absoluto para que las contribuciones de cada punto de la
VA X a la probabilidad completa sean todas ellas positivas.
Suponiendo un caso general en el que N abscisas se transformen en la
ordenada y, podramos escribir
N (y)
fY (y)dy =
fX (xi )|dxi |
i=1
N (y)
fY (y) =

i=1
fX (xi )
N (y)
fX (xi )
|dxi |

=
dy
dy

i=1
fX (x)

|g (x)|
dxi
N (y)
fY (y) =
i=1
(2.82)
x=xi
constituyendo la u
ltima lnea la expresion del Teorema Fundamental.
Rep
arese que este teorema plantea una expresion cerrada para encontrar
la funci
on de densidad. Sin embargo, el an
alisis que debe hacerse para
obtener tal funci
on es paralelo al realizado en el caso de la seccion 2.6.2. El
motivo es que, seg
un dice la ecuacion (2.82), el valor de la funci
on fY (y),
para cada punto y, procede de la superposicion de N (y) contribuciones de
la VA X, siendo cada una de esas contribuciones las procedentes de los
N (y) puntos de solucion de la ecuacion y=g(x), o si se preere, de los N (y)
puntos de corte de la recta horizontal de ordenada y con la funci
on y = g(x).
No obstante, es cierto que este teorema proporciona una expresion muy
u
til y c
omoda, la cual, de hecho, se empleara enormemente en la pr
actica.
Debemos, no obstante, recalcar que debe aplicarse pensando en que punto
se esta aplicando.
Adviertase, por u
ltimo, que este teorema proporciona la manera de
llegar a una expresi
on analtica de la funci
on de densidad. No obstante, la
aplicacion de la misma requiere dos pasos adicionales:
1. Escribir la expresi
on directamente en funci
on de la variable y. Por
tanto, debe invertirse la funci
on y = g(x), teniendo que obtenerse una
expresion funci
on de y para cada xi involucrado.
2. Deben indicarse explcitamente los rangos de validez, en los valores
de y, de la expresi
on/expresiones resultantes de la aplicaci
on de este
teorema.
96
C. Alberola L
opez
Los ejemplos siguientes ilustran como llevar a cabo la operativa completa.

Ejemplo 1: Considerando que X U (1/2, 1/2) y que Y =
g(X) = X2 , obtenga mediante el Teorema fundamental la expresi
on de fY (y).
Soluci
on: La funci
on de transformaci
on y = g(x) = x2 es una
funci
on par, tal que y > 0 existen dos puntos del dominio
origen que se transforman en un mismo punto destino. Para el
caso y = 0 esto no es cierto, pero, como se sabe, la contribuci
on
de un punto aislado de una VA continua a la probabilidad es
irrelevante, de forma que no prestaremos atenci
on a este caso.
Por otra parte, el valor m
aximo que puede tomar la VA Y
es igual a 1/4, valor que procede de la transformaci
on de los
extremos del intervalo 1/2 x 1/2 en que la VA X toma
valores. Por tanto, las conclusiones que obtengamos en relaci
on
con la VA Y seran v
alidas dentro del intervalo (0, 1/4). Fuera
de este intervalo sabemos, por simple inspeccion, que la funci
on
de densidad fY (y) es nula.
Por ello, podemos escribir

fX (x)
fX (x)
+
fY (y) =

|g (x)| x=x1
|g (x)| x=x2
La funci
on de densidad fX (x) es constante y de valor igual
a la unidad en el intervalo (1/2, 1/2). Asimismo, dado que
g(x) = x2 entonces g (x) = 2x. Entonces

1
1
fY (y) =
+

|2x| x=x1
|2x| x=x2
Para escribir las expresion anterior en funci
on de la variable y,
como dicta el primer miembro de la igualdad, basta ver que
y = x2 x = y. Las dos soluciones de las que habl

abamos
antes, son precisamente, las correspondientes a cada uno de los
signos de la raz. Como, seg
un vemos en la expresi
on anterior, la
funci
on del denominador va acompa
nada de un valor absoluto,
podemos escribir
fY (y) =
1
1
2
1
+ = =
| 2 y| |2 y|
2 y
y
97
As pues, concluimos que

1
y
fY (y) =
0<y
resto
1
4
Ejemplo 2: Considerando que X U (, ) y que Y =

g(X) = a sin(X+), con a, R, obtenga mediante el Teorema
fundamental la expresi
on de fY (y).
Soluci
on: En este caso, la funci
on de transformaci
on y =
g(x) = a sin(x + ) es una sinusoide con fase inicial . El n
umero de puntos de corte entre una recta horizontal de ordenada
y y esta funci
on sera innito si la expresi
on se analizase x.
Sin embargo, como solo nos interesa el intervalo donde la VA
X toma valores, y este intervalo es de anchura 2, el n
umero
de puntos de corte queda reducido a 2 (salvo en alg
un punto
aislado, por ejemplo, en los puntos de mnimo y maximo de
esta curva). Por otra parte, los valores m
aximo y mnimo de
la transformaci
on son a, de forma que sabemos de antemano
que la funci
on de densidad fuera del intervalo (a, a) es nula.
Centrandonos en el interior del intervalo, podemos escribir

fX (x)
fX (x)
+
fY (y) =

|g (x)| x=x1
|g (x)| x=x2
La derivada de la funci
on de transformaci
on es g (x) = a cos(x+
). Por ello, la expresi
on anterior se particulariza
fY (y) =
1
2
|a cos(x1 + )|
1
2
|a cos(x2 + )|
Para escribir la expresi

on en funci
on de y tenemos que hacer
uso de la funci
on inversa. En este caso
y = a sin(x + )
y
= sin(x + )
a

y
x = arcsin
a
(2.83)
98
C. Alberola L
opez
de forma que

y
fY (y) =
|a cos(arcsin
)|
1
2

y
+
|a cos(arcsin
)|
1
2
x=x1
x=x2
Rep
arese, no obstante, que lo que realmente necesitamos saber
es como escribir a cos(x + ) en funci
on de y, para cada una de
las dos soluciones x1 y x2 . Por el camino que hemos empleado
hasta ahora las cosas no son obvias y no parece obvio tampoco
como obtener de forma explcita las dos soluciones que hemos
anticipado que existen. Debe haber otros caminos, los cuales,
en general, suelen encontrarse haciendo uso combinado de la
funci
on g(x) y de su derivada. En efecto,
y = g(x) = a sin(x + )
g (x) = a cos(x + ) = a 1 sin2 (x + )

!
= a2 (a sin(x + ))2
!
g (x) = a2 y 2
(2.84)
por lo que,
1
fY (y) =
1
1
" 2
+
= " 2
2
2
2
2
a y | | a y |
a y2
" 2
de modo que, nalmente,

fY (y) =
a2 y 2
|y| a
resto
Sobre los casos particulares

En la seccion 2.6.2 hemos visto varios casos particulares a tener en cuenta.
Tales casos particulares se reejan de manera directa en las funciones de
densidad, de forma que aqu tambien tenemos que prestar atencion a tales
situaciones. Estos casos son:
Si la transformaci
on es la mostrada en la gura 2.10a), se aplicar
a el
on
teorema fundamental en las regiones x x1 y x > x2 . A continuaci
se a
nadir
a a la funci
on fY (y) el termino py1 (y y1 ) (vease seccion
2.6.2).
99
Si la transformaci
on es la mostrada en la gura 2.10b) no se aplicar
a el
teorema, pues sabemos, por simple inspeccion, que
fY (y) = p1 (y y1 ) + p2 (y y2 ) + p3 (y y3 )
con los valores pi que se calcularon en la seccion 2.6.2.
Si la transformaci
on es la mostrada en la gura 2.10c) se aplicar
a el
teorema fundamental, y se obtendr
an resultados para y y1 e y > y2 .
En el interior del intervalo (y1 , y2 ) la funci
on fY (y) es nula.
Si X es discreta, Y tambien lo sera, luego no ha lugar aplicar el
teorema fundamental, sino que se seguira el metodo propuesto en la
seccion 2.6.1.
Si la transformaci
on es no derivable en un n
umero discreto de puntos,
tales puntos seran ignorados. Como es sabido, puntos aislados en
una VA continua no tienen relevancia alguna en cuanto a calculo de
probabilidades. Tal sera el caso, por ejemplo, de la transformaci
on
g(x) = |x|. Esta funci
on es no derivable en x = 0, pero puede aplicarse
el teorema x = 0.
2.7
Caracterizaci
on parcial de una funci
En la seccion anterior se ha visto el procedimiento mediante el cual se puede

obtener la caracterizacion probabilstica de una funci
on de VA, conocida la
funci
on de transformaci
on as como la funci
on de densidad de la variable
origen de la transformaci
on.
Sin embargo, en m
ultiples ocasiones puede que no sea necesario conocer la caracterizacion probabilstica (digamos, total) de la VA destino de
la transformaci
on, sino que baste con conocer algunos parametros de la
distribuci
on de dicha variable. Nos referimos, tpicamente, a la media, la
varianza y/o el VCM. Tales par
ametros, y otros similares, se conocen de
forma generica como caracterizaci
on parcial de la VA, en contraposici
on a
la caracterizacion total, o conocimiento de la funci
on de densidad.
En resumen, el objetivo de esta seccion se puede enunciar como sigue: dada X, con funci
on de densidad conocida fX (x), y dada una funci
on
de transformaci
on Y = g(X), obtenganse par
ametros de caracterizacion
parcial de la VA Y sin llevar a cabo el calculo explcito de la funci
on de
densidad fY (y).
100
C. Alberola L
opez
Planteemos la operativa para el caso de la media. Si varios valores xi

de la VA X se transforman en el valor y de la Y, podemos escribir:
P (y < Y y + dy) =
P (xi < X xi + dxi )
fY (y)dy =
fX (xi )dxi
(2.85)
donde xi denota las diferentes particularizaciones de la abscisa x. En este

caso, en contraposicion a la operativa propuesta en la seccion 2.6.3, tomamos los diferenciales directamente en sentido creciente de ambas variables,
dado que no vamos a hacer uso de la derivada de la funci
on g(x), la cual
relaciona ambos diferenciales.
Para obtener la expresi
on de la media de Y debemos premultiplicar en
(2.85) por los valores de y:
yfY (y)dy =
g(xi )fX (xi )dxi
(2.86)
Si ahora integramos ambos miembros, cada uno en su respectivas variables, vamos recorriendo el eje de los valores de la variable y y, como
consecuencia, vamos recorriendo, por grupos de valores, el eje de la variable x. El resultado neto nalmente es:

E{Y} =
yfY (y)dy =
g(x)fX (x)dx = E{g(X)}
(2.87)
Notese pues que si bien para realizar la primera de las integrales necesitamos
conocer la funci
on de densidad de la VA Y, para realizar la segunda basta
con conocer la funci
on de transformaci
on y la funci
on de densidad de la VA
X, informaci
on conocida seg
un hemos asumido desde el principio.
Este resultado generaliza a cualquier funci
on de la VA Y sin mas que
escribirla como una funci
on de la variable X. Por ejemplo, si se desea
conocer la esperanza de una variable Z = h(Y), y solo se dispone de informacion probabilstica de la variable X, variable origen de la transformaci
on
Y = g(X), escribiremos:

E{Z} = E{h(Y)} =
= E{h(g(X))} =
h(y)fY (y)dy
h(g(x))fX (x)dx
Algunas consecuencias inmediatas de lo dicho, son las siguientes:
(2.88)
VCM de Y:
E{Y2 } =
101
y 2 fY (y)dy
= E{g 2 (X)}

=
Varianza
2
Y
g 2 (x)fX (x)dx
(2.89)
(y Y )2 fY (y)dy
= E{(g(X) E{g(X)})2 }

(g(x) E{g(X})2 fX (x)dx
(2.90)
Linealidad del operador esperanza: Si Y = aX + b, entonces

E{Y} = E{aX + b} =

= a
(ax + b)fX (x)dx
xfX (x)dx + b
fX (x)dx
= aE{X} + b
(2.91)
La varianza de una VA no aumenta si se a

nade a esta una constante,
y vara con el cuadrado del coeciente que multiplica a la variable.
En efecto, si consideramos que Y = aX + b, entonces, haciendo uso
de la media calculada anteriormente, podemos escribir
2
Y
= a2
(g(x) E{g(X})2 fX (x)dx

(ax + b (aE{X} + b))2 fX (x)dx
(x E{X})2 fX (x)dx
2
= a2 X
2.7.1
(2.92)
Momentos de una variable aleatoria
Los momentos de una VA son una generalizacion de algunos de los par

ametros que hemos visto hasta ahora. Concretamente, consideremos una VA
X con funci
on de densidad fX (x). Se denen:
102
C. Alberola L
opez
Momento no central de orden n Z + :

mn = E{X } =
xn fX (x)dx
Naturalmente m1 = E{X} y m2 = E{X2 }. Los momentos mn son

por tanto una generalizaci
on de la media y del VCM. El caso trivial
es m0 = 1, pues coincide con el area bajo una funci
on de densidad.
Momento central de orden n Z + :
n = E{(X X ) } =
(x X )n fX (x)dx
2 . Tales momentos son por tanto

En este caso es facil ver que 2 = X
una generalizaci
on de la varianza. Asimismo, puede comprobarse que
0 = 1 y 1 = 0.
Para el caso de las VAs discretas las expresiones anteriores pasaran a

ser sumatorios como ya sucedio en el caso de las expresiones (2.41) y (2.50).
En particular, por ejemplo, el momento central anteriormente denido se
escribira
n = E{(X X )n } =
(xi X )n P (X = xi )
(2.93)
Es interesante mencionar dos ideas adicionales:

1. Existen distribuciones que se caracterizan por determinadas propiedades en los momentos. Hablamos, en particular, de la VA gaussiana. Puede comprobarse que los momentos centrales de orden impar
n = 2m + 1, m 0, para esta distribuci
on son todos nulos. Piensese
en ello.
2. Existen relaciones entre momentos centrales y no centrales. Concretamente, haciendo uso del desarrollo de un binomio de Newton,
podemos escribir:
n = f (m0 , m1 , . . . , mn ) = E{(X m1 )n }
= E
n

k=0
n

k=0

n
Xk (m1 )(nk)
k
$
%
n
E Xk (m1 )(nk)
k
103
n
$ %
n
(m1 )(nk) E Xk
k
k=0

n
k=0
2.8

n
(m1 )(nk) mk
k
(2.94)
Funciones que generan momentos
Bajo el termino funciones que generan momentos se agrupan un conjunto

de funciones a partir de las cuales, y mediante operaciones relativamente
sencillas, se pueden obtener los momentos de la VA bajo analisis. Comenzamos nuestra exposicion con la funci
on caracterstica, para pasar luego a
funciones mas generales.
2.8.1
Funci
on caracterstica
La funci
on caracterstica de una VA X se dene como la transformada de
8
Fourier de la funci
on de densidad fX (x) de la variable. As pues, podemos
escribir

fX (x)ejx dx
(2.95)
X () = E{ejX } =
de forma que esta funci

on puede interpretarse en los terminos indicados, o
bien como la esperanza de una funcion exponencial compleja denida sobre
la VA X.
Naturalmente, a partir de la funci
on caracterstica X () podemos obtener la funci
on de densidad sin mas que llevar a cabo la transformaci
on
inversa

1
fX (x) =
X ()ejx d
(2.96)
2
Como hemos dicho antes, esta funci
on se engloba dentro de las funciones
que generan momentos, pues estos se obtienen a partir de la funcion de
manera sencilla. Concretamente si derivamos de forma n-esima la funci
on
caracterstica

X () = =
dX ()
d
8
ejx fX (x)dx
(jx)ejx fX (x)dx
La proyecci
on sobre la exponencial compleja ejx
o ejx no altera el sentido de la
transformada. S
olo produce un cambio de signo.
104
C. Alberola L
opez
d2 X ()
=
(jx)2 ejx fX (x)dx
d 2
..
.

dn X ()
=
(jx)n ejx fX (x)dx
d n
(2.97)
Evaluando las anteriores expresiones en = 0, tenemos

(0)
X ()|=0 = X ()|=0 = 1 = j 0 m0

dX ()
(1)
= X ()|=0 = jm1
d =0

d2 X ()
(1)
= X ()|=0 = j 2 m2

d 2 =0
..
.

dn X ()
(n)
= X ()|=0 = j n mn
d n =0
(2.98)
La u
ltima lnea indica pues la relaci
on generica que existen entre la derivada
n-esima de la funci
on caracterstica y el momento no central de orden n de
la VA en cuestion. Por ello, en efecto, la funci
on caracterstica X () es
una funci
on que genera momentos.
Por otra parte, recordando el desarrollo en serie de Taylor de una funcion analtica, vemos que los momentos nos permiten sintetizar la funci
on
caracterstica X () en cualquier punto , dado que podemos escribir

(n)

X ()
X () =

n!
n=0
n =
=0

(j)n
n=0
n!
mn
(2.99)
Finalmente, la funci
on caracterstica puede ser un u
til instrumento para
hacer el calculo de la funci
on de densidad de una VA Y = g(X) a partir de la
funci
on de densidad fX (x) sin hacer uso expreso del Teorema fundamental.
El siguiente ejercicio ilustra el procedimiento.
Ejercicio 1: Considere que X es una VA con funci
on de densidad fX (x) conocida. A partir de esta VA se genera una segunda
VA mediante la transformaci
on Y = g(X). Se pide que, mediante funciones caractersticas, desarrolle una metodologa para la
obtenci
on de la funci
on de densidad fY (y). Particularice para
el caso en que X N (0, ) y g(x) = ax2 .
105
Soluci
on: La funci
on caracterstica de la VA Y se dene:
Y () = E{ejY } =
= E{ejg(X) } =
fY (y)ejy dy
fX (x)ejg(x) dx
Por tanto, a partir de la segunda expresi

on, la cual es conocida,
si podemos hacer cambios sobre ella para dar lugar a la primera,
es decir, para llegar a una expresi
on del tipo

Y () =
h(y)ejy dy
(2.100)
entonces podremos concluir que h(y) = fY (y).

Si concretamos para el caso que se plantea, es decir Y = g(X),
es obvio que Y va a tomar solo valores no negativos, de forma
que su funci
on de densidad sera nula y < 0. Por ello, podemos
escribir

Y () =
=
=
fY (y)ejy dy
fX (x)ejg(x) dx
ejax
x2
1
e 22 dx
2
(2.101)
Para poder transformar la u
ltima ecuacion en la primera debemos, en primer lugar, hacer que los intervalos de integraci
on
coincidan. Para ello podemos explotar el hecho de que la funcion subintegral es par, y el intervalo de integracion es simetrico.
Por ello, podemos escribir
2
Y () =
2

0
x2
ejax e 22 dx
Si ahora hacemos el cambio

y = ax2
dy = 2axdx = 2 aydx
(2.102)
106
C. Alberola L
opez
entonces

y
dy
2
ejy e 2a2
2 ay
2 0

y
1
ejy e 2a2 dy
2ay 0
Y () =
=
(2.103)
de forma que podemos concluir que

y
1
fY (y) = h(y) =
e 2a2 u(y)
2ay
(2.104)
Ejercicio 2: Reptase el ejercicio anterior para el caso en que

X U (, ) y Y = g(X) = a sin(X).
Soluci
on: En este caso Y tomar
a valores en el intervalo (a, a),
pues ese es el recorrido de la funci
on de transformaci
on g(x).
Por tanto, podemos escribir
jY
Y () = E{e
}=
jg(X)
= E{e

}=
fY (y)ejy dy
fX (x)ejg(x) dx
1 ja sin(x)
dx
e
2
Dado que
y = g(x) = a sin(x)
dy = a cos(x)dx = a2 (a sin(x))2 dx
!
dy = a2 y 2 dx
(2.105)
La cuestion es que, en funci

on de la zona de la curva donde nos
encontremos, tendremos que emplear el signo de dy adecuado.
La gura 2.13 ilustra el proceso: conforme avanzamos por el eje
x desde hasta atravesamos:
Una primera zona (zona I) donde la variable y vara en el
intervalo (0,-a), en este sentido, y donde los diferenciales
107
Y =g(X )
a
III
IV
II
I
-a
Figura 2.13: Funci

on Y = sin(X) con X U (, ).
tienen signos contrarios (cuando x crece, y decrece). En
esta zona, por tanto, la integral anterior pasa a ser

1 jy
1
" 2
e
2
a y2
dy
La zona II, donde y vara en el intervalo (a, 0) y los diferenciales tienen el mismo signo. Por ello

1 jy
e
2
1
"
2
a y2
dy
La zona III, donde podemos escribir, siguiendo la gr

aca

1 jy
e
2
1
"
2
a y2
dy
Y, por u
ltimo, la zona IV, donde, de nuevo, los diferenciales
tienen signos contrarios.

1 jy
1
" 2
e
2
a y2
dy
La solucion que buscamos es por tanto la suma de las cuatro

contribuciones, lo cual podemos escribir
Y () =
1
2

0

0
jy
1
dy +
2
a y2
jy "
1
" 2
a y2

jy
e
a
dy +
1
ejy " 2
dy+
a y2
a
1
" 2
a y2
dy
108
C. Alberola L
opez
1
dy +
2
a y2

1
dy +
2
a y2
jy "
jy "
1
2
2

1
2
a2
y2
ejy "
1
dy+
y2
a2
1
dy
2
a y2
jy "
1
"
ejy dy + 2
2
a y2
"
1
"
ejy dy
2
a y2
ejy dy
(2.106)
de forma que, identicando esta u

ltima expresi
on con la ecuacion (2.95) podemos concluir que
fY (y) =
a2 y 2
|y| a
resto
resultado que coincide con el obtenido en el ejemplo 2 de la

seccion 2.6.3. Como puede verse, en el caso en que la transformacion no sea inyectiva en el intervalo de integraci
on empleado
en la variable x para el calculo de la funci
on caracterstica, el
empleo del metodo expuesto para el calculo de fY (y) resulta
mas laborioso.
Como comentario nal debemos decir que si la VA X es una VA discreta,

la funci
on caracterstica se dene de forma similar al caso continuo, es decir,
mediante la esperanza de una funci
on de VA, de la forma
Y () = E{ejX } =
pi ejxi
(2.107)
En el caso particular en que xi = i, i Z entonces esta funcion se obtendr

a mediante la transformada de Fourier de la secuencia y[i] = pi
Y () = E{ejX } =
pi eji
(2.108)
transformaci
on invertible, como es conocido, mediante la expresi
on
pi =
1
2

<2>
Y ()eji d
(2.109)
109
donde el intervalo de integracion en la expresion anterior es un intervalo

cualquiera de longitud 2, dado que la expresi
on (2.108) es periodica, de
periodo 2.
2.8.2
Funci
on generadora de momentos
La funci
on m
as general es la as llamada funci
on generadora de momentos,
la cual se dene como la Transformada de Laplace de la funci
on de densidad,
es decir,

MX (s) = E{esX } =
esx fX (x)dx
(2.110)
A partir de esta funci

on es f
acil comprobar que

dn MX (s)
mn =
dsn s=0
(2.111)
A partir de esta se dene una segunda funci

on X (s) = lnMX (s), cuyas
derivadas dan lugar a los cumulantes de orden n

n =
dn X (s)
dsn s=0
(2.112)
1 = X
2
2 = X
(2.113)
Es f
acil comprobar que
Sobre los cumulantes de orden n se construye la teora de estadsticos de orden superior la cual ha tenido un moderado exito en la comunidad cientca
para el manejo de se
nales no gaussianas.
Captulo 3
Variable aleatoria
bidimensional
3.1
Introducci
on
Para introducir el concepto de VA bidimensional, acudiremos a un ejemplo

consistente en el juego del lanzamiento de dardos sobre una diana (vease
gura 3.1). En este juego, como es bien sabido, se pretende que los dardos
caigan tan cerca como sea posible del centro y que, ademas, estos caigan
en los sectores circulares marcados con una puntuaci
on mas alta. Si consideramos el origen de coordenadas localizado en el centro de la diana, las
desviaciones con respecto a este punto pueden considerarse, en coordenadas cartesianas, mediante el par (x, y), con x la desviacion horizontal e y
la desviacion vertical. Cada lanzamiento puede considerarse la ejecucion
de un experimento aleatorio pues, naturalmente, el lanzador no sabe en
que posicion va a caer el dado (por eso el juego tiene interes). Si consideramos un u
nico lanzador y aceptamos que todos los lanzamientos son
probabilsticamente identicos, los diferentes lanzamientos pueden considerarse los diferentes valores que puede tomar el par (X, Y). A priori, y cara
a este ejemplo, posiblemente sea razonable pensar que los errores en el eje
horizontal no tienen relaci
on con los errores en el eje vertical. Pero esto
no necesariamente tiene por que ser as: los movimientos de hombro, codo
y mu
neca de un determinado individuo pueden relacionar los errores en
una coordenada y en la otra. Asimismo, y considerando la estrategia en el
juego, un jugador puede deliberadamente alejarse del centro de la diana en
sentido horizontal si desea tener mayor tolerancia vertical para caer en el
sector angular que desee. En tal caso estara acoplando deliberadamente
111
112
C. Alberola L
opez
los errores en ambas dimensiones.

En este ejemplo, un jugador se considerara mejor que otro si el primero, habitualmente, alcanzase mejores puntuaciones que el segundo. Esto es
equivalente a armar, por ejemplo, que la probabilidad de que el primer jugador consiga mayor puntuaci
on que el segundo es elevada. Tal armacion
se podra cuanticar si se dispone de las herramientas y de la informacion
probabilstica oportunas. Ambas entidades son, precisamente, el cometido
de este captulo.
k=2 -sin( 0 t)
y
k=1
k=3
k=0
x
cos( 0 t)
k=4
k=7
k=5
k=6
a)
b)
Figura 3.1: a) Lanzamientos de dardos sobre una diana. Pueden considerarse realizaciones de la VA bidimensional errores con respecto a (0, 0).
b) Modulaci
on digital en fase, con nubes de puntos alrededor de uno de los
valores esperados.
Este ejemplo puede resultar ingenuo pero no esta lejos de las Tecnologas
de la Informaci
on. Concretamente, una determinada modulaci
on digital
consiste en el envo, recepcion y discriminaci
on de se
nales de la forma
sk (t) = Acos(0 t + k (t))
(3.1)
donde la informaci
on de que smbolo digital se esta enviando recae, precisamente, en la fase k (t). Si consideramos que durante un determinado
tiempo de smbolo 0 t T se enva una de las M posibles fases
k (t) =
2k
M
0k M 1
Captulo 3. Variable aleatoria bidimensional
113
los posibles smbolos a recibir seran los indicados en la gura 3.1b)1 . Un

modelo mas real de se
nal recibida sera x(t) = sk (t) + n(t), con n(t) una
se
nal de ruido superpuesta que distorsiona las fases de los smbolos recibidos, de forma que, seg
un se indica en la gura 3.1b) para el smbolo de
ndice k = 4, los smbolos recibidos uctuaran respecto a los smbolos esperados. As pues se hace necesario establecer protocolos de decision que
minimicen la probabilidad de error, denida esta como la probabilidad de
decidir que se ha enviado un smbolo cuando en realidad se ha enviado
otro. Tales protocolos se traducen en regiones de decision asociadas a cada
smbolo esperado y, para el modelo de ruido tpicamente empleado en comunicaciones, tales regiones coinciden con el modelo de sectores circulares
del juego de la diana (vease en la gura 3.1b que a cada smbolo esperado se le ha asociado una region, marcada por lneas continuas, de forma
que se decide como smbolo enviado aquel smbolo esperado en cuya regi
on
asociada ha cado la observacion). Ademas, debe disponerse de una herramienta que permita el calculo exacto de la probabilidad de error o, dicho
de otra manera, el calculo de la separaci
on necesaria entre los smbolos
(lo cual sera controlado por la amplitud A de la sinusoide de la ecuacion
3.1) de forma que la calidad de las comunicaciones pueda ser garantizada
por el dise
nador. Tal calculo, como el lector puede imaginar, requiere del
an
alisis conjunto de dos VAs (los errores en cada una de las direcciones de
la gura), metodologa que se analizara en este captulo.
Dicho esto, debemos decir pues que es una VA bidimensional. Pues
bien, tal VA no es otra cosa que el par (X, Y), lo cual constituye una entidad formada por tres subentidades, a saber, la VA X, la VA Y, y su
comportamiento conjunto, esto es, su interaccion. La primera variable procede del experimento aleatorio 1 < S1 , F1 , P1 >; la VA Y procedera de
un segundo experimento 2 < S2 , F2 , P2 >; el comportamiento conjunto
constituye el experimento compuesto c (vease seccion 1.7), con espacio
muestral Sc = S1 S2 , clase de sucesos Fc , funci
on de F1 y F2 , pero con
ley de asignacion de probabilidades Pc no anticipable en base al conocimiento exclusivo de P1 y P2 . Esto refuerza la idea de la tercera entidad
presente en una VA bidimensional: la propia composicion de las dos VAs
unidimensionales. Habr
a casos en los que el comportamiento conjunto sea
1
La se
nal s(t) = Acos(0 t + (t)) puede expresarse de forma equivalente mediante
s(t) = A cos(0 t) cos((t)) A sin(0 t) sin((t)). Escogiendo oportunamente el valor
deT 0 para un T dado, las funciones cos(0 t) y sin(0 t) son ortogonales, es decir,
cos(0 t) sin(0 t)dt = 0, por lo que tales funciones pueden constituir un par de ejes
0
coordenados cartesianos sobre los que representar los smbolos (A cos((t)), A sin((t)))
a enviar.
114
C. Alberola L
opez
inexistente, de forma que la VA bidimensional se reducir

a a dos VA unidimensionales. Pero en general no sera as, de forma que, como hemos dicho,
seran tres las entidades a considerar en nuestro an
alisis.
3.2
3.2.1
Caracterizaci
on de variable aleatoria bidimensional
Funci
on de distribuci
on conjunta
De forma an
aloga al caso de la VA unidimensional, la VA bidimensional
debe caracterizarse completamente para poder hacer cualquier calculo probabilstico sobre ella. Tal caracterizacion viene dada por la extensi
on bidimensional de las funciones que conocemos hasta ahora. Comenzaremos,
en primer lugar, con la funci
on de distribuci
on conjunta o bidimensional.
Tal funci
on se dene, como en el captulo anterior, a traves de una probabilidad. Lo que ahora cambia es el suceso sobre el que esta se dene.
Concretamente:
FXY (x, y) = P (X x Y y)
(3.2)
es decir, esta funci
on mide la probabilidad de que, simult
aneamente, la
y
(x,y)
Figura 3.2: Suceso {X x} {Y y}.

primera componente de la VA bidimensional sea menor o igual que un
115
punto de abscisa x, y la segunda lo sea de un punto de ordenada y. Tal

suceso2 se ha representado en la gura 3.2.
Esta funci
on, por medir una probabilidad, no puede tener una forma de
variaci
on arbitraria. Mostramos a continuaci
on algunas propiedades y formas de uso de la misma; antes de ello indicaremos, a nivel de notacion, que
por simplicidad en la escritura la denici
on (3.2) se escribira habitualmente
de la forma FXY (x, y) = P (X x, Y y).
Propiedades y uso de la funci
on de distribuci
on
1. Comportamientos en x = e y = Podemos escribir que3 :
FXY (, y) = FXY (x, ) = FXY (, ) = 0
Esto es debido a que los sucesos {X = } e {Y = } son sucesos
de probabilidad nula, de forma que la probabilidad de la intersecci
on
de ellos con cualquier otro suceso es, asimismo, nula.
2. Comportamiento en (x, y) = (, ). En este caso:
FXY (, ) = 1
puesto que se esta calculando la probabilidad del suceso seguro.
3. La funci
on de distribuci
on conjunta es una funci
on de probabilidad
acumulada y, por ello, es no decreciente. En efecto, si consideramos
que A = {X x0 , Y y0 }, B = {X x1 , Y y1 }, y que x0 x1 e
y0 y1 , podemos escribir acorde con la gura 3.3a)
B = A C, A C =
P (B) = P (A C) = P (A) + P (C)
FXY (x1 , y1 ) = FXY (x0 , y0 ) + P (C)
FXY (x1 , y1 ) FXY (x0 , y0 )
(3.3)
pues, seg
un el axioma primero de la probabilidad (p
agina 22), P (C)
0.
2
Recuerdese que, en sentido estricto, el suceso mencionado debera escribirse ({X

x} S2 ) (S1 {Y y}), con S1 y S2 los espacios muestrales de los respectivos
subexperimentos. Haremos uso, no obstante, de la notaci
on simplicada indicada en la
expresi
on 3.2.
3
Una vez m
as, recuerdese el tratamiento que hacemos de los valores innitos (vease
secci
on 2.1).
116
C. Alberola L
opez
y
y
(x 1 ,y1 )
C
(x 0 ,y0 )
D
B
A
x1
a)
x2
b)
y
y
L
y2
y1
y2
D
y1
c)
x
x1
x2
d)
Figura 3.3: Casos de uso de la funci

on FXY (x, y).
4. La funci
on de distribuci
on permite calcular probabilidades de regiones
con topologa sencilla, concretamente, regiones con fronteras paralelas
a los ejes coordenados. Si consideramos, en primer lugar, la situacion
representada en la gura 3.3b) podemos escribir
{X x2 , Y y} = D {X x1 , Y y}
P (X x2 , Y y) = P (D {X x1 , Y y})
= P (D) + P (X x1 , Y y)
P (D) = P (X x2 , Y y) P (X x1 , Y y)
= FXY (x2 , y) FXY (x1 , y)
117
(3.4)
Por ello, la probabilidad asociada a una franja vertical limitada por

los puntos (x1 , y) y (x2 , y) es igual a la diferencia de la funci
on de
distribuci
on en dichos puntos.
5. Se puede repetir el razonamiento anterior para una franja horizontal. A partir de la situaci
on representada en la gura 3.3c) podemos
escribir
{X x, Y y2 } = D {X x, Y y1 }
P (X x, Y y2 ) = P (D {X x, Y y1 })
= P (D) + P (X x, Y y1 )
P (D) = P (X x, Y y2 ) P (X x, Y y1 )
= FXY (x, y2 ) FXY (x, y1 )
(3.5)
resultado an
alogo al obtenido anteriormente.
6. Esta funci
on tambien permite hallar la probabilidad almacenada en
el rectangulo representado en la gura 3.3d). Para ello, podemos
escribir
{X x2 , Y y2 } = D {X x2 , Y y1 } L
P (X x2 , Y y2 ) = P (D {X x2 , Y y1 } L)
= P (D) + P (X x2 , Y y1 ) + P (L)
P (D) = P (X x2 , Y y2 )
P (X x2 , Y y1 ) P (L)
= FXY (x2 , y2 ) FXY (x2 , y1 )
(FXY (x1 , y2 ) FXY (x1 , y1 ))
= FXY (x2 , y2 ) FXY (x2 , y1 )
FXY (x1 , y2 ) + FXY (x1 , y1 )
(3.6)
As pues, la probabilidad asociada a un rect

angulo es igual a la suma
algebraica de los valores de la funci
on de distribucion en las cuatro
esquinas del mismo, con los signos dependiendo de la esquina de que
se trate.
3.2.2
Funci
on de densidad de probabilidad conjunta
La funci
on de densidad de probabilidad conjunta fXY (x, y) se dene, de
manera an
aloga al caso unidimensional, a partir de la derivada de la funci
on
118
C. Alberola L
opez
de distribuci
on FXY (x, y). En este caso la derivada debe ser con respecto
a las dos variables, de forma que
2 FXY (x, y)
xy
fXY (x, y) =
(3.7)
La relacion inversa, naturalmente, es integral, con la expresi

on

FXY (x, y) =
fXY (, )dd
(3.8)
La ecuacion (3.8) es equivalente al lmite de un cociente incremental. Concretamente:

FXY (x + x, y + y) FXY (x, y + y)
fXY (x, y) =
lim
x0y0
xy
FXY (x + x, y) + FXY (x, y)
+
xy
P (x < X x + x, y < Y y + y)
(3.9)
=
lim
x0y0
xy
donde la segunda igualdad se ha escrito haciendo uso de la expresi
on (3.6).
Puede verse, por tanto, que la funci
on de densidad es equivalente a la probabilidad de que la VA bidimensional tome valores dentro de un rect
angulo
de lados diferenciales, situado en el punto (x, y), dividido por el area de
dicho rectangulo elemental. Es, consecuentemente, una probabilidad por
unidad de area, de ah su nombre de densidad de probabilidad.
Asimismo, dado que cualquier regi
on D en el plano R2 puede aproximarse mediante una concatenacion de rect
angulos diferenciales, sea cual
sea la forma de la frontera de dicha regi
on, la probabilidad de que la VA
(X, Y) tome valores en el interior de D es igual al volumen encerrado por
la funci
on de densidad en esta regi
on, esto es,

P (D) =
D
fXY (x, y)dxdy
(3.10)
Puede por ello apreciarse que la funci

on de densidad es notablemente mas
versatil que la funci
on de distribuci
on, de forma que es esta la funci
on
habitualmente empleada en la pr
actica.
Finalmente, debe hacerse dos comentarios adicionales:
on de
1. La funci
on de densidad fXY (x, y) es la derivada de una funci
distribuci
on, la cual, por ser una funci
on de probabilidad acumulada,
es no decreciente (entendiendose esto en los terminos de la expresion 3.3); as pues, la funci
on de densidad es no negativa, es decir,
fXY (x, y) 0 (x, y) R2 .
119
2. El volumen encerrado bajo una funci

on de densidad fXY (x, y) es igual
a uno. Esto es debido a que si evaluamos la expresion (3.8) en el punto
(, ), lo que evaluamos es la funci
on de distribuci
on en dicho punto,
y sabemos que el valor de esta funcion en tal punto es unitario. Con
ello se extiende a dos dimensiones el requisito equivalente que vimos
para las funciones de densidad unidimensionales.
3.2.3
Funciones marginales
Las funciones vistas hasta ahora (FXY (x, y) y fXY (x, y)) son funciones de
caracterizacion probabilstica total de la VA bidimensional (X, Y). Por
ello, estas funciones tienen toda la informaci
on necesaria para poder realizar cualquier calculo probabilstico en relacion con sucesos denidos sobre
dicha variable. Ello implica que tales funciones tengan tambien toda la
informaci
on probabilstica sobre cada una de las dos componentes da la VA
bidimensional, pues estas, junto con la interaccion entre ellas, conguran
las tres entidades que componen la VA bidimensional. Por ello, a partir de
las funciones conjuntas podremos hallar las funciones de caracterizacion de
cada una de las VAs unidimensionales aisladas. A estas funciones, que son
las vistas en el captulo anterior, se les denomina en este ambito funciones
de distribuci
on/densidad marginales.
Notese que el recproco no es, en general, cierto. Es decir, salvo excepciones, a partir del comportamiento individual (marginal) de las VAs unidimensionales no podremos conocer el comportamiento conjunto. La razon
no es otra que lo dicho en el parrafo anterior: dado que la VA conjunta
esta formada por tres subentidades, y dado que las funciones marginales
codican el comportamiento de cada una de las VAs unidimensionales por
separado, el comportamiento mutuo entre las VAs se ha perdido, y por
ello no es posible restablecerlo a partir exclusivamente de la informaci
on
marginal. Hablaremos de las excepciones a esta regla general en apartados
posteriores.
El objetivo es, pues, obtener las funciones marginales a partir de las
funciones conjuntas. Empecemos con las funciones de distribuci
on. Para
construir FX (x) tenemos que hallar
FX (x) = P (X x)
probabilidad de un suceso que podemos escribir, de forma equivalente,
{X x} = {X x} {Y }
120
C. Alberola L
opez
pues el segundo suceso del segundo miembro es el suceso seguro. Por ello,
podemos concluir que
FX (x) = P (X x, Y ) = FXY (x, )
De la misma manera
FY (y) = P (X , Y y) = FXY (, y)
Rep
arese, por tanto, que la funci
on de distribuci
on es igual a la unidad
cuando ambas VAs estan evaluadas en el innito. Si s
olo evaluamos una de
ellas en tal punto lo que hacemos es eliminar la restriccion que impone dicha
VA, de forma que estamos calculando la funci
on de distribuci
on marginal
de la otra VA.
Con respecto a las funciones de densidad, hagamos el calculo empleando
el resultado anterior como puente entre FXY (x, y) y fXY (x, y). Para ello
fX (x) =
=
=
dFX (x)
dx
dFXY (x, )
dx

d x
d
fXY (, y)dy
dx
(3.11)
Para realizar esta operaci

on debemos derivar bajo el signo integral. Esto
se puede realizar en base a la Regla de Leibnitz, la cual se formula
d(u)
du
d
du
s (u)
i (u)
G(, u)d
= G(s (u), u)
ds (u)
di (u)
G(i (u), u)
+
du
du
s (u)
i (u)
G(, u)
d
u
(3.12)
En nuestro caso la dependencia con la variable exterior de derivaci

on es
solo a traves del extremo superior de la integral en variable . Por ello, si
reescribimos la expresion como
fX (x) =
con () =
fXY (, y)dy
d
dx
()d
entonces
fX (x) = (x)
dx
= (x)
dx
y por ello
fX (x) =
De forma similar
fY (y) =
121
fXY (x, y)dy
(3.13)
fXY (x, y)dx
(3.14)
Por tanto, como hemos visto, la obtenci

on de las funciones marginales de
una VA a partir de la conjunta se reduce a eliminar la dependencia con
respecto a la otra VA. Para tal n, si hablamos de la funci
on de distribuci
on,
esta debe ser evaluada en el innito de la otra VA. Si es la funci
on de
densidad, la conjunta debe ser integrada con respecto a la VA a eliminar.
Ejercicio: Sup
ongase una funci
on de densidad fXY (x, y) no
nula en el interior de un recinto como el sombreado de la gura
3.8a). Se pide que obtenga el valor de la funci
on fX (x) para los
puntos x0 y x1 .
Soluci
on: Aplicamos la expresion (3.13), particularizada a esta
situaci
on. Por ello, los intervalos de integraci
on se extienden
solo a la zona en la que la funci
on fXY (x, y) es no nula. Por
ello

fX (x0 ) =
fX (x1 ) =
fXY (x0 , y)dy =

fXY (x1 , y)dy =
y2
y
1y4
y3
fXY (x0 , y)dy

fXY (x1 , y)dy
Notese por ello que, si bien genericamente las expresiones (3.13)

y (3.14) presentan intervalos de integraci
on independientes de
la otra VA (de x e y, respectivamente) en el caso frecuente en
que la funci
on de densidad sea no nula solo en una cierta regi
on
2
del plano R los lmites de integracion seran funci
on del punto
x e y donde se eval
uan, respectivamente, fX (x) y fY (y).
Ejercicio: Se desea conocer si P (X > x, Y > y) = 1 P (X

x, Y y) = 1 FXY (x, y) por analoga a su equivalente unidimensional P (X > x) = 1 P (X x) = 1 FX (x).
122
C. Alberola L
opez
y
{ X >x, Y >y }
(x,y)
x
Figura 3.4: Suceso {X > x} {Y > y}.

Soluci
on: La igualdad anterior no es correcta. Seg
un puede
verse en la gura 3.4 el suceso complementario del suceso {X >
x} {Y > y} es el suceso {X x} {Y y}. Por ello.
P (X > x, Y > y) = 1 P ({X x} {Y y})
= 1 (P (X x) + P (Y y)
P (X x, Y y))
= 1 (FX (x) + FY (y) FXY (x, y))
= 1 (FXY (x, ) + FXY (, y) FXY (x, y))
(3.15)
3.2.4
Casos particulares
Si bien lo dicho hasta ahora ha sido completamente general, es interesante

tener en cuenta un conjunto de casos particulares de aparici
on relativamente
frecuente en la pr
actica. Estos
son los siguientes:
X e Y discretas
En tal caso, la VA bidimensional (X, Y) no toma valores en todo el plano,
o en partes del plano de forma continua, sino que s
olo toma valores en un
123
y
(x,y)
y
y
y
y
3
2
x
x1
x2
x3
x
x1
x2
x3
a)
b)
Figura 3.5: a) X e Y discretas b) X discreta e Y continua. En ambos casos

X toma solo tres posibles valores.
conjunto discreto de puntos, esto es, en una rejilla de puntos. Un ejemplo
de tal VA puede verse en la gura 3.5a).
En tal caso, de igual manera a su equivalente unidimensional, la VA
viene caracterizada a partir del conjunto de valores (xi , yj ) que puede tomar, junto con las probabilidades pij = P (X = xi , Y = yj ) con las que los
toma. Los ndices i y j variar
an, en cada caso, en los intervalos adecuados.
A partir de estas probabilidades, podemos hacer cualquier calculo probabilstico que nos interese. Por ejemplo, escogiendo un valor de x en el
intervalo x2 < x < x3 (gura 3.5a), podemos escribir
P (X x) = P ({X = x1 } {X = x2 }) = P (X = x1 ) + P (X = x2 )
y dado que
{X = x1 } = {X = x1 , Y = y1 }
{X = x2 } = {X = x2 , Y = y1 } {X = x2 , Y = y2 }
entonces
P (X = x1 ) = P (X = x1 , Y = y1 ) = p11
P (X = x2 ) = P (X = x2 , Y = y1 ) + P (X = x2 , Y = y2 ) = p21 + p22
124
C. Alberola L
opez
de forma que
P (X x) = p11 + p21 + p22
si x2 < x < x3 .
X discreta e Y continua
En el caso en que las VAs sean discreta y continua, la VA bidimensional
tomar
a valores solo sobre rectas horizontales o verticales en funcion de quien
de las VAs sea discreta. Para la seleccion hecha en el ttulo del apartado,
las rectas seran verticales, situadas en los valores de abscisa que tome la
VA X (vease gura 3.5b).
Para poder analizar una situaci
on como esta basta con que recordemos
algunas expresiones introducidas en el captulo anterior (vease seccion 2.4).
Tomando como base la gura 3.5b), calculemos P (X x, Y y) para los
valores de x e y seleccionados en la gura. As pues
P (X x, Y y) = P (({X = x1 } {X = x2 }) {Y y})
= P (({X = x1 } {Y y}) ({X = x2 } {Y y}))
= P (X = x1 , Y y) + P (X = x2 , Y y)
Las expresiones anteriores son probabilidades de interseccion de sucesos,
de forma que nada nos impide escribirlas en terminos de probabilidades
condicionadas. Por ello
P (X x, Y y) = P (X = x1 , Y y) + P (X = x2 , Y y)
= P (Y y|X = x1 )P (X = x1 ) +
P (Y y|X = x2 )P (X = x2 )
Recordando ahora que (expresi
on 2.31)
fY (y) =
N
fY (y|Ai )P (Ai )
i=1
podemos considerar como elementos de la particion Ai cada uno de los

valores xi que puede tomar la VA X. Por ello, y denominando, por brevedad
P (X = xi ) = pi y fY (y|X = xi ) = fY (y|xi ), podemos escribir
P (X x, Y y) = P (Y y|X = x1 )P (X = x1 ) +
P (Y y|X = x2 )P (X = x2 )

= p1
fY ( |x1 )d + p2
fY ( |x2 )d
(3.16)
125
Como puede verse, por lo tanto, para abordar el caso que nos ocupa, la
informaci
on que debemos tener de la VA bidimensional se reduce a
1. Los valores X = xi y las probabilidades P (X = xi ) = pi i.
2. Las funciones de densidad fY (y|xi ) para los valores de xi de la VA
X.
ya que esta informaci
on nos ha permitido obtener (3.16), funci
on de distribuci
on de la VA (X, Y), es decir, la caracterizacion probabilstica total de
la VA bidimensional.
Ejercicio: Para la situaci
on descrita en la gura 3.5b) y suponiendo conocida la informaci
on involucrada en la expresi
on
(3.16), calcule P (X = xi |Y = y).
Soluci
on: Recordando que
P (A|X = x) =
fX (x|A)P (A)
fX (x)
(expresiones 2.34 y 2.38), y haciendo que A = {X = xi } y que

la VA sea ahora Y, podemos escribir
P (X = xi |Y = y) = P (X = xi |y) =
fY (y|xi )pi
3
j=1
fY (y|xj )pj
Componentes relacionadas mediante la funci

on Y = g(X)
Supongamos que las componentes X e Y de una VA bidimensional estan
relacionadas mediante la funci
on Y = g(X). En tal caso la VA bidimensional solo toma valores sobre la curva de transformaci
on, y no en todo el
plano; este es un caso particular en el que se puede construir la funci
on
de distribuci
on conjunta FXY (x, y) en base a las marginales. En efecto,
tomando como base la funci
on dada en la gura 3.6a) podemos escribir
y > g(x)
FXY (x, y) = P (X x, Y y) = P (X x) = FX (x)
y g(x) FXY (x, y) = P (X x, Y y) = P (X g 1 (y)) = FX (g 1 (y))

Ejemplo: Sup
ongase que Y = g(X) = 2X. Se pide que calcule:
126
C. Alberola L
opez
y=g(x)=2x
y=g(x)
y (1,5)
(4,5)
y<g(x)
y>g(x)
x
(x,0)
-1
(g (y),0)
(1,0)
a)
(5/2,0)
(4,0)
b)
Figura 3.6: a) Componentes relacionadas mediante la funci

on Y = g(X)
b) Y = g(X) = 2X.
1. FXY (x, y)
2. P (1 < X 4, 0 < Y 5)
Soluci
on: A partir de la gura 3.6b) es f
acil ver que:
1.
y > 2x
y 2x
FXY (x, y) = FX (x)
FXY (x, y) = FX (g 1 (y)) = FX (y/2)
2.
P (1 < X 4, 0 < Y 5) = FXY (4, 5) FXY (4, 0)
FXY (1, 5) + FXY (1, 0)
= FX (5/2) FX (0/2)
FX (1) + FX (0/2)
= FX (5/2) FX (1)
(3.17)
resultado que se podra haber anticipado viendo los lmites

de variaci
on de la VA X dentro de la regi
on {1 < X
4, 0 < Y 5}.
3.3
127
Funciones condicionadas
De igual manera que se vio en la seccion 2.4 para el caso de la VA unidimensional, podemos considerar funciones de caracterizacion probabilstica
de una VA bidimensional cuando se sabe que un determinado suceso, digamos M , se ha vericado. Tales funciones, las cuales seran denominadas
funciones condicionadas, indican c
omo se actualiza nuestro conocimiento
probabilstico sobre los valores que puede tomar la VA bidimensional, en
las condiciones indicadas, esto es, cuando el suceso M se ha vericado.
Las funciones se denen
P (X x, Y y, M )
P (M )
2
FXY (x, y|M )
xy
FXY (x, y|M ) =

fXY (x, y|M ) =
(3.18)
(3.19)
La gura 3.7 muestra la situaci

on planteada en la ecuacion (3.18). El nuy
y
M
a)
b)
c)
Figura 3.7: a) Esquema de denici

on de la funci
on de distribuci
on condicionada. b) Suceso {Y y}. c) Suceso {y1 < Y y2 }.
merador de dicha expresi
on mide la probabilidad de que, simult
aneamente,
se verique el suceso a partir del cual se dene la funci
on de distribucion
conjunta y el suceso M . El denominador es la normalizaci
on con respecto a
la probabilidad del suceso que condiciona, por denici
on de la probabilidad
condicionada (ecuacion 1.20).
La segunda ecuacion indica que la funci
on de densidad condicionada
se obtiene, como ya conocemos, derivando la correspondiente funcion de
distribuci
on.
128
C. Alberola L
opez
3.3.1
Funciones marginales, condicionadas y conjuntas
La denici
on de funciones condicionadas nos permite encontrar interesantes
relaciones entre funciones marginales condicionadas, funciones conjuntas,
y funciones marginales incondicionales. Para ello, simplemente, debemos
elegir oportunamente el suceso condicionante. Retomemos la funciones
unidimensionales condicionadas y elijamos un condicionante funci
on de la
segunda variable. Concretamente:
1. M = {Y y}: El suceso corresponde a la zona sombreada de la
gura 3.7b). A partir de el podemos escribir:
FX (x|M ) = FX (x|Y y) =
P (X x, Y y)
FXY (x, y)
=
P (Y y)
FY (y)
de forma que despejando a favor de la funci

on conjunta obtenemos
FXY (x, y) = FX (x|Y y)FY (y)
(3.20)
Naturalmente, si hubiesemos hecho el razonamiento condicionando

con la VA X habramos obtenido
FXY (x, y) = FY (y|X x)FX (x)
(3.21)
Estas expresiones indican que informaci

on se requiere para poder
construir una funci
on de distribuci
on conjunta, esto es, para poder
caracterizar probabilsticamente de forma total a una VA bidimensional. Tal informaci
on es el comportamiento aislado (marginal) de
una de las dos variables, lo cual se encuentra codicado en la funci
on
de distribuci
on marginal, as como el comportamiento de la segunda VA en relacion con la primera, lo cual se encuentra en la funci
on
condicionada. Una lectura alternativa a esta expresi
on es que, en general, el conocimiento exclusivo de las dos funciones marginales no
es suciente para construir una funci
on conjunta ya que tales funciones no tienen informaci
on alguna sobre la relaci
on entre ambas. Tal
informaci
on se encuentra en la funci
on condicionada.
2. Podemos encontrar una segunda relaci
on, en este caso entre funciones
de densidad, escogiendo como suceso condicionante el suceso M =
{y1 < Y y2 } (vease la gura 3.7c). Con esta eleccion podemos
escribir
P (X x, y1 < Y y2 )
FX (x|M ) = FX (x|y1 < Y y2 ) =
=
P (y1 < Y y2 )
FXY (x, y2 ) FXY (x, y1 )
=
FY (y2 ) FY (y1 )
129
El numerador de la anterior expresi

on procede de la probabilidad recogida en una l
amina horizontal (expresi
on 3.5). El objetivo ahora
es obtener una relaci
on entre funciones de densidad, de forma que
necesitaremos derivadas tanto con respecto a la variable x como con
respecto a la variable y. Para derivar con respecto a y, reparese que
en la expresion anterior tenemos el cociente entre dos incrementos de
una funci
on de y. Conseguiramos derivadas construyendo un cociente de cocientes incrementales (esto es, dividiendo a ambos incrementos de funci
on entre los correspondientes incrementos de la variable
independiente). Para hacer esto renombremos los puntos y1 = y e
y2 = y + y y hagamos que y tienda a ser cada vez mas peque
no,
esto es, que la lamina de probabilidad con la que estamos trabajando
tienda a contener solo al punto y. Seg
un lo dicho
FX (x|y < Y y + y) =
=
lim FX (x|y < Y y + y) =
y0
FXY (x, y + y) FXY (x, y)

FY (y + y) FY (y)
FXY (x,y+y)FXY (x,y)
y
FY (y+y)FY (y)
y
FXY (x,y)
y
FX (x|Y = y) = dF (y)
Y
dy
(3.22)
Con respecto a la u
ltima lnea de la ecuacion anterior debemos hace
el mismo comentario que hicimos al respecto de la u
ltima lnea de
la ecuacion (2.34): FX (x|Y = y) debe entenderse como una forma
compacta de escribir una expresion denida mediante un lmite.
Derivando ahora con respecto a x llegamos a la expresion
fX (x|Y = y) =
2 FXY (x,y)
xy
dFY (y)
dy
fXY (x, y)
fY (y)
(3.23)
Razonando con respecto a la variable x se obtendra un resultado

equivalente con los papeles de las variables intercambiados. As pues,
si despejamos a favor de la funci
on de distribuci
on conjunta (y escribiendo, por brevedad, fX (x|Y = y) = fX (x|y) y su equivalente en la
otra variable), obtenemos
fXY (x, y) = fX (x|y)fY (y)
(3.24)
= fY (y|x)fX (x)
(3.25)
130
C. Alberola L
opez
expresiones muy similares a las obtenidas para el caso de funciones

de distribuci
on, y cuya interpretaci
on es exactamente la misma que
para tales funciones.
Comentarios adicionales:
on de densidad unidimensional como
La funci
on fY (y|x) es una funci
las manejadas en el captulo anterior. La u
nica novedad es que en ella
existe la inuencia de la otra variable, bien en la expresi
on funcional
de la misma, bien en el intervalo de valores donde esta denida. Por
ejemplo, una posible concrecion de esta funci
on sera
(y(x))
1
2
2x
e
fY (y|x) =
(x) 2
(3.26)
lo cual se interpretara como que la VA Y, cuando la VA X ha tomado el valor x, se comporta como una gaussiana de par
ametros (x)
y (x). Rep
arese que con esta armacion s
olo conocemos como se
distribuye la VA Y cuando X ha tomado una determinado valor, es
decir, no conocemos como se comporta Y aisladamente de X. Para
conocer esto, como veremos a continuacion, necesitamos conocer la
funci
on de densidad de X (expresi
on 3.27).
La expresion (3.25) nos permite construir, mediante ordenador, muestras de VAs bidimensionales que tengan una determinada funci
on de
densidad conjunta. En efecto, esta expresi
on dice que distribuci
on tiene que tener la VA X y que distribuci
on tiene que tener la VA Y para
cada uno de los valores que pueda tomar la VA X, si queremos que
la VA bidimensional (X, Y) tenga la funci
on de densidad fXY (x, y).
Por ello, podemos construir muestras de tal VA bidimensional con el
siguiente procedimiento:
1. Construir muestras de la VA X distribuidas acorde con fX (x).
2. Para cada valor x generado de la VA X, constr
uyanse muestras
de la VA Y con funci
on de densidad condicionada a X fY (y|x).
Si, por ejemplo, tal funci
on fuese la planteada anteriormente
(ecuacion 3.26), bastara con que construyesemos VAs con distribuci
on N ((x), (x)).
3.3.2
131
Teoremas de la Probabilidad Total y de Bayes para

partici
on continua
Las expresiones (3.24) y (3.25) nos permiten hacer una interpretaci

on de
las funciones marginales en terminos del Teorema de la Probabilidad Total.
En efecto, igualando (3.24) y (3.25) podemos escribir
fX (x|y)fY (y) = fY (y|x)fX (x)
Si ahora integramos con respecto, por ejemplo, a la variable x, obtendremos

fX (x|y)fY (y)dx =
fY (y)
fX (x|y)dx =
fY (y) =
fY (y|x)fX (x)dx
fY (y|x)fX (x)dx
fY (y|x)fX (x)dx
(3.27)
pues el area bajo toda funci

on de densidad (condicionada o incondicional)
es igual a la unidad. Si tomamos esta expresi
on y multiplicamos por dy
en ambos miembros de la igualdad (con el u
nico objetivo de convertir las
funciones densidad de probabilidad en probabilidades), tenemos

fY (y)dy =
P (y < Y y + dy) =
fY (y|x)dyfX (x)dx
P (y < Y y + dy|X = x)P (x < X x + dx)
(3.28)
lo cual es el equivalente continuo de la expresion

P (B) =
N
P (B|Ai )P (Ai )
i=1
donde se esta empleando como elemento de la particion cada uno de los

valores que puede tomar la VA X.
Si hablamos del Teorema de la Probilidad Total, podemos hablar del
Teorema de Bayes sin mas que intercambiar los condicionantes. Para ello,
recordemos que
P (Ai |B) =
P (B|Ai )P (Ai )
P (B|Ai )P (Ai )
= N
P (B)
P (B|Aj )P (Aj )
j=1
132
C. Alberola L
opez
Haciendo uso, una vez m

as, de las igualdades (3.24) y (3.25) llegamos a la
conclusion de que:
fX (x|y) =
fY (y|x)fX (x)
fY (y|x)fX (x)
=
fY (y)
fY (y|)fX ()d
Finalmente, recordando las igualdades (3.13) y (3.14), y haciendo uso

de las identidades (3.24) y (3.25) podemos escribir

fX (x) =
fY (y) =
fXY (x, y)dy =

fXY (x, y)dx =
fX (x|y)fY (y)dy
fY (y|x)fX (x)dx
de forma que es claro que el Teorema de la Probabilidad Total para dos

VAs es una forma alternativa de obtenci
on de las funciones de densidad
marginales a partir, en su caso, de una funci
on marginal condicionada y
una marginal incondicional.
3.4
Independencia
En la introducci
on a este captulo dijimos que la VA bidimensional (X, Y)
se construye a partir de un experimento compuesto, c < Sc , Fc , Pc >, el
cual es el resultado de la composicion de dos subexperimentos, a saber, 1 <
S1 , F1 , P1 > y 2 < S2 , F2 , P2 >. All se dijo que la ley para asignaci
on de
probabilidades no es, en general, determinable a partir de las leyes P1 y P2
de cada uno de los subexperimentos, sino que interviene una tercera entidad
para la creacion de tal ley, la cual es, precisamente, la propia composicion
de los experimentos.
Sin embargo, esto no es siempre as. Consideremos que los sucesos
AX F1 y BY F2 . Si se verica que4
P (AX BY ) = P (AX )P (BY )
entonces las VAs X e Y se dice que son independientes. En tal caso, la ley
Pc s puede obtenerse como funci
on exclusiva de las leyes P1 y P2 . Reparese
que, de hecho, cuando existe independencia entre variables la composicion
de los experimentos es meramente nominal, esto es, los experimentos se
4
De forma coherente con la notaci

on de la secci
on 1.7, la escritura estricta del suceso
compuesto sera (AX S2 ) (S1 BY ).
133
estan considerando simult

aneamente, pero en realidad no existe inuencia
alguna de uno sobre otro.
A nivel operativo, podemos comprobar la independencia entre variables
vericando el comportamiento de las funciones de distribuci
on o densidad
conjunta y marginales. Para ello basta con elegir los sucesos AX y BY de
forma oportuna. Escogiendo AX = {X x} y BY = {Y y} podemos
armar que 2 VAs son independientes si
P (X x, Y y) = P (X x)P (Y y)
FXY (x, y) = FX (x)FY (y)
(3.29)
pues, al ser la funci

on de distribuci
on una funci
on de caracterizacion probabilstica total de la VA (X, Y), la denici
on de independencia dada antes
para sucesos genericos AX y BY se concreta en la expresion (3.29) con
validez general.
Derivando esta expresi
on con respecto a ambas variables, tendremos
un criterio equivalente de comprobaci
on de independencia en terminos de
funciones de densidad. En efecto, dos VAs seran independientes si
fXY (x, y) = fX (x)fY (y)
(3.30)
Es interesante contrastar la expresion obtenida con la vista en el caso general (ecuaciones 3.24 y 3.25). Para que las dos expresiones coincidan es
necesario que las funciones marginales condicionadas coincidan con las incondicionales, es decir, fX (x) = fX (x|y) y lo propio con respecto a la VA
Y. Pero esto, como vimos ya en el captulo primero, es algo asociado a la
independencia: los condicionantes no condicionan. Si es as, es decir, si las
variables son independientes, el hecho de que la VA Y haya tomado alg
un
valor en particular no afecta en absoluto al comportamiento probabilstico
de la VA X.
Comentarios adicionales
Lo dicho tiene validez general. No obstante, si la VA bidimensional es discreta, esto es, si cada componente de
la misma es discreta, el criterio de independencia se particulariza en la factorizaci
on de la probabilidad de cada
uno de los puntos del plano donde la variable toma valores. Concretamente, si la variable (X, Y) puede tomar los
valores (xi , yj ) con i y j variando en los recorridos oportunos, y con probabilidades P (X = xi , Y = yj ) = pij , la VA
134
C. Alberola L
opez
esta formada por componentes independientes si se verica

que
P (X = xi , Y = yj ) = pij = pxi pyj = P (X = xi )P (Y = yj )
(3.31)
La comprobacion de la independencia entre dos VAs exige
comprobar cualquiera de las dos condiciones vistas (expresiones 3.29 y 3.30) para todos los valores de x e y. Sin
embargo, la comprobaci
on de la no independencia es mas
sencilla e intuitiva. Por ejemplo, si la funci
on de densidad
conjunta es no nula en el interior de la region sombreada de
la gura 3.8a), el simple hecho de que la region R no presente lados paralelos a los ejes coordenados indica que las
variables no son independientes. En efecto, si la variable X
toma el valor x0 la gura indica que la VA Y puede tomar
valores en el intervalo (y1 , y2 ). Sin embargo, si X toma el
valor x1 entonces Y puede tomar valores en el intervalo
(y3 , y4 ), intervalo distinto al anterior. Por tanto, el hecho
de que X tome un valor u otro afecta notablemente a los
valores que puede tomar Y, de forma que las variables no
son independientes.
y
y
y
y
y
4
2
a)
x
0
b)
Figura 3.8: Dos casos de VAs no independientes.

Similares comentarios pueden hacerse en relacion con la
gura 3.8b (sup
ongase no nula en el interior de la zona
sombreada). En este caso, a pesar de que el dominio donde
la VA bidimensional est
a denida presenta lado paralelos
135
a los ejes coordenados, es claro que la VA (X, Y) no puede

tomar el valor (x0 , y0 ), pero que cada una de las componentes, de forma aislada, s que pueden tomarlo; decimos
esto porque la gura muestra que fXY (x0 , y0 ) = 0, pero,
sin embargo, fX (x0 ) = 0 y fY (y0 ) = 0.
Ejercicio: Justique por que fX (x0 ) = 0 y fY (y0 ) = 0 en el
caso representado en la gura 3.8b).
3.5
Transformaci
on de variable aleatoria bidimensional
Abordamos en este punto la extension bidimensional de la transformaci

on
de VA vista en el captulo anterior (seccion 2.6). En este caso abordaremos en primer lugar el problema de una u
nica transformacion de dos VAs,
digamos, Z = g(X, Y). Un segundo paso ser
a abordar, mediante el mismo
metodo que en el primero, el problema de dos funciones de dos VAs, es
decir, Z = g(X, Y) y W = h(X, Y). Sin embargo, para este segundo caso
es mas sencillo el uso del Teorema Fundamental, extendido a dos variables,
el cual ya introdujimos, para el caso unidimensional, en el captulo anterior. Las ventajas de tal teorema seran obvias tan pronto como se haga
uso del mismo. Por ello, en el u
ltimo punto, veremos como poder emplear
el Teorema Fundamental para el caso de un u
nica funci
on de dos VAs.
Dispondremos, consecuentemente, de caminos alternativos para abordar el
mismo problema.
3.5.1
Una funci
on de dos variables aleatorias
Consideremos la situacion en la que la VA bidimensional (X, Y), cuya caracterizacion probabilstica asumiremos conocida, se transforma mediante
la transformaci
on g(x, y) en una VA Z = g(X, Y). Asumiremos que la
transformaci
on es tal que se cumplen las condiciones para que Z sea una
VA (vease seccion 2.1).
Con estas premisas, el objetivo es encontrar la caracterizacion probabilstica de la VA Z en base a la caracterizacion de la VA bidimensional
(X, Y) y de la transformaci
on g(x, y). Para ello tendremos que calcular
FZ (z) = P (Z z) = P (Dz ) =

Dz
fX,Y (x, y)dxdy
(3.32)
136
C. Alberola L
opez
donde la regi
on Dz se dene como el lugar geometrico de los puntos del
plano (x, y) que transformados mediante g(x, y) dan lugar a valores menores
o iguales que z. Formalmente:
Dz = {(x, y) R2 t.q. g(x, y) z}
Por ello, el procedimiento para encontrar la caracterizaci
on probabilstica
de Z consiste en dos fases:
1. Identicar la regi
on Dz .
2. Calcular P (Dz ) =

Dz
fXY (x, y)dxdy
Ilustraremos este procedimiento mediante varios ejemplos:

1. Considerese que Z = g(X, Y) = X+Y. El objetivo es encontrar, para
esta transformaci
on, la funci
on de distribuci
on de Z como funci
on de
fX,Y (x, y). Para ello
FZ (z) = P (Z z) = P (X + Y z) = P (Dz )
En este caso la region Dz es el lugar geometrico de los puntos del
y
y=z-x
Dz
(0,z)
(z,0)
(z>0)
Figura 3.9: Representaci

on de Dz para Z = g(X, Y) = X + Y.
plano que verican que x + y z. Esta regi
on tiene como frontera
la ecuacion x + y = z, la cual puede escribirse como y = z x, es
decir, una recta de pendiente 1 y ordenada en el origen igual a z
137
(vease gura 3.9 donde se indica la regi

on Dz ). A partir de la gura
podemos escribir
FZ (z) = P (X + Y z) =
dx
zx
fX,Y (x, y)dy
Para hallar la funci

on de densidad fZ (z) tenemos que derivar con
respecto a z la expresion anterior. Eso puede conseguirse facilmente
sin mas que realizar un cambio de variable en la integral en y, con el
objetivo de que el extremo superior de esta integral no dependa de x.
Si hacemos t = x + y, podemos escribir

FZ (z) =
dx
fX,Y (x, t x)dt =
(t)dt
fX,Y (x, t x)dx. Si derivamos la anterior expresi

on
con (t) =
con respecto a z (recuerdese la regla de Leibnitz, expresion 3.12),
tenemos
dFZ (z)
dz
fZ (z) =
= (z)
= (z) =
dz
dz
fX,Y (x, z x)dx
El resultado hasta ahora obtenido es completamente general. No

obstante, si asumimos que las variables X e Y son independientes,
entonces fX,Y (x, z x) = fX (x)fY (z x), de forma que obtenemos

fZ (z) =
fX (x)fY (z x)dx = fX (z) fY (z)
con el operador convoluci

on. A este resultado se le conoce como el
Teorema de la Convoluci
on, que dice, como hemos obtenido, que la
funci
on de densidad de la suma de dos VAs independientes es igual a
la convoluci
on de sus funciones de densidad.
Ejercicio: Sean X e Y dos VAs independientes, uniformes
entre (0, 1) y (0, 2) respectivamente. Se pide la funcion de
densidad de la variable Z = X + Y.
Soluci
on: Seg
un acabamos de ver la funci
on de densidad
es la convolucion de las funciones de densidad. Por tanto,
tenemos que realizar la operacion

fZ (z) =
fX ( )fY (z )d =
fY ( )fX (z )d
138
C. Alberola L
opez
1
1
=z
1/2
1/2
1/2
=z
a) z 0
=z
b) 0 < z 1
c) 1 < z 2
1/2
1/2
=z
=z
d) 2 < z 3
e) z > 3
Figura 3.10: Las cinco secciones de la convoluci

on de dos rectangulos.
en cualquiera de sus dos versiones. Escojamos la segunda.
Dejamos entonces inalterada la funci
on de densidad de la
VA Y, reejamos la funci
on de densidad de la VA X alrededor del eje = 0 y desplazamos esta funcion al punto z
donde evaluamos la convolucion. Podemos pues considerar
cinco casos:
(a) z 0: En este caso (vease gura 3.10a) el area bajo el
producto de ambas funciones es nula (las funciones no
tienen puntos en com
un) de forma que la convoluci
on
vale cero.
(b) 0 < z 1 (gura 3.10b): El cuadrado en que consiste
fX empieza a entrar en el rectangulo de fY , pero no lo
hace completamente. As pues

fZ (z) =
fX ( )fY (z )d =
1
z
1 d =
2
2
(c) 1 < z 2 (gura 3.10c): El cuadrado ha entrado completamente en el rectangulo de fY , y se mantiene en el

interior en todo este intervalo. Por ello

fZ (z) =
=
z1
fX ( )fY (z )d =
1
1 d
z1 2
z (z 1)
1
=
2
2
(d) 2 < z 3 (gura 3.10d): En este caso el cuadrado
139
comienza a salir del rectangulo. Por ello

fZ (z) =
=
z1
fX ( )fY (z )d =
1
1 d
z1 2
2 (z 1)
3z
=
2
2
(e) z > 3 (gura 3.10e): El cuadrado ha abandonado el

interior del rectangulo de forma que el area bajo el
producto de ambas funciones vuelve a ser nulo.
f (z)
Z
1/2
z
0
Figura 3.11: Funci

on de densidad fZ (z) para el ejercicio planteado.
La gura 3.11 muestra la funci
on de densidad resultante.
Como puede verse, la convolucion de dos rectangulos es un
trapecio, en general, y si la longitud de ambos rectangulos
coincide, la parte de la convoluci
on que hemos clasicado
en tercer lugar desaparece, de forma que, en tal caso, el
trapecio se convierte en un triangulo.
2. Considerese que Z = g(X, Y) = max(X, Y). El objetivo es, como

antes, encontrar la funci
on de distribuci
on de Z. Para ello
FZ (z) = P (Z z) = P (max(X, Y) z) = P (Dz )
Para que el m
aximo de dos variables sea menor que una cierta cantidad z debe vericarse que ambas variables sean menores o iguales
que z. Por ello, Dz es la regi
on {X z, Y z} (zona sombreada en
gura 3.12a), y la funci
on que nos piden es:
FZ (z) = P (Z z) = P (X z, Y z) = FXY (z, z)
140
C. Alberola L
opez
y
z
(z,z)
Dz
x
Dz
x
z
a)
b)
Figura 3.12: a) Dz para Z = g(X, Y) = max(X, Y) b) Dz para Z =

g(X, Y) = min(X, Y).
3. Considerese que Z = g(X, Y) = min(X, Y). Buscamos
FZ (z) = P (Z z) = P (min(X, Y) z) = P (Dz )
En este caso Dz vara ligeramente respecto del anterior, puesto que
para que el mnimo entre dos variables sea menor que una cierta
cantidad z basta con que cualquiera de ellas lo sea. Por ello, Dz es

la regi
on {X z} {Y z} (zona sombreada en gura 3.12b) y la
funci
on que nos piden es:
FZ (z) = P (Z z) = P ({X z} {Y z})
= P (X z) + P (Y z) P (X z, Y z)
= FX (z) + FY (z) FXY (z, z)
= FXY (z, ) + FXY (, z) FXY (z, z)
(3.33)
Evidentemente, un procedimiento alternativo al empleado sera
FZ (z) = 1 P (Z > z) = 1 P (X > z, Y > z)
4. Supongamos ahora que X e Y son discretas, y que toman los valores

que se representan en la gura 3.13, con probabilidades pij . Se plantea la funci
on Z = g(X, Y) = X Y. La VA resultante Z tambien
141
y
3
2
1
x
1
Figura 3.13: Puntos de probabilidad no nula de la VA (X, Y).

sera discreta, de forma que su caracterizacion viene dada por los valoa la variable y por las probabilidades pk = P (Z = zk ).
res zk que tomar
Por tanto, podemos construir la siguiente tabla:
zk
1
2
4
6
pk
p1
p2
p4
p6
= p11
= p12 + p21
= p22
= p23
puesto que
P (Z = 1) = p1 = P (X = 1, Y = 1) = p11
P (Z = 2) = p2 = P (X = 1, Y = 2) + P (X = 2, Y = 1) = p12 + p21
P (Z = 4) = p4 = P (X = 2, Y = 2) = p22
P (Z = 6) = p6 = P (X = 2, Y = 3) = p23
3.5.2
Dos funciones de dos variables aleatorias
Consideremos ahora la situacion en la que (X, Y) se transforma en otra VA

bidimensional por medio del par de transformaciones:
Z = g(X, Y)
W = h(X, Y)
142
C. Alberola L
opez
En este caso, como en el apartado anterior, conocida la caracterizacion

probabilstica de la VA (X, Y) origen de la transformaci
on, y conocidas las
expresiones analticas de la transformaci
on, se pretende obtener la caracterizacion probabilstica de la VA bidimensional resultante (Z, W).
El procedimiento de resoluci
on en este caso sera similar al que acabamos
de ver. Concretamente pretendemos hallar
FZW (z, w) = P (Z z, W w) = P (Dzw ) =

Dzw
fXY (x, y)dxdy
con Dzw el lugar geometrico de los puntos del plano (x, y) que se transforman en puntos del plano (z, w) pertenecientes al suceso cuya probabilidad
buscamos, esto es
Dzw = {(x, y) R2 t.q. g(x, y) z, h(x, y) w}
on, hallar
Para tal n, debemos identicar la regi
on Dzw para, a continuaci
la probabilidad asociada a dicha regi
on.
Ejemplo: Para el par de transformaciones
"
Z = g(X, Y) = (+) X2 + Y2
Y
W = h(X, Y) =
X
identifquese la regi
on Dzw para un par (z, w) generico, con
z > 0 y w > 0.
Soluci
on: La regi
on {Z z} = { X2 + Y2 z} es, en el
plano (x, y), el interior de una circunferencia de radio z. Por lo
que respecta a la segunda transformaci
on,
W=
Y
w Y wX
X
(3.34)
region cuya frontera es una recta dada por el signo igual de la

anterior desigualdad, es decir, y = wx. Esta frontera es una
recta de pendiente w y ordenada en el origen igual a 0. Los
valores que pertenecen a la region y wx son los valores que
estan por debajo de la recta, como puede comprobarse tomando
cualquier punto del primer cuadrante por debajo de la recta de
divisi
on (vease gura 3.14a).
Sin embargo, hay que hacer una llamada de precauci
on: la
implicacion escrita en la ecuacion (3.34) no es completamente correcta, puesto que la desigualdad en su estado original es
143
y =w x
y =w x
z
x
a)
b)
Figura 3.14: a) Dzw obtenida a partir de y wx b) Dzw obtenida a partir

de xy w.
sensible a los signos positivos/nega tivos de las variables involucradas. Por ello, hay que hacer un an
alisis mas pormenorizado:
1. Primer cuadrante: en este caso no hay duda, pues ambas
magnitudes son positivas. Los puntos pertenecientes a la
region bajo estudio son los que se encuentran por debajo
de la recta.
2. Segundo cuadrante: x es negativa, y es positiva, el cociente
es negativo, luego es menor que w si w > 0.
3. Tercer cuadrante: los puntos de este cuadrante son puntos de ambas coordenadas negativas, luego el cociente es
positivo. De estos, los que se encuentran por debajo de
la recta tienen una ordenada que puede tomar valores arbitrariamente grandes, incluso con x = 0. Por ello, para
estos puntos y/x > w. Por contra, los puntos por encima
de la recta tienen signo positivo, y es la x la coordenada
que puede crecer arbitrariamente, mientras que y crece de
forma moderada. Estos puntos pertenecen a la region.
4. Cuarto cuadrante: el cociente es negativo, luego todos los
puntos pertenecen a la regi
on.
La region resultante es pues la que se encuentra sombreada en
la gura 3.14b).
144
C. Alberola L
opez
En cualquier caso, el metodo aqu descrito no es empleado con frecuencia

pues, como veremos a continuacion, existe una expresi
on cerrada para la obtenci
on de la funci
on de densidad conjunta de dos variables transformadas,
la cual constituye el Teorema Fundamental bidimensional.
3.5.3
Teorema Fundamental
Buscamos una extension bidimensional de la metodologa descrita en la

seccion 2.6.3 del captulo anterior. Tal metodologa, recuerdese, proporcionaba una expresi
on cerrada para la obtenci
on de la funci
on de densidad de
probabilidad de la VA transformada a partir de la VA origen de la transformacion. Por tanto, dado que trabajaremos con funciones de densidad de
probabilidad, tendremos que hacer uso de c
alculo diferencial, empleando
en nuestros razonamientos sucesos asociados a rectangulos elementales en
cada uno de los dominios (z, w) y (x, y).
Consideremos una situaci
on como la descrita en la gura 3.15. Podemos
w
w+d w
w
y2
y3
y1
z
z
z+dz
x
x1
x2
x3
Figura 3.15: Puntos que se corresponden en planos destino y origen.

ver que el punto (z, w) procede de la transformaci
on de varios puntos del
dominio (x, y). Por ello, dado que queremos hallar la funci
on de densidad
de la VA bidimensional (Z, W) podemos escribir
fZW (z, w)dzdw = P (z < Z z + dz, w < W w + dw)
= P ((x1 < X x1 + dx1 , y1 < Y y1 + dy1 )
(x2 < X x2 + dx2 , y2 < Y y2 + dy2 )
(x3 < X x3 + dx3 , y3 < Y y3 + dy3 ))
(3.35)
Generalizando, podemos escribir
fZW (z, w)dzdw = P (z < Z z + dz, w < W w + dw)
= P
N
145
[xi < X xi + dxi , yi < Y yi + dyi ]
i=1
=
=
N

i=1
N
P (xi < X xi + dxi , yi < Y yi + dyi )

fXY (xi , yi )|dxi ||dyi |
i=1
(3.36)
donde los valores absolutos se han incluido para evitar problemas de signos
entre los diferenciales, dado que vamos a hacer uso de una relacion explcita
entre ambos. En efecto, la relacion que liga los cuatro diferenciales es
dzdw = |J(x, y)|dxdy
con J(x, y) el jacobiano de la transformaci
on, el cual es igual a

J(x, y) =

z
x
w
x
z
y
w
y

(3.37)
Despejando la expresi
on anterior a favor de la funci
on de densidad
fZW (z, w) podemos escribir
fZW (z, w) =
N

fXY (xi , yi )
i=1
dzdw
|dxi ||dyi |

N

fXY (x, y)
=

|J|
i=1
(3.38)
(xi ,yi )
expresion que constituye el teorema fundamental extendido a dos dimensiones. Reparese que esta expresion permite construir punto a punto la
funci
on de densidad de la VA (Z, W) lo cual signica que para cada punto (z, w) el n
umero N de races (xi , yi ), esto es, el n
umero de puntos del
plano origen que se transforman en el punto (z, w), puede variar. Por ello,
estrictamente, el parametro N debe escribirse como N (z, w).
Al respecto de este teorema debe recordarse que:
La solucion debe proporcionarse en funcion de las variables (z, w).
Por ello, debe acudirse a las funciones inversas de g(x, y) y h(x, y) o
a cualquier otro procedimiento que se estime conveniente, para escribir la expresi
on resultante del empleo del teorema en funcion de las
variables correctas.
146
C. Alberola L
opez
Asimismo, debe indicarse cual es la zona de validez de la expresion o

expresiones resultantes de la aplicaci
on del teorema.
Finalmente debe recordarse que la expresion (3.38) puede escribirse, de forma alternativa, a traves del jacobiano de la funci
on inversa. Denominando
a dicho jacobiano J1 (z, w) podemos escribir
dxdy = |J1 (z, w)|dzdw
con

J1 (z, w) =

x
z
y
z
x
w
y
w

por lo que
fZW (z, w) =
N
fXY (x, y)|J1 ||(xi ,yi )
(3.39)
i=1
igualdad que puede resultar de interes en funci

on de las expresiones concretas de las operaciones a realizar.
Ejemplo 1: Sean X e Y VAs uniformes en el intervalo (0, 1) e
independientes. Se generan las VAs Z y W mediante:
Z = g(X, Y) = XY
W = h(X, Y) = X
Obtengase mediante el Teorema Fundamental la funci
on de densidad fZW (z, w).
Soluci
on: Puesto que las VAs X e Y son independientes,
la funci
on de densidad conjunta puede escribirse fXY (x, y) =
fX (x)fY (y), por lo que esta es constante de valor unidad en el
interior del cuadrado 0 x 1, 0 y 1, y nula fuera de
dicha regi
on.
La transformaci
on es inyectiva (salvo para el punto (z, w) =
(0, 0), de contribuci
on irrelevante a la probabilidad de sucesos
denidos sobre la VA), de forma que podemos escribir:
fZW (z, w) =
fXY (x, y)
|J|
147
Sustituyendo terminos
fZW (z, w) =

y

1
1
x
0

1
1
=
| x|
|x|
Llegado a este punto resta indicar las dos cuestiones anteriormente apuntadas. As pues
1. Para escribir la expresi
on en funci
on de (z, w) en este ejemplo las cosas son particularmente sencillas pues existe una
identidad entre X y W. Ello nos permite escribir:
fZW (z, w) =
1
w
2. La expresion anterior es v
alida en la regi
on del plano (z, w)
sobre la que se transforma el cuadrado de lado 1 donde es
no nula la funci
on de densidad fXY (x, y). Para ver que regi
on es esta podemos razonar componente a componente:
w=z
w
1
w
z
z=w
Figura 3.16: Regi

on de soporte de la funci
on fZW (z, w).
Dado que W = X , si X vara en el intervalo (0, 1),
W har
a lo propio.
148
C. Alberola L
opez
Para cada valor w de la VA W (es decir, cortando

por una horizontal de ordenada arbitraria w, vease la
gura 3.16), y dado que W = X, entonces la VA Z
sera
Z = wY
lo cual indica que, sobre esa horizontal, el valor mnimo que puede tomar Z es 0 (correspondiente al valor
mnimo de Y) y el valor maximo es w (correspondiente
al valor m
aximo de Y). Por ello, para cada valor de W
la VA Z vara desde 0 hasta W, es decir, desde 0 hasta
la bisectriz del primer cuadrante (zona sombreada de
la gura 3.16).
As pues, la funci
on pedida es
fZW (z, w) =
1
w
0zw1
resto del plano
Ejercicio: Compruebese que el volumen encerrado bajo esta

funci
on de densidad es unitario.
Ejemplo 2: Sean R y dos VAs independientes donde R

tiene una funci
on de densidad Rayleigh, a saber,
fR (r) =
r r22
e 2 u(r)
2
y U (, ). Se generan las VAs Z y W mediante:

Z = g(R, ) = R cos()
W = h(R, ) = R sin()
Obtengase mediante el Teorema Fundamental la funci
on de densidad fZW (z, w).
Soluci
on: Es evidente que esta transformacion es un cambio
de coordenadas polares a coordenadas cartesianas, de forma que
la relacion es 1:1. Asimismo, los ndices de variaci
on de las
variables origen son tales que las VAs cartesianas Z y W podr
an
149
tomar cualquier valor del plano R2 . Por ello las conclusiones que
extraigamos ser
an v
alidas para todo el plano.
Aplicando el Teorema Fundamental, tenemos
fZW (z, w) =
fR (r, )
fR (r)f ()
=
|J|
|J|
donde el jacobiano es igual a

cos() r sin()

J(r, ) =
sin() r cos()

= r(cos2 () + sin2 ()) = r

r 2
fZW (z, w) =
=
=
1 r 22
2 2 e
r
r 2
1
2 2
e
2 2
1 z2 +w2 2
e 2
2 2
ya que r2 = z 2 + w2 .
Rep
arese que la expresion anterior puede factorizarse en
z2
w2
1
1
e 22 e 22
2
2
= fZ (z)fW (w)
fZW (z, w) =
de donde se deduce que ambas variables son independientes, y

marginalmente gaussianas, de media nula y desviacion tpica .
3.5.4
M
etodo de la variable auxiliar
Los ejemplos anteriores han puesto de maniesto que el Teorema Fundamental es una herramienta poderosa para realizar el calculo de la funci
on
de densidad conjunta de dos VAs. Sera pues deseable poder emplear este
teorema para la situacion que analizamos en el apartado 3.5.1, a saber, la caracterizacion probabilstica de una u
nica funci
on de dos VAs Z = g(X, Y).
150
C. Alberola L
opez
La manera mediante la cual esto es posible no es otra que convirtiendo

articialmente el problema Z = g(X, Y) en un problema del tipo
Z = g(X, Y) = XY
W = h(X, Y)
deniendo una VA W arbitraria. A esta VA se le denomina variable auxiliar, de la que este metodo toma el nombre. Realizado esto, bastara
ejecutar las dos acciones siguientes:
1. Obtener la funci
on de densidad conjunta fZW (z, w) mediante el Teorema Fundamental.
2. Obtener la funci
on de densidad marginal de la VA realmente involucrada en el problema. Para ello.

fZ (z) =
fZW (z, w)dw
Es pr
actica habitual, por sensatez b
asica, escoger una VA auxiliar que
coincida con una de las dos VAs origen de la transformaci
on. El motivo es
obvio: dado que las operaciones a realizar pueden ser complicadas, interesa
que la VA auxiliar sea lo mas sencilla posible. El hecho de que coincida
con una de las dos VAs origen garantiza que un elemento de la matriz
de derivadas para el calculo del jacobiano sea nulo. Asimismo, a la hora
de escribir fZW (z, w) como funci
on de las variables (z, w) la inversi
on es
mas sencilla si una de las dos variables (x, y) pasa directamente al dominio
(u, w).
Ejemplo: Obtengase la funci
on de densidad de probabilidad de
la suma de dos VAs X e Y, cuya funci
on de densidad fXY (x, y)
se asumira conocida. Particularcese para el caso en que estas
sean independientes.
Soluci
on: En el enunciado se plantea, exclusivamente, la funcion Z = g(X, Y) = X + Y. Para emplear el metodo de la
variable auxiliar hacemos uso de una segunda transformaci
on.
Para ello, denimos
Z = g(X, Y) = X + Y
W = h(X, Y) = X
151
Con estas dos VAs podemos aplicar el Teorema Fundamental;

dado que la transformaci
on es lineal de determinante no nulo,
la relacion es 1:1, por lo que podemos escribir
fZW (z, w) =
fXY (x, y)
|J|
fZW (z, w) =
fXY (x, y)

1 1

1 0

fXY (x, y)
fXY (x, y)
=
= fXY (x, y)
| 1|
1
= fXY (w, z w)
=
Por tanto

fZ (z) =
fZW (z, w)dw =
fXY (w, z w)dw
Si particularizamos para el caso en que la VAs X e Y sean

independientes entonces

fZ (z) =
fXY (w, z w)dw
= fX (z) fY (z)
fX (w)fY (z w)dw
es decir, como ya conocemos de la seccion 3.5.1, la convoluci

on
de las funciones de densidad de cada una de las VAs. En dicha seccion llegamos a este mismo resultado con algo mas de
esfuerzo.
3.6
Caracterizaci
on parcial de una funci
on de dos
variables aleatorias
En el captulo anterior (seccion 2.7) vimos que si nos enfrentabamos a la

situacion Y = g(X), pero solo estabamos interesados en calcular ciertos
par
ametros de caracterizacion parcial de la VA Y, entonces no haba razon
152
C. Alberola L
opez
para calcular la funci

on de densidad fY (y) de esta VA, sino que bastaba
con la transformaci
on g(X) y la funci
on de densidad de la VA X para hallar
cualquier momento de la VA Y.
Estas conclusiones aplican, por identico motivo, al caso Z = g(X, Y).
Si necesitamos conocer, en relacion con la VA Z, el valor de E{h(Z)}, podemos reejar el problema sobre el dominio (X, Y) (al cual, naturalmente,
supondremos caracterizado) y escribir

E{h(Z)} = E{h(g(X, Y))} =
h(g(x, y))fXY (x, y)dxdy
En particular, si h(Z) = Z entonces
(3.40)

E{h(Z)} = E{Z} = E{g(X, Y)} =
g(x, y)fXY (x, y)dxdy
(3.41)
Si Z = g(X, Y) = aX + bY + c, con a, b, c constantes reales, tendremos

E{Z} = E{g(X, Y)}

=

=

(ax + by + c)fXY (x, y)dxdy

axfXY (x, y)dxdy +

cfXY (x, y)dxdy

= a
c
fXY (x, y)dxdy
xdx

yfXY (x, y)dxdy +

fXY (x, y)dy + b
ydy
fXY (x, y)dx +
fXY (x, y)dxdy
= a

xfXY (x, y)dxdy + b

= a
byfXY (x, y)dxdy +
xfX (x)dx + b
yfY (y)dy + c
= aE{X} + bE{Y} + c
(3.42)
es decir, el operador esperanza matem

atica es, tambien para funciones de
dos variables, un operador lineal.
Finalmente, indiquemos que si las VAs son discretas podremos escribir
E{Z} = E{g(X, Y)} =
=

i

i
g(xi , yj )pij
g(xi , yj )P (X = xi , Y = yj )
(3.43)
3.6.1
153
Esperanzas condicionadas
El calculo de una esperanza condicionada es similar al de una esperanza incondicional. Lo u

nico que vara es el empleo de una funci
on de densidad condicionada en lugar de una incondicional. Concretamente, si Z = g(X, Y) y
M Fc , con Fc la clase de sucesos del experimento compuesto c , podremos
escribir
E{Z|M } = E{g(X, Y)|M } =

g(x, y)fXY (x, y|M )dxdy
(3.44)
Especial interes tiene el caso particular Z = g(X, Y) = Y con el condicionante M = {X = x}. En tal caso calcularamos

fXY (x, y)
dy = (x)
fX (x)
(3.45)
Haremos uso extensivo de la misma en la seccion 3.7.6.
E{Y|X = x} = E{Y|x} =
3.6.2
yfY (y|x)dy =
Momentos conjuntos
Los momentos vistos en el captulo anterior se extienden al caso bidimensional de la forma que sigue:
Momento no central de ordenes (r, s):
mrs = E{Xr Ys } =

xr y s fXY (x, y)dxdy
(3.46)
Momento central de ordenes (r, s):

rs = E{(XX ) (YY ) } =
r

(xX )r (yY )s fXY (x, y)dxdy

(3.47)
donde, como es conocido, los ordenes r, s Z + tpicamente. De nuevo, si las

VAs involucradas fuesen discretas, los operadores anteriores se reduciran
a sumatorios. Por ejemplo, el momento central anteriormente denido se
escribira
rs = E{(XX )r (YY )s } =

i
(xi X )r (yj Y )s P (X = xi , Y = yj )
(3.48)
Entre todos estos momentos son de particular interes los introducidos en
el captulo anterior, lease, media, varianza y VCM. Asimismo, y de nueva
introducci
on, son los siguientes:
154
C. Alberola L
opez
Correlaci
on: RXY = m11 = E{XY}
Covarianza: CXY = 11 = E{(X X )(Y Y )}
Estas dos magnitudes estan relacionadas debido a la propiedad de linealidad
del operador esperanza. En efecto:
CXY = E{(X X )(Y Y )}
= E{XY Y X X Y + X Y }
= RXY Y X X Y + X Y
= RXY X Y
(3.49)
Notese que esta igualdad es analoga a la igualdad que relaciona varianza

con VCM y media al cuadrado. De hecho, si en la expresion anterior la VA
Y se sustituye por la VA X, entonces obtenemos la igualdad (2.48). Por
tanto, la covarianza entre dos variables es la generalizaci
on del concepto de
varianza, y el correlacion es la generalizacion del valor cuadr
atico medio.
Un coeciente que se emplea con la practica es el llamado coeficiente de
correlaci
on o covarianza normalizada. Se dene:
XY =
CXY
X Y
(3.50)
on
y es un valor real que verica que |XY | 1. Mide el grado de relaci
lineal que existe entre las VAs, esto es, el grado en el que una VA, digamos
Y, se puede predecir mediante una funci
on lineal de la otra (VA X, en este
caso). La prediccion perfecta se da cuando XY = 1 y tal relaci
on no
existe cuando XY = 0. Posponemos los detalles sobre esta cuestion hasta
la seccion 3.7.4 (tengase en cuenta, no obstante, el comentario que se hace
en el ejercicio de la pagina 155).
Las deniciones anteriores se complementan con las siguientes:
Incorrelacion: dos VAs se dice que son (o que estan) incorreladas si
CXY = 0. En tal caso se verica tambien que XY = 0 y, por tanto,
incorrelaci
on implica ausencia de relacion lineal entre las VAs.
Ortogonalidad: dos VAs se dice que son ortogonales si RXY = 0.
Tales deniciones traen consigo las siguientes consecuencias:
1. Si las VAs X e Y son independientes, entonces son incorreladas. En
efecto,
CXY = E{(X X )(Y Y )}
155
(x X )(y Y )fXY (x, y)dxdy

(x X )(y Y )fX (x)fY (y)dxdy
(x X )fX (x)dx
(y Y )fY (y)dxdy
= (E{X} X )(E{Y} Y ) = 0
Conceptualmente esto es debido a que la independencia entre VAs
implica ausencia de relaci
on entre las variables, mientras que la incorrelacion implica ausencia de relaci
on lineal entre las VAs. Por ello,
la segunda esta incluida en la primera, de forma que si se verica la
primera, debe vericarse la segunda.
Por esta misma raz
on el recproco, en general, no es cierto.
Ejercicio: Considere X N (0, ). Se dene Y = X2 .
Indique si las VAs son incorreladas e independientes.
Soluci
on: Por simple inspeccion es obvio que las VAs no
pueden ser independientes, dado que una es funcion de la
otra (sabido lo que vale X es conocido el valor de Y). Respecto a la incorrelacion, calculemos su covarianza:
CXY = E{(X X )(Y Y )}
= RXY X Y
= RXY = E{XY} = E{X3 }

x3 fX (x)dx = 0
La integral anterior es nula dado que la funci

on de densidad de la VA X es una funci
on par, mientras que la funci
on
3
f (x) = x es impar, y el intervalo de integracion es simetrico con respecto al cero.
Por tanto, las VAs son incorreladas, pero no independientes.
Rep
arese que, como diremos en el apartado 3.7.4, la incorrelacion implica que la variable Y no se puede predecir
con una funci
on lineal de la VA X mejor que mediante una
simple constante. Sin embargo no debe entenderse que esto
es debido a que no existe un termino lineal en la relaci
on
entre X e Y. En particular, si se repite el ejercicio para
Y = X3 se vera que, si bien no existe una relacion analtica
156
C. Alberola L
opez
lineal entre las VAs, s que existe una covarianza no nula.

Con ello se esta armando que una funci
on lineal de la VA
X predice mejor a la VA Y (apartado 3.7.4) que una recta
horizontal de valor igual a la media de la VA Y (apartado
3.7.3).
2. Si X e Y son incorreladas:
(a) CXY = 0 RXY = E{XY} = E{X}E{Y}, es decir, la esperanza del producto es igual al producto de las esperanzas
(b) La varianza de la suma es igual a la suma de las varianzas. En
efecto:
2
X+Y
= E{((X + Y) (X + Y ))2 }
= E{((X X ) + (Y Y ))2 }
= E{(X X )2 + (Y Y )2 + 2(X X )(Y Y )}

2
2
+ Y
+ 2CXY
= X
(3.51)
Si las VAs son incorreladas, el tercer sumando se anula, y se

verica el resultado indicado.
3. Incorrelaci
on y ortogonalidad son una misma propiedad si al menos
una de las dos VAs involucradas tiene media nula. Tal armaci
on es
obvia a partir de la relaci
on (3.49).
4. Sin las VAs son ortogonales, entonces el VCM de la suma es igual
a la suma de los VCMs. Esto se deduce haciendo un razonamiento
paralelo al hecho para la varianza de la suma, de la forma:
E{(X + Y)2 } = E{X2 + Y2 + 2XY}
= E{X2 } + E{Y2 } + 2E{XY}
= E{X2 } + E{Y2 } + 2RXY
(3.52)
Interpretaci
on geom
etrica
Es f
acil comprobar que la operaci
on E{XY} es un producto escalar, de
forma que se puede considerar el espacio de las VAs como un espacio vectorial con una metrica asociada. En base a esto, los resultados expuestos
anteriormente tienen una interpretaci
on geometrica relativamente directa.
157
X-
X+Y
a)
Y-
+ Y-
X-
b)
Figura 3.17: a) Ilustraci

on del concepto de ortogonalidad. b) Ilustraci
on
del concepto de incorrelacion.
Si consideramos el caso de dos VAs ortogonales, podemos interpretarlas
como dos vectores cuyo producto escalar es nulo, esto es, como dos vectores
perpendiculares. El VCM de cada una de las VAs sera igual a la norma del
vector, esto es, a su modulo al cuadrado. Por ello, E{(X + Y)2 } sera igual
a la norma del vector suma Z = X + Y, la cual, como muestra la gura
3.17a) sera igual a la suma de las normas de cada uno de los vectores. Este
es el resultado obtenido en la expresion (3.52) para el caso RXY = 0.
La incorrelaci
on puede ilustrarse mediante la gura 3.17b). En tal caso
los vectores XX e Y Y son ortogonales por lo que la norma del vector
suma, lease, X + Y (X + Y ), es igual a la suma de las normas de cada
uno de ellos. Como el VCM (la norma) calculado sobre una VA menos su
media es igual a la varianza de la misma, la varianza de la suma es igual
a suma de varianzas si las VAs son incorreladas (resultado indicado en la
expresi
on 3.51 para el caso CXY = 0).
3.7
3.7.1
Estimaci
on de mnimo error cuadr
atico medio
Introducci
on
En este apartado indicaremos el procedimiento mediante el cual el valor y

de una VA Y puede predecirse en base a la observacion x de que podamos
disponer de otra VA X. Sabemos que si la relacion entre las variables fuese
del tipo X = h(Y) con h() una funci
on determinstica y monovaluada, es
decir, con h() una funci
on no aleatoria y tal que cada origen tenga una u
nica
imagen, entonces, conocido el valor x que ha tomado la VA X conoceramos
sin error ninguno el valor y de la VA Y sin mas que invertir la funci
on en
158
C. Alberola L
opez
el valor concreto observado x de la variable X, es decir, y = h1 (x).

Y
EMISOR
^ = g (X)
Y
X
CANAL
RECEPTOR
PERTURBACIONES
Figura 3.18: Diagrama de bloques de un esquema de comunicaciones.

No obstante, existen numerosos casos en los que la relacion entre las
variables X e Y no es determinstica, sino aleatoria. De hecho, este es el
caso mas frecuente en los sistemas de comunicaciones. Seg
un se representa
en la gura 3.18, un emisor enva un determinada se
nal; considerando un
esquema muy simplicado del problema con el objetivo de hacerlo encajar
en un esquema de variables bidimensionales pensemos que analizamos
la situaci
on en un estado estatico, esto es, en un u
nico instante temporal.
Aceptando esto como premisa, la se
nal enviada por el emisor, en el instante
temporal de an
alisis, se reduce5 a un escalar y. Si el mensaje enviado
cambia, el n
umero a enviar sera otro, de forma que el conjunto de n
umeros,
cada uno asociado a un mensaje, constituira el conjunto de valores de una
VA Y. Esta variable es transformada por el canal y, adem
as, sobre esta
se superponen un conjunto de perturbaciones aleatorias, de forma que la
se
nal recibida se podra modelar como una VA X cuya relacion con la Y
sera del tipo
X = h(Y) + Z
(3.53)
con Z una VA que agrupara todas las perturbaciones que se habran superpuesto sobre la transformaci
on de Y mediante el canal. En este caso, el
receptor tratar
a de averiguar el valor y que ha tomado la variable Y, pero,
como se ve, en base a una observacion x de la VA X, versi
on transformada y ruidosa de la variable de origen. Para ello construir
a una funci
on
= g(X), la cual pretender
Y
a acercarse lo maximo posible al verdadero
valor y que haya tomado la variable Y. No obstante, dado que la relaci
on
5
Si la se
nal fuese y(t) R y analizamos el instante temporal t0 entonces el valor que
manejaramos sera y(t0 ) = y. Planteamos en este ejemplo un problema de filtrado de
se
nales pero, para evitar emplear conceptos que analizaremos en el captulo 5, hemos
considerado la simplicaci
on indicada.
159
es una relaci
on aleatoria ya no es posible invertir la funci
on de transformacion, de modo que nos tendremos que conformar simplemente con tratar de
adivinar (en lenguaje tecnico, estimar) el valor que ha tomado la variable
= g(X) se le denomina estimador
original. Por esta raz
on, a la funci
on Y
de la VA Y, y es una funci
on de la VA X, esto es, una funci
on que a cada
observacion concreta x de la VA X le asocia un valor y que podra haber
tomado la VA Y.
Dado que g(X) es una funci
on de VA, es tambien una VA, de forma
que la expresion tratar de adivinar el valor que ha tomado la variable original tiene signicado solo en terminos probabilsticos. Que criterio pues
emplear para construir esta funci
on?
^
Y
=g (X )
1
= Y - Y^
2
1
^ =g (X )
Y
= Y - Y^
2
^
Y3 =g (X )
= Y - Y^ 3
Figura 3.19: Ejemplo de prestaciones de diferentes selecciones de la funcion

de estimacion gi (X), {1, 2, 3}. Cada punto procede de una realizaci
on de
la VA X para el caso particular en que Y = y.
Para ilustrar tal criterio, consideremos la situaciones que se indican
en la gura 3.19. En ella se muestran los posible resultados de m
ultiples
i = gi (X) (i = 1, 2, 3) cuando
experimentaciones con tres estimadores Y
la cantidad correcta es Y = y. La parte izquierda de la gura muestra
d
onde han cado cada uno de los valores gi (x), tomando como referencia
el valor verdadero y. La derecha de la gura muestra como se distribuyen
los errores en la estimacion, entendiendo por tales los diferentes valores
que ha tomado la VA error en la estimaci
on, denida genericamente como
= Y Y. Es claro, a partir de la gura que:

1 = g1 (X) se cometen errores centrados en
En el caso del estimador Y
el error cero (los valores del estimador oscilan en torno a y), pero la
dispersion de los mismos es elevada.
2 = g2 (X) la dispersion de los valores es peque
Para Y
na ya que
todos se concentran en una parte reducida de los ejes dibujados. Sin
embargo, los valores del error no estan centrados sobre el valor 0
de error, sino que existe un termino sistematico de error (sesgo, en
adelante).
160
C. Alberola L
opez
3 = g3 (X) la variabilidad en el error es peque

En el caso de Y
na y
ademas no existe el error sistematico anterior sino que los valores de
error oscilan en torno al cero.
El tercer estimador parece el mas adecuado y los estimadores que construiremos se dise
nar
an con el objetivo de que se comporten como este. En la
terminologa que conocemos, es decir, recordando que E{2 } = 2 + E 2 {}
podramos decir que:
1 = g1 (X) posiblemente se ha construido tratando de
El estimador Y
minimizar el termino E 2 {} de la expresi
on anterior, pues, en efecto,
el error tiene media nula, pero no se ha prestado atenci
on a la varianza
2
del mismo.
2 = g2 (X) posiblemente se ha construido tratando
El estimador Y
de minimizar el termino 2 de la expresi
on anterior, pero no se ha
considerado el termino E 2 {}, de forma que el error tiene una media
distinta de cero.
En el tercer caso se ha atendido a ambos criterios a la vez, esto es,
se ha dise
nado con el criterio de minimizar E{2 }, por lo que se ha
logrado una variabilidad peque
na y ausencia de sesgo6 .
Los estimadores que se construyen acorde con la losofa de minimizar
atico
el valor de E{2 } se denominan estimadores de mnimo error cuadr
medio y se denotan de forma abreviada por las siglas de su equivalente en
ingles MMSEE (minimum mean square error estimator). En lo que sigue
este sera el criterio que emplearemos para dise
nar estimadores.
La estructura de la exposici
on es como sigue: en primer lugar haremos
una recopilaci
on de los tres resultados b
asicos de esta seccion 3.7. Con ello
se pretende disponer de una gua de referencia r
apida, ajena a los detalles
de obtenci
on de los mismos. A continuaci
on deduciremos tales resultados: en primer lugar estimaremos mediante una constante y obtendremos
6
Lo dicho es cierto, u
nicamente, para el caso en que la magnitud a estimar sea una
VA ya que, como veremos, los estimadores presentar
an felizmente ausencia de sesgo
(a los cuales se denomina insesgados). Si la magnitud a estimar fuese una constante
determinstica desconocida, y estimada a partir de observaciones de VAs, la estimaci
on
que se construyese en base a minimizar el VCM del error no tendra por que dar lugar
a estimadores insesgados, pudiendose perfectamente llevar a cabo un intercambio entre
sesgo y varianza para minimizar tal VCM. Los estimadores de constante determinstica
que s se ajustaran a este tercer caso seran los conocidos como estimadores insesgados
de mnima varianza [4]. Estas cuestiones, no obstante, caen fuera de los objetivos de este
tratado, mencion
andose aqu u
nicamente por completitud.
161
que constante es la optima en el sentido MMSE. Seguidamente haremos

lo propio, pero permitiendo que el estimador sea una funci
on lineal de la
observacion. Encontraremos que recta es la optima en el sentido MMSE.
Por u
ltimo, eliminaremos todo tipo de restriccion a la expresion funcional
del estimador, de forma que deduciremos cual es el estimador optimo sin
restricciones.
3.7.2
Resumen de estimadores
= g(X) = a.
Estimador mediante una constante: Y
a = E{Y}
(3.54)
= g(X) = aX + b
Estimador lineal Y
CXY
2
X
b = E{Y} aE{X}
a =
(3.55)
(3.56)
= g(X)
Estimador optimo sin restricciones Y

g(X) = E{Y|X} =
3.7.3
yfY (y|x)dy
(3.57)
Estimaci
on mediante una constante
= g(X) = a, es decir, estimar

Se va a construir un estimador del tipo Y
mediante una constante, con independencia de la observaci
on recibida. Como es natural, este estimador sera de una calidad cuestionable, pero es
interesante conocerlo con el n de poder ver que existen condiciones en las
que un estimador tan simple es el optimo.
Para hallar el valor de la constante que minimiza el error cuadratico
medio procedemos de la forma siguiente:
=Ya
= Y&
Y

2 '
$
%
2
= E (Y a)2
E{ } = E Y Y
Entonces el valor de a optimo ser
a (llamemos al optimo a )
$
a = arg min E (Y a)2

a
162
C. Alberola L
opez
y por ello
$
dE (Y a)2
da
= E{2 (Y a) (1)}
con lo que igualando a cero y despejando a favor de a obtenemos el resultado

a = E{Y}.
En cuanto al error
E{} = E {Y a } = E {Y} a = 0
$
2
E{2 } = E (Y a )2 = E (Y E{Y})2 = Y
es decir, estamos cometiendo un error de media nula, y con una varianza

tan grande como la de la varianza de la variable que pretendemos observar.
3.7.4
Estimaci
on mediante una funci
on lineal de la observaci
on
= aX + b, es decir, una funci

En este caso, el estimador sera del tipo Y
on
lineal del dato observado. Para hallar el valor de las constantes que minimizan el error cuadr
atico medio procedemos de una forma similar al caso
anterior:
= Y (aX + b)
= YY
2
E{ } = E
&
YY
2 '
= E [Y (aX + b)]2
(3.58)
Derivando con respecto a cada uno de los par
ametros e igualando a cero
$
E [Y (aX + b)]2
a
%
E [Y (aX + b)]2
$
= E{2(Y (aX + b))(X)} = 0 (3.59)

= E{2(Y (aX + b))(1)} = 0
A partir de la ecuaci
on (3.60) despejamos para obtener
E{Y} aE{X} b = 0 b = E{Y} aE{X}
y sustituyendo en (3.59)
E{XY} aE{X2 } bE{X} = 0
(3.60)
163
E{XY} aE{X2 } (E{Y} aE{X})E{X} = 0

E{XY} E{X}E{Y} a(E{X2 } E 2 {X}) = 0
CXY
2
= 0 a = 2
CXY aX
X
Por lo tanto
CXY
2
X
= E{Y} a E{X}
a =
(3.61)
(3.62)
Al respecto del error podemos hacer un analisis similar al hecho en la

seccion anterior. Concretamente:
E{} = E {Y (a X + b )} = 0 (compruebese)
$
E{2 } = 2 = E [Y (a X + b )]2
= E [Y (a X + E{Y} a E{X})]2
$
= E [Y E{Y} a (X E{X})]2
(3.63)
2
2
= Y
+ (a )2 X
2a E{(Y E{Y})(X E{X})}
2
2
+ (a )2 X
2a CXY
= Y
2
Y
CXY
2
X
2
2
X
2
CXY
2 CXY
X
2
C2
CXY
2
2
= Y
XY
=
Y
2
2 2
X
Y
X
2
= Y
(1 2XY )
(3.64)
con XY el coeciente de correlacion entre las variables involucradas.

Notese por lo tanto:
2 , y coincidir
Si XY = 0 entonces 2 = Y
a con el caso de estimacion
mediante una constante. Notese que, en efecto, a = 0 dado que la
covarianza CXY sera nula (ecuacion 3.61), y as pues estimaramos
solo con b = E{Y} (ecuacion 3.62). Este

sera el caso de ausencia de
relaci
on lineal entre las VAs, esto es, no poder estimar mejor (en sentido MMSE) mediante una funci
on lineal que mediante una constante
(seg
un indicamos ya en el ejercicio de la p
agina 155).
164
C. Alberola L
opez
Si |XY | = 1 entonces 2 = 0. La estimacion en este caso no sera una

VA, sino una constante, y el error sera nulo. Estaramos estimando
con precision perfecta. Por tanto, n
otese que cuando se produce esta
situaci
on, el conocimiento de X hace que se conozca sin error ninguno
la variable Y. Estaramos en el caso de ambas variables relacionadas
mediante una funci
on determinstica, concretamente, mediante una
funci
on lineal.
3.7.5
Principio de ortogonalidad
La estimacion lineal cumple el llamado principio de ortogonalidad que consiste en lo siguiente: considerando, como ya hemos dicho, la operaci
on
E{XY} como un producto escalar de las variables X e Y, aplicamos esta
operacion al error
E{X} = E {(Y (a X + b ))X}
(3.65)
= E{XY} (a )E{X } b E{X}

= E{XY} (a )E{X2 } E{Y}E{X} + a E 2 {X}
2
= CXY CXY = 0
= CXY a X
^ = g (X)
Y
X

on del principio de ortogonalidad.
Puede por tanto concluirse que el estimador lineal es tal que el error
cometido es ortogonal a la observaci
on empleada. Podemos interpretar esto
gr
acamente como que estaramos proyectando la variable a estimar sobre
la observaci
on, de modo que el error cometido sera la componente de Y
que se pierde al proyectar (vease gura 3.20).
Este principio es una forma equivalente de obtener las ecuaciones de los
par
ametros de la estimacion. Rep
arese que, de hecho, la expresion (3.65)
es equivalente a la ecuacion (3.59).
3.7.6
165
Estimaci
on
optima sin restricciones
Se pretende ahora construir el estimador optimo sin ninguna restriccion

funcional sobre el mismo. Por ello, tendremos que acudir a su denici
on
generica mediante la funci
on g(X) y optimizar sobre dicha funci
on
= Y g(X)
= YY
$
E{ } = E (Y g(X))

(y g(x))2 fXY (x, y)dxdy
(y g(x))2 fY (y|x)fX (x)dxdy
(3.66)
Entonces el estimador optimo sera (llamemosle g (X))

g (X) = arg min E{2 }
(3.67)
g(X)
Acorde con la ecuacion (3.66) podemos escribir

fX (x)dx
(y g(x)) fY (y|x)dy =
(g(x))fX (x)dx
(3.68)
Minimizar esta ecuacion con respecto a g(x) equivale a minimizar (g(x), x)

con respecto a g(x). Por ello, podemos escribir
d(g(x), x)
dg(x)
g(x)
= (2)
d(g(x))
dg(x)
= 0
yfY (y|x)dy = g(x)
g (x) =
(y g(x))2 fY (y|x)dy
(y g(x))fY (y|x)dy
(y g(x))fY (y|x)dy = 0
fY (y|x)dy = g (x)
(yfY (y|x)dy = E{Y|x}
(3.69)
Por lo tanto, podemos ver que el estimador optimo sin restricciones

es g (X) = E{Y|X}, es decir, la esperanza de la variable Y condicionada al valor que haya tomado la variable X. Notese que en el caso en
que las variables sean independientes, dado que fY (y|x) = fY (y), entonces E{Y|X} = E{Y} de forma que el estimador optimo, en este caso,
coincidira con el estimador mediante una constante.
Como resumen, podemos decir que
166
C. Alberola L
opez
1. En general 2 constante 2 lineal 2 no lineal

2. Si las VAs son incorreladas 2 constante = 2 lineal
3. Si las VAs son independientes 2 constante = 2 no lineal
Ejercicio: Obtenga la media E{} y la varianza 2 del error
de estimacion = Y E{Y|X}.
Soluci
on:
Al respecto del valor medio:
E{} = E{Y E{Y|X}} = E{Y} E{E{Y|X}}
= E{Y} E{g(X)}
= E{Y}
= E{Y}
= E{Y}
= E{Y}

yfY (y|x)dy fX (x)dx
yfXY (x, y)dxdy

ydy
fXY (x, y)dx
yfY (y)dy
= E{Y} E{Y} = 0
Respecto de la varianza:
2 = E{2 } = E{(Y E{Y|X})2 }

=
=
(y E{Y|x})2 fXY (x, y)dxdy

(y E{Y|x})2 fY (y|x)fX (x)dxdy
fX (x)dx
(y E{Y|x})2 fY (y|x)dy
2
Y|x
fX (x)dx
2
}
= E{Y|X
Captulo 4
Variable N-dimensional
4.1
Conceptos b
asicos
Se pretende ahora generalizar al caso N-dimensional los conceptos vistos

para N = 2 en el captulo anterior. En este captulo consideraremos que
las VAs vienen dadas mediante un vector X = [X1 , . . . , XN ]T de N componentes. Esta notacion vectorial nos permitir
a hacer, en algunos casos,
operaciones con vectores y matrices de forma sencilla.
El hecho de trabajar con un n
umero generico N de variables en vez
de con N = 2 no supone cambio conceptual alguno; simplemente a
nade
complejidad a las operaciones, pero los conceptos b
asicos y, en particular,
el concepto de comportamiento conjunto, se extienden directamente del
caso de N = 2 a un caso de dimensi
on arbitraria. Rep
arese, no obstante,
que los momentos denidos en las expresiones (3.46) y (3.47) de la seccion
3.6.2, as como el coeciente de correlacion, son conceptos implcitamente
bidimensionales, de los cuales aqu tambien haremos uso de ellos.
As pues podemos recordar y extender conceptos generales de las VAs
de la forma que sigue:
1.
FX (x) = FX1 X2 ...XN (x1 , x2 , . . . , xN )
= P (X1 x1 , X2 x2 , . . . , XN xN )
2. fX (x) = fX1 X2 ...XN (x1 , x2 , . . . , xN ) =
3. P (X D) =
N FX1 X2 ...XN (x1 ,x2 ,...,xN )

x1 x2 ...xN
D fX1 X2 ...XN (x1 , x2 , . . . , xN )dx1 dx2 . . . dxN
con D una regi

on arbitraria en el hiperespacio N -dimensional.
167
168
C. Alberola L
opez
4. Reduccion del n
umero de variables de las funciones. Si consideramos,
por ejemplo, que N = 4, podemos escribir
FX1 X3 (x1 , x3 ) = FX1 X2 X3 X4 (x1 , , x3 , )

fX1 X4 (x1 , x4 ) =
(4.1)
fX1 X2 X3 X4 (x1 , x2 , x3 , x4 )dx2 dx3

(4.2)
5. Transformaciones: si ahora se verica que Y = g(X), donde por g()

representamos en modo compacto un vector g() = [g1 (), g2 (), . . . , gN ()]T
de N transformaciones de RN R, entonces el teorema fundamental
extendido a N dimensiones se puede escribir

M

fX1 ...XN (x1 , . . . , xN )
fY1 ...YN (y1 , . . . , yN ) =

|J|
i=1
(4.3)
(xi1 ,...,xiN )
donde el jacobiano de la transformaci

on es ahora

J =

g1
x1
..
.
gN
x1
..
.
g1
xN
..
.
gN
xN

(4.4)
y los puntos (xi1 , . . . , xiN ), i = (1, . . . , M ) son los M puntos del dominio origen que se convierten en el punto (y1 , . . . , yN ) donde estamos
construyendo la funci
on de densidad de la VA Y.
Si el n
umero de transformaciones gi fuese k < N , entonces podramos
hacer uso de N k variables auxiliares para poder aplicar el teorema
fundamental. Con ello, extenderamos a N VAs el metodo de la VA
auxiliar visto en la seccion 3.5.4.
6. Independencia: tambien este concepto se extiende de una forma natural al caso de N variables. Si estas son independientes se verica que
existe independencia entre los sucesos denidos a partir de las mismas, en particular, entre los sucesos {Xi xi } y {Xj xj } i = j.
Por ello podremos escribir1
FX1 X2 ...XN (x1 , x2 , . . . , xN ) =
N
FXi (xi )
(4.5)
i=1
1
En terminos estrictos y seg
un la notaci
on de la secci
on 1.7, el suceso en el experimento
compuesto asociado al suceso {Xi xi } debera escribirse S1 Si1 {Xi
on simplicada, no obstante.
xi } Si+1 SN . Emplearemos la notaci
Captulo 4. Variable N-dimensional
169
fX1 X2 ...XN (x1 , x2 , . . . , xN ) =
N
fXi (xi )
(4.6)
i=1
N
otese que esta expresion implica independencia entre cada dos variables, entre cada tres etc ..., hasta la independencia conjunta de las
N variables. El motivo no es otro que a partir de las expresiones
anteriores podemos reducir a nuestro gusto el n
umero de VAs involucradas sin mas que aplicar la operativa indicada en las expresiones
(4.1) y (4.2) y la igualdad se seguira manteniendo.
7. Distribuciones condicionadas: en el captulo anterior obtuvimos que
fXY (x, y) = fX (x|y)fY (y)
(4.7)
(expresiones 3.24 y 3.25). Para el caso de N variables las relaciones

anteriores se generalizan de una manera similar a como se escriba
on de N sucesos en el primer captulo
(ecuacion 1.25). All escribamos
P (A1 , A2 , . . . , AN ) = P (A1 |A2 , . . . , AN )P (A2 , . . . , AN ) =
= P (A1 |A2 , . . . , AN )P (A2 |A3 . . . , AN )
P (A3 |A4 . . . AN ) P (AN 1 |AN )P (AN )
(4.8)
o bien, de forma equivalente
P (A1 , A2 , . . . , AN ) = P (A1 , A2 |A3 . . . , AN )P (A3 , . . . , AN ) =
= P (A1 , A2 |A3 . . . , AN )
P (A3 |A4 . . . , AN ) P (AN 1 |AN )P (AN )
(4.9)
Siguiendo este planteamiento, podemos escribir de forma similar2 ,
f (x1 , x2 , . . . , xN ) = f (x1 |x2 , . . . , xN )f (x2 , . . . , xN ) =
= f (x1 |x2 , . . . , xN )f (x2 |x3 . . . , xN )
f (x3 |x4 . . . xN ) f (xN 1 |xN )f (xN )
(4.10)
Como norma general:
2
Para no sobrecargar la notaci

on quitamos los subndices a las funciones de densidad
por ser obvio a que variables nos referimos.
170
C. Alberola L
opez
(a) Para eliminar una variable a la izquierda de la lnea del condicionante, integramos con respecto a ella. Por ejemplo, para
pasar de f (x1 , x2 |x3 ) a f (x1 |x3 ), integramos con respecto a x2 .
En efecto, vease que
f (x1 , x2 |x3 ) =
f (x1 , x2 , x3 )
f (x3 )
y, como sabemos, para eliminar la dependencia de x2 en la variable conjunta, integramos respecto a ella. As pues

f (x1 , x2 |x3 )dx2 =
f (x1 , x3 )
f (x1 , x2 , x3 )dx2
=
= f (x1 |x3 )
f (x3 )
f (x3 )
(b) Para eliminar la inuencia de una variable que se encuentra a

la derecha del condicionante, multiplicaramos por la funci
on
de densidad de esa variable condicionada al resto de las VAs
condicionantes, e integraramos con respecto a ella. Por ejemplo,
para eliminar la inuencia de x2 en f (x1 |x2 , x3 ) dado que
f (x1 |x2 , x3 ) =
f (x1 , x2 , x3 )
f (x2 , x3 )
si ahora multiplicamos por f (x2 |x3 ), tendramos

f (x1 |x2 , x3 )f (x2 |x3 ) =
f (x1 , x2 , x3 ) f (x2 , x3 )
f (x2 , x3 )
f (x3 )
on
de forma que ya aparece la dependencia de x2 solo en la funci
conjunta. Por tanto, integrando respecto a ella tendramos

f (x1 , x2 , x3 ) f (x2 , x3 )
dx2
f (x2 , x3 )
f (x3 )

f (x1 , x2 , x3 )
=
dx2
f (x3 )
f (x1 , x3 )
=
= f (x1 |x3 )
f (x3 )
(4.11)
f (x1 |x2 , x3 )f (x2 |x3 )dx2 =
8. Respecto de la estimacion MMSE: si la estimaci

on es lineal, en el caso
de N variables se deseara estimar la VA Y como funci
on lineal de
X1 , . . . , XN , esto es,
= g (X1 , . . . , XN ) =
Y
N

i=1
ai Xi + b
(4.12)
171
Los coecientes ai , i={1,. . . ,N} y b se obtienen siguiendo un procedimiento similar al empleado para obtener las ecuaciones (3.59) y (3.60)
de la seccion 3.7.4. En este caso el n
umero de ecuaciones resultante
sera de N +1, coincidente con el n
umero de incognitas en la expresion
(4.12).
Si el estimador es el optimo sin restricciones, la extension al caso de
N variables de lo visto en la seccion 3.7.6 es inmediata: debe calcularse la esperanza de Y condicionada a todas las variables observadas.
Concretamente, la expresion (3.69) ahora se generaliza de la forma
= g (X1 , . . . , XN ) =
Y
yfY (y|X1 , . . . , XN ) dy
= E {Y|X1 , . . . , XN }
4.2
(4.13)
Esperanzas matem
aticas
El operador esperanza lleva a cabo la misma funcion que para el caso de

N = 2. No obstante, para un N generico, es comodo ordenar las esperanzas de cada variable por separado, y las esperanzas del producto de cada
dos variables, respectivamente, en vectores y matrices. Con esta ordenacion, aparte de poder expresar la informacion de forma m
as compacta, se
podr
an hacer operaciones de forma mas rapida como veremos en la seccion
siguiente.
Por ello, podemos denir:
1. Vector de medias:
= E{X} =
X1
X2
..
.
(4.14)
XN
2. Matriz de correlaci
on:
RX
= E{XX } =
E{X1 X1 }
E{X2 X1 }
..
.
E{X1 X2 }
E{X2 X2 }
..
.
..
.
E{X1 XN }
E{X2 XN }
..
.
E{XN X1 } E{XN X2 } E{XN XN }
172
C. Alberola L
opez
E{X21 } RX1 X2 RX1 XN

RX2 X1 E{X22 } RX2 XN
..
..
..
..
.
.
.
.
RXN X1 RXN X2 E{X2N }
(4.15)
Notese, pues, que esta matriz no es otra cosa que una tabla de N 2
elementos, donde los terminos de la diagonal principal son los VCMs
de cada variable y el resto de los elementos son las correlaciones cruzadas entre cada dos variables distintas. Obviamente, para variables
reales esta matriz es simetrica.
3. Matriz de covarianza: matriz similar a la anterior, pero ahora el termino cij es la covarianza entre Xi y Xj , es decir, cij = E{(Xi Xi )(Xj
Xj )}. Ello trae consigo que, en particular, los elementos de la diagonal principal sean las varianzas de cada una de las variables. As pues3
CX =
2
X
1
CX2 X1
..
.
CX1 X2
2
X
2
..
.
CXN X1
CXN X2
CX1 XN
CX2 XN
..
..
.
.
2
X
N
(4.16)
En este caso la matriz es una tabla de N 2 n

umeros en los que los
elementos de la diagonal principal son las varianzas de cada variable
y el resto son las covarianzas entre cada dos variables distintas. Esta
matriz tambien es simetrica para VAs reales.
De manera equivalente al caso bidimensional:
El vector X esta formado por componentes ortogonales si RXi Xj = 0
i = j.
El vector X esta formado por componentes incorreladas si CXi Xj = 0
i = j.
3
Seg
un la expresi
on (4.16) deberamos llamar a esta matriz de varianzas y covarianzas, as como a la matriz de la expresi
on (4.15) matriz de valores cuadr
aticos medios y
correlaciones. Aqu se ha empleado, sin embargo, la denominaci
on m
as com
un en el
area
de Teora de la Se
nal, aun a riesgo de pecar de anglicista.
173
El interes de que las componentes sean ortogonales y/o incorreladas

viene dado por la nulidad de las esperanzas cruzadas en un problema de
m
ultiples variables. Concretamente:
1. Si las variables Xi son ortogonales, entonces se verica que el VCM
de la variable Z = N
i=1 Xi es igual a la suma de los VCMs. En efecto
E{Z2 }

N

2
Xi
i=1
N
X2i
+E
i=1
N
E X2i +
i=1
N
E X2i +
N
Ortog.
i=1
N
N
Xi Xj
i=1 j=1
Xi Xj
j=1
j=i
E {Xi Xj }
j=1
j=i
N
N

i=1
E X2i
N
N
i=1
i=1
=
=E
N
N
R Xi Xj
j=1
j=i
(4.17)
i=1
2. Si las variables fuesen incorreladas, se podran obtener conclusiones

similares, pero en este caso en relacion con la varianza. Concretamente, la varianza de la suma sera igual a la suma de las varianzas.
En efecto:
E{(Z Z )2 }

N

i=1

N

Xi
2
Xi
i=1
i=1
(Xi Xi )(Xj Xj )
i=1 j=1
N
2
(Xi Xi )
i=1
N
N

N
#
2
(Xi Xi )
174
C. Alberola L
opez
N
N
i=1
N
N
N
Incorr.
E (Xi Xi )(Xj Xj )
j=1
j=i
E (Xi Xi )2 +
i=1
=
(Xi Xi )(Xj Xj )
j=1
j=i
E (Xi Xi )2 +
i=1
N
N

i=1
N
N

i=1
2
X
i
CXi Xj
j=1
j=i
(4.18)
i=1
4.3
Variables conjuntamente gaussianas
N variables aleatorias son conjuntamente gaussianas si la funci

on de densidad conjunta de las mismas se puede escribir de la forma que sigue:
fX1 ...XN (x1 , . . . , xN ) = fX (x)
1
1
12 (x X )T C X (x X )
e
(4.19)
=
1
N
|CX | 2 (2) 2
donde x = [x1 , x2 , . . . , xN ]T y X y C X son, respectivamente, el vector de
medias (expresion 4.14) y la matriz de covarianzas (expresion 4.16) de la
variable N-dimensional.
Si N VAs son conjuntamente gaussianas se verica [12]:
2 ), i = 1, . . . , N ;
1. que Xi N (Xi , X
i
2. que cualquier subconjunto de k < N VAs extrado del vector X tambien constituye un vector de VAs conjuntamente gaussianas;
3. que la funci
on de densidad de cualquier conjunto de k < N VAs
del vector X, condicionada al conjunto de N k VAs restantes, es
tambien conjuntamente gaussiana.
El estudio de variables gaussianas y conjuntamente gaussianas es particularmente interesante por diversas razones. Entre ellas:
175
1. Como se acaba de ver, la funci

on de densidad conjunta de la variable
gaussiana N -dimensional viene completamente caracterizada por el
vector de medias y por la matriz de covarianzas. Por tanto, la funcion de densidad conjunta (a partir de la cual, recuerdese, se pueden
calcular momentos centrales y no centrales de ordenes arbitrarios y
que involucren a tantas variables como deseemos) viene dada, exclusivamente, por el momento no central m1 de cada VA (vease la seccion
2.7.1), y por el momento central de ordenes r = 1 y s = 1 para cada
par de VAs (vease seccion 3.6.2).
2. Seg
un se vera (seccion 4.5.1), el Teorema del Lmite Central hace que
en la naturaleza muchos problemas de ndole estocastico tiendan a
comportarse de forma gaussiana.
3. Los estimadores lineal y no lineal optimos coinciden, es decir, para el
caso de variables conjuntamente gaussianas las expresiones resultantes de (4.12) y (4.13) son identicas. Esto es debido a que la funci
on
de densidad conjunta (4.19) se construye haciendo uso, u
nicamente,
de medias y covarianzas, que es, a su vez, la informacion de que hace
uso el estimador lineal (4.12).
4. En la gaussiana N -dimensional incorrelaci
on tambien implica independencia. N
otese que si las variables Xi estan incorreladas entre
s entonces la matriz CX (ecuacion 4.16) es una matriz diagonal. Esto hace en la expresion (4.19)
que el determinante de la matriz CX pueda escribirse como el
2 de las N variables involucradas;
producto de las varianzas X
i
que la forma cuadr
atica que acompa
na la exponencial no tenga
terminos cruzados del tipo (xi Xi )(xj Xj ), i = j. Por ello, la
exponencial se puede escribir como productos de exponenciales
con exponente de la forma

(xi Xi )2
exp
2
2X
i
Aplicando estas simplicaciones es inmediato comprobar que fX (x) =

N
on implica,
i=1 fXi (xi ), de forma que, como hemos dicho, incorrelaci
para este tipo de variables, independencia.
176
C. Alberola L
opez
5. La transformaci
on lineal Y = AX del vector X de VAs conjuntamente
gaussianas da lugar a un vector Y de VAs tambien conjuntamente
gaussianas si la matriz Y es cuadrada y de rango completo N .
Ejercicio 1: Demuestrese por medio del Teorema Fundamental
N-dimensional (expresi
on 4.3) que si A es una matriz cuadrada
de N N y rango completo, entonces la VA generada mediante
Y = A X es un vector de VAs conjuntamente gaussianas si el
vector X lo es. Obtenga la expresi
on de Y y C Y en funci
on
de X y C X .
Soluci
on: Si A es de rango completo entonces la combinacion
lineal asociada a ella es biyectiva. Por ello, podemos escribir:

fX1 ...XN (x1 , . . . , xN )

=

1
|J|
x=A y
fY1 ...YN (y1 , . . . , yN ) =
|C X | 2 (2)
e 2 (A
N
2
y X )T C X (A
y X )
|A|
= fY (y)
Denominando por conveniencia
= A X
(4.20)
entonces podemos escribir

fY (y) =
=
=
1
2
N
2
1
2
N
2
|C X | |A|(2)
1
|C X | |A|(2)
1
1
e 2 (A
1
e 2 (A
yA
(y))T C X (A
|C X | 2 |A|(2) 2
)T C X (A
e 2 (y)
yA
(y))
1
1 1
T (A
)T C X A (y)
(4.21)
Si denominamos ahora
T
C = A C XA
(4.22)
177
y recordando que
(A B)T
(B
1 T
= B A
= (B )1
|A B| = |A||B|
(suponiendo en el u
ltimo caso que ambas matrices son cuadradas y de la misma dimension), entonces
C
= (A )1 C X A
= (A
1 T
) CX A
y tambien se verica que

T
|C| = |A C X A | = |A||C X ||A | = |C X ||A|2

de forma que volviendo a la ecuacion (4.21) podemos escribir
fY1 ...YN (y1 , . . . , yN ) =
1
1
2
|C| (2)
N
2
e 2 (y)
TC
(y)
(4.23)
por lo que concluimos que, en efecto, el vector Y es un vector
de variables conjuntamente gaussianas.
Asimismo, comparando la expresion obtenida con la indicada
por denici
on en la ecuacion (4.19) vemos que los parametros
Y y C Y , coinciden con los denidos por comodidad en las
expresiones (4.20) y (4.22), por tanto
Y = A X
C Y = A C XA
Ejercicio 2: Razonese que si A es una matriz de dimensiones

M N , con M < N , y de rango M , entonces la VA generada
mediante Y = A X es un vector de VAs conjuntamente gaussianas. Obtenga la expresi
on de Y y C Y en funci
on de X y
C X.
Soluci
on: La respuesta es armativa y para ello podemos razonar:
178
C. Alberola L
opez
Si M < N entonces tenemos un problema de M VAs en

dominio destino y N VAs en dominio origen.
Podemos construir N M VAs Z = [Z1 . . . ZN M ]T auxiliares, y construir la transformaci
on lineal

Y
Z
= BX
con B una matriz cuadrada de rango completo N . Una

eleccion razonable es que el vector de VAs coincida, por
ejemplo, con las N M u
ltimas VAs, es decir que
Z = [Z1 . . . ZM N ]T = [XM +1 . . . XN ]T
lo cual puede conseguirse facilmente haciendo que
B=
A
0 I N M
con 0 la matriz nula de dimensiones (N M ) M e I N M

la matriz identidad de dimensi
on N M .
Seg
un se ha visto en el ejercicio anterior, el vector [Y Z]T
es un vector de VAs conjuntamente gaussianas.
Por denici
on, si el vector completo esta formado por VAs
conjuntamente gaussianas, cualquier subconjunto de VAs
extrado del mismo tambien es conjuntamente gaussiano,
en particular, un subconjunto formado por M (M < N )
VAs.
Al respecto de Y y C Y , aplicando la linealidad del operador
esperanza:
Y = E{Y} = E{A X} = A X
C Y = E{(Y Y )(Y Y )T }
= E{(A X A X )(A X A X )T }
T
= E{A(X X )(X X )T A }
T
= AE{(X X )(X X )T }A = A C X A
(4.24)
expresiones que coinciden, respectivamente, con (4.20) y (4.22)
179
Ejercicio 3: Particularcese la expresion (4.19) para el caso

N = 2 (gaussiana bivariante).
Soluci
on: Para el caso que se pide empleemos la notacion
(X, Y) de forma similar a como hacamos en el captulo 3. La
matriz de covarianza puede escribirse:

C XY =
2
X
CXY
2
CXY Y
cuyo determinante es
2 2
2
2 2
|C XY | = X
Y CXY
= X
Y (1 2XY )
y su inversa
1
C XY
1
= 2 2
X Y (1 2XY )
2
Y
CXY
2
CXY X
La expresion (4.19) se particulariza para este caso de la forma

fXY (x, y) =
2 2 (1
X
Y
2XY )
e 2
con la forma cuadr

atica presente en (4.19), la cual pasa a ser:
=
=
2XY )
2 2 (1
X
Y
x X y Y
x X y Y
1
C XY
x X
y Y
2
Y
CXY
2
CXY X

x X
y Y
2 (x )2 2C
2
2
Y
X
XY (x X )(y Y ) + X (y Y )
2 2 (1 2 )
X
Y
XY
1
(1 2XY )
(x X )2
(x X )(y Y ) (y Y )2
2XY
+
2
2
X X
X
Y
180
C. Alberola L
opez
Por tanto, la expresi

on de la gaussiana bivariante es
fXY (x, y) =
X Y 2 1 2XY

1
12
(12
)
XY
(xX )(yY )
(xX )2
(yY )2
2XY
+
X X
2
2
X
Y
(4.25)
Ejercicio 4: Compruebe que, para el caso de una VA gaussiana

bivariante, el estimador lineal optimo coindice con el estimador
optimo sin restricciones.
Soluci
on: A partir de la expresi
on (4.25) denominemos, por
simplicidad en la escritura 1 = x X y 2 = y Y ; podemos
entonces escribir
fXY (1 , 2 ) =
X Y 2 1 2XY

1
12
(12
)
XY
e
=
12
2

2XY 1 2 + 22
2
X
X
X
Y
X Y 2 1 2XY
12
1
(1 ,2 )
(12
)
XY
(4.26)
Entonces
(1 , 2 ) =
2 2 2
2 2
Y
XY X Y 1 2 + X 2
1
2
2
X Y
2 2 podemos conseguir un cuadrado

Sumando y restando 2XY Y
1
perfecto de la forma
(1 , 2 ) =
2 2 2
2 2
Y
XY X Y 1 2 + X 2
1
+
2 2
X
Y
2 2 2 2 2
2XY Y
1
XY Y 1
2 2
X
Y
2 2 1 2
(X 2 XY Y 1 )2 + Y
1
XY
2 2
X
Y
181
Y
2
X
2
XY X 1
2
2 2 1 2
+ Y
1
XY
2 2
X
Y
2 XY Y
1
X
2
2 1 2XY
+ 1
2
X
2
Y
Por ello, retomando la expresi

on (4.26)
fXY (1 , 2 ) =
X 2
12 12
XY
1
2(12
2
)
XY
X
Y 2(1 2XY )
1
2(12
)
XY
2 XY Y 1
X
2
Y
con lo que si devolvemos la expresion a las variables originales

x e y tendremos
fXY (x, y) =
X 2
(xX )2
2
X
Y 2(1 2XY )
=
X 2
(xX )2
2
X
(yY )XY Y (xX )

X
2
2
2(1
)
XY Y

Y 2(1 2XY )
y Y +XY Y (xX )
X
2
2(1
) 2
XY Y
2
= fX (x)fY (y|x)
donde la u
ltima igualdad procede de las identidades (3.24) y
(3.25). Entonces podemos armar que
X N (X , X )

!
Y
Y|x N Y + XY
(x X ), Y 1 2XY
X
(4.27)
por lo que, seg
un se desprende de (4.27)
Y
(X X )
E{Y|X} = Y + XY
X
182
C. Alberola L
opez
que resulta ser una funci

on lineal de la VA X.
Ejercicio 5: Considere que la secuencia x[n] = (x[0], x[1], x[2], x[3])

es ltrada a traves de un sistema lineal e invariante (LTI) con
respuesta al impulso h[n] = (h[0], h[1], h[2]). Se pide que escriba
la secuencia de salida en forma matricial.
Soluci
on: Como es bien sabido, la secuencia de salida de un
sistema LTI con respuesta al impulso h[n] cuando la entrada
es x[n] se obtiene mediante la expresion de la convoluci
on de
se
nales discretas
y[n] =
h[k]x[n k]
k=
Para el caso que se plantea en el ejercicio, el sumatorio tiene un

recorrido nito. La secuencia x[n] tiene un tama
no de L = 4
puntos y la respuesta al impulso de P = 3 puntos. Por ello,
la secuencia de salida y[n] tiene un tama
no de L + P 1 =
4 + 3 1 = 6 puntos, cuyos valores son:
y[0] = x[0]h[0]
y[1] = x[0]h[1] + x[1]h[0]
y[2] = x[0]h[2] + x[1]h[1] + x[2]h[0]
y[3] = x[1]h[2] + x[2]h[1] + x[3]h[0]
y[4] = x[2]h[2] + x[3]h[1]
y[5] = x[3]h[2]
lo cual puede escribirse matricialmente como
y[0]
y[1]
y[2]
y[3]
y[4]
y[5]
h[0]
h[1]
h[2]
0
0
0
0
h[0]
h[1]
h[2]
0
0
0
0
h[0]
h[1]
h[2]
0
0
0
0
h[0]
h[1]
h[2]
x[0]
x[1]
x[2]
x[3]
Por tanto dado que la expresi

on de la convoluci
on no es otra
que la de una combinaci
on lineal, es obvio que si la entrada a
183
un sistema LTI es un vector de VAs conjuntamente gaussianas,

la salida lo sera tambien4 .
4.4
Variables complejas
En el caso en que las variables involucradas sean complejas, los resultados que hemos visto hasta ahora son aplicables con peque
nas variaciones.
Concretamente, una variable compleja Z = X + jY tiene dos componentes
reales, de forma que la funci
on de densidad de la variable compleja coincide
con la funci
on de densidad de la variable bidimensional (X, Y). Para el caso de dos variables complejas tendramos cuatro variables reales, de forma
que la funci
on conjunta sera una funci
on de densidad tetradimensional.
Estos resultados se extenderan al caso de N variables.
Con respecto a las esperanzas, E{Z} = E{X + jY} = E{X} + jE{Y}.
Como puede verse, una esperanza es una medida de tendencia central, de
forma que la media localiza a la variable compleja en torno a un punto del
plano complejo.
Por otra parte, la varianza es una medida de dispersi
on, y medira en
este caso como se dispersa la variable compleja con respecto a su valor
medio. As pues, se plantea como un radio de dispersion de la forma
2
Z
= E{|Z Z |2 } = E{(Z Z )(Z Z ) }
= E{ZZ } Z Z
= E{|Z|2 } |Z |2
(4.28)
donde E{|Z|2 } es el VCM de la variable Z.

Si g(Z) es una funci
on de la variable compleja Z el calculo de E{g(Z)}
se hace deniendo esta funcion en base a las componentes real e imaginaria
de Z. As pues, considerando que g(Z) se puede expresar en base a estas
componentes como (X, Y) entonces

E{g(Z)} = E{(X, Y)} =

4
(x, y)fXY (x, y)dxdy
(4.29)
Estrictamente hablando, s
olo las L primeras VAs seran conjuntamente gaussianas
pues las P 1 restantes son calculables a partir de las primeras. No obstante, en casos
pr
acticos el valor de L suele ser mucho mayor de P , por lo que los efectos de bordes de
los transitorios del ltro son despreciables.
184
C. Alberola L
opez
Si Z1 = X1 + jY1 y Z2 = X2 + jY2 son dos variables complejas

independientes, entonces podremos escribir
fX1 Y1 X2 Y2 (x1 , y1 , x2 , y2 ) = fX1 Y1 (x1 , y1 )fX2 Y2 (x2 , y2 )
(4.30)
Finalmente, la correlaci
on y la covarianza se generalizan al caso complejo, simplemente, conjugando la segunda variable. Concretamente
RZ1 Z2
= E{Z1 Z2 }
CZ1 Z2
= E{(Z1 Z1 )(Z2 Z2 ) }
(4.31)
= RZ1 Z2 Z1 Z
2
(4.32)
Notese pues que

RZ2 Z1
CZ2 Z1
= E{Z2 Z1 } = E {(Z1 Z2 )} = RZ
1 Z2
(4.33)
= E {(Z1 Z1 )(Z2 Z2 ) } = CZ 1 Z2
(4.34)
= E{(Z2 Z2 )(Z1 Z1 ) }
de modo que las expresiones dadas para las matrices de correlacion y covarianza (ecuaciones 4.15 y 4.16) eran especcas del caso real. Para VAs
complejas las matrices tienen que incorporar los complejos conjugados, de
modo que las matrices no seran simetricas sino hermticas (la matriz coincide con su conjugada traspuesta).
4.5
4.5.1
Teoremas asint
oticos
Teorema del Lmite Central
En terminos muy amplios, el Teorema del Lmite Central establece que

la distribuci
on de la suma de un n
umero elevado de variables tiende a
comportarse como la distribuci
on de una variable gaussiana, tanto m
as
cuantas mas variables intervengan en la suma. Este teorema aplica cuando
las variables involucradas son independientes, aunque tambien puede ser
cierto en algunos casos de dependencia.
Las versiones mas exigentes del teorema requieren que las variables que
intervienen en la suma sean independientes e identicamente distribuidas (en
adelante IID). No obstante esta segunda condici
on se puede relajar siempre
que ninguna variable domine sobre las dem
as. Como puede cuanticarse
dicho dominio? Una posible forma es la siguiente [1]: denominando a las
variables Xi , i = {1, . . . , N }, entonces
185
a)
b)
c)
d)
Figura 4.1: Ejemplo de convergencia hacia una distribuci

on gaussiana a
partir de VAs U (0, 1). a) Histograma de una u
nica VA. b) Suma de dos
VAs. c) Suma de cinco VAs d) Suma de 10 VAs. En todos los casos se ha
superpuesto en lnea discontinua la funci
on de densidad gaussiana con la
media y varianza de la VA resultante de la suma de las VAs uniformes.
2 >B >0
1. X
1
i
i = 1, . . . , N
2. E{|Xi Xi |3 } > B2
i = 1, . . . , N
con B1 y B2 dos constantes.

Una expresion, por tanto, del teorema es: dadas Xi , i = {1, . . . , N },
variables independientes y que satisfacen las condiciones de suciencia indicadas, entonces la distribuci
on de la variable
Z=
N

i=1
Xi
186
C. Alberola L
opez
tiene el comportamiento

FZ (z) N
z Z
G
Z
(4.35)
con
Z =
2
Z
=
N

i=1
N
Xi
2
X
i
i=1
Notese que se ha hablado de convergencia en distribuci

on, y no se ha dicho
nada del comportamiento de la funci
on de densidad de probabilidad. En
general, en el caso de las variables continuas una convergencia suele traer
consigo tambien la otra, de forma que si se cumple (4.35) se verica tambien
que
(zZ )2
1
2
e 2Z
fZ (z) N
(4.36)
Z 2
on de densidad
No obstante, si las variables Xi fuesen discretas, la funci
de la suma sera la correspondiente a una VA tambien discreta (es decir,
formada por impulsos) de forma que una funci
on de densidad gaussiana
no tendra por que poder ajustarse a este esquema. Un caso particular de
esto, como veremos a continuacion, es el caso en que los valores que tomen
las VAs Xi sean equiespaciados, es decir, Xi = a i.
Intuitivamente puede ilustrarse el funcionamiento del teorema en base al
teorema de la convolucion (vease seccion 3.5.1). Como es sabido, la funci
on
de densidad de la suma de variables independientes es igual a la convoluci
on
de sus funciones de densidad. Considerando variables IID uniformes entre
cero y uno, la gura 4.1a) muestra el histograma normalizado de la VA
Z1 = X1 ; la gura 4.1b) lo hace para la VA Z2 = X1 + X2 y las guras
4.1c) y 4.1d) muestran los histogramas respectivos de las VA Z5 = 5i=1 Xi
10
y Z10 = i=1 Xi Como puede verse, la funci
on de densidad resultante
va adquiriendo progresivamente una envolvente m
as parecida a la curva
gaussiana, tanto m
as cuantas mas funciones de densidad intervienen en la
convoluci
on.
4.5.2
Teorema de DeMoivre-Laplace
Es el caso particular del anterior teorema para VAs discretas con valores
equiespaciados, en concreto, VAs Xi de Bernoulli (de par
ametro p). En
187
este caso, asumiendo independencia entre las VAs, la distribucion de la VA

Z=
N
Xi
i=1
que, como sabemos, en terminos exactos es una binomial, puede aproximarse (con N >> 1) mediante

FZ (z) G
z Z
Z
con
Z = N p
Z = N pq
Asimismo, por ser una VA de valores equiespaciados zi = i a = i, i =
(0, . . . , N ) la envolvente de la funci
on de densidad de la misma tambien
es gaussiana (vease ecuacion (1.51) y gura 1.5 del primer captulo). Esta
aproximacion es tanto mas valida cuanto m
as cerca esten los valores de la
VA de su valor medio. Por este motivo, se plantearon en el captulo primero
condiciones adicionales de validez de la expresion (1.51).
4.5.3
Ley de los Grandes N

umeros
La Ley de los Grandes N

umeros es la conexion entre la probabilidad denida
en terminos de frecuencia relativa y la probabilidad axiom
atica. Constituye
pues la base solida de argumentacion de que la frecuencia relativa tiende a
la probabilidad axiom
atica conforme el n
umero de experimentos sobre los
que se calcula esta frecuencia es cada vez mayor.
Como se vera, la argumentaci
on a emplear hace uso de conceptos vistos hasta ahora. Consideremos un determinado experimento aleatorio <
S, F, P >, y aceptemos que dado un A F se verica que P (A) = p.
Aceptese que realizamos este experimento N veces, naturalmente, ejecuciones independientes entre s, y que llevamos cuenta de cuantas veces (de
las N posibles) se ha vericado el suceso A. Denominemos a esta cantidad
NA . En estas condiciones, es facil demostrar5 que la frecuencia relativa
5
Podra argumentarse que lo que haremos a continuaci

on no es una demostraci
on pues
nos basaremos en una aproximaci
on para conseguir la expresi
on (4.38); no obstante, dado
que la conclusi
on se obtiene en el lmite (en el cual se verica 4.35), la validez del resultado
(4.39) est
a fuera de duda.
188
C. Alberola L
opez
fr (A) (vease seccion 1.3.1) de aparici

on de este suceso tiende a la probabilidad P (A) = p, o, formalmente
lim P (|fr (A) p| < ) = 1
(4.37)
> 0, R.
Para ver que esto es as basta caracterizar la VA NA . Esta VA es
igual, como hemos dicho antes, al n
umero de veces que se verica el suceso
deseado, de N veces posibles, cuando se ejecutan experimentos independientes. Esta VA, por denici
on, es una VA Binomial, concretamente, B(N, p).
As pues, aplicando la aproximaci
on de DeMoivre-Laplace, podemos escribir:
P (|fr (A) p| < ) = P ( < fr (A) p < )
NA
= P ( <
p < )
N
= P (N (p ) < NA < N (p + ))

N (p + ) N p
N (p ) N p
G
G
N pq
N pq

N
N
= G
G
N pq
N pq

N
N
= G
1G
N pq
N pq

N
= 2G
1
(4.38)
N pq
Por lo tanto
N
lim 2G
1
N
N pq
= 2G() 1 = 2 1 = 1
lim P (|fr (A) p| < ) =
(4.39)
Naturalmente, en un caso real el n

umero de ejecuciones del experimento no
sera innito, sino limitado. En tal caso la expresi
on (4.38) sirve, para cada
valor de p, para encontrar un intervalo de conanza donde se encontrar
a la
frecuencia relativa con una determinada probabilidad.
Ejercicio: Sup
ongase que se sospecha que para un cierto problema p = 0.6. Se pide que halle el n
umero de veces N que
debe realizarse un experimento para que la frecuencia relativa
on del suceso este en un entorno de p de radio
fr (A) de aparici
= 0.05 con probabilidad 0.98.
189
Soluci
on: Aplicando la expresi
on (4.38) tenemos

N
1 = 0.98
P (|fr (A) p| < ) = 2G
N pq

N
= G
= 0.99
N pq
Por tanto
= G1 (0.99) 2.33
N pq
por lo que
N
N
pq
2

pq
0.6 0.4
2.33
= (2.33)2
= 521.17
=
0.052
= 2.33
de forma que necesitamos hacer al menos N = 522 experimentos.
Ejercicio: Demuestre la Ley de los Grandes N

umeros mediante
la desigualdad de Tchebyche.
Soluci
on: En este caso la desigualdad de Tchebyche (expresion 2.67) se escribira
P (|X X | < ) 1
2
X
2
(4.40)
La VA en juego es NA . Esta VA se dene NA = N

i=1 Xi con
Xi VA de Bernoulli de par
ametro p, la cual toma el valor 1
cuando el suceso A se ha vericado. Las VAs Xi y Xj son independientes (luego, en particular, incorreladas) i = j. As pues,
dado que fr (A) = NNA , se verica que
&
E{fr (A)} = E
f2r (A) =
NA
N
'
N
1
E{Xi } = p
N i=1
N
1 2
1
N pq
pq
2
=
X
=
=
NA
i
2
2
2
N
N i=1
N
N
190
C. Alberola L
opez
Por ello, sustituyendo en (4.40), tenemos

P (|fr (A) p| < ) 1
pq
N 2
pq
= 1 lim
= 1 (4.41)
N N 2
lim P (|fr (A) p| < )
pq
N
2
lim 1
> 0, como se quera demostrar.
4.6
Algunos ejercicios ilustrativos
1.- Un sistema de vigilancia aerea esta constituido por N subsistemas y un

control central; cada subsistema toma, en un determinado instante, una medida, tal que en condiciones de ausencia de aeronave puede modelarse
como una variable aleatoria Xi i = {1, . . . , N } uniforme entre 0 y 1. Cada
variable Xi esta sometida a un proceso de acondicionamiento mediante la
1
funci
on g(Xi ) = 1 [ln(Xi )] , (con , > 0), originando nuevas variables
Yi , mas apropiadas para basar en ellas las decisiones. El funcionamiento
de cada subsistema puede considerarse independiente del resto de ellos. El
control central combinar
a la informaci
on que recibe de los subsistemas para
gestionar la presencia o ausencia de aeronave. La forma en que el sistema
central combina la informaci
on depender
a de la estrategia de deteccion a
seguir. En estas condiciones:
a) Considerando que la funci
on de transformaci
on g(Xi ) i =
{1, . . . , N } es biunvoca, obtenga la funci
on de densidad de probabilidad
y la media de cada variable Yi .
b) Cada subsistema enva al control central una se
nal de alarma (indicando que el sistema piensa que hay presencia de aeronave) si la amplitud
de la Yi recibida supera un cierto umbral . Calcule el valor de este para
que la probabilidad de falsa alarma (en adelante P f a) en cada subsistema
sea igual a . Particularice para = 0.6, = 4 y = 3.
c) Para aumentar la abilidad el control central sigue una estrategia de decidir presencia de blanco si al menos M subsistemas (de los N
posibles) han enviado se
nal de alarma. Calcule la expresion de la Pfa del
sistema, as como su valor numerico si M = 13, N = 20 (N >> 1) y el
umbral es el del apartado anterior.
d) Con el n de reducir el n
umero de operaciones a realizar por el
191
sistema de control para tomar una decision se propone otra estrategia; esta
consiste en los subsistemas en orden creciente de ndice (de 1 a N ), y dar
alarma en cuanto alguno de ellos haya enviado se
nal de alarma. Obtenga
el umbral para cada subsistema de modo que la Pfa de esta estrategia
coincida con la del apartado c), as como el n
umero medio de operaciones
realizadas por el sistema de control para tomar una decision, suponiendo
que la consulta a cada subsistema requiere P operaciones.
Soluci
on:
a) La funci
on de densidad de la VA cada Yi puede obtenerse mediante el Teorema Fundamental para variables unidimensionales (vease seccion 2.6.3) cuya expresi
on es
fX (x)
i

fYi (y) =
|g (x)|
N (y)
i=1
.
x=xi
En nuestro caso N (y) = 1 y que resulte ser imagen de la transformacion,

puesto que esta es biunvoca. Por otra parte podemos calcular la derivada
de la transformaci
on de la forma
g(x) =
g (x) =
|g (x)| =
1
1
[ln(x)]

1
1
1
1
[ln(x)]
x

1
1
1
[ln(x)]
Asimismo, a partir de la transformaci

on es claro que
(y) = ln(x)
x = e(y)
por lo que la expresi

on del valor absoluto de la derivada podemos escribirla,
de forma alternativa
|g (x)| =
1
1
(y) e(y)
Ello trae consigo que la funci

on de densidad resulte ser
fYi (y) =
1
|g (x)|
1
1
[(y)1 ] e(y)
= y 1 e(y)
= (y)1 e(y)
192
C. Alberola L
opez
siendo esta expresi

on v
alida y > 0 y cero en el resto de la recta real.
Al respecto del calculo de E{Yi } podemos escribir, haciendo uso de la
igualdad (2.87)
E{Yi } = E{g (Xi )} =
1
1
(ln(x)) dx
Efectuando el cambio de variable ln(x) = y recordando la denici

on de
la funci
on () (expresi
on (2.63)), podemos escribir

1
1
( ) e d

3
4
1 1
1 ( 1 +1)1
e d =
=
e d
0
0

1
1
1
1
1+
=
=
E{Yi } = E{g (Xi )} =
b) El valor debe ser tal que

= P f a = P (Yi > ) =
=
=
fYi (y)dy
y 1 e(y) dy
e(y)
= e()
Por ello
() = ln()
1
= [ln()]
1
1
=
[ln()]
(4.42)
Para los valores planteados en el enunciado = 0.1998.

c) Se plantea una composicion de ensayos de Bernoulli (decision en
cada subsistema de presencia/ausencia de aeronave) mediante subsistemas
independientes. Por ello, podemos emplear las conclusiones obtenidas en
la seccion 1.7.1. En particular, deniendo el suceso Bk como ha habido k
alarmas de N posibles, la probabilidad pedida se puede escribir

Pfa = P
N
k=M
Bk
=1P
M 1

k=0
Bk
=1
M
1

k=0
P (Bk )
193
lo cual, en virtud de la expresion (1.49), podemos escribir

Pfa = 1
M
1

N k N k
p q
k
k=0
con p la probabilidad de que cada subsistema de alarma; como el umbral

que se emplea en cada subsistema es entonces p = . Por ello
Pfa = 1
M
1

N k
(1 )N k
k
k=0
(4.43)
Al respecto del valor numerico y con el objetivo de facilitar el calculo,

podra plantearse el uso de la aproximacion de DeMoivre-Laplace (expresion (1.52)); para ello debemos comprobar que se cumplen las condiciones
de aproximaci
on de forma satisfactoria (vease pagina 46). Por una parte
rep
arese que (1 )N = 0.6 0.4 20 = 4.8 valor que, si bien es mayor que
uno, no es excesivamente mayor. El valor M 1 = 13 1 = 12, por otra
parte, s se encuentra sucientemente pr
oximo al valor N = 20 0.6 = 12;
de hecho N = M 1. Por ello, si bien no se cumplen enteramente las
condiciones de la aproximaci
on, esta nos podra proporcionar una primera
idea del valor de la P f a. Aplicando dicha aproximaci
on, con las reservas
indicadas, obtenemos

M 1 N
Pfa
=1G "
N (1 )
= 1 G(0) = 1 0.5 = 0.5
Si se calcula de forma numerica el resultado de la expresion (4.43) para

la valores propuestos resulta una probabilidad P f a = 0.41, por lo que, en
efecto, la aproximaci
on de DeMoivre-Laplace se aleja del valor real al no
cumplirse, por completo, las condiciones para su empleo.
d) Denamos el suceso Ai (i = {1, . . . , N }) como el subsistema
i-esimo enva alarma, y aceptemos que P (Ai ) = p. En este caso el sistema
decide falsa alarma, digamos, suceso F A si se verica
F A = A1

A1
A2

A1
A2
A3

...
N 1
Ai
AN
i=1
Sin embargo, a efectos del calculo de P f a es mas sencillo emplear el

suceso complementario
FA =
N

i=1
Ai
194
C. Alberola L
opez
por lo que

P f a = P (F A) = 1 P (F A) = 1 P
N
Ai
i=1
= 1
N
P (Ai ) = 1 (1 p)N
i=1
Para P f a = 0.5 el valor de p resultante es p = 0.0341. El umbral se

calculara ahora haciendo uso de la expresi
on (4.42), escribiendo p = P (Ai )
en lugar de . Sustituyendo los valores de y indicados en el apartado
b), obtenemos = 0.3751.
Al respecto del n
umero medio de operaciones, denimos la VA Z como
el n
umero de operaciones que realiza el control central para tomar una
decision. A partir de esta denici
on podemos escribir
P (Z = P ) = P (A1 ) = p

P (Z = 2P ) = P (A1 A2 ) = qp

P (Z = 3P ) = P (A1 A2 A3 ) = q 2 p
Z=P
Z = 2P
Z = 3P
..
.

Z = (N 1)P
P (Z = (N 1)P ) = P
N
2
Z = NP
P (Z = N P ) = P
Ai
i=1

N
1
Ai

AN
= q N 2 p
AN 1
AN
i=1
= q N 1 (p + q) = q N 1
A partir de ello el calculo del valor medio E{Z} se llevara a cabo en base
a la expresion (2.41) y operando de forma acorde. Concretamente
E{Z} =
N
zi P (Z = zi ) =
N
1
i=1
(iP )q i1 p + (N P )q N 1
i=1
Esta expresi
on puede reformularse para extender el sumatorio al u
ltimo
N
1
N
1
=q
(p + q), de modo
valor de la VA empleando el hecho de que q
que
E{Z} = pP
N

i=1
iq i1 + N P q N
195
Para encontrar el valor de la serie anterior podemos partir de la igualdad

S(q) =
N
qi =
i=1
q q N +1
q(1 q N )
=
1q
1q
y derivando con respecto al par

ametro q tenemos
dS(q)
=
dq
N
iq i1 =
1 (N + 1)q N [1 q] + (q q N +1 )
(1 q)2
i=1
Por tanto

E{Z} = pP
P
=
=
=
1 (N + 1)q N [1 q] + (q q N +1 )

(1 q)2

+ qN N P

1 (N + 1)q N (1 q) + (q q N +1 ) + pq N N P
p
P (1 q N )p P N q N p + P q(1 q N ) + P N q N p
p
N
P (1 q )(p + q)
1 qN
=P
p
p
2.- Un detector de un sistema de comunicaciones digitales binario tiene dos

canales (superior e inferior). La salida del canal superior sera la variable
aleatoria X1 y la del canal inferior la variable X2 . Cuando el emisor transmite el smbolo 1, las funciones de densidad de las variables mencionadas
se sabe que son
fXi (x) =
i i 1 x/
e
x
(i )
x0
con i = {1, 2}, i > 0, > 0, y en las condiciones indicadas, 1 > 2 . Se

sabe ademas que las variables son independientes. El detector construye
1
la variable Z = X
mbolo enviado es un 1 si Z 1, y
X2 , y decide que el s
caso contrario considera que el smbolo enviado es un 0. Suponiendo que
el emisor transmite el smbolo 1, se pide:
a) fZ (z)
b) Z
196
C. Alberola L
opez
c) Sabiendo que la funci

on de distribuci
on de las variables arriba
indicadas puede escribirse (si i Z):
x/
FXi (x) = 1 e

i 1
j=0
(x/)j
j!
x 0,
con i = {1, 2}, calcule, para 1 = 3 y 2 = 2, la probabilidad de detectar

el smbolo 1 correctamente.
Soluci
on:
a) Las VAs X1 y X2 toman valores no negativos, luego su cociente tambien sera no negativo. Podemos emplear el metodo de la variable
auxiliar (seccion 3.5.4) de la forma
X1
X2
W = X2
Z =
Entonces
fX1 X2 (x1 , x2 )

1 x1 = x2 fX1 X2 (x1 , x2 )
x2
x2
fZW (z, w) =

0

1
= x2 fX1 (x1 )fX2 (x2 ) = wfX1 (zw)fX2 (w), w 0, z 0
Marginalizando, obtenemos

fZ (z) =
=
=
wfX1 (zw)fX2 (w)dw
2
1
(zw)1 1 ezw/
(w)2 1 ew/ dw
(
)
(
)
0
1
2

1 2 1 1 1 +2 1 z+1
w
w
e dw
z
(1 ) (2 )
0
on de la
Denominando k = z+1
y p = 1 + 2 , y recordando la denici
funci
on () (expresi
on (2.63)), podemos escribir

fZ (z) =
=
(1 +2 ) 1 1 1 + z
z
(1 )(2 )
1
1
z
(1 + 2 )
(1 )(2 ) (1 + z)1 +2
(1 +2 )
(1 + 2 )
197
expresi
on v
alida para z 0.
b)

Z = E{Z} =
zfZ (z)dz
&
'
X1
=
x1 x1
= E
2 fX1 (x1 )fX2 (x2 )dx1 dx2
X2
0
0
1
2
=
x1 1 ex1 / dx1
x2 2 ex2 / dx2
(1 )
(2 )
0
0
1
(1 )
(1 +1)
(2 1)
2 1
(2 )
1
(1 + 1)(2 1)
= (1 +2 ) ( + )
1
2
(1 )(2 )
1 (1 )
(2 1)
1
=
=
(1 ) (2 1)(2 1)
2 1
=
(1 + 1)
(2 1)
c) Sea suceso A=deteccion correcta de smbolo 1; entonces

P (A) = P (Z 1) = P

=
=
=
0
dx1
x1
fX1 X2 (x1 , x2 )dx1 dx2 =

fX1 (x1 )dx1
0
0
= 1
= 1
= 1
X1
1 = P (X1 X2 )
X2
50
fX2 (x2 )dx2 =
1 ex1 / 1 +
fX1 (x1 )dx1

x1
x1
ex1 / 1 +
6
(1 )
1
x1
1+
fX1 (x1 )dx1
x1 1 1 1 x1 /
e
dx1
x
(1 ) 1
1 1 1 2x1 /
e
dx1
x
(1 ) 1
0
1
FX2 (x1 )fX1 (x1 )dx1
fX1 (x1 )dx1
x1 /
0
(
+1)
1
(1 +1) 1 2x1 /
dx1
x e
(1 ) 1
(1 +1)
2
(1 )
1
3
11
=1
=
8 16
16
(1 )
= 1 21 1 2(1 +1)
(1 + 1)
198
C. Alberola L
opez
X1
f()
Y1
Y2
...
X2
f()
XN
f()
YN
Figura 4.2: Figura problema 3.

3.- La gura adjunta representa el diagrama de bloques de una parte de
un detector radar. Las variables Xi son independientes e identicamente
distribuidas, con una funci
on de densidad de probabilidad para x 0
igual a fXi (x) = x1 exp(( x ) ), y nula en el resto de la recta
real, i = {1, 2, .. . ,N }. Se sabe asimismo que la media de cada variable E{Xi } = 1 . En estas condiciones, se pide:
a) Considerando que f (Xi ) = Xi , proporcione, en funci
on de N ,
una cota a la probabilidad de que la variable Z = N

Y
presente
valores
i=1 i
alejados de su media una cantidad superior a tres veces dicha media (particularice para = 1/2).
b) Obtenga de forma aproximada la probabilidad de que la variable
Z presente valores alejados de su media una cantidad superior a dos veces
su desviacion tpica, considerando que el n
umero de variables que intervienen es elevado.
c) Obtenga la funci
on caracterstica de una variable U cuya funcion de densidad de probabilidad es la que se indica (a y son par
ametros
positivos):
a a1
exp( u ) u 0
(a) u
fU (u) =
0
u<0
d) Obtenga, mediante funciones caractersticas, la funci
on de
densidad de probabilidad de la variable Z, considerando ahora que
f (Xi ) = (Xi ) .
NOTA:
G(2) = 0.9773
(p) = k p
199
p1 exp(k )d ; p, k > 0
(p + 1) = p(p), p R; ( 12 ) = ; (z + 1) = z!, z N
0
Soluci
on:
a) Recordando que la desigualdad de Tchebyche (vease seccion
2.5.5)
2
P (|Z Z | ) 2Z

donde, seg
un dice el enunciado, = 3Z , entonces el problema se reduce a
calcular la media y la varianza de la VA Z. En las condiciones del apartado
N
se verica que Z = N
i=1 Yi =
i=1 Xi de forma que

N
E{Xi } = N
E{Z} =
i=1
N
2
Z
=
2
X
=
i
i=1
N
E{X2i } E 2 {Xi }
i=1
donde se ha hecho uso de la expresion (4.18). Respecto del VCM de cada

VA Xi

x
E{X2i } =
x2 x1 exp(( ) )dx
0

x
x+1 exp(( ) )dx
=
0

Seg
un el enunciado (p) = k p 0 p1 exp(k )d , de forma que haciendo
x = la ecuacion anterior se puede escribir

E{X2i } =
1+
1++1
Denominando k = 1/ y p 1 = 2/ p = 2/ + 1 podemos escribir

E{X2i } = k p
= ( )
0
2+
k p p1 ek d = k p (p)

2
2
= 2
2
+1
200
C. Alberola L
opez
Por ello
2
X
i
2
Z

2
2
=
2
= N Xi
2

1
2
2 2

2
2
=
2
6
1
1
2
siendo estas expresiones v

alidas i = 1, . . . , N . As pues la cota pedida es
2
Z
2
2
Z
= =
(3Z )2
N 2

2
1 2
2 2
9 N2 2
2
9N

2

1 2

1
Particularizando para = 1/2 resulta

2
Z
2
1 1 2 (4) 22 (2)
1 1 10
5
=
=
2
2 9N
(2)
2 9N 1
9N
b)
P (|Z Z | > 2Z ) = 1 P (|Z Z | 2Z )
= 1 P (2Z < Z Z 2Z )
= 1 P (Z 2Z < Z Z + 2Z )
5

6
Z + 2Z Z
Z 2Z Z
1 G
G
Z
Z
= 1 [G (2) G (2)] = 1 [G (2) (1 G (2))]
= 1 [2G (2) 1] = 1 0.9546 = 0.0454
donde se ha empleado el Teorema del Lmite Central (vease seccion 4.5.1),
as como la simetra de la funci
on G() (vease p
agina 62).
c) Si escribimos la denici
on de funci
on caracterstica (ecuacion
2.95) adaptada al caso que se plantea
jU
U () = E{e
}=

0
ju
fU (u)e
a
du =
(a)

0
ua1 e
1
j u
du
parece claro que podemos explotar el parecido entre esta expresion y la

denici
on de la funci
on () (expresi
on (2.63)). En concreto haciendo k =

1
201
j y a = p entonces

a a a a1 ku
k
k u e
du
(a)
0
a a
=
k (a)
(a)

a
1 j a
1
=
= a
1 j
U () =
d) En este caso Z =
i=1 Yi
Z () = E{ejZ } = E{ej
X
i
i=1
i=1 Xi .
}=
N
Por ello
E{ejXi } =
i=1
N
Xi ()
i=1
donde se ha hecho uso de la independencia de las variables Xi para convertir

la esperanza del producto en el producto de las esperanzas (vease p
agina
156 y ecuacion 4.6). Con respecto a la funci
on caracterstica de las VAs Xi
Xi () = E{ejXi } =

x1 e

e
1
j
x
(
) jx
x1 e

1
j
1
j
dx
dx

0
1
1
=
1 j
j
Por lo que
Z () =
1
1 j
N
Seg
un el resultado del apartado anterior, podemos escribir
fZ (z) =
a a1
z
z exp( ), z > 0
(a)
con a = N y = .
202
C. Alberola L
opez
4.- Sean Yi , i = {1, . . . , n}, n variables aleatorias independientes e identicamente distribuidas (IID), con funci
on de distribuci
on F (y) (com
un para
todas), tal que F (y) = 0 y < 0. Se pide:
a) Deniendo Z = max(Y1 , . . . , Yn ) y W = min(Y1 , . . . , Yn ), obtenga la funci
on FZW (z, w) para z w 0.
b) Suponiendo que Y0 es una variable IID con respecto a las Yi
anteriormente denidas, obtenga P (W < Y0 Z) como funci
on exclusivamente de n. Para resolver las expresiones que obtenga se recomienda que
analice el parecido formal de la funci
on fZW (z, w) calculada a partir de n
y n + 1 variables IID.
c) Suponga que Xj es una variable que toma el valor 1 cuando
{W < Y0 Z} y 0 en cualquier otro caso, con j = {1, . . . , N } y N el
n
umero de veces que se ejecutan experimentos independientes del tipo del
indicado (N >> 1). Se pide que obtenga el valor de que hace que

1 N
P
Xj p < = 1

N j=1
con un valor de probabilidad, y p la probabilidad calculada en el apartado

anterior (si no contesto a este emplee un p generico). Particularice para
= 0.05.
Soluci
on:
a) Para hallar la funci
on de distribuci
on conjunta FZW (z, w) en
el punto que se indica denamos el suceso Bk comohay k variables a la
izquierda de w y n k entre w y z. Asimismo, dado que las VAs Yi son
IID empleemos el smbolo Y para referirnos a una cualquiera de ellas. En
estas condiciones, y siguiendo un razonamiento similar al expuesto en la
seccion 1.7.1, podemos escribir

n
P (Y < w)k P (w < Y z)nk
k
P (Bk ) =

n
F k (w)(FY (z) FY (w))nk
k Y
=
Entonces
FZW (z, w) = P
n
k=1
n

k=1
Bk

n
P (Bk )
k=1
n
F k (w)(FY (z) FY (w))nk
k Y
= FY (z) P (B0 ) = FY (z) [FY (z) FY (w)]n
203
con 0 w z.
b) Recordando la denici
on de funci
on de densidad conjunta (ecuacion 3.7)
2 FZW (z, w)
zw
2
[FY (z) [FY (z) FY (w)]n ]
=
zw

=
n [FY (z) FY (w)]n1 fY (w)
z
= n(n 1) [FY (z) FY (w)]n2 fY (z)fY (w)
fZW (z, w) =
Para calcular la probabilidad que se pide, empleemos el Teorema de la

Probabilidad Total (denici
on original en ecuacion 1.29 y un caso particular
del mismo para una u
nica VA en la ecuacion 2.36) adaptado a este caso.
Concretamente
P (W < Y0 Z) =

zw
=
zw
=
zw
=
zw
P (w < Y0 z|W = w, Z = z)fZW (z, w)dzdw

P (w < Y0 z)fZW (z, w)dzdw
[FY0 (z) FY0 (w)] fZW (z, w)dzdw
n(n 1) [FY (z) FY (w)]n1 fY (z)fY (w)dzdw
donde se ha hecho uso del hecho de que la VA Y0 es IID con respecto

a las VAs Yi , por lo que tambien es independiente de una funcion de las
mismas, en particular, de las funciones maximo y mnimo. Deniendo ahora
n+1
fZW
(z, w) como la funci
on de densidad conjunta del m
aximo y mnimo
obtenido a partir de n + 1 VAs Yi , y comparando con la expresion que se
acaba de obtener, es claro que
n+1
(z, w) = (n + 1)n [FY (z) FY (w)]n1 fY (z)fY (w)
fZW
de modo que podemos continuar el razonamiento anterior de la forma

P (W < Y0 Z) =
n(n 1)
n(n + 1)
zw
n(n + 1) [FY (z) FY (w)]n1 fY (z)fY (w)dzdw
204
C. Alberola L
opez
=
=
n(n 1)
f n+1 (z, w)dzdw
n(n + 1) zw ZW
n(n 1)
(n 1)
=
n(n + 1)
(n + 1)
resultado que coincide con el obtenido en el ejercicio de la p

agina 23.
c) Las VAs Xi son variables de Bernoulli con probabilidades
p(Xi = 1) = p = n1
n+1
p(Xi = 0) = 1 p = q = 1
Xi
Deniendo
U=
n1
n+1
2
n+1
N
V
1
=
Xi
N
N i=1
y siendo N >> 1 podemos hacer uso de la Ley de los Grandes N

umeros
(seccion 4.5.3) y escribir
P (|U p| < ) = P ( < U p ) = P (p < U p + )
V
= P (p <
p + ) = P (N (p ) < V N (p + ))
N

N (p + ) N p
N (p ) N p
G
G
N pq
N pq

N
N
N
= G
G
= 2G
1
N pq
N pq
N pq
= 1
donde se ha hecho uso de la simetra de la funci
on G() (vease p
agina 62).
Entonces

G1
N
1 = 1
2G
N pq

N
= 1
G
2
N pq
1
2
= G1 (0.9750) =
por lo que
= 1.96
N
= 1.96
pq
pq
N
205
5.-Dos especialistas medicos diagnostican un n

umero N de radiografas.
En cada una de ellas el juicio de cada especialista puede ser presencia
de patologa (PP, al que asociaremos el valor numerico 0) o ausencia de
patologa (AP, al que asociaremos el valor numerico 1). Se asumira que no
existen dependencias entre juicios de dos radiografas distintas. La tabla
adjunta reeja los resultados obtenidos para esas radiografas:
Esp1 \ Esp2
PP
AP
PP
a
c
AP
b
d
con a, b, c, d 0 y a + b + c + d = N . Se dene la variable aleatoria

binaria Xi como el valor numerico del diagn
ostico del primer especialista
para la radiografa i (i = {1, . . . , N }), y, de forma equivalente, Yi para
el segundo especialista. Denominemos I a la variable n
umero de veces
que coinciden los juicios de los especialistas, y, para una radiografa
cualquiera, se denen pxj como la probabilidad de que el primer especialista
diagnostique resultado j, (j=(0,1)), pyk como la probabilidad de que el
segundo diagnostique k (k = (0, 1)), y pjk como la probabilidad de que,
conjuntamente, el primero diagnostique j y el segundo k, con j, k = (0, 1).
Se pide:
a) Denominando I a la variable n
umero de veces que coinciden
los juicios de los especialistas, escriba I como funci
on de Xi e Yi , con
i = {1, . . . , N }.
b) Se pretende analizar probabilsticamente si los especialistas
tienen el mismo criterio. Para ello, denominemos hip
otesis H0 a la
hip
otesis los especialistas comparten el mismo criterio (entendemos por tal
que los juicios respectivos sobre una misma radiografa sean dependientes)
otesis contraria (es decir, que los juicios respectivos sean
y H1 a la hip
independientes). En estas condiciones obtenga fI (i|H0 ) empleando solo las
pjk , y fI (i|H1 ) empleando solo las pxj y las pyk .
c) Se considerar
a que los especialistas comparten el mismo criterio
si E{I|H0 } > E{I|H1 }. Suponiendo que las probabilidades pxj , pyk y pjk
son desconocidas, se pide que proporcione una regla, funci
on de a, b, c
y d, que permita materializar el criterio anterior. Para introducir estos
par
ametros en el problema identicaremos probabilidad con frecuencia
relativa, calculada esta u
ltima a partir de los datos de la tabla adjunta.
Soluci
on:
a) I = N
i=1 [Xi Yi ] donde, Xi = 0 si el primer especialista dice
P P y Xi = 1 en caso contrario, y lo propio para el segundo especialista
206
C. Alberola L
opez
con la VA Yi .
b) Por denici
on la VA I es binomial en ambos supuestos (esto es,
en supuestos H0 y H1 ), ya que esta variable se construye en base a una
composicion de ensayos de Bernoulli independientes (vease secciones 1.7.1
y 2.3.2). Lo que cambia entre H0 y H1 es la probabilidad de cada valor de
la VA I.
As pues
IH0
B(N, pH0 )
IH1
B(N, pH1 )
donde
pHj
= p(Xi = Yi |Hj ) = p((Xi = 1, Yi = 1) (Xi = 0, Yi = 0)|Hj )

= p(Xi = 1, Yi = 1|Hj ) + p(Xi = 0, Yi = 0|Hj )
pH0
= p11 + p00
pH1
= p(Xi = 1|H1 )p(Yi = 1|H1 ) + p(Xi = 0|H1 )p(Yi = 0|Hj )

= px1 py1 + px0 py0
c) La media de las VAs binomiales anteriores, acorde con la expresion (2.64), es

E{IH0 } = N pH0
E{IH1 } = N pH1
Para calcular las probabilidades pH0 y pH1 empleamos los datos siguiendo las expresiones escritas en el apartado anterior, e identicando seg
un
indica el enunciado probabilidad con frecuencia relativa. As pues
pHj
= p(Xi = Yi |Hj ) = p((Xi = 1, Yi = 1) (Xi = 0, Yi = 0)|Hj )
pH0
= p(Xi = 1, Yi = 1|Hj ) + p(Xi = 0, Yi = 0|Hj )

d
a
a+d
=
+
=
N
N
N
= p(Xi = 1|H1 )p(Yi = 1|H1 ) + p(Xi = 0|H1 )p(Yi = 0|Hj )
c+db+d a+ba+c
1
=
+
= 2 ((a + b)(a + c) + (b + d)(c + d))
N
N
N
N
N
pH1
207
La regla por tanto sera decidir H0 si

E{IH0 } > E{IH1 }
(a + b)(a + c) (b + d)(c + d)
a+d >
+
N
N
Captulo 5
Procesos estoc
asticos
Hasta ahora, hemos abordado el estudio de los conceptos basicos de Teora
de la Probabilidad, as como de las VAs a traves de un planteamiento
incremental de una, dos y N variables.
En este tema encontraremos ya la relacion que liga a las se
nales con las
VAs. Toda se
nal que transporte informaci
on tendr
a alg
un grado de aleatoriedad, de forma que en general no podremos predecir sin error el valor que
tomar
a una se
nal en el futuro, conocidos los valores que ha tomado en el
pasado. Pero, no obstante, hemos visto formas de predecir de manera optima haciendo uso de la informaci
on probabilstica de que dispongamos. Por
otra parte, las se
nales de comunicaciones siempre se mueven en entornos
ruidosos, siendo el ruido tambien una se
nal aleatoria, en este caso indeseada. Por ello, sera necesario disponer de herramientas que nos permitan
minimizar el efecto del ruido.
En el tema que comenzamos, por lo tanto, conectaremos los conceptos
vistos hasta ahora con el tratamiento de la se
nal.
5.1
Concepto de proceso estoc

astico. Clasicaci
on
Un proceso estocastico es una regla que asigna a cada resultado de un cierto

experimento aleatorio < S, F, P > una funci
on, la cual depende de un
determinado n
umero de variables, y del propio resultado a S obtenido
del experimento (gura 5.1). El caso mas sencillo sera una funci
on de una
u
nica variable, por ejemplo, el tiempo. En tal caso, un proceso estocastico
sera una coleccion de funciones del tiempo, cada una de ellas asociada a
cada uno de los resultados a S. Pero, tambien, la variables podran
209
210
C. Alberola L
opez
ser 2 y con signicado de coordenadas espaciales. En tal caso, un proceso

estocastico podra ser una coleccion de im
agenes estaticas, cada una de ellas
asociada a cada resultado del espacio muestral. Si fuesen tres variables, por
ejemplo, dos espaciales y una temporal, podramos considerar un proceso
estocastico como una coleccion de im
agenes en movimiento.
En esta asignatura nos centraremos en el caso de se
nales unidimensionales funciones del tiempo.
x (t) = X(t, a )
1
x (t) = X(t, a )
2
x (t) = X(t, a )
3
t0
t
X(t 0)
Figura 5.1: Concepto de proceso estocastico: coleccion de funciones del

tiempo o de VAs.
El concepto de proceso estocastico es muy similar al concepto de una
Captulo 5. Procesos estoc

asticos
211
VA. Recuerdese que una variable era una funci

on del espacio muestral en
el cuerpo de los n
umero reales, de forma que para cada a S obtenamos
un n
umero real X(a). No obstante, por simplicidad en la notaci
on, nos
hemos referido siempre a las VAs sin explicitar la dependencia con el resultado a del experimento aleatorio. En el caso de los procesos estocasticos
(particularizados a funciones unidimensionales del tiempo) la dependencia
es similar. A cada a S le asociamos una funci
on del tiempo X(t, a). De
forma similar al caso de las VAs, denotaremos al proceso estocastico como
X(t) dando por sentado la dependencia con el resultado aleatorio.
No obstante, antes de eliminar de la notacion esta dependencia, hagamos una u
ltima aclaracion. Para ello, tomaremos como base tanto la gura
5.1 como el proceso estocastico Y(t, a) = Acos(0 t + (a)), con (a) una
VA uniforme en un rango de 2 radianes, y el resto de los par
ametros
involucrados determinsticos.
X(t, a) con los dos parametros libres, es un proceso estocastico.
X(t, ai ) donde ai es un resultado concreto del experimento aleatorio, es decir, con la primera variable libre y ja la segunda, es una
funci
on determinstica del tiempo. En este caso estamos ante una
realizaci
on del proceso. Correspondera en la gura 5.1 a una cualquiera de las funciones xi (t). Por su parte, en el proceso estocastico
Y(t, a) tal particularizaci
on correspondera a la funci
on del tiempo
observada para el valor particular de la variable (ai ), por ejemplo,
Y(t, ai ) = Acos(0 t + 3 ). El equivalente en el caso de las VAs sera
el haber observado un valor concreto de la variable X, es decir, haber
observado un n
umero real.
X(t0 , a), donde t0 indica un instante de tiempo concreto, es decir, con
la primera variable ja y libre la segunda, sera una VA: en efecto, el
resultado para cada a S sera un n
umero real, lo cual corresponde
en la gura 5.1 al conjunto de n
umeros que podramos observar sobre
la vertical de abscisa t = t0 . Respecto del proceso Y(t, a), jado el
instante temporal en t = t0 tendramos Y(t0 , a) = Acos(0 t0 +(a)),
funci
on de la VA (a) y, por tanto, tendramos una VA. Por todo
ello, una visi
on alternativa de un proceso estoc
astico es la de una
coleccion de VAs indexadas por un ndice continuo1 t.
1
El ndice no tiene que ser, necesariamente, continuo. Veremos a continuaci

on que
este puede ser discreto.
212
C. Alberola L
opez
X(t0 , ai ), esto es, ambas variables jas, sera un n

umero real. En la
gura 5.1 seleccionaramos una funci
on concreta xi (t) y observaramos
un instante temporal concreto t = t0 . Para el caso del proceso Y(t, a),
jados t = t0 y a = ai tendramos, por ejemplo, el escalar Y(t0 , ai ) =
Acos(0 t0 + 3 ).
5.1.1
Clasicaci
on de procesos estoc
asticos
Una posible clasicacion de los procesos estocasticos consistira en analizar

tanto la variable temporal como las caractersticas de cada una de las VAs
involucradas. Concretamente:
1. Proceso estocastico continuo: en este caso, la variable t es continua, y
cada una de las variables de X(t) toman valores en un rango continuo.
2. Proceso estocastico discreto: en este caso, la variable t es continua,
pero las variables de X(t) son VAs discretas.
3. Secuencia aleatoria continua: la variable de indexaci
on temporal es
discreta, pero las VAs involucradas toman valores en un rango continuo. Tpicamente lo denotaremos por X[n].
4. Secuencia aleatoria discreta: secuencia (como la anterior) de VAs
discretas. La denotaremos como la anterior.
Se podran hacer otra clasicaciones. Por ejemplo, si un proceso estocastico es predecible sin error a partir de la observacion de los valores
del mismo en el pasado, el proceso se denomina predecible. Un ejemplo
tpico sera el proceso ya empleado Y(t) = Acos(0 t + ), con una VA.
En este caso, hablaramos de una sinusoide cuya fase inicial es desconocida.
No obstante, si se observa lo que vale el proceso en un instante se puede
calcular el valor que ha tomado la variable , de forma que a partir de
ah el proceso sera perfectamente predecible.
Por contra, si tal predicci
on no se puede llevar a cabo, el proceso sera
impredecible, y, por tanto el comportamiento del mismo no se podra resumir en un conjunto nito de par
ametros.
Otras clasicaciones de los procesos requieren de mas conocimiento del
que hemos expuesto hasta el momento.

asticos
5.2
213
Funciones de distribuci
on y densidad
Dado que un proceso estocastico no es otra cosa que una coleccion de VAs,
indexadas estas mediante un ndice continuo (procesos estocasticos propiamente dichos) o discreto (secuencias aleatorias), podemos hablar tambien
de funciones de densidad y distribuci
on del proceso, bien entendido que tales funciones se denen sobre cada una de las VAs del proceso. Por tanto,
podemos denir
Funci
on de densidad (de primer orden) del proceso
FX (x; t) = P (X(t) x)
(5.1)
Como puede verse, la funcion de distribuci

on es funci
on de dos variables. La primera (variable x) tiene el signicado tradicional: el
punto de abscisa donde estamos evaluando la probabilidad del suceso
indicado. La segunda variable es, simplemente, el ndice que indica
sobre que VA del proceso estamos haciendo el calculo de la funci
on
de distribuci
on.
Esta funci
on se denomina de primer orden dado que solo involucra,
para cada t, a una variable del proceso.
Funci
on de densidad de probabilidad de primer orden. De forma
coherente con lo que conocemos hasta ahora, la funcion de densidad
se obtiene a partir de la funci
on de distribuci
on de la forma:
fX (x; t) =
dFX (x; t)
dx
(5.2)
Nada nos impide extraer m

as de una variable del proceso. Si extraemos
dos, lease, (X(t1 ), X(t2 )), habramos creado una variable bidimensional a
partir del proceso. Si extraemos N podemos crear un vector aleatorio a
partir de variables del proceso de la forma [X(t1 ), X(t2 ), . . . , X(tN )]T , por
lo que los conceptos ya conocidos de temas anteriores aplican directamente.
A modo de ejemplo:
on y densidad de segundo orden
FX (x1 , x2 ; t1 , t2 ) = P (X(t1 ) x1 , X(t2 ) x2 )
2 FX (x1 , x2 ; t1 , t2 )
fX (x1 , x2 ; t1 , t2 ) =
x1 x2
214
C. Alberola L
opez
Obtenci
on de las marginales a partir de las anteriores
FX (x1 , t1 ) = FX (x1 , ; t1 , t2 )

fX (x1 , t1 ) =
fX (x1 , x2 ; t1 , t2 )dx2
on y densidad de orden N

FX (x1 , x2 , ..., xN ; t1 , t2 , ..., tN ) = P
N
X(ti ) xi
i=1
N FX (x1 , x2 , ..., xN ; t1 , t2 , ..., tN )

x1 x2 xN
fX (x1 , x2 , ..., xN ; t1 , t2 , ..., tN ) =
En el caso en que tengamos dos procesos, la caracterizacion probabilstica total del mismo vendra dada por la funci
on de densidad
conjunta de ordenes N y M (N y M ), es decir, a partir de la
funci
on:
fXY (x1 , . . . , xN , y1 , . . . , yM ; t1 , . . . , tN , t1 , . . . , tM )
(5.3)
En la pr
actica, salvo para procesos gaussianos, es impensable poder
disponer de toda esta informaci
on probabilstica, tanto para uno como para
dos o mas procesos, de forma que es habitual trabajar con par
ametros de
caracterizacion parcial del proceso, lease, medias, varianzas, covarianzas
etc . . . . Este
es nuestro siguiente punto de atencion.
5.3
Caracterizaci
on parcial de procesos estoc
asticos. Ruido blanco
Media:
X (t) = E{X(t)} =
xfX (x; t)dx
(5.4)
Como puede verse, la media de un proceso estocastico sera en general

funci
on del tiempo, ya que esta funci
on contiene la media de cada una
de las variables que podemos extraer del proceso. Como las variables
en general seran de diferente distribuci
on, las medias en general no
coincidir
an.
VCM:
E{X (t)} =
x2 fX (x; t)dx
(5.5)

asticos
215
Varianza:
2
X
(t) = E{(X(t) X (t))2 } =
2
(t)
= E{X2 (t)} X
(x X (t))2 fX (x; t)dx

(5.6)
Autocorrelacion2 : como es sabido, este par

ametro involucra a dos
VAs, de forma que, en relacion con los procesos estocasticos, la funci
on
de correlacion sera funci
on de dos variables temporales (los ndices
temporales de las dos variables involucradas).

RX (t1 , t2 ) = E{X(t1 )X(t2 )} =
x1 x2 fX (x1 , x2 ; t1 , t2 )dx1 dx2
(5.7)
Notese que RX (t, t) = E{X2 (t)}, es decir, es igual al VCM de la VA
X(t).
Autocovarianza
CX (t1 , t2 ) = E{(X(t1 ) X (t1 ))(X(t2 ) X (t2 ))}

(x1 X (t1 ))(x2 X (t2 ))fX (x1 , x2 ; t1 , t2 )dx1 dx2
= RX (t1 , t2 ) X (t1 )X (t2 )
(5.8)
2 (t), es decir, es igual

Notese que CX (t, t) = E{(X(t) X (t))2 } = X
a la varianza de la variable aleatoria X(t).
Coeciente de correlacion entre las variables X(t1 ) y X(t2 )

rX (t1 , t2 ) =
CX (t1 , t2 )
X (t1 )X (t2 )
(5.9)
Para el caso de procesos complejos, las cosas funcionan como conocemos. Concretamente:
2 (t) = E{|X(t) (t)|2 } = E{|X(t)|2 } | (t)|2
X
X
X
RX (t1 , t2 ) = E{X(t1 )X (t2 )}

2
El prejo auto enfatiza el hecho de que calculamos la correlaci
on entre dos variables
extradas del mismo proceso. Cuando los procesos involucrados sean dos, la correlaci
on
se denominar
a correlaci
on cruzada.
216
C. Alberola L
opez
CX (t1 , t2 ) = E{(X(t1 )X (t1 ))(X(t2 )X (t2 )) } = RX (t1 , t2 )

(t )
X (t1 )X
2
Si los ndices son discretos, esto es, si estamos tratando con una secuencia aleatoria, los operadores son los mismos, dado que en este
caso el ndice temporal simplemente es un seleccionador de la variable o variables empleadas para el calculo. Por ejemplo, si la secuencia
(real, por simplicidad) es X[n] podremos escribir
X [n] = E{X[n]} =
2 [n]
X
xfX (x; n)dx

X [n])2 } = E{X2 [n]}
= E{(X[n]
t por n en la expresion (5.6).
2 [n], sustituyendo
X
RX [n1 , n2 ] = E{X[n1 ]X[n2 ]}, sustituyendo t1 y t2 por n1 y n2 ,

respectivamente, en la expresion (5.7).
CX [n1 , n2 ] = E{(X[n1 ]X [n1 ])(X[n2 ]X [n2 ])} = RX [n1 , n2 ]
X [n1 ]X [n2 ], haciendo la misma sustituci
on que en el caso anterior, ahora en la expresi
on (5.8).
Finalmente, si el proceso o la secuencia consiste en variables discretas,
los anteriores operadores probabilsticos continuos se pueden expresar
como sumatorios en vez de como integrales. As pues, tendramos
X (t) = E{X(t)} =
2 (t)
X
i (xi
RX (t1 , t2 ) =
i xi P (X(t) = xi )
X (t))2 P (X(t) = xi )
x1i x2j P (X(t1 ) = x1i , X(t2 ) = x2j )
CX (t1 , t2 ) = i j (x1i X (t1 ))(x2j X (t2 ))

P (X(t1 ) = x1i , X(t2 ) = x2j )
5.3.1
Concepto de ruido blanco
Un proceso se denomina ruido blanco si cumple unas determinadas condiciones. Dentro del ruido blanco se distinguen tpicamente dos casos, aunque
en la pr
actica el empleado es el primero. Estos
son:
Ruido blanco en sentido amplio: un proceso se dice que es un proceso
de ruido blanco en sentido amplio si presenta incorrelaci
on total, es
decir, si cada dos variables del mismo estan incorreladas. Por ello,
para el caso de procesos estocasticos (esto es, para ndices temporales
continuos) se puede escribir
CX (t1 , t2 ) = q(t1 )(t1 t2 )
(5.10)

asticos
217
si el proceso X(t) es ruido blanco en sentido amplio. Si lo es la

secuencia X[n] podremos escribir
CX [n1 , n2 ] = q[n1 ][n1 n2 ]
(5.11)
Reparese que la funci

on correspondiente al proceso estocastico es
una delta de Dirac, es decir, presenta una discontinuidad en 0, mientras que la segunda es una delta de Kronecker, es decir, es una funcion
nula en todos los puntos de su argumento salvo en el 0, donde es unitaria.
Ruido blanco en sentido estricto: concepcion mas restrictiva que la
anterior, en la que se exige no solo incorrelaci
on a las variables del
proceso, sino tambien independencia. Por tanto, si un proceso X(t)
es un ruido blanco en sentido estricto, podremos escribir la funci
on
de densidad N -dimensional (N ) como sigue:
fX (x1 , x2 , . . . , xN ; t1 , t2 , . . . , xN ) =
N
fX (xi ; ti )
(5.12)
i=1
En la pr
actica, como hemos dicho, el modelo com
unmente empleado es el
de ruido blanco en sentido amplio. Asimismo, salvo mencion expresa, se
asumira que el ruido blanco tiene media nula.
5.3.2
Caso de dos procesos
Cuando los procesos involucrados sean dos, por ejemplo, X(t) e Y(t), la
caracterizacion conjunta de ambos vendra dada por la funci
on de densidad
conjunta de ordenes N y M , con estos par
ametros arbitrariamente grandes.
No obstante, no suele ser posible poder calcular esta funcion, de forma que el
recurso es limitarse a caracterizaciones parciales del tipo medias, varianzas
y covarianzas. Las covarianzas, en este caso, involucran a variables de dos
procesos y por ello se las denomina covarianzas (o correlaciones, en su caso)
cruzadas. As pues, se denen:

RXY (t1 , t2 ) = E{X(t1 )Y(t2 )} =
xyfXY (x, y; t1 , t2 )dxdy
CXY (t1 , t2 ) = E{(X(t1 ) X (t1 ))(Y(t2 ) Y (t2 ))}

(x X (t1 ))(y Y (t2 ))fXY (x, y; t1 , t2 )dxdy
= RXY (t1 , t2 ) X (t1 )Y (t2 )
(5.13)
218
C. Alberola L
opez
De manera similar a lo ya conocido, podemos hablar de procesos incorrelados, ortogonales e independiente. Formalmente:
Incorrelacion: dos procesos son incorrelados si CXY (t1 , t2 ) = 0, t1 , t2 .
N
otese que esto implica que RXY (t1 , t2 ) = X (t1 )Y (t2 ), t1 , t2
Ortogonalidad: dos procesos son ortogonales si RXY (t1 , t2 ) = 0,
t1 , t2
Independencia: dos procesos son independientes si N y M se verica
fXY (x1 , ..., xN , y1 , ..., yM ; t1 , ..., tN , t1 , ..., tM ) =
fX (x1 , ..., xN ; t1 , ..., tN )fY (y1 , ..., yM ; t1 , ..., tM )
(5.14)
Todo lo conocido para el caso de VAs, como es natural, aplica en este momento. En particular, independencia implica incorrelaci
on, y si dos
procesos son gaussianos (esto es, si las variables que podamos extraer de
estos son conjuntamente gaussianas) incorrelaci
on implicara independencia. Piensese en ello.
5.4
Estacionariedad
Hasta ahora, como se ha observado, apenas se ha hecho uso de la dimension

temporal del proceso estocastico X(t). Basicamente, no hemos centrado en
la visi
on de un proceso estocastico como una coleccion de VAs y las relaciones que hemos manejado entre ellas han sido las ya conocidas (correlaciones,
covarianzas, etc . . . ). En este punto, y en los que siguen, explotaremos el
hecho de que un proceso estocastico es una funci
on del tiempo.
El concepto de estacionariedad esta ligado a las variaciones de las propiedades estadsticas del proceso a lo largo del tiempo. En este caso, tambien distinguiremos entre estacionariedad en sentido estricto y estacionariedad en sentido amplio. El primer sentido har
a referencia a las propiedades que debe cumplir la funci
on de densidad, mientras que el segundo
impondr
a condiciones solo sobre la media y la correlaci
on del proceso.
Sentido estricto3 : un proceso estocastico X(t) es estacionario en sentido estricto si su funci
on de densidad de orden N (N ) es invariante
3
Se denota por SSS, de strict sense stationary

asticos
219
a un desplazamiento en el origen de tiempos, esto es, si se verica que

fX (x1 , x2 , ..., xN ; t1 , t2 , ..., tN ) = fX (x1 , x2 , ..., xN ; t1 +c, t2 +c, ..., tN +c)
(5.15)
c. N
otese por tanto que un proceso es estacionario en sentido estricto si se verica que la distribuci
on conjunta de variables igualmente
separadas coincide. Dos casos particulares importantes de lo anterior
son
fX (x; t) = fX (x)
fX (x1 , x2 ; t1 , t2 ) = fX (x1 , x2 ; t1 t2 )
(5.16)
esto es, las variables de un proceso estacionario en sentido estricto

son marginalmente equidistribuidas, y la funci
on de densidad bidimensional depende de la separacion entre las dos variables y no de
sus posiciones absolutas en el eje de tiempos.
Si la condici
on prevista en la ecuacion (5.15) se verica solo hasta
un cierto valor de N entonces el proceso se denomina estacionario de
orden N .
Las deniciones anteriores se extienden al caso de dos procesos. Se
dice que X(t) e Y(t) son conjuntamente estacionarios si
fXY (x1 , ..., xN , y1 , ..., yM ; t1 , ..., tN , t1 , ..., tM ) =
fXY (x1 , ..., xN , y1 , ..., yM ; t1 + c, ..., tN + c, t1 + c, ..., tM + c) (5.17)

Notese que de lo anterior se desprende que si dos procesos son conjuntamente estacionarios en sentido estricto, lo son individualmente.
Bastara calcular las funciones de densidad marginales de cada proceso a partir de la expresion anterior.
Finalmente, el proceso Z(t) = X(t) + jY(t) es estacionario si sus
componentes real e imaginaria son conjuntamente estacionarias.
Sentido amplio4 : un proceso X(t) es estacionario en sentido amplio
si de verican las dos condiciones siguientes:
E{X(t)} = X (t) = X
RX (t1 , t2 ) = RX (t1 t2 ) = RX ( )
4
Se denota por WSS, de wide sense stationary
(5.18)
(5.19)
220
C. Alberola L
opez
es decir, si la media no vara con el tiempo y la autocorrelaci

on es
funci
on de la separaci
on temporal de las variables, no de la posici
on
absoluta de cada una en el eje temporal.
Notese que estas condiciones implican que varianza y VCM deben ser
constantes, as como que la covarianza es funci
on solo de la separacion
entre las variables.
Para el caso de dos procesos se dice que son conjuntamente estacionarios si lo son marginalmente, y si, ademas, la correlacion cruzada
RXY (t1 , t2 ) = RXY (t1 t2 ) = RXY ( ).
Puede tambien apreciarse que si el proceso es SSS, o bien estacionario
hasta orden 2, tambien es WSS. No obstante, el recproco no es cierto
en general, salvo en el caso de procesos gaussianos.
Finalmente, y a nivel de convenio, estableceremos la siguiente notacion para procesos WSS (para el caso complejo, por generalidad)
RX ( ) = E{X(t + )X (t)}
CX ( ) = E{(X(t + ) X )(X(t) X ) } = RX ( ) |X |2
RXY ( ) = E{X(t + )Y (t)}
CXY ( ) = E{(X(t + ) X )(Y(t) Y ) } = RXY ( ) X Y
(5.20)
Para el caso de secuencias aleatorias el convenio sera el mismo salvo
sustituir los ndices continuos por ndices discretos. Por ejemplo,
RX [m] = E{X(n + m)X [n]}.
En lo que sigue, y hasta el nal del tema, con el objetivo de no duplicar resultados consideraremos procesos de ndices continuos, bien
entendido que los resultados a los que llegaremos aplican tambien a
secuencias aleatorias sin mas que hacer las oportunas adaptaciones
de operadores continuos a operadores discretos (el ejercicio 3 de la
seccion 5.8 es un ejemplo de manejo de una secuencia aleatoria).
5.4.1
Propiedades de la correlaci
on de procesos estacionarios
Autocorrelaci
on
Si X(t) es un proceso WSS se verica:

asticos
221
1. La autocorrelaci
on del proceso en = 0 es igual al VCM del proceso,
el cual coincide con la potencia del mismo (seg
un indica la ecuacion
(5.55) de la seccion 5.6.3). Formalmente
RX (0) = E{|X(t)|2 } = PX
(5.21)
2. |RX ( )| RX (0). La demostracion es sencilla mediante el concepto

de densidad espectral de potencia (vease seccion 5.6) y el por que de
esta propiedad se puede razonar en terminos muy intuitivos haciendo
uso del concepto de ergodicidad (vease seccion 5.5.3).
( ). En general la correlaci
on es una funci
on hermtica.
3. RX ( ) = RX
Para el caso real, la correlacion es una funci
on par.
4. Si X(t) es periodico, RX ( ) tambien es periodico y del mismo periodo.

5. La funci
on de autocorrelacion no puede tener una forma arbitraria.
Concretamente, escogiendo N variables del proceso, la matriz de correlacion debe ser, al menos, semidenida positiva. Esto es debido a
que

2
N
N
N

E ai X(ti )
=
ai aj RX (ti , tj ) 0

i=1
(5.22)
i=1 j=1
6. Si el proceso X(t) es un proceso de ruido blanco entonces CX ( ) =

q( ).
Ejercicio: El proceso estocastico X(t) se dene de la forma
X(t) =
K
Ak ej(ko t+k )
k=1
con Ak VAs complejas de VCM conocido y k VAs uniformes en

un rango de 2 radianes (k={1,. . . ,K}). Sup
ongase que todas
las VAs involucradas son independientes entre s. Se pide que
obtega la media y la autocorrelacion del proceso X(t) e indique
si el proceso es estacionario en sentido amplio.
Soluci
on: Para calcular la media, recordando la linealidad del
operador esperanza (seccion 3.6) as como que independencia
222
C. Alberola L
opez
implica incorrelaci
on y lo que ello conlleva en relaci
on a la esperanza del producto (seccion 3.6.2), podemos escribir
X (t) = E{X(t)} = E
K
#
j(ko t+k )
Ak e
k=1
=
=
=
K

k=1
K

k=1
K
ejko t E Ak ej k
ejko t E {Ak } E ej k

ejko t E {Ak }
k=1
1
2
%

(cos(k ) + jsen(k ))dk

<2>
= 0
pues la integral de una sinusoide en un periodo de la misma es
nula.
Respecto de la autocorrelacion:
RX (t1 , t2 ) = E{X(t1 )X (t2 )}
= E
K
K
Ap Aq ej(po t1 +p ) ej(qo t2 +q )
p=1 q=1
K
K
ejpo t1 ejqo t2 E Ap Aq E ej p eq
p=1 q=1
Centr
andonos en la u
ltima esperanza rep
arese que para p = q
tendramos la esperanza del producto de funciones de VAs independientes. La independencia implica incorrelaci
on, luego la
esperanza del producto sera igual al producto de las esperanzas.
La esperanza de cada exponencial compleja, seg
un acabamos de
ver, es nula. Por ello, los u
nicos terminos que permanecen en
la expresion anterior son los terminos de ndice p = q, para los
cuales la exponencial compleja es constante y de valor unidad
(el exponente es nulo). Por ello, resulta
RX (t1 , t2 ) =
K
ejpo (t1 t2 ) E |Ap |2
p=1
K

p=1
E |Ap |2 ejpo

asticos
223
= RX ( )
En virtud del resultado, el proceso es WSS. Deniendo el proce
j(ko t+k ) ,
so X(t) como X(t) = K
k=1 Xk (t), con Xk (t) = Ak e
puede comprobarse que la autocorrelacion de X(t) es igual a la
suma de las autocorrelaciones de los procesos Xk (t). Asimismo, rep
arese en que la autocorrelacion es periodica de periodo
2
T = 0 , de la misma manera que cada proceso lo es; nalmente, n
otese que tambien presenta simetra conjugada as como un
maximo en = 0.
Correlaci
on cruzada
Si los procesos X(t) e Y(t) son procesos conjuntamente WSS entonces se
verica que:
( )
1. RXY ( ) = RYX
2. |RXY ( )|
"
RX (0)RY (0)
3. Si los procesos son ortogonales entonces RXY ( ) = 0 . Esto trae

consigo que si Z(t) = X(t) + Y(t) entonces RZ ( ) = RX ( ) + RY ( ).
4. Si los procesos son incorrelados entonces CXY ( ) = 0 . Esto trae
consigo que si Z(t) = X(t) + Y(t) entonces CZ ( ) = CX ( ) + CY ( ).
5. Si los procesos son independientes, deniendo Z(t) = X(t)Y(t), se
verica que RZ ( ) = RX ( )RY ( ).
5.5
5.5.1
Ergodicidad
Ergodicidad con respecto de la media
Seg
un conocemos de los temas anteriores, si observamos el valor que han tomado N variables Xi identicamente distribuidas, cada una con valor medio
y varianza 2 , entonces si creamos otra variable
Z=
N
1
Xi
N i=1
(5.23)
224
C. Alberola L
opez
podemos armar que E{Z} = y, si estas variables son, al menos, incorre2 = 2 /N . Por tanto, conforme N aumenta, la variable
ladas, entonces Z
Z tiene cada vez una varianza menor y, en el lmite (N ), Z pasara
a ser una constante de valor igual a . En terminos pr
acticos, dado que
nunca podremos llegar al lmite, diremos que Z es un buen estimador del
valor de la media de cada una de las variables Xi .
Consideremos ahora el caso de un proceso estocastico WSS X(t). Por
ser estacionario, su media es constante, esto es, no es funcion del tiempo,
tampoco lo es su varianza y la correlacion es funci
on de la separaci
on entre
las variables escogidas. Pensemos que queremos calcular la media de la
variable X(t0 ), con t0 un valor concreto del tiempo. Para ello, seg
un acabamos de ver, necesitaramos m
ultiples realizaciones del proceso X(t, ai ),
desecharamos todos los valores de las realizaciones en instantes diferentes
de t0 y nos limitaramos a promediar en el ndice i, es decir
Z=
N
1
X(t0 , ai )
N i=1
(5.24)
Procediendo de esta manera, la variable Z tendra un comportamiento similar al de la VA de la expresi

on (5.23): su media coincidira con la del
proceso y su varianza sera tanto mas peque
na cuanto mayor fuese el n
umero de realizaciones del proceso, de forma que en el lmite la varianza sera
nula.
Sin embargo, rep
arese en que hemos desperdiciado mucha informacion:
nos hacen falta numerosas realizaciones del proceso pero, de cada una de
ellas, solo escogemos un valor (el correspondiente al instante temporal t0 )
y renunciamos a hacer uso del resto. No obstante, el proceso es WSS,
de forma que la media del resto de las variables coincide con la media de
la variable X(t0 ). Y disponemos de una realizacion de cada una de las
innitas variables de que consta el proceso! Por ello, no sera posible
calcular el valor medio a partir de una u
nica realizaci
on, sin necesidad de
acudir a innitas realizaciones? Pues bien, si esto es posible, el proceso
estocastico X(t) se dice que es ergodico, en este caso, con respecto a la
media.
Veamos que condiciones son necesarias para que un proceso pueda ser
ergodico con respecto a la media. La primera condici
on es obvia: la media
del proceso no puede variar con el tiempo, de forma que el proceso, al menos,
ha de ser WSS. Por otra parte, denamos el operador media temporal de la
forma siguiente:
T
1
MT = MT [X] =
X(t)dt
(5.25)
2T T

asticos
225
Este operador, como es natural, resulta en una VA puesto que es una funcion de las innitas variables del proceso estocastico. Cuales son la media
y la varianza de dicho operador? Al respecto de la media:
E{MT } = E
1
2T
1
2T
X(t)dt

1
E{X(t)}dt =
2T
X dt = X
(5.26)
la cual, como puede verse, coincide con la media del proceso. Al respecto
de la varianza el calculo es un poco mas complejo, pero metodologicamente
interesante:
2
M
T
= E{(MT X )(MT X ) }
= E

1
2T
1
(X(t1 ) X )dt1
2T
T

(X(t2 ) X ) dt2
1 2 T T
=
E{(X(t1 ) X )(X(t2 ) X ) }dt1 dt2
2T
T T

1 2 T T
=
CX (t1 , t2 )dt1 dt2
2T
T T

1 2 T T
=
CX (t1 t2 )dt1 dt2
(5.27)
2T
T T
Para calcular esta integral es conveniente hacer el cambio de variable
t2
2T
T
-T
-2T
2T
t1
-T
-2T
Figura 5.2: Dominios original (t1 , t2 ) y transformado (, s) de integracion.

s = t1 + t 2
= t1 t 2
(5.28)
(la gura 5.2 indica los dominios de integraci

on original y transformado) y
dado que el jacobiano de la transformaci
on es

s
t1
t1
s
t1
t1

1 1

=
1 1

= 2

(5.29)
226
C. Alberola L
opez
entonces
= | 2|dt1 dt2 = 2dt1 dt2
1
=
dsd
2
dsd
dt1 dt2
(5.30)
de forma que la integral pasa a ser

2
M
T
=

1
2T
2
2T
2T
2
(2T | |)
1
CX ( ) ds
2
(2T | |)
2T 1
1
CX ( )2(2T | |)d
2T
2T 2

1 2 2T
| |
CX ( )2T 1
d
=
2T
2T
2T

2T
| |
1
CX ( ) 1
d
=
2T 2T
2T
(5.31)
Seg
un hemos visto en la ecuacion (5.26), la media de la variable media
temporal MT coincide con la media (estadstica) X del proceso. Pues bien,
para que el proceso sea ergodico con respecto de la media hace falta que
la varianza de esta variable tienda a cero cuando el tiempo de integraci
on
tienda a innito, de forma que, en el lmite, la variable media temporal
sea igual, sin error ninguno, a X . Formalmente el proceso es ergodico con
respecto de la media si
2
lim M
=0
(5.32)
T
T
es decir, si se verica que

1
lim
T 2T
5.5.2
2T
2T
| |
CX ( ) 1
2T
d = 0
(5.33)
Ergodicidad con respecto de la autocorrelaci

on
Podramos hacer las mismas consideraciones acerca de la ergodicidad de

un proceso respecto de la autocorrelacion. En este caso, a traves de un
operador temporal aplicado sobre una u
nica realizaci
on del proceso pretenderamos que el resultado de esta operacion coincidiese con la autocorrelaci
on RX ( ) del proceso. Pues bien, en este caso el operador es la
autocorrelaci
on temporal del proceso, denido de la forma:
AT ( ) = MT [X(t + )X (t)] =
1
2T
X(t + )X (t)dt
(5.34)

asticos
227
El proceso sera ergodico con respecto de la autocorrelacion si el lmite de

la anterior expresi
on coincide (sin error alguno) con la autocorrelaci
on del
proceso para todo , es decir, si se verica que
lim AT ( ) = RX ( ),
(5.35)
Para que esto sea as se pueden hacer las mismas consideraciones que en el
caso de ergodicidad con respecto de la media. Es sencillo comprobar que la
esperanza de la ecuacion (5.34) coincide con la autocorrelacion RX ( ) del
proceso. Por la tanto, se cumple la primera condicion para que el anterior
lmite se verique. La segunda condicion tiene que ver con la reduccion
progresiva de la varianza del anterior operador conforme el intervalo de
integracion crece. Se puede vericar que la varianza de AT ( ) es:
2
A
T ( )
1
=
2T
2T
2T
||
CY () 1
d
2T
(5.36)
con CY () es la covarianza del proceso Y (t) = X(t + )X (t) evaluada

en el punto . As pues, para que el proceso sea ergodico respecto de la
autocorrelacion, se debe vericar que
2
lim A
= 0,
T ( )
5.5.3
(5.37)
Algunas consecuencias de la ergodicidad de procesos

estoc
asticos
La ergodicidad es una propiedad que nos permite conectar conceptos probabilsticos con ideas intuitivas que podemos obtener haciendo razonamientos
temporales. Por ejemplo, imaginemos que un proceso estocastico X(t) es
igual a una VA Y, es decir
X(t) = Y, t
(5.38)
Supongamos, por concrecion, que la media de la variable Y es igual a Y .

En estas condiciones es obvio que una realizacion cualquiera del proceso
sera una funci
on constante del tiempo de valor igual al del valor que haya
tomado la variable Y en el experimento aleatorio, digamos, valor y. Por
tanto, el operador media temporal
MT =
1
2T
ydt = y
(5.39)
228
C. Alberola L
opez
de forma que, tambien en el lmite (T ), la media temporal es igual al

valor y de la realizaci
on. Como es natural, este valor en general sera distinto
de la media (salvo que de la casualidad que coincidan) por lo que el operador
media temporal no coincidir
a con la media Y del proceso, de modo que
un proceso as denido no puede ser erg
odico.
Un segundo ejemplo ilustrativo es el de un proceso estocastico ergodico
de media nula. Si el proceso es ergodico, como ya hemos dicho, la integracion temporal del mismo, en el lmite, ha de ser igual a la media (estadstica)
del proceso. Por ello, si la media de este es nula, la media temporal del
proceso tambien lo ha de ser, de forma que cualquier realizaci
on del mismo
sera una se
nal con uctuaciones en torno a la amplitud cero, con m
as o
menos simetra de los valores de la se
nal en torno a dicho valor nulo. Si,
por contra, el proceso tuviese media igual a 5, las uctuaciones de las realizaciones del proceso se produciran sobre un nivel constante de valor 5. La
gura 5.3 muestra un ejemplo de cada uno de los dos procesos.
El concepto de ergodicidad tambien nos permite justicar, de forma
intuitiva, por que la correlacion de un proceso WSS erg
odico ha de ser
maxima en el cero, as como por que debe ser peri
odica si el proceso es
peri
odico5 . Al respecto de la primera, tomemos como referencia la gura 5.4. En esta gura observamos en lnea continua una realizacion del
proceso X(t) y en lnea discontinua una realizaci
on de este proceso desplazado, es decir, del proceso X(t + ) para = 1 (gura inferior) y
para = 4 (gura superior). Recuerdese que el operador autocorrelacion
temporal calcula el area encerrada bajo el producto de estas dos funciones. Como es natural, cuando el proceso no esta desplazado con respecto
a el mismo, el area encerrada bajo el producto punto a punto de las dos
funciones temporales (la realizacion del proceso original, y la realizaci
on
del proceso desplazado) es maxima, dado que todos los productos tendr
an
signo positivo, de forma que todos los puntos de la realizaci
on contribuyen
positivamente. Por contra, cuando desplazamos la se
nal con respecto a ella
misma, los productos punto a punto de una con otra tendr
an, dependiendo
de cada punto, signos positivos o negativos, de forma que la contribuci
on
al area total sera constructiva o destructiva seg
un el signo y, por ello, el
area total sera menor.
Un argumento similar se puede emplear para un proceso peri
odico. En
la gura 5.5 se muestra una realizacion de un proceso peri
odico junto a
5
Debe hacerse una llamada de precauci

on. La ergodicidad no es condici
on necesaria
para que se cumplan las propiedades de la autocorrelaci
on vistas en la secci
on 5.4.1. Tales
propiedades se cumplen para procesos erg
odicos y no erg
odicos. Lo que aqu se pretende
es proporcionar una visi
on gr
aca de por que ha de ser as, no una demostraci
on.

asticos
229
2.5
1.5
0.5
0.5
1.5
2.5
10
20
30
40
50
60
70
80
90
100
80
90
100
a)
7
10
20
30
40
50
60
70
b)
Figura 5.3: a) Realizacion de un proceso estocastico ergodico de media
nula. b) Realizacion de un proceso estocastico ergodico de media cinco.
otra realizacion del mismo desplazada 2 unidades temporales (uts). Seg
un
se observa, el periodo del proceso es de 10 uts. La realizacion en lnea
discontinua ha desplazado su m
aximo al instante t = 8, mientras que el
maximo central de la realizacion en lnea continua se encuentra en t = 10.
Asimismo, en la realizacion en lnea discontinua observamos que un segundo m
aximo aparece por la derecha de la ventana. Por tanto, si seguimos
desplazando el proceso en lnea discontinua hasta 10 uts, el maximo que
ha entrado por la derecha se habr
a desplazado hacia la izquierda hasta encajar perfectamente con el maximo de la realizacion del proceso en lnea
continua situado en t = 10. En este momento ( = 10) la autocorrelacion
230
C. Alberola L
opez
2
1
0
1
2
3
10
12
14
16
18
20
10
12
14
16
18
20
2
1
0
1
2
3
Figura 5.4: Ejemplo de ajuste entre una funci

on y ella misma desplazada en
el tiempo. Superior: retraso de = 1 unidades temporales (ut). Inferior:
retraso de = 4 ut.
temporal (y, por ende, la autocorrelaci

on estadstica del proceso) volvera a
tener el mismo valor que para = 0. As pues, la autocorrelaci
on debe ser
peri
odica, y del mismo periodo que el proceso.
1.5
0.5
0.5
1.5
10
12
14
16
18

on del desplazamiento temporal de una realizaci
on de
un proceso peri
odico.

asticos
5.6
5.6.1
231
Densidad espectral de potencia

Introducci
on
En este punto vamos a llevar a cabo una caracterizacion espectral de los

procesos estocasticos en el dominio de Fourier, es decir, en el dominio de la
frecuencia. Como es sabido [15] el dominio transformado hace que ciertas
operaciones, en particular, la operacion de ltrado, sean mucho m
as intuitivas que en el dominio temporal original. El motivo es que una convoluci
on
es una operacion de cierta complejidad, mientras que su equivalente en
el dominio de la frecuencia es un simple producto punto a punto de la
transformada de Fourier de la se
nal con la transformada de Fourier de la
respuesta en frecuencia del ltro. Por tanto, conocidas ambas, es evidente
ver, por ejemplo, que extension espectral tendra la se
nal de salida del ltro,
si bien la respuesta a esta pregunta en el dominio temporal original no es,
en absoluto, trivial.
Con el objetivo de poder hacer uso de esta operativa vamos a relacionar
la teora de los procesos estocasticos con la teora de los sistemas lineales.
Para tal n, haremos un an
alisis paralelo a [1].
Una manera inmediata de hacerlo sera llevar a cabo el siguiente razonamiento: dado que los procesos estocasticos son una coleccion de funciones
temporales, podemos limitarnos a calcular las transformadas de Fourier de
las innitas (o nitas, en su caso) realizaciones del mismo y as tendremos
la caracterizacion del proceso en el dominio espectral. Este razonamiento
es correcto, sin embargo, es poco practico. El motivo es obvio: nos obliga a
trabajar con una coleccion de transformadas de Fourier. Sera mucho mas
u
til poder denir una u
nica funci
on espectral que caracterizase conjuntamente a todas las posibles realizaciones del proceso. En cierta manera, sera
algo equivalente a un espectro promedio del proceso. Con esta funci
on, a la
cual denominaremos densidad espectral de potencia del proceso, podramos
ver, por ejemplo, si el discurso de un locutor podra pasar sin distorsion a
traves de un determinado sistema lineal (por ejemplo, un amplicador) con
independencia de lo que el locutor diga en concreto, simplemente, haciendo
uso de las caractersticas globales de la voz de dicho locutor.
5.6.2
Deducci
on de la densidad espectral de potencia
Como es sabido, una condici

on suciente para que la transformada de Fourier de una se
nal x(t) exista, es que esta sea de cuadrado integrable. Sin
embargo, las sinusoides, por ejemplo, no tienen cuadrado integrable, pero
232
C. Alberola L
opez
s que disponen de transformada de Fourier. En el caso de los procesos

estocasticos, en general, tampoco seran de cuadrado integrable, de forma
que tendremos que asegurarnos que, de alguna manera, la integral de Fourier sea convergente. Esto se consigue trabajando en terminos de potencia
de las se
nales, en vez de en terminos de energa. Para tal n, consideremos un proceso estocastico X(t), y denamos, a partir de este, un proceso
estocastico XT (t) el cual coincidir
a con el primero en una parte del eje
temporal y sera nulo en el resto. Concretamente:
XT (t) =
X(t) |t| T
0
|t| > T
(5.40)
Un proceso as denido ser

a de cuadrado integrable salvo que el proceso
X(t) presente en el intervalo |t| T alg
un tipo de patologa. Dado que
asumiremos que esto no sera as, partamos de la hip
otesis de

|XT (t)|2 dt <
(5.41)
Con esta asunci

on, podemos armar que la transformada de Fourier del
proceso XT (t) (es decir, la de cada una de las realizaciones de dicho proceso)
existe. Ademas, es cierto que

|XT (t)|2 dt =
|X(t)|2 dt = ER=1
(5.42)
dado que en esa ventana temporal los dos procesos coinciden. Asimismo, si
aceptamos que los procesos son una magnitud electrica (tension o corriente)
la anterior expresi
on se puede considerar que es igual a la energa disipada
por el proceso sobre una resistencia normalizada de valor igual a 1. No se
pierda de vista que, naturalmente, dado que el proceso estoc
astico es una
coleccion de VAs, dicha energa es una funci
on de VA y, por ello, una VA.
En virtud del teorema de Parseval para se
nales continuas podemos escribir
T

1
|X(t)|2 dt =
|XfT ()|2 d
(5.43)
ER=1 =
2
T
donde XfT () es la transformada de Fourier del proceso enventanado XT (t).

N
otese que esta transformada de Fourier es tambien un proceso estocastico,
dado que es una funci
on aleatoria de una variable, en este caso, de la
pulsaci
on .

asticos
233
Podemos pasar de energas a potencias simplemente dividiendo por el

tiempo empleado en el calculo de la energa. Por ello
PR=1
1
ER=1
=
=
2T
2T
1
|X(t)| dt =
2
2
|XfT ()|2
d
2T
(5.44)
Extendiendo el intervalo de integraci

on para abarcar todo el proceso (T
) y tomando valores promedio (es decir, calculando la esperanza de las
transformadas de Fourier de cada realizaci
on) tendramos
PX =
=
lim E{PR=1 }
lim E
1
= lim
T 2T
=
=
lim E
1
2
1
2T
1
2
#
2
|X(t)| dt
E |X(t)|2 dt =

lim E
|XfT ()|2
d
2T
|XfT ()|2
2T
(5.45)
Resultado de esta operativa es que a la funci

on subintegral de la u
ltima
expresi
on, es decir a
SX () = lim E
T
|XfT ()|2
2T
(5.46)
se le denomina densidad espectral de potencia del proceso X(t), ya que es

una funci
on que integrada en un eje de frecuencias (de pulsaciones, estrictamente) proporciona la potencia media desarrollada por el proceso (sobre
una resistencia normalizada de 1 ). Mide, por lo tanto, c
omo se reparte
la potencia media del proceso en cada una de las componentes espectrales
que contribuyen a la formaci
on del proceso.
5.6.3
Caso particular de procesos estacionarios en sentido

amplio
En el caso particular, aunque pr

acticamente habitual, de procesos estocasticos estacionarios al menos en sentido amplio, las expresiones anteriores se
transforman en otras de mas f
acil manejo y mucho m
as intuitivas, pues relacionan la potencia media y la densidad espectral de potencia con parametros
de los procesos que ya conocemos.
234
C. Alberola L
opez
Concretamente, si consideramos la expresion (5.45), y nos centramos en

la relaci
on entre la potencia media y el proceso en el tiempo, es decir

$
%
T
1
P X = lim
E |X(t)|2 dt,
(5.47)
T 2T T
podemos escribir esta expresion haciendo uso del operador media temporal,
de forma que
$
%
P X = lim MT E |X(t)|2
(5.48)
T
es decir, estamos calculando la media temporal de la funci

on de VCMs del
proceso. En el caso de procesos WSS, el VCM es contante, de forma que,
dado que la media temporal de una constante coincide con la constante,
podemos escribir
$
%
(5.49)
P X = E |X(t)|2
As pues, para un proceso WSS, el VCM tiene el signicado de la potencia
media del mismo.
Por otra parte, la expresi
on general de la densidad espectral de potencia
SX () se simplica notablemente, resultando una expresion mucho m
as
intuitiva. Concretamente, llevando a cabo una operativa muy similar a la
desarrollada en la seccion 5.5, podemos escribir
XfT ()
$
E |XfT ()|2
T
T
X(t)ejt dt

E {X(t1 )X (t2 )} ej(t1 t2 ) dt1 dt2

(5.50)
y haciendo el cambio de variable

s = t1 + t2
= t1 t 2
podemos escribir
$
E |XfT ()|2
2T
(5.51)
2T
(2T | |)
1
1
d
RX ( )ej ds
2T 2T
2
(2T | |)
2T
1
1
RX ( )ej 2(2T | |)d
=
2T 2T
2
2T
| |
1
RX ( )ej 2T (1
)d
=
2T 2T
2T
2T
| |
RX ( )ej (1
)d
=
2T
2T
(5.52)

asticos
235
Si ahora calculamos el lmite de la anterior expresion cuando T para

dar lugar a la funci
on de densidad de potencia, obtendremos
|XfT ()|2
2T
SX () = lim E
T
RX ( )ej d
(5.53)
o lo que es igual, la transformada de Fourier de la funci

on de correlacion
del proceso. La relacion, por tanto, entre la densidad espectral de potencia
de un proceso estocastico WSS y la funci
on de autocorrelacion del mismo
es de transformadas directa e inversa, es decir

SX () =
RX ( ) =
1
2
RX ( )ej d
SX ()ej d
(5.54)
Estas expresiones reciben el nombre de relaciones de Wiener-Khinchin.

Algunas propiedades de SX ()
La funci
on de densidad de potencia de un proceso verica las siguientes
propiedades:
on real. Notese, seg
un indica la expresi
on (5.46),
1. SX () es una funci
que se calcula mediante una esperanza de un modulo al cuadrado de
un n
umero complejo. Por lo tanto es una esperanza de una magnitud
real, luego ha de ser real.
un hemos dicho, es la esperanza de una
2. SX () 0 . En efecto, seg
magnitud no negativa (un m
odulo al cuadrado) luego no puede ser
negativa.
3. Si el proceso X(t) es real y estacionario, SX () = SX (), es decir,
es una funci
on par. Esto es debido a que es igual a la transformada
de Fourier de RX ( ), funci
on que, como hemos visto, es real y par
si el proceso X(t) es real. Si el proceso X(t) fuese complejo, SX ()
sera una funci
on hermtica, puesto que tambien lo sera la correlacion
RX ( ).
4. Habida cuenta de la relaci
on entre el VCM de un proceso estocastico
WSS y su funci
on de autocorrelacion, se verica que
PX
1
=
2
SX ()d = RX (0) = E{X2 (t)}
(5.55)
236
5.6.4
C. Alberola L
opez
Espectros cruzados de procesos estacionarios en sentido amplio
La relaciones de Wiener-Khinchin se pueden extender al caso de dos procesos X(t) e Y(t) conjuntamente estacionarios en sentido amplio. Podemos,
por tanto, denir el par de transformadas

SXY () =
RXY ( ) =
1
2
RXY ( )ej d
SXY ()ej d
(5.56)
Estos espectros cruzados son, en general, funciones complejas incluso aunque los procesos X(t) e Y(t) sean reales. Ademas, habida cuenta de
las propiedades de la correlacion cruzada RXY ( ) es facil comprobar que
().
SXY () = SYX
Por otra parte, los espectros cruzados surgen con frecuencia en la pr
actica. Por ejemplo, supongamos que necesitamos calcular la densidad espectral de un proceso Z(t) = X(t) + Y(t). Entonces, calculando su autocorrelacion
RZ ( ) = E{Z(t + )Z (t)}
= E{(X(t + ) + Y(t + ))(X(t) + Y(t)) }
= E{X(t + )X (t)} + E{X(t + )Y (t)} +

E{Y(t + )X (t)} + E{Y(t + )Y (t)}
= RX ( ) + RY ( ) + RXY ( ) + RYX ( )
(5.57)
por lo que, tomando transformadas de Fourier, obtenemos

SZ () = SX () + SY () + SXY () + SYX ()
(5.58)
densidad espectrak que, como se observa, es funci

on de dos densidades espectrales y dos espectros cruzados. No obstante, para el caso particular en
el que los procesos sean ortogonales se verica que RXY ( ) = RYX ( ) = 0
, de forma que los espectros cruzados seran nulos y la densidad espectral de la suma de dos procesos coincidira con la suma de las densidades
espectrales. Una vez mas, la ortogonalidad de procesos hace que ciertas
operaciones sean mucho mas sencillas.
5.7
Sistemas lineales con entradas estoc

asticas
Consideremos que el proceso X(t) atraviesa un sistema lineal e invariante

con respuesta al impulso h(t). Denotemos al proceso a la salida del mismo

asticos
237
como Y(t). El objetivo de esta seccion es obtener las principales propiedades del proceso de salida en funci
on de las propiedades del proceso de
entrada.
Como es sabido [15], la relacion entrada-salida se obtiene mediante la
operacion de convoluci
on:

Y(t) =
5.7.1
X(t )h( )d
Media y valor cuadr

atico medio
Con respecto a la media:

&
E{Y(t)} = E

'
X(t )h( )d
h( )E {X(t )} d =
h( )X (t )d
(5.59)
y si el proceso es WSS

E{Y(t)} = X
h( )d = X H( = 0)
(5.60)
donde H( = 0) es la transformada de Fourier de la respuesta al impulso

del ltro evaluada en el cero.
Con respecto al VCM:
&
E{|Y(t)| } = E

h(1 )X(t 1 )d1
'
h (2 )X (t 2 )d2
E {X(t 1 )X (t 2 )} h(1 )h (2 )d1 d2

(5.61)
En el caso en que X(t) sea real y WSS
E{|Y(t)|2 } =
RX (2 1 ) h(1 )h (2 )d1 d2
(5.62)
238
C. Alberola L
opez
Un caso particular de interes consiste en que el proceso de entrada X(t)

sea un ruido blanco de media nula y funci
on de autocorrelaci
on RX ( ) =
N0
(
).
En
estas
condiciones
2
E{Y(t)} = X H( = 0) = 0

N0
(2 1 )h(1 )h (2 )d1 d2
E{|Y(t)|2 } =
2

N0
=
|h( )|2 d
2
5.7.2
(5.63)
(5.64)
Correlaci
on cruzada y autocorrelaci
on
Calculemos ahora la autocorrelacion RY (t1 , t2 ) del proceso Y(t) como funcion de RX (t1 , t2 ). Al respecto del proceso X(t), consideraremos que es
WSS.
Para calcular la autocorrelaci
on del proceso Y(t) emplearemos como
paso intermedio la correlacion cruzada RXY (t1 , t2 ):
&
RXY (t1 , t2 ) = E {X(t1 )Y (t2 )} = E X(t1 )

'
X (t2 )h ()d
h ()E {X(t1 )X (t2 )} d

h ()RX (t1 t2 + ) d =
h ()RX ( + ) d
= RXY ( )
(5.65)
es decir, que la correlacion cruzada RXY (t1 , t2 ) es funci

on de la diferencia
entre los ndices = t1 t2 , y se obtiene mediante la siguiente operacion
de convoluci
on:
RXY ( ) = RX ( ) h ( )
(5.66)
Con esto, la funci
on de autocorrelaci
on RY (t1 , t2 ) se puede calcular de la
forma
&5
RY (t1 , t2 ) = E {Y(t1 )Y (t2 )} = E

=
=
'
h()X(t1 )d Y (t2 )
h()E {X(t1 )Y (t2 )} d

h()RXY (t1 t2 ) d =
= RY ( ) = h( ) RXY ( )
h()RXY ( ) d
(5.67)

asticos
239
es decir,
RY ( ) = h( ) RXY ( )
= h( ) h ( ) RX ( )
5.7.3
(5.68)
Densidad espectral de potencia
Consecuencia inmediata de lo anterior es que

SXY () = F {RXY ( )} = F {RX ( ) h ( )}
= SX ()H ()
(5.69)
as como que
SY () = SX ()H ()H() = SX ()|H()|2
5.8
(5.70)
Algunos ejercicios ilustrativos
1.- Sea X(t) un proceso estocastico denido como sigue:

X(t) = Acos (2F(n)t)
con nT < t (n + 1)T , n Z, T > 0 y F[n] una secuencia de variables
independientes de Bernoulli, las cuales toman los valores fi = Ti , i = 1, 2,
con igual probabilidad n Z. Se pide:
2 (t). Es el proceso WSS?
a) Obtenga X (t) y X
b) Se dene el proceso

(n+1)T
Z[n] =
nT
X(t)cos (2f1 t) dt
Obtenga la caracterizacion probabilstica de primer orden de este proceso.

c) Se dene el proceso

(n+1)T
W[n] =
nT
X(t)cos (2f2 t) dt
Se pide que justique si los procesos Z[n] y W[n] son ortogonales.

Soluci
on:
a) El proceso X(t) consiste en una coleccion de VAs discretas,
pues para un t dado el proceso puede tomar los valores Acos (2f1 t)
o Acos (2f2 t) de forma equiprobable. Por ello, para el c
alculo de los
240
C. Alberola L
opez
par
ametros que se piden emplearemos las expresiones (2.41) y (2.50).
As pues
2
X (t) = E{X(t)} =
xi pi
i=1
A
[cos (2f1 t) + cos (2f2 t)]
2 5

6
A
1
2
cos 2 t + cos 2 t
2
T
T
=
=
Si particularizamos para dos valores temporales concretos

X (t = 0) =

X t =
T
4
A
[1 + 1] = A
2 5

6
A
A
cos
+ cos () =
2
2
2
on del
de forma que es evidente que X (t) = X , es decir, la media es funci
tiempo, por lo que el proceso no puede ser WSS.
Para calcular la varianza, calculemos primero el VCM
E{X2 (t)} =
=
2

i=1
A2
x2i P (X(t) = xi ) =
5
cos
2

i=1
x2i pi

1
2
2 t + cos2 2 t
T
T
6
para nalmente escribir

2
2
(t) = E{X2 (t)} X
(t)
X
5

6
2
A
1
2
cos2 2 t + cos 2 t
=
2
T
T
5

62
2
A
1
2
2
cos 2 t + cos 2 t
4
T
T
5

6
A2
1
2
1
2
=
cos2 2 t + cos2 2 t 2cos 2 t cos 2 t
4
T
T
T
T
b) Z[n] es un proceso de VAs discretas dado que cada VA del proceso

procede de una funci
on de cada variable del proceso F[n]. Por ello, su
caracterizacion de primer orden consiste en hallar los valores que toma
cada variable, as como las probabilidades con las que los toman (seccion

asticos
241
2.2.2). As pues si F[n] = f1 entonces

(n+1)T
Z[n] =
Acos (2f1 t) cos (2f1 t) dt
nT
(n+1)T
= A
nT
(n+1)T
cos2 (2f1 t) dt
1 + cos (2(2f1 )t)

dt
2
nT

4
4 (n+1)T
A
A (n+1)T
A T
A
cos
T+
t dt = T +
sen
t
2
2 nT
T
2
2 4
T nT
A
T
2
= A
=
=
Por otra parte si F[n] = f2

(n+1)T
Z[n] =
Acos (2f2 t) cos (2f1 t) dt
nT
A (n+1)T
[cos (2(f2 + f1 )t) + cos (2(f2 f1 )t)] dt
2 nT
5

6

A (n+1)T
3
1
=
cos 2 t + cos 2 t dt
2 nT
T
T

(n+1)T

A T
6
2 (n+1)T
T
=
+
sen
t
sen
t
2 6
T nT
2
T nT
= 0
As pues Z[n] es un proceso de VAs discretas que toman los valores A2 T y

0 de forma equiprobable.
c) Es evidente, a partir del procedimiento seguido en el apartado
anterior, que el proceso W[n] es tambien un proceso de VAs discretas que
toman los mismos valores que Z[n] y con las mismas probabilidades. Sin
embargo, debido a la denici
on de estos procesos, cuando Z[n] = 0 entonces
W[n] = A2 T y viceversa. Por ello la VA bidimensional (Z[n], W[n]) toma los
on
valores (0, A2 T ) y ( A2 T, 0) de forma equiprobable. Recordando la denici
de correlacion entre dos VAs (seccion 3.6.2) podemos escribir
RZW [n, n] = E{Z[n]W[n]} =

i
zi wi P (Z[n] = zi , W[n] = wi )
A
1
A
0 T + T 0 =0
2
2
2
Por ello las VAs Z[n] y W[n] son ortogonales.
242
C. Alberola L
opez
Sin embargo si escogemos dos ndices distintos m = n las VAs Z[m] y

W[n] proceden de funciones de las VAs F[m] y F[n], las cuales son independientes y, por ello, tambien lo son Z[m] y W[n]. Al ser independientes
son incorreladas (seccion 3.6.2) por lo que

RZW [m, n] = E{Z[m]W[n]} = E{Z[m]}E{W[n]} =

AT
4
2
AT 1
1
+0
2 2
2
2
= 0
Por ello los procesos no son ortogonales.

Este problema describe un tipo de modulaci
on digital conocido [13]
como FSK (frequency shift keying), en la cual cada dgito binario se enva
como un pulso sinusoidal de frecuencia fi (i={1,2}). Los procesos Z[m] y
W[n] toman valores no nulos cuando se reciben los smbolos asociados a
las frecuencias f1 y f2 , en los intervalos (mT, (m + 1)T ) y (nT, (n + 1)T ),
respectivamente.
2.- La cabecera de una instalaci

on de TV recibe la superposicion de tres
procesos estocasticos X(t), Y(t) y N(t). Los dos primeros soportan, respectivamente, la informaci
on de intensidad y color, mientras que el tercero es
un proceso de ruido blanco, de media nula, estacionario en sentido amplio
con funci
on de autocorrelaci
on RN ( ) = N20 ( ), erg
odico e independiente
de los primeros, el cual se ha introducido durante la transmisi
on de la se
nal.
Los procesos X(t) e Y(t) responden,respectivamente, a las expresiones
N
y
x
X(t) = N
i=1 Ai cos(i t + i ), Y(t) =
j=1 Bj cos(j t + j ), siendo Ai
exponenciales de par
ametro i, Bj exponenciales de par
ametro j y
las fases iniciales i y j uniformes [0, 2], i, j. Considere, asimismo,
independencia entre todas las variables Ai , Bj , p , q , i, j, p, q. Se pide:
a)Denominando Z(t) al proceso suma de los tres arriba indicados,
obtener E{Z(t)} y RZ (t1 , t2 ). Es el proceso Z(t) estacionario en sentido
amplio?
b) Es el proceso Z(t) ergodico respecto de la media? Sin necesidad
de hacer las operaciones, razone la ergodicidad respecto de la autocorrelacion del proceso X(t) + Y(t).
c) El proceso Z(t) es ltrado mediante un ltro cuya respuesta al
impulso es h(t) = (t) (t T0 ) originando un proceso de salida W(t).
Obtener la densidad espectral del proceso de salida W(t), sabiendo que
y
fix = 2i+1
on
2 f0 , fj = jf0 , siendo f0 = 1/T0 . Explique brevemente la misi

asticos
243
del ltro h(t).

Soluci
on:
a) Aplicando linealidad del operador esperanza (apartado 3.6) podemos escribir
E{Z(t)} = E{X(t) + Y(t) + N(t)}
= E{X(t)} + E{Y(t)} + E{N(t)}
Al respecto de la esperanza de X(t)
E{X(t)} = E
N
Ai cos(ix t
+ i )
i=1
N
E{Ai cos(ix t + i )}
i=1
N
E{Ai }E{cos(ix t + i )}
i=1
N
1
=
E{Ai }
2
i=1

0
cos(ix t + i )di
donde el paso de la segunda a la tercera lnea se ha hecho en base a la independencia de las VAs Ai y i (vease apartado 3.6.2). Con ello, la integral
resulta ser nula, dado que es la integraci
on de un coseno en un periodo del
mismo (recuerdese que se integra en la variable i y esta vara en el intervalo
[0, 2]). Por ello, E{X(t)} = 0. Similares consideraciones podran hacerse
con el proceso Y(t); ademas el enunciado dice que el proceso N(t) tiene
media nula. Ello hace nalmente que E{Z(t)} = 0.
Respecto de la autocorrelacion:
RZ (t1 , t2 ) = E{Z(t1 )Z(t2 )}
= E{(X(t1 ) + Y(t1 ) + N(t1 ))(X(t2 ) + Y(t2 ) + N(t2 ))}
Si se realiza el producto indicado tendremos numerosos factores del tipo
E{AB} con A y B VAs independientes (las procedentes de cada uno de
los procesos). Dado que E{AB} = E{A}E{B} para el caso de VAs independientes, y dado que la media de cada proceso es nula, del producto
anterior basta con que nos quedemos con los terminos consistentes en productos de variables que proceden del mismo proceso. Por ello
RZ (t1 , t2 ) = E{Z(t1 )Z(t2 )}
244
C. Alberola L
opez
= E{X(t1 )X(t2 )} + E{Y(t1 )Y(t2 )} + E{N(t1 )N(t2 )}

= RX (t1 , t2 ) + RY (t1 , t2 ) + RN (t1 , t2 )
= RX (t1 , t2 ) + RY (t1 , t2 ) + RN (t1 t2 )
Debemos calcular los dos primeros sumandos. Comenzando por RX (t1 , t2 )
RX (t1 , t2 ) =
N
N
E{Ai Aj cos(ix t1 + i )cos(jx t2 + j )}
i=1 j=1
N
E{A2i cos(ix t1 + i )cos(ix t2 + i )} +
i=1
N
N

i=1
N
E{Ai Aj cos(ix t1 + i )cos(jx t2 + j )}
j=1
j=i
E{A2i }E{cos(ix t1 + i )cos(ix t2 + i )} +
i=1
N
N

i=1
E{Ai }E{Aj }
j=1
j=i
E{cos(ix t1 + i )}E{cos(jx t2 + j )}
=
=
N

i=1
N

i=1
E{A2i }E{cos(ix t1 + i )cos(ix t2 + i )}

E{A2i }
E{cos(ix (t1 + t2 ) + 2i ) + cos(ix (t1 t2 ))} +
2
N

E{A2i }
i=1
N

1
i=1
cos(ix (t1
t2 )) =
N

2/2
i=1
cos(ix (t1 t2 )) =
N

1
i=1
cos(ix (t1 t2 ))
cos(ix )
con = t1 t2 . Reparese que se ha hecho uso de la independencia de VAs,

as como del VCM de una VA exponencial (apartado 2.5.4).
Respecto del proceso Y(t) el razonamiento sera similar, y el u
nico
cambio procedera de los VCMs de las VAs Bi . Por ello, podemos concluir
que
RZ (t1 , t2 ) =
N

1
i=1
cos(ix ) +
2
N

1
j=1
cos(jy ) +
N0
( )
2

asticos
245
= RZ ( )
por lo que el proceso es WSS (apartado 5.4).
b) La ergodicidad respecto de la media se puede plantear analizando
si el lmite del operador media temporal (expresion 5.25) coincide con la
esperanza matematica del proceso. Para tal n
MT [Z] = MT [X + Y + N] = MT [X] + MT [Y] + MT [N]
(5.71)
Respecto del proceso N(t), el enunciado dice que es ergodico. Queda pues
comprobar que sucede con los otros dos. Razonando, como anteriormente,
con el proceso X(t)
MT [X] =
1
2T
1
2T
X(t)dt
N
T i=1
N
1
T 2T
i=1
lim MT [X] =
lim
Ai cos(ix t + i )dt

Ai cos(ix t + i )dt
Cada una de las integrales corresponde a la integracion de una sinusoide

en toda la recta real. El valor de esta integral es nulo. Podemos ver esto
redeniendo el origen de tiempos para que el coseno se convierta en un
seno. En tal caso, la integral sera la de una funci
on impar en un intervalo
simetrico.
No obstante, para evitar dudas, empleemos el procedimiento consistente
en el calculo de la varianza de la VA MT [X] (expresion 5.31):
2
M
T
=
=
=
=
=
2T
1
| |
CX ( ) 1
d
2T 2T
2T

2T
| |
1
RX ( ) 1
d
2T 2T
2T
1
T
N
1
2T

N

1
i=1
N

i=1
T
i2
i=1
2T

cos(ix )
2

1
2T
cos(ix ) 1
2
2T
246
C. Alberola L
opez
Centr
andonos, por simplicidad, en un u
nico valor de i podemos escribir
i2
I1
2T
2T
1
1
x
=
cos(
)d
cos(ix ) d
i
2
2
T 0
T 0
2T
= I1 + I2
1 1
1
=
sen(ix )|2T
sen(ix 2T )
0 =
x
2
T i
T 2 ix
Es evidente que limT I1 = 0 pues el seno toma un valor entre 0 y 1.

Respecto de I2 podemos integrar por partes de la forma:
I2 =
=
=
1
2T 2 2
1
2T 2 2
1
2T 2 2
1
x sen(ix )|2T
0
i

0
2T
1
sen(ix )d
ix
2T
1
sen(ix 2T ) + x 2 cos(ix )|2T
0
ix
(i )
2T
1
sen(ix 2T ) + x 2 (cos(ix 2T ) 1)
x
i
(i )
En este caso el factor T 2 que divide a la expresi

on hace que el lmite sea
2
nuevamente cero. Por ello limT i2 = 0, de forma que limT M
=0
T
y el proceso es ergodico con respecto de la media.
Lo mismo sucede para el proceso Y(t) por lo que podemos concluir que
el proceso Z(t) es ergodico respecto de la media.
En relaci
on con la ergodicidad con respecto a la autocorrelacion rep
arese que la autocorrelacion temporal (expresion (5.34)) sera funci
on de los
valores concretos observados de las VAs Ai y Bj . Por ello la autocorrelacion temporal sera una funci
on aleatoria, de forma que no coincidir
a, en
general, con RZ ( ), por lo que el proceso no ser
a ergodico respecto de la
autocorrelaci
on.
c) Haciendo uso de la expresion (5.70) y dado que H() = 1ejT0
[15] entonces
SW () = |H()|2 SZ ()
= 2(1 cos(T0 ))SZ ()
con
SZ () =
N
i=1
[( ix ) + ( + ix )] +
N

j=1
( jy ) + ( + jy ) +
N0
2

asticos
247
Rep
arese entonces que:
1
T0
= kf0
2k + 1
=
2T0
2k + 1
=
f0
2
|H()|2 = 0 T0 = 2k 2f T0 = 2k fk = k
|H()|2 = 4 T0 = (2k + 1) 2f T0 = (2k + 1) fk
Por ello, habida cuenta de los valores que toman fix y fjy es claro que el
ltro elimina la componente de color Y(t) de la se
nal Z(t), multiplica por
4 la componente de intensidad X(t) y colorea el ruido adoptando este un
espectro sinusoidal. As pues
SZ () = 4SX () + 2(1 cos(T0 ))SN ()
3.- Considere el proceso estocastico real X[n], (n Z), estacionario en

sentido amplio y de media nula, con secuencia de autocorrelacion RX [m]
conocida (RX [m] < RX [0] m = 0). Se pide:
a) Identique el valor de a11 que hace que X[n]

= a11 X[n 1] sea
el estimador lineal de X[n] de mnimo error cuadr
atico medio. Obtenga la
varianza 2 del error en la estimacion.
1
es excitado por un ruido
b) Un ltro causal con H(z) = 1a11
z 1
blanco W[n], real y estacionario, de media nula y secuencia de autocorrelacion RW [m] = 2 [m], originando as un nuevo proceso Y[n]. Obtenga
la secuencia de autocorrelacion RY [m].
c) Para mejorar la calidad de la estimacion de X[n] se propone el
estimador
X[n]
= a21 X[n 1] + a22 X[n 2]
Obtenga los valores de los coecientes a11 y a22 de modo que X[n]
sea el
estimador lineal de mnimo error cuadr
atico medio, y deduzca la relacion
entre estos y 2 .
Soluci
on:
a) Dado que las medias de las VAs del proceso X[n] son nulas,
la expresion del estimador lineal optimo es, en efecto, la indicada en el
enunciado (pues el valor de la ordenada en el origen b sera nulo seg
un
indica la expresi
on (3.62)). Por otra parte el coeciente a11 se puede obtener
directamente del empleo de la expresion (3.61). Asimismo y tambien debido
248
C. Alberola L
opez
a la nulidad de la media, correlaci

on y covarianza coinciden (expresi
on 3.49).
Por ello
CX [1]
RX [1]
=
a11 =
2
RX [0]
X
Con respecto a la varianza del error de estimacion y seg
un la expresi
on
(3.64) podemos escribir
2
2 = X
(1 2X [1])
Dado que
RX [1]
RX [1]
"
X [1] = "
=
= a11
RX [0]
RX [0] RX [0]
entonces
2 = RX [0](1 a211 )
b) El ltro planteado tiene una respuesta al impulso [15] h[n] =
an u[n], con u[n] la funci
on escalon. La autocorrelaci
on a la salida del ltro
puede calcularse mediante el equivalente discreto de la expresion (5.68)
o bien a traves del dominio transformado, haciendo uso de la expresi
on
(5.70) adaptada al dominio discreto. Empleando el dominio original, la
autocorrelaci
on pedida puede calcularse mediante
RY [m] = h[m] h [m] RW [m]
En este caso, dado que la autocorrelaci
on a la entrada es la correspondiente
a un ruido blanco, la expresi
on anterior se puede escribir
RY [m] = 2 (h[m] h [m])
(5.72)
Para calcular esta convoluci

on podemos hacer uso de la propiedad de paridad de la autocorrelaci
on para un proceso estocastico WSS real (apartado
5.4.1); de esta manera, podemos calcular la convoluci
on para valores m 0
y luego forzar a que ese resultado sea par. Procediendo del modo indicado:
h[m] h [m] =
=
h[n]h[n m]
n=0

n=m
an anm = am

n=m
a2n ,
(5.73)

asticos
249
expresi
on v
alida m 0. Denominando a2 = debemos hacer la suma
S( ) = n=m n lo cual se obtiene de forma sencilla haciendo

S( ) =
S( ) =

n=m
n = m + m+1 + . . .
n = m+1 + m+2 + . . .
n=m
Restando ambas expresiones llegamos a

(1 )S( ) = m
m
S( ) =
1
(5.74)
por lo que uniendo los resultados de (5.74) y (5.73) y sustituyendo en (5.72)

llegamos a
am
,
RY [m] = 2
1 a2
lo cual es valido m 0. Como dijimos, la correlacion debe ser par. Por
ello
a|m|
RY [m] = 2
, m
1 a2
c) En este caso nos plantean la extension a dos variables del
estimador lineal optimo, esto es, la particularizacion de la expresi
on (4.12)
para N = 2. Para tal n, dado que b = 0 puesto que el proceso es de media nula, podemos, simplemente, hacer uso del principio de ortogonalidad
(vease apartado 3.7.5). Concretamente, denominando [n] = X[n] X[n]

podemos escribir
E{[n]X[n 1]} = 0
E{[n]X[n 2]} = 0
Por lo que
E{(X[n] (a21 X[n 1] + a22 X[n 2]))X[n 1]} = 0
E{(X[n] (a21 X[n 1] + a22 X[n 2]))X[n 2]} = 0
a21 RX [0] + a22 RX [1] = RX [1]
a21 RX [1] + a22 RX [0] = RX [2],
250
C. Alberola L
opez
sistema de dos ecuaciones con dos incognitas que podemos resolver, por
ejemplo, mediante la regla de Cramer, esto es:
a21
a22

=

=

RX [1] RX [1]
RX [2] RX [0]
RX [0] RX [1]
RX [1] RX [0]
RX [0] RX [1]
RX [1] RX [2]
RX [0] RX [1]
RX [1] RX [0]

RX [1]RX [0] RX [1]RX [2]

2 [0] R2 [1]
RX
X
2 [1]
RX [2]RX [0] RX
2 [0] R2 [1]
RX
X
RX [0] RX [2]
=
RX [0] 1
=
2 [1]
RX
2 [0]
RX
2 [1]
RX
RX [0]
RX [0]
RX [2] a11 RX [1]

2
4.- El proceso estocastico real M(t) es WSS, de media nula, con densidad
espectral SM (), de la que se sabe que SM () = 0 para || > 0 . A partir
de este se construye el proceso X(t) de la forma
(c t)
X(t) = M(t)cos (c t) M(t)sen
donde el proceso M(t)

es la transformada de Hilbert del proceso M(t). Esta
transformada se obtiene como salida del ltro lineal e invariante cuya res1
y, de forma complementaria, su respuesta en
puesta al impulso es h(t) = t
frecuencia es H() = jsgn() con sgn la funci
on signo. Bajo el supuesto de que c 0 se pide que obtenga la densidad espectral de potencia
SX () del proceso X(t).
Soluci
on:
Para obtener SX () calcularemos, como paso previo, RX (t1 , t2 ) y, de resultar el proceso WSS, nos limitaremos a calcular la transformada de Fourier
de la autocorrelaci
on. Rep
arese que de no resultar WSS tendramos que
emplear la va indicada en la expresi
on (5.46). Por otra parte, dado que
el proceso M(t)
se obtiene a partir de M(t) mediante un sistema lineal e

asticos
251
invariante, al ser M(t) WSS, tambien lo es M(t)

y son, asimismo, conjuntamente estacionarios (vease seccion 5.7). As pues
RX (t1 , t2 ) = E{X(t1 )X(t2 )}
= E

$
1 )sen (c t1 )
M(t1 )cos (c t1 ) M(t
%
2 )sen (c t2 )
M(t2 )cos (c t2 ) M(t
= E {M(t1 )M(t2 )cos (c t1 ) cos (c t2 )

2 )cos (c t1 ) sen (c t2 )
M(t1 )M(t
1 )M(t2 )sen (c t1 ) cos (c t2 ) +
M(t
%
2 )sen (c t1 ) sen (c t2 )
1 )M(t
M(t
= RM (t1 t2 )cos (c t1 ) cos (c t2 )
RMM
(t1 t2 )cos (c t1 ) sen (c t2 )
(t1 t2 )sen (c t1 ) cos (c t2 ) +
RMM
RM
(t1 t2 )sen (c t1 ) sen (c t2 )
En virtud de las relaciones entrada-salida obtenidas en la seccion mencionada y de las propiedades de las autocorrelaciones y correlaciones cruzadas
vistas en la seccion 5.4.1, podemos escribir
( ) = RMM
RMM
( )
1
1
= RM ( )
R MM
( ) = RM ( ) h ( ) = RM ( )
( )
1
1
RMM
( ) = RM ( )
= RM ( )
= RMM
( )
Por otra parte recuerdese que la funcion sgn() es igual a 1 para > 0 y a
1 para < 0. Para = 0 la funci
on vale cero. Sin embargo, dado que el
proceso M(t) se ha supuesto de media nula, la densidad espectral SM () no
presenta una delta en el origen (no esta presente un termino proporcional
a ()), de forma que el comportamiento de la funci
on sgn() en = 0 es,
a todos los efectos, irrelevante. Por ello, podemos escribir
2
SM
() = |H()| SM ()
= (jsgn()) (jsgn()) SM ()
= SM ()
= 0. Por ello podemos armar que RM
( ) = RM ( ) . Volviendo a la
expresion de RX (t1 , t2 ), y aceptando que = t1 t2 , podemos escribir
RX (t1 , t2 ) = RM ( )cos (c t1 ) cos (c t2 )
252
C. Alberola L
opez
R MM
( )cos (c t1 ) sen (c t2 ) +
R MM
( )sen (c t1 ) cos (c t2 ) +
RM ( )sen (c t1 ) sen (c t2 )
= RM ( ) [cos (c t1 ) cos (c t2 ) + sen (c t1 ) sen (c t2 )] +
R MM
( ) [sen (c t1 ) cos (c t2 ) cos (c t1 ) sen (c t2 )]
= RM ( )cos (c (t1 t2 )) + RMM

sen (c (t1 t2 ))
= RM ( )cos (c ) + RMM
sen (c )
Finalmente, dado que
$
E{X(t)} = E M(t)cos (c t) M(t)sen

(c t)
$
= E {M(t)} cos (c t) E M(t)

sen (c t) = 0
(recuerdese la expresion (5.60)) podemos armar que el proceso X(t) es
WSS.
Si recordamos ahora la expresi
on (5.69), dado que H () = jsgn()
entonces
SMM
() = H ()SM () = jsgn()SM ()
Con todo ello la densidad espectral SX () se puede expresar
SX () = SM () ( [( c ) + ( + c )]) +

[(
SMM
()
(
+
)]
c
c
j
= [SM ( c ) + SM ( + c )] +
4
3
S MM
( c ) SMM
( + c )
j
= [SM ( c ) + SM ( + c )] +
[SM ( c )sgn( c ) SM ( + c )sgn( + c )]
La gura 5.6 muestra, para una forma escogida de SM () que cumple
la restricci
on del enunciado, la densidad espectral de potencia SX () del
proceso X(t). Como puede verse, se ha desplazado la densidad espectral
SM () del proceso M(t) al valor = c pero solo se ha conservado la
banda lateral superior de tal densidad espectral (esto es, los valores SM ()
para > 0). Al ser M(t) un proceso real su densidad espectral es par,
de forma que al conservar solo la banda lateral superior (o la inferior) no
perdemos informaci
on de dicha funci
on. El procedimiento descrito en este

asticos
253
A
S ( )
M
0
1
S ( )
c
( c+ 0)
c +
c 0
S ( )
c+ 0
c +
c
( c+ 0)
c 0
c+ 0
-A
-A
S ( )
X
2A
c
( c+ 0)
2A
c
0
c+ 0
1 () = S ( ) +
Figura 5.6: Figura problema 4. Se ha denominado SX
c
M
2
SM ( + c ) y SX () = SM ( c )sgn( c ) SM ( + c )sgn( + c ).
ejercicio consiste en un tipo de modulacion lineal conocida [13] como SSB

(single sideband, esto es, modulaci
on de banda lateral u
nica) y permite
modular se
nales anal
ogicas ocupando la mitad de ancho de banda que se
ocupara si se transmitiesen las dos bandas laterales, sin perdida alguna de
informaci
on.
Bibliografa
B
asica
[1] P. Z. Peebles, Probability, Random Variables and Random Signal Principles, Mc-Graw Hill Int. Ed., 3rd Ed., 1994.
[2] A. Papoulis, Probability, Random Variables and Stochastic Processes,
Mc-Graw Hill Int. Ed., 3rd Ed., 1993.
[3] H. Starks, J. W. Woods, Probability, Random Processes and Estimation Theory for Engineers, Mc-Graw Hill Int. Ed., 2nd Ed., 1994.
Avanzada
[4] S. M. Kay, Fundamentals of Statistical Signal Processing. Estimation
Theory, Prentice-Hall Int. Ed., 1st Ed., 1993.
[5] S. M. Kay, Fundamentals of Statistical Signal Processing. Detection
Theory, Prentice-Hall Int. Ed., 1st Ed., 1998.
[6] H. L. Van Trees, Detection, Estimation and Modulation Theory, Part
I, John Wiley and Sons Inc., 1st Ed., 1968.
[7] H. V. Poor, An Introduction to Signal Detection and Estimation,
Springer-Verlag, 2nd Ed., 1994.
[8] L. L. Scharf, Statistical Signal Processing, Adddison Wesley, 1st Ed.,
1991.
[9] R. O. Duda, P. E. Hart, Pattern Analysis and Scene Classication,
John Wiley and Sons Inc., 1st Ed., 1973.
255
256
C. Alberola L
opez
[10] S. Theodoridis, K. Koutroumbas, Pattern Recognition, Academic

Press, 1st Ed. 1999.
[11] B. W. Lindgren Statistical Theory, Collier-Macmillan Int. Ed., 4th
Ed., 1976.
[12] T. W. Anderson, An Introduction to Multivariate Statistical Analysis,
John Wiley and Sons Inc., 2nd Ed., 1984.
Sistemas de comunicaci
on
[13] S. Haykin, Communication Systems, John Wiley and Sons Inc., 3rd
Ed., 1994.
[14] B. Sklar, Digital Communications: Fundamentals and Applications,
Prentice Hall Int. Ed., 1st Ed., 1988.
Procesado de Se
nal e Imagen
[15] A. V. Oppenheim, A. S. Willsky, I. T Young, Signals and Systems,
Prentice Hall Int. Ed., 1st Ed., 1983.
[16] A. K. Jain, Fundamentals of Digital Image Processing, Prentice-Hall
Int. Ed., 1st Ed., 1989.
[17] J. S. Lim, Two dimensional Signal and Image Processing, Prentice-Hall
Int. Ed., 1st Ed., 1990.
Indice General
Pr
ologo
1 Teora de la Probabilidad
1.1 Introducci
on . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Algebra de conjuntos . . . . . . . . . . . . . . . . . . . . . .

1.2.1 Deniciones, terminologa y notaci
on . . . . . . . . .
1.2.2 Operaciones con conjuntos . . . . . . . . . . . . . . .
1.3 Denici
on de probabilidad . . . . . . . . . . . . . . . . . . .
1.3.1 Probabilidad como frecuencia relativa . . . . . . . .
1.3.2 Denici
on clasica . . . . . . . . . . . . . . . . . . . .
1.3.3 Denici
on axiom
atica de la probabilidad . . . . . . .
1.4 Probabilidad condicionada . . . . . . . . . . . . . . . . . . .
1.5 Independencia de sucesos . . . . . . . . . . . . . . . . . . .
1.5.1 Independencia de pares de sucesos . . . . . . . . . .
1.5.2 Independencia de m
ultiple sucesos . . . . . . . . . .
1.6 Teoremas de la Probabilidad total y de Bayes . . . . . . . .
1.6.1 Concepto de partici
on . . . . . . . . . . . . . . . . .
1.6.2 Teorema de la Probabilidad Total . . . . . . . . . .
1.6.3 Teorema de Bayes . . . . . . . . . . . . . . . . . . .
1.6.4 Sobre el teorema de Bayes y los sistemas de comunicaciones . . . . . . . . . . . . . . . . . . . . . . . . .
1.7 Experimentos compuestos. Composicion de ensayos de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.7.1 Composicion de ensayos de Bernoulli . . . . . . . . .
13
13
15
15
16
19
20
20
21
26
28
28
31
32
32
32
33
2 Variable aleatoria unidimensional

2.1 Concepto de variable aleatoria . . . . . . . . . . . . . . . .
2.2 Caracterizacion de las variables aleatorias: funciones de distribuci
on y densidad . . . . . . . . . . . . . . . . . . . . . .
47
47
257
34
37
40
49
258
C. Alberola L
opez
2.3
2.4
2.5
2.6
2.7
2.8
2.2.1 Funci
on de distribuci
on . . . . . . . . . . . . . . . .
2.2.2 Funci
on de densidad de probabilidad . . . . . . . . .
Algunas variables aleatorias frecuentes . . . . . . . . . . . .
2.3.1 Continuas . . . . . . . . . . . . . . . . . . . . . . . .
2.3.2 Discretas . . . . . . . . . . . . . . . . . . . . . . . .
Funciones condicionadas . . . . . . . . . . . . . . . . . . . .
2.4.1 Teoremas de la Probabilidad Total y de Bayes . . .
2.4.2 Teoremas de la Probabilidad Total y de Bayes mediante partici
on continua . . . . . . . . . . . . . . .
Caracterizacion parcial de una variable aleatoria. . . . . .
2.5.1 Media . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5.2 Otras medidas de tendencia central . . . . . . . . . .
2.5.3 Varianza . . . . . . . . . . . . . . . . . . . . . . . . .
2.5.4 Ejemplos para varias distribuciones . . . . . . . . . .
2.5.5 Desigualdad de Tchebyche . . . . . . . . . . . . . .
Transformaci
on de variable aleatoria . . . . . . . . . . . . .
2.6.1 Caso de X discreta . . . . . . . . . . . . . . . . . . .
2.6.2 Caso general. Obtenci
on de la funci
on de distribuci
on
2.6.3 Caso general. Obtenci
on de la funci
on de densidad:
Teorema Fundamental . . . . . . . . . . . . . . . . .
Caracterizacion parcial de una funci
2.7.1 Momentos de una variable aleatoria . . . . . . . . .
Funciones que generan momentos . . . . . . . . . . . . . . .
2.8.1 Funci
on caracterstica . . . . . . . . . . . . . . . . .
2.8.2 Funci
on generadora de momentos . . . . . . . . . . .
3 Variable aleatoria bidimensional

3.1 Introducci
on . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Caracterizacion de variable aleatoria bidimensional . . . . .
3.2.1 Funci
on de distribuci
on conjunta . . . . . . . . . . .
3.2.2 Funci
on de densidad de probabilidad conjunta . . .
3.2.3 Funciones marginales . . . . . . . . . . . . . . . . . .
3.2.4 Casos particulares . . . . . . . . . . . . . . . . . . .
3.3 Funciones condicionadas . . . . . . . . . . . . . . . . . . . .
3.3.1 Funciones marginales, condicionadas y conjuntas . .
3.3.2 Teoremas de la Probabilidad Total y de Bayes para
partici
on continua . . . . . . . . . . . . . . . . . . .
3.4 Independencia . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5 Transformaci
on de variable aleatoria bidimensional . . . . .
3.5.1 Una funci
on de dos variables aleatorias . . . . . . . .
50
55
58
58
65
67
69
70
73
73
75
76
78
85
87
89
90
94
99
101
103
103
109
111
111
114
114
117
119
122
127
128
131
132
135
135
INDICE GENERAL
3.6
3.7
259
3.5.2 Dos funciones de dos variables aleatorias . . . . . . .

3.5.3 Teorema Fundamental . . . . . . . . . . . . . . . . .
3.5.4 Metodo de la variable auxiliar . . . . . . . . . . . . .
Caracterizacion parcial de una funci
on de dos variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6.1 Esperanzas condicionadas . . . . . . . . . . . . . . .
3.6.2 Momentos conjuntos . . . . . . . . . . . . . . . . . .
Estimaci
on de mnimo error cuadr
atico medio . . . . . . . .
3.7.1 Introducci
on . . . . . . . . . . . . . . . . . . . . . .
3.7.2 Resumen de estimadores . . . . . . . . . . . . . . . .
3.7.3 Estimaci
on mediante una constante . . . . . . . . .
3.7.4 Estimaci
on mediante una funci
on lineal de la observacion . . . . . . . . . . . . . . . . . . . . . . . . . .
3.7.5 Principio de ortogonalidad . . . . . . . . . . . . . . .
3.7.6 Estimacion optima sin restricciones . . . . . . . . . .
4 Variable N-dimensional
4.1 Conceptos b
asicos . . . . . . . . . . .
4.2 Esperanzas matematicas . . . . . . . .
4.3 Variables conjuntamente gaussianas .
4.4 Variables complejas . . . . . . . . . . .
4.5 Teoremas asintoticos . . . . . . . . . .
4.5.1 Teorema del Lmite Central . .
4.5.2 Teorema de DeMoivre-Laplace
4.5.3 Ley de los Grandes N
umeros .
4.6 Algunos ejercicios ilustrativos . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
141
144
149
151
153
153
157
157
161
161
162
164
165
167
167
171
174
183
184
184
186
187
190
5 Procesos estoc
asticos
209
5.1 Concepto de proceso estocastico. Clasicacion . . . . . . . . 209
5.1.1 Clasicaci
on de procesos estocasticos . . . . . . . . . 212
5.2 Funciones de distribuci
on y densidad . . . . . . . . . . . . . 213
5.3 Caracterizacion parcial de procesos estocasticos. Ruido blanco214
5.3.1 Concepto de ruido blanco . . . . . . . . . . . . . . . 216
5.3.2 Caso de dos procesos . . . . . . . . . . . . . . . . . . 217
5.4 Estacionariedad . . . . . . . . . . . . . . . . . . . . . . . . . 218
5.4.1 Propiedades de la correlacion de procesos estacionarios220
5.5 Ergodicidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
5.5.1 Ergodicidad con respecto de la media . . . . . . . . 223
5.5.2 Ergodicidad con respecto de la autocorrelacion . . . 226
260
C. Alberola L
opez
5.5.3
5.6
5.7
5.8
Algunas consecuencias de la ergodicidad de procesos

estocasticos . . . . . . . . . . . . . . . . . . . . . . .
Densidad espectral de potencia . . . . . . . . . . . . . . . .
5.6.1 Introducci
on . . . . . . . . . . . . . . . . . . . . . .
5.6.2 Deducci
on de la densidad espectral de potencia . . .
5.6.3 Caso particular de procesos estacionarios en sentido
amplio . . . . . . . . . . . . . . . . . . . . . . . . . .
5.6.4 Espectros cruzados de procesos estacionarios en sentido amplio . . . . . . . . . . . . . . . . . . . . . . .
Sistemas lineales con entradas estocasticas . . . . . . . . . .
5.7.1 Media y valor cuadr
atico medio . . . . . . . . . . . .
5.7.2 Correlacion cruzada y autocorrelacion . . . . . . . .
5.7.3 Densidad espectral de potencia . . . . . . . . . . . .
Algunos ejercicios ilustrativos . . . . . . . . . . . . . . . . .
Bibliografa
227
231
231
231
233
236
236
237
238
239
239
255

Probabilidad Variables Aleatorias y Procesos

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Probabilidad Variables Aleatorias y Procesos

Caricato da

Copyright:

Formati disponibili

Carlos Alberola Lpez

PROBABILIDAD, VARIABLES ALEATORIAS

PROBABILIDAD, VARIABLES ALEATORIAS Y

Una introduccin orientada a

ALBEROLA LOPZ, Carlos

CARLOS ALBEROLA LPEZ

PROBABILIDAD, VARIABLES ALEATORIAS Y

Una introduccin orientada a

No est permitida la reproduccin total o parcial de este libro, ni su

CARLOS ALBEROLA LPEZ, VALLADOLID, 2004

do este libro. Sin embargo, como se dijo antes, el autor dispone de un u

rias) y el quinto, segunda unidad conceptual, constituira una introducci

tos se produce de forma paulatina, de forma que si el lector de este prologo

La mayor parte de los fenomenos en la naturaleza tienen un car

Asimismo, inherentes a los sistemas de comunicacion son las se

Todos estos ejemplos ponen de maniesto que debe haber un cuerpo

Captulo 1. Teora de la Probabilidad

Deniciones, terminologa y notaci

Un conjunto se dene genericamente como una coleccion de elementos.

Dos conjuntos de dice que son disjuntos si no tienen ning

Operaciones con conjuntos

Para operar con conjuntos, una representacion muy u

Figura 1.1: Ejemplo de diagrama de Venn.

Igualdad de conjuntos y conjunto diferencia

Captulo 1. Teora de la Probabilidad

Figura 1.2: Conjunto diferencia.

Figura 1.3: Uni

Por razones que se veran posteriormente, es habitual en calculo probabilstico escribir

y, extendido al caso de operaciones m

Debe repararse que estos signos no tienen el signicado algebraico de suma

Con respecto a la propiedad asociativa

Finalmente la propiedad distributiva permite escribir

Captulo 1. Teora de la Probabilidad

Figura 1.4: Conjunto A y su complementario A.

Ambas expresiones pueden comprobarse con facilidad mediante diagramas

Se trata ahora de denir de forma precisa el concepto de probabilidad que

Para ello, propondremos en primer lugar las deniciones m

Probabilidad como frecuencia relativa

La probabilidad entendida como una frecuencia relativa se basa en la experimentaci

Captulo 1. Teora de la Probabilidad

1. El conjunto universal que hemos denotado por S, recibir

Notese que de estos axiomas se pueden extraer conclusiones muy u

Captulo 1. Teora de la Probabilidad

Si A B entonces P (A) P (B). Esta consecuencia se debe a que

= 1, pues todos los casos son favorables al espacio mues-

Suponiendo que los resultados A y B no puedan darse de forma simult

Por ello, el planteamiento cl

= 1 P (A1 An+1 ) = 1 (P (A1 ) + P (An+1 ))

Tambien denominado -algebra [3].

Captulo 1. Teora de la Probabilidad

1. El espacio muestral S viene dado por el conjunto de todos

La probabilidad condicionada es una denici

Captulo 1. Teora de la Probabilidad

El hecho de conocer que el suceso B se ha vericado implica que el

< S, F, P >= B < SB , FB , PB >

esto es, partimos del experimento y la vericacion de B nos hace pasar a un

3. Si A C = entonces P (A C|B) debe ser igual a P (A|B) + P (C|B).

puesto que si A y C son sucesos disjuntos, lo son tambien cualesquiera

Sean dos sucesos A y B con probabilidades distintas de 0. Se dice que los

es decir, si la probabilidad de A condicionada a la vericaci

Captulo 1. Teora de la Probabilidad

A no es ni mas probable ni mas improbable cuando sabemos que B se ha

por ello, obtenemos la expresion de la condici

entonces, a partir de la segunda igualdad, despejamos la probabilidad de