Sei sulla pagina 1di 56

Conceitos Basicos da Teoria da Probabilidade

1
Onofre Simoes
N ucleo de Matematica Financeira (NMF) - CEMAPRE.
1
Este texto e uma traducao, com algumas (poucas) adaptacoes, do primeiro captulo do livro elementary
stochastic calculus with Finance in View, de Thomas Mikosch. As guras tambem foram retiradas da
mesma obra.
1 Conceitos Basicos da Teoria da Probabilidade
1.1 Variaveis Aleatorias
Def. 1: Experiencia Aleatoria
Processo ou conjunto de circunstancias, sujeito `a inuencia de factores casuais, capaz de
produzir resultados observaveis - ainda que incertos.
Ex. 1:
observar o resultado do lancamento de uma moeda.
registar o n umero de lancamentos de um dado, ate se obter a pontuacao 1.
registar a variacao percentual diaria do ndice PSI20 (sujeito `as tendencias economicas,
aos interesses polticos e aos comportamentos individuais).
registar o preco (Euros) do almoco de terca-feira proxima (resultante do jogo da con-
correncia - disputado entre as empresas de restauracao, por um lado, e entre as em-
presas e os consumidores, por outro).
Def. 2: Espaco dos Resultados (de uma experiencia aleatoria)

E o conjunto de todos os resultados potencialmente observaveis quando a experiencia se


realiza, represente-se por .
Ex. 1 (Cont.):
= {Sada de cara, Sada de coroa}
= {1, 2, 3, ...}
= R
= {p : p 0}.
O tratamento matematico das situacoes exige normalmente que a cada resultado da ex-
periencia aleatoria se faca corresponder um n umero real. Muitas vezes essa correspondencia
e automatica, nos outros casos e convencionada.
Def. 3: Variavel Aleatoria (v.a.)

E toda a funcao real com domnio , represente-se por X = X().


1
Ex. 1 (Cont.):
No lancamento da moeda, pode denir-se que
X = X() =
_
0, se = cara
1, se = coroa
Nas restantes situacoes, a realizacao da experiencia aleatoria ja fornece resultados
numericos e pode fazer-se a associacao automatica a variaveis aleatorias.
Como descrever o comportamento de uma variavel aleatoria X,
em termos probabilsticos?
Tome-se uma classe F de subconjuntos de que seja uma -algebra, isto e, tal que:
F e F
Se A F, entao A
c
F
Se A
1
, A
2
, ... F , entao

_
i
A
i
F e

i
A
i
F.
F deve ser construda de modo a conter todos os subconjuntos de relevantes para a
experiencia aleatoria, e aos quais se possa atribuir uma probabilidade, designados aconte-
cimentos. Quando e um conjunto nito ou innito numeravel toma-se F =2

, a classe
fundamental. Quando e um conjunto innito nao numeravel toma-se a classe dos Bore-
lianos.
2
Na realidade, o que se pretende e que:
F
F
Se A
1
, A
2
, ... F, entao

A
i
F
Se A, B F, entao A B F
Se A
1
, A
2
, ... F, entao

A
i
F.
Ha varias abordagens possveis para a atribuicao das probabilidades aos acontecimentos.
Uma delas e a abordagem frequencista, que estabelece uma correspondencia entre a proba-
bilidade de realizacao de um acontecimento e a frequencia relativa estabilizada observada
para esse acontecimento, apos um grande n umero de repeticoes da experiencia aleat oria
subjacente (lei dos grandes n umeros).
2
Um conjunto B R diz-se um conjunto de Borel, ou Boreliano, quando pode ser obtido a partir das
opera coes

,

e passagem ao complementar, efectuadas sobre os conjuntos da classe I dos intervalos de
n umeros reais do tipo (a, b], a b. Os conjuntos abertos, os conjuntos fechados e os conjuntos numeraveis
sao Borelianos.
2
Ex. 1 (Cont.):
Kerrich efectuou 10000 lancamentos de uma moeda, tomando particular cuidado para que
fossem feitos ao acaso. Os resultados guram na tabela abaixo.
N umero de lancamentos N umero de caras Freq. relativa
1 0 0
5 2 0,4
10 4 0,4
100 44 0,44
1000 502 0,502
5000 2533 0,507
10000 5067 0,507
De acordo com a abordagem frequencista, ter-se-ia entao
P(X = x) =
_
0.507, x = 0
0.493, x = 1
,
pois
_
P(X = 0) = P({ : X() = 0}) = P(sada de cara)
P(X = 1) = P({ : X() = 1}) = P(sada de coroa)
Em resumo: a cada acontecimento A F a medida de probabilidade atribui um n umero
P(A) [0, 1], que corresponde `a fraccao das realizacoes de A, num n umero sucientemente
grande de repeticoes da experiencia aleatoria em causa.
Propriedades elementares das medidas de probabilidade:
Se A, B F, entao P(A

B) = P(A)+P(B)P(A

B). Se A e B sao acontecimentos


incompatveis (mutuamente exclusivos), P(A

B) = P(A) +P(B), pois A

B =
P(A
c
) = 1 P(A)
P()=1; diz-se o acontecimento certo
P() = 0; diz-se o acontecimento impossvel.
Def. 4: Funcao de Distribuicao de uma v.a.
Funcao de distribuicao de uma v.a. X e uma funcao real, seja F(x), tal que
F(x) = F
X
(x) = P(X x) = P({ : X() x}), x R.
Com a funcao de distribuicao e possvel calcular as probabilidades de todos os acontecimen-
tos. Basta ter em atencao que
3
P(X (a, b]) = P({ : a < X() b}) = F(b) F(a), a < b
P(X = x) = P({ : X() x}) P({ : X() < x}) = F(x) F(x 0)
Sendo possvel calcular a probabilidade de { : X() B}, B um Boreliano, pode denir-se
distribuicao de uma v.a., nocao equivalente `a de funcao de distribui cao.
Def. 5: Distribuicao de uma v.a.
Distribuicao de uma v.a. X e uma funcao real, seja P
X
(B), tal que
P
X
(B) = P(X B) = P({ : X() B}), B um Boreliano.
Def. 6: Variavel Aleatoria Discreta
Diz-se que a v.a. X e uma v.a. discreta quando a sua funcao de distribuicao e da forma
F
X
(x) =

k:x
k
x
p
k
, x R, p
k
= P(X = x
k
); 0 p
k
1, k;

k=1
p
k
= 1.
Nestas condicoes, diz-se tambem que X tem funcao de distribuicao e distribuicao discretas.
Uma v.a. discreta assume um n umero nito ou uma innidade numeravel de valores x
1
, x
2
, ....
Sao estes os pontos de descontinuidade de F(x): em x = x
k
a funcao tem um acrescimo p
k
.
Def. 7: Variavel Aleatoria Contnua
Diz-se que a v.a. X e uma v.a. contnua, com funcao de densidade f
X
(x) = f(x), quando a
sua funcao de distribuicao se pode escrever
F
X
(x) =
_
x

f
X
(y)dy, x R; f
X
(x) 0, x R;
_

f
X
(y)dy = 1.
Nestas condicoes, diz-se tambem que X tem funcao de distribuicao e distribuicao contnuas.
Uma v.a. contnua assume uma innidade nao numeravel de valores e, nao apresentando
F(x) pontos de descontinuidade, tem-se
P(X = x) = F(x) F(x 0) = 0, x R.
Como e evidente, qualquer v.a. que tenha algum interesse de ordem pratica e na realidade
uma variavel discreta, devido `as limitacoes tecnicas na medicao. Apesar disso, e muitas vezes
conveniente considera-las como contnuas, tanto do ponto de vista pratico, como do ponto
de vista teorico.
4
Ex. 2 (Duas importantes distribuicoes discretas):
Distribuicao Binomial
Uma v.a. X tem distribuicao binomial de parametros n e p, n N, p (0, 1),
quando
P(X = k) =
_
n
k
_
p
k
(1 p)
nk
, k = 0, 1, ..., n.
Escreve-se X Bin(n, p).
A func ao de distribuicao e obtida acumulando os valores das probabilidades acima.
Por exemplo, com n = 5 e p = 0.3, tem-se
P(X = k) =
_

_
0.1681, k = 0
0.3602, k = 1
0.3087, k = 2
0.1323, k = 3
0.0284, k = 4
0.0023, k = 5
e
F(x) = P(X x) =
_

_
0, x < 0
0.1681, 0 x 1
0.5283, 1 x 2
0.8370, 2 x 3
0.9693, 3 x 4
0.9977, 4 x 4
1, x 5
A distribuicao binomial aplica-se quando ha uma sucessao de n provas independentes
de Bernoulli (experiencias aleatorias que consistem em observar se se realiza um dado
acontecimento, mantendo-se constante a probabilidade p de isso suceder). Nessas
condicoes, a v.a. X representa o n umero de vezes que o acontecimento se realiza
(o n umero de sucessos) nas n provas.
Distribuicao de Poisson
Uma v.a. X tem distribuicao de Poisson de parametro , > 0, quando
P(X = k) =
e

k
k!
, k = 0, 1, 2, ....
Escreve-se X Poi().
5
Sendo discreta, tambem agora a funcao de distribuicao e obtida acumulando os valores
das probabilidades acima.
Por exemplo, com = 2, tem-se
P(X = k) =
_

_
0.1353, k = 0
0.2707, k = 1
0.2707, k = 2
0.1804, k = 3
0.0902, k = 4
0.0361, k = 5
0.0120, k = 6
0.0034, k = 7
0.0009, k = 8
0.0003, k = 9
e
F(x) = P(X x) =
_

_
0, x < 0
0.1353, 0 x 1
0.4060, 1 x 2
0.6767, 2 x 3
0.8571, 3 x 4
0.9473, 4 x 5
0.9834, 5 x 6
0.9954, 6 x 7
0.9988, 7 x 8
0.9997, 8 x 9
1, x 9
A distribuicao de Poisson aplica-se quando, vericadas certas hipoteses, ha a neces-
sidade de considerar uxos de eventos casuais ao longo do tempo ou do espaco. O
parametro exprime a intensidade media com que as ocorrencias surgem, por unidade
de tempo ou de espaco. A v.a. X representa o n umero dessas ocorrencias na mesma
unidade de tempo ou de espaco.
Tanto a distribuicao binomial como a distribuicao de Poisson estao associadas a proces-
sos de contagem.
Ex. 3 (Duas importantes distribuicoes contnuas):
Distribuicao Normal (Gaussiana)
Uma v.a. X tem distribuicao normal de parametros e
2
, R,
2
> 0 - e escreve-se
X N(,
2
) - quando a sua funcao de densidade e
f
X
(x) =
1

2
e

(x)
2
2
2
, x R.
6
Se = 0 e
2
= 1, escreve-se X N(0, 1) e diz-se que X tem distribuicao normal-
standard.

E facil provar que, se X N(,
2
), entao Z =
X

N(0, 1). Chama-se


a esta transformacao a standardizacao da v.a. X. A funcao de densidade da v.a. Z e
representada pela letra e a sua funcao de distribuicao e (z) =
_
z

(y)dy, z R.
Encontram-se ambas largamente tabeladas.
Por exemplo, se X N(2, 1.5
2
),
P(1 < X < 3) = P(
12
1.5
<
X2
1.5
<
32
1.5
)
= P(2 < Z <
2
3
) = (
2
3
) (2) = 0.7258
Muitas v.a. obedecem exactamente `a lei de probabilidade normal, nomeadamente v.a.
que dizem respeito a fenomenos fsicos. Muitas outras tem distribuicoes que sao aprox-
imadamente normais, em particular, v.a. que dizem respeito a fenomenos biometricos.
Uma vez que a distribuicao normal tambem aparece como distribuicao limite num
grande n umero de situacoes, via Teorema do Limite Central, a sua aplicabilidade e
muito vasta.
Distribuicao Uniforme
Uma v.a. X tem distribuicao uniforme no intervalo (a, b) quando a sua funcao de
densidade e
f
X
(x) =
1
b a
, x (a, b).
Escreve-se X U(a, b).
A func ao de distribuicao e
F(x) = P(X x) =
_
x

f(y)dy =
_

_
0, x < a
xa
ba
, a x < b
1, x b
Um exemplo classico e o da pessoa que chega `a estacao dos comboios sem ter a mais
leve ideia sobre os horarios. Sabe apenas que parte um de 20 em 20 minutos. Se X e
a v.a. que representa o tempo, em minutos, que a pessoa espera ate partir, e razoavel
admitir que X U(0, 20), ou seja, que f(x) =
1
20
, x (0, 20). A probabilidade de ter
que esperar mais de 15 minutos, por exemplo, e entao P(X > 15) = 1 F(15) = 0.25.
A distribuicao uniforme e ainda muito util na simulacao de observacoes das mais di-
versas distribuicoes.
7
Def. 8: Media, Variancia e Outros Momentos
Seja X uma v.a.
a) A media de X (ou valor medio, ou valor esperado, de X) se existir, e:

X
= E[X] =

k=1
x
k
p
k
, se X e v.a. discreta, tal que
p
k
= P(X = x
k
), k = 1, 2, ...

X
= E[X] =
_

xf
X
(x)dx, se X e v.a. contnua com funcao de densidade
f
X
(x).
b) A variancia de X, se existir, e:

2
X
= V ar(X) =

k=1
(x
k

X
)
2
p
k
, no caso discreto

2
X
= V ar(X) =
_

(x
k

X
)
2
f
X
(x)dx, no caso contnuo.
c) O momento de ordem l N de X, se existir, e:
E[X
l
] =

k=1
(x
k
)
l
p
k
, no caso discreto
E[X
l
] =
_

x
l
f
X
(x)dx, no caso contnuo.
d) Genericamente, se existir, o valor esperado duma qualquer v.a. g(X) e:
E[g(X)] =

k=1
g(x
k
)p
k
, no caso discreto
E[g(X)] =
_

g(x
k
)f
X
(x)dx, no caso contnuo.
Os valores esperados acima existem quando as series/os integrais envolvidos sao absoluta-
mente convergentes.
A media de X e o centro de gravidade da distribuicao de X. Em termos grosseiros, a
media representa o ponto nao aleatorio,
X
, em torno do qual mais se concentram os valores
aleatorios X(). Embora no caso discreto
X
seja muitas vezes um valor nao assumido pela
v.a., fornece sempre indicacoes valiosas sobre a ordem de grandeza desta.

E tambem um
meio facil de prever valores futuros nas sucessoes cronologicas.
A variancia de X mede a dispersao dos valores X(), em torno de
X
. Tratando-se de
um momento de segunda ordem, vem expressa em [unidades de X]
2
. Para ultrapassar esta
limitacao, costuma usar-se tambem como medida de dispersao o chamado desvio padrao, a
raiz quadrada da variancia.
Prova-se que se pode estabelecer a igualdade
V ar(X) = E[X
2
] (
X
)
2
.
8
Ex. 4:
Basta efectuar os calculos para se deduzir que:
Se X Bin(n, p), E[X] = np e V ar(X) = np(1 p)
Se X Poi(), E[X] = e V ar(X) =
Se X N(,
2
), E[X] = e V ar(X) =
2
Se X U(a, b), E[X] =
a+b
2
e V ar(X) =
(ba)
2
12
.
1.2 Vectores Aleatorios
Def. 9: Vector aleatorio
Diz-se que X = (X
1
, X
2
, . . . , X
n
) e um vector aleatorio n-dimensional se as suas componentes,
X
1
, X
2
, . . . , X
n
, sao v.a.
Ex. 5:
X = (X
1
, X
2
) e o vector aleatorio que representa os resultado de dois lancamentos de
uma moeda suposta equilibrada.
Sendo
X
1
=
_
0, se sai cara no primeiro lan

camento
1, se sai coroa no primeiro lan

camento
e
X
2
=
_
0, se sai cara no segundo lan

camento
1, se sai coroa no segundo lan

camento
,
vem
X(cara, cara) = (0, 0), X(cara, coroa) = (0, 1),
X(coroa, cara) = (1, 0) e X(coroa, coroa) = (1, 1).
Cada um dos resultados tem probabilidade 0.25, ou seja,
P({ : X() = (k, l)}) = 0.25, k, l {0, 1}.
X = (X
1
, X
2
, . . . , X
5
) e o v.a. que representa as cotacoes das accoes da Brisa ao
meio-dia dos dias uteis de uma qualquer semana.
X = (X
1
, X
2
, X
3
, X
4
) e o vector aleatorio que descreve o estado do tempo em Lisboa,
em determinado momento: X
1
representa a temperatura, X
2
a pressao atmosferica,
X
3
a velocidade do vento e X
4
indica se esta a chover.
9
Def. 10: Funcao de Distribuicao conjunta de um vector aleatorio
Funcao de distribuicao conjunta de um vector aleatorio X e uma funcao real, seja F(x), tal
que
F(x) = F
X
(x) = P(X
1
x
1
, . . . , X
n
x
n
)
= P({ : X
1
() x
1
, . . . , X
n
() x
n
}), x R
n
.
F(x) permite o calculo imediato da probabilidade de X assumir valores no intervalo
(a, b] : {x : a
i
< x
i
b
i
, i = 1, ..., n} R
n
.
Def. 11: Distribuicao de um vector aleatorio
Distribuicao de um vector aleatorio X e uma funcao real, seja P
X
(B), tal que
P
X
(B) = P(X B) = P({ : X() B}), B um Boreliano de R
n
.
A distribuicao conjunta de X = (X
1
, X
2
, . . . , X
n
) contem toda a informacao sobre as suas
componentes tomadas individualmente, bem como sobre todos os possveis pares de compo-
nentes, triplos, etc.
Tal como sucede no caso unidimensional, ha vectores aleatorios discretos e vectores aleatorios
contnuos, mas so estes sao interessantes para os objectivos do nosso estudo.
Def. 12: Vector Aleatorio Contnuo
Diz-se que o vector aleatorio X e um vector aleatorio contnuo, com funcao de densidade
conjunta f
X
(x
1
, . . . , x
n
), quando a sua funcao de distribuicao se pode escrever
F
X
(x
1
, x
2
, ...x
n
) =
_
x
1

. . .
_
xn

f
X
(y
1
, . . . , y
n
)dy
1
. . . , dy
n
, x R
n
f
X
(x) 0, x R
n
;
_

. . .
_

f
X
(y
1
, . . . , y
n
)dy
1
. . . , dy
n
= 1.
Conhecida a funcao de densidade conjunta, podem calcular-se as funcoes de densidade mar-
ginais de cada uma das componentes tomadas individualmente, bem como as de todos os
possveis pares de componentes, triplos, etc.
Ex. 6:
Admita-se que n = 3. Algumas densidades marginais:
f
X
1
(x
1
) =
_

f
X
(x)dx
2
dx
3
f
X
2
(x
2
) =
_

f
X
(x)dx
1
dx
3
10
f
X
1
,X
2
(x
1
, x
2
) =
_

f
X
(x)dx
3
f
X
1
,X
3
(x
1
, x
3
) =
_

f
X
(x)dx
2
Ex. 7 Vector aleatorio Normal (Gaussiano) n-dimensional):
A distribuicao normal n-dimensional tem funcao de densidade conjunta
f
X
(x) =
1
(2)
n/2
(det)
1/2
e

1
2
(x)

1
(x)
T
, x R
n
,
onde R
n
, e uma matriz simetrica de ordem n denida positiva, det e o seu determi-
nante e
1
e a sua inversa.
Escreve-se X N(, ).
Def. 13: Media, Variancia e Covariancia
Seja X um vector aleatorio
a) A media de X (ou valor medio, ou valor esperado, de X), se existir, e o vector

X
= E[X] = (E[X
1
], E[X
2
], ..., E[X
n
]).
b) A matriz das variancias e covariancias de X, se existir, e:

X
= (cov(X
i
, X
j
); i, j = 1, 2, ..., n),
onde
cov(X
i
, X
j
) = E[(X
i

X
i
)(X
j

X
j
)] = E[X
i
X
j
]
X
i

X
j
e a covariancia de X
i
e
X
j
. Claro que cov(X
i
, X
i
) =
2
X
i
.
Ex. 7 (Cont.):
Efectuando os calculos, conclui-se que o vector das medias da distribuicao normal n-dimensional
e e a matriz das variancias e covariancias e . Prova-se que v.a. que sao obtidos a partir
de transformacoes lineares de X continuam a ter distribuicao normal n-dimensional. Quer
dizer: Se X N(, ) e A e uma matriz do tipo mn, entao
AX N(A
T
, AA
T
).
Tal como a variancia, tambem as covariancias sao medidas absolutas da variacao conjunta das
variaveis envolvidas. O coeciente de correlacao, que se prova assumir valores no intervalo
[1, 1], e uma medida relativa com o mesmo objectivo.
Def. 14: Coeciente de Correlacao
O coeciente de correlacao entre as v.a. X
1
e X
2
e
corr(X
1
, X
2
) =
cov(X
1
, X
2
)

X
1

X
2
.
11
1.3 Dependencia e Independencia
Def. 15: Acontecimentos Independentes
Dois acontecimentos A
1
e A
2
dizem-se independentes quando
P(A
1

A
2
) = P(A
1
)P(A
2
).
Intuitivamente, a existencia de independencia entre A
1
e A
2
signica que a realizacao de um
deles nao inuencia de nenhum modo a realizacao do outro: o conhecimento de que um deles
se realizou n ao permite concluir nada sobre a realizacao do outro.
Def. 16: Variaveis Aleatorias Independentes
Duas v.a. X
1
e X
2
dizem-se independentes quando
P(X
1
B
1
, X
2
B
2
) = P(X
1
B
1
)P(X
2
B
2
),
B
1
e B
2
Borelianos.
Naturalmente, se a condicao e satisfeita, os acontecimentos {X
1
B
1
} e {X
2
B
2
} sao
independentes.
Alternativas:
X
1
e X
2
dizem-se independentes quando
F
X
1
,X
2
(x
1
, x
2
) = F
X
1
(x
1
)F
X
2
(x
2
), (x
1
, x
2
) R
2
X
1
e X
2
dizem-se independentes quando
f
X
1
,X
2
(x
1
, x
2
) = f
X
1
(x
1
)f
X
2
(x
2
), (x
1
, x
2
) R
2
.
A denicao de independencia pode alargar-se a qualquer n umero nito de acontecimentos e
v.a..
Def. 15: Acontecimentos Independentes
Os acontecimentos A
1
, A
2
, ..., A
n
dizem-se independentes quando
P(A
i
1

...

A
i
k
) = P(A
i
1
)...P(A
i
k
),
para qualquer escolha de ndices 1 i
1
< ... < i
k
n e de inteiros 1 k n.
Def. 16: Variaveis Aleatorias Independentes
As v.a. X
1
, X
2
, ..., X
n
dizem-se independentes quando
P(X
i
1
B
i
1
, ..., X
i
k
B
i
k
) = P(X
i
1
B
i
1
)...P(X
i
k
B
i
k
),
12
para qualquer escolha de ndices 1 i
1
< ... < i
k
n, de inteiros 1 k n e sendo
B
1
, ...B
n
Borelianos.
Tambem agora, se a condicao e satisfeita, os acontecimentos {X
1
B
1
}, ..., {X
n
B
n
} sao
independentes.
Alternativas:
X
1
, ..., X
n
dizem-se independentes quando
F
X
1
,...,Xn
(x
1
, ..., x
n
) = F
X
1
(x
1
)...F
Xn
(x
n
), (x
1
, ...x
n
) R
n
X
1
, ..., X
n
dizem-se independentes quando
f
X
1
,...,Xn
(x
1
, ..., x
n
) = f
X
1
(x
1
)...f
Xn
(x
n
), (x
1
, ...x
n
) R
n
.
Ex. 7 (Cont.):
Prova-se que as n componentes de X N(, ) sao independentes se e so se a matriz das
variancias e covariancias for diagonal, ou seja, se e so se cov(X
i
, X
j
) = corr(X
i
, X
j
) = 0.
Esta propriedade nao e, em geral, verdadeira. Se X
i
, X
j
sao independentes, pode concluir-se
que cov(X
i
, X
j
) = corr(X
i
, X
j
) = 0, mas a recproca nao e, em geral, verdadeira.
Uma consequencia importante da independencia esta relacionada com o calculo de valores
esperados.
Se as v.a. X
1
, ..., X
n
sao independentes, tem-se
E[g
1
(X
1
)...g
n
(X
n
)] = E[g
1
(X
1
)]...E[g
n
(X
n
)],
quaisquer que sejam as funcoes reais g
1
, ..., g
n
- e desde que os valores esperados existam.
Muitas vezes, e necessario trabalhar com vectores aleatorios que tem um n umero innito de
componentes. A denicao de independencia estende-se igualmente a esta situacao.
Def. 16: Variaveis Aleatorias Independentes
Sendo T um conjunto innito de ndices, as v.a. X
t
, t T, dizem-se independentes quando
as v.a. X
t
1
, ..., X
tn
sao independentes para qualquer escolha de ndices t
1
, ...t
n
T, n 1.
Dizem-se independentes e identicamente distribudas (iid) quando sao independentes e tem
todas a mesma distribuicao.
13
1.4 Processos Estocasticos
Def. 17: Processo Estocastico
Um processo estocastico X e uma famlia de variaveis aleatorias denidas num espaco ,
seja
(X
t
, t T) = (X
t
(), t T, ),
onde t e um parametro tomando valores sobre um conjunto T R, designado conjunto dos
ndices do processo.
Observacoes:
Do ponto de vista matematico nao existe qualquer restricao `a natureza de T. No
entanto, na maioria das aplicacoes, t representa o tempo, que e assim a interpretacao
por defeito.
Se T e um conjunto nito ou innito numeravel, X diz-se um processo estocastico em
tempo (ou de parametro) discreto; no caso contrario, diz-se um processo estocastico em
tempo (ou de parametro) contnuo. Quanto T e nito o processo estocastico reduz-se a
um vector aleatorio; quando T e innito numeravel, tem-se uma sucessao de variaveis
aleatorias.
Espaco de estados do processo X e o conjunto dos valores que as v.a. X
t
podem
assumir. Quando o espaco de estados e numeravel, o processo e designado um processo
com espaco de estados discreto. Em particular, se o espaco dos estados e 0, 1, 2, ..., o
processo diz-se um processo de contagem.
Cada possvel concretizacao do processo estocastico X e uma funcao em T. Assim,
podem denir-se funcoes que a cada t T fazem corresponder um particular valor x
t
-
e o particular valor assumido por X
t
. Tais funcoes representam as possveis observacoes
do processo estocastico e chamam-se realizacoes ou trajectorias do processo. Por outras
palavras, uma trajectoria ou realizacao de um processo estocastico X e uma afectacao,
para cada t T, de um valor possvel para X
t
. Um processo estocastico e assim um
ser aleatorio que se concretiza em funcoes (mete-se a mao ao saco e nao se tira uma
bola branca, tira-se uma funcao).
Como resulta da denicao, um processo estocastico X e uma funcao de duas variaveis:
- Para cada valor xo t T (para cada momento do tempo) X e uma v.a.,
X
t
= X
t
(), .
- Para cada trajectoria xa, X e uma curva, funcao do tempo. Nessa particular
trajectoria, cada v.a. X
t
assume um valor x
t
concreto.
Ex. 8 (Passeio aleatorio)
Tome-se uma sucessao de v.a. independentes, {Z
t
, t = 1, 2, ...} e dena-se o processo
X
t
= Z
1
+Z
2
+... +Z
t
= X
t1
+Z
t
.
14
X
t
, que e um processo estocastico em tempo discreto, e conhecido como passeio aleatorio e
aplica-se a certo tipo de series nanceiras. Os passeios aleatorios tambem sao por vezes uti-
lizados para representar o n umero de indemnizacoes agregadas ao longo do tempo, suscitadas
por determinada carteira de apolices.
Ex. 9 (Processo de medias moveis)
Tome-se uma sucessao de v.a. iid, {Z
t
, t = 1, 2, ...}. O processo X
t
= Z
t
+ Z
t1
designa-se
processo de medias moveis de primeira ordem, represente-se por MA(1), e e muito utilizado
no estudo de series temporais.

E tambem um processo em tempo discreto. Como se ve, o
estado do processo no momento t (o valor assumido pela v.a. X
t
) e combinacao apenas das
duas ultimas v.a. da sucessao {Z
t
}.
Em geral, um processo de medias moveis de ordem q 1, MA(q), pode denir-se
X
t
= Z
t
+
1
Z
t1
+... +
q
Z
tq
, t Z,

1
,
2
, ...,
q
parametros reais dados.
Ex. 10 (Processo autoregressivo)
Nas condicoes vistas para os processos AM(q), um processo autoregressivo de ordem p 1,
AR(p), dene-se
X
t
=
1
X
t1
+... +
p
X
tp
+Z
t
, t Z,

1
,
2
, ...,
p
parametros reais dados.
Tambem particularmente importantes sao os processos autoregressivos de primeira ordem,
AR(1),
X
t
= X
t1
+Z
t
, t Z,
em que o estado do processo no momento t (o valor assumido pela v.a. X
t
) depende apenas
do estado do processo no momento anterior (o valor assumido por X
t1
), adicionado de um
factor aleatorio residual (Z
t
).
Ao contrario do que sucede nos processos de medias moveis, em que o efeito de cada v.a.
Z
t
so inuencia os p estados futuros seguintes do processo, nos processos autoregressivos, a
inclusao de Z
t
vai inuenciar todos os estados futuros daquele.
Ex. 11 (Processo de Markov)
Processo de Markov e um processo em que a probabilidade de ser assumido um qualquer
estado num momento futuro (t) depende apenas do estado do processo no ultimo instante
observado (X
t
k
= x
k
), nao sendo assim afectada pelo conhecimento dos estados assumidos
pelo processo em momentos anteriores a t
k
. Simbolicamente,
P[a < X
t
b|X
t
1
= x
1
, ..., X
t
k
= x
k
] = P[a < X
t
b|X
t
k
= x
k
],
t
1
< t
2
< < t
k
< t T.
Um processo de Markov com espaco de estados discreto e designado cadeia de Markov.
Um processo de Markov com espaco dos estados contnuo e parametro tambem contnuo e
designado processo de difusao.
15
16
Como descrever o comportamento de um processo estocastico X,
em termos probabilsticos?
Em analogia com o que sucede com as variaveis e vectores aleatorios, e tambem necessario
conhecer algumas caractersticas dos processos estocasticos, como a distribuicao ou os valores
esperados, bem como descrever a respectiva estrutura de dependencia.
O aspecto chave a ter em atencao e que um processo estocastico nao e mais, anal, do que
uma famlia de variaveis aleatorias indexadas por um parametro t, que varia no conjunto
de ndices T. Assim, parece natural descrever a distribuicao de um processo estocastico X
atraves da especicacao da distribuicao conjunta de n v.a. X
t
1
, X
t
2
, ..., X
tn
, para todo o
n = 1, 2, ... e para todos os possveis valores t
1
, t
2
, ..., t
n
T.
Def. 18: Distribuicoes Dimensionalmente Finitas (fidis)
Distribuicoes dimensionalmente nitas (fidis) de um processo estocastico X sao todas as
distribuicoes dos vectores de dimensao nita (X
t
1
, X
t
2
, ..., X
tn
), n = 1, 2, ...; t
1
, t
2
, ..., t
n
T.
Pode considerar-se que a famlia das suas dis e a distribuicao de um processo estocastico.
Ex. 12 (Processo Gaussiano)
Um processo estocastico diz-se Gaussiano quando todas as suas dis sao Gaussianas. Recor-
dando que o conhecimento dos parametros e e suciente para a caracterizacao de uma
distribuicao Gaussiana, basta entao conhecer e de cada vector referido na Def. 18 para
se caracterizar a distribuicao de um processo estocastico Gaussiano.
So para ilustrar, se o processo estocastico X e tal que X
t
N(0, 1), t T = [5, 5], sendo
as v.a. mutuamente independentes, entao as dis correspondem a funcoes de distribuicao
da forma
F(X
t
1
, X
t
2
, ..., X
tn
) = P(X
t
1
x
1
, X
t
2
x
2
, ..., X
tn
x
n
)
= P(X
t
1
x
1
)P(X
t
2
x
2
)...P(X
tn
x
n
)
= (x
1
)(x
2
)...(x
n
)
(5 t
1
t
2
t
n
5; (x
1
, x
2
, ..., x
n
) R
n
).
Def. 19: Funcao Valor Esperado e Funcao Covariancia
Seja X um processo estocastico.
Admitindo que os valores esperados indicados existem:
a) A func ao valor esperado de X e

X
(t) =
Xt
= E[X
t
], t T.
b) A func ao covariancia de X e:
c
X
(t, s) = cov(X
t
, X
s
) = E[(X
t

X
(t))(X
s

X
(s))], t, s T.
17
Quando s = t tem-se a funcao variancia de X,

2
X
(t) = c
X
(t, t) = var(X
t
), t T.
A func ao valor esperado fornece a media do processo ao longo do tempo (a trajectoria
esperada). Como sucedia anteriormente, e em torno de
X
(t) que se localizam, com
uma maior intensidade, as trajectorias.
A func ao variancia pode igualmente considerar-se como medindo a dispersao das possveis
traject orias do processo relativamente a
X
(t).
A func ao covariancia continua a ser uma medida da dependencia. Claro que, tal como
se viu no ponto anterior para os vectores aleatorios, se o espaco dos estados e discreto,
a funcao valor esperado pode corresponder a uma trajectoria nao observavel.
Ex. 12 (Cont.)
Retomando o processo estocastico X, tal que X
t
N(0, 1), t T = [5, 5] e as v.a.
mutuamente independentes, e imediato que

X
(t) 0 e c
X
(t, s) =
_
1, se t = s
0, se t = s
Def. 20: Processo Estocastico Estritamente Estacionario
Diz-se que o processo estocastico (X
t
, t T), T R, e estritamente (ou fortemente) esta-
cionario quando os vectores (X
t
1
, X
t
2
, ..., X
tn
) e (X
t
1
+h
, X
t
2
+h
, ..., X
tn+h
) sao identicamente
distribudos para todas as possveis escolhas de ndices t
1
, t
2
, ..., t
n
T, n = 1, 2, ..., e qual-
quer h : t
1
+h, t
2
+h, ..., t
n
+h T. Simbolicamente,
(X
t
1
, X
t
2
, ..., X
tn
)
d
=
(X
t
1
+h
, X
t
2
+h
, ..., X
tn+h
).
A denicao de processo fortemente estacionario implica que todos os vectores de dimensao
nita, qualquer que esta seja, tem a mesma distribuicao, desde que igualmente desfasados,
ou seja, essa distribuicao e independente de t para os mesmos desfasamentos. Verica-se
que se esta perante uma caracterstica de aleatoridade nao alteravel ao longo do tempo, ao
contrario do que sucede com os chamados processos evolutivos. A estrutura de dependencia
descrita pelas dis ou pela funcao covariancia e invariante face a desfasamentos no tempo.
Ex. 13 (Processo Gaussiano estritamente estacionario)
Considere-se um processo estocastico Gaussiano (X
t
, t T).
Uma vez que um processo Gaussiano e determinado pela funcao valor esperado e pela funcao
covariancia, e imediato que se tem um processo Gaussiano estritamente estacionario quando

X
(t +h) =
X
(t) e c
X
(t +h, s +h) = c
X
(t, s), s, t T e h : s +h, t +h T,
18
o que, por sua vez, ainda se reduz a

X
(t)
X
(0) e c
X
(t, s) = c
X
(|t s|), para alguma funcao c
X
.
Observa-se assim que a estacionaridade estrita nos processos Gaussianos signica que a
funcao valor esperado e nula e que a funcao covariancia so depende da distancia |t s|. Na
gura 3 tem-se um processo Gaussiano estritamente estacionario.
Def. 21: Processo Estocastico de Incrementos Estacionarios
Diz-se que o processo estocastico (X
t
, t T), T um intervalo de n umeros reais, tem incre-
mentos estacionarios quando
X
t
X
s
d
=
X
t+h
X
s+h
, s, t T e h : s +h, t +h T.
Def. 22: Processo Estocastico de Incrementos Independentes
Diz-se que o processo estocastico (X
t
, t T), T um intervalo de n umeros reais, tem incre-
mentos independentes quando sao independentes as v.a.
X
t
2
X
t
1
, ..., X
tn
X
t
n1
, t
i
T : t
1
< < t
n
, n 1.
Na presenca de um processo com incrementos independentes, o conhecimento das distribuicoes
das v.a. X
t
e X
t
X
s
, s, t, permite deduzir a distribuicao de qualquer vector aleatorio de
dimensao nita, cando deste modo completamente estabelecida a distribuicao do processo
(todas as suas dis). Todos os processos com incrementos independentes sao processos de
Markov (ver Def. 11).
Ex. 14 (Processo de Poisson homogeneo)
Um processo estocastico (X
t
, t [0, )) diz-se um processo homogeneo de Poisson, ou apenas
processo de Poisson, com intensidade (ou taxa) > 0, se satisfaz as condicoes seguintes:
Inicia-se com X
0
= 0
Tem incrementos estacionarios e independentes
X
t
Poi(t), t > 0.
Pela estacionaridade dos incrementos, X
t
X
s
, t > s, tem a mesma distribuicao que X
ts
=X
ts

X
0
, ou seja, X
t
X
s
Poi((t s)), t > s.
O processo de Poisson, em conjunto com as suas modicacoes e ramicacoes, e de extrema
importancia e tem uma grande variedade de aplicacoes nos mais diversos domnios. Sendo
um processo de contagem, dado o intervalo de tempo [0, t], pode usar-se para modelar, entre
muitos outros:
o n umero de chamadas telefonicas processadas por um dado operador
o n umero de clientes que chegam a determinada la de espera
o n umero de sinistros provocados por certa carteira de apolices.
Nos processos de Poisson a estacionaridade dos incrementos exclui a existencia de variacoes
sazonais na intensidade das ocorrencias e a independencia exclui a existencia de reaccoes em
cadeia. Sao cadeias de Markov em tempo contnuo.
19
20
21
1.5 Movimento Browniano
Def. 23: Movimento Browniano (Processo de Wiener)
Um processo estocastico B = (B
t
, t [0, )) diz-se um movimento Browniano, ou processo
de Wiener, quando:
Se inicia com B
0
= 0
Tem incrementos estacionarios e independentes
B
t
N(0, t), t > 0
As trajectorias sao funcoes contnuas de t.
1.5.1 Propriedades do Movimento Browniano
P1- As dis do movimento Browniano sao Gaussianas multi-dimensionais, donde se conclui
que o movimento Browniano e um processo Gaussiano.
Dem: Tendo em conta o facto de B ter incrementos independentes, basta conhecer a
distribuicao do incremento B
t
B
s
, s < t, para se determinar a distribuicao do processo.
Ora, uma vez que B
t
N(0, t), t > 0, e imediato que B
t
B
s
tem tambem dis-
tribuicao normal, pelas propriedades desta distribuicao.
P2- As v.a. B
t
B
s
, s < t, e B
ts
tem valor esperado nulo e variancia t s.
Dem: Resulta da estacionaridade dos incrementos. B
t
B
s
tem a mesma distribuicao
de B
ts
B
0
= B
ts
, que tem distribuicao normal de parametros 0 e t s (cf. Def.
23).
Verica-se que a variancia e igual `a amplitude do intervalo [s, t]: quanto maior esta
amplitude, maiores serao as utuacoes do processo no intervalo.
P3- (a)
B
(t) = E[B
t
] = 0, t 0; (b) c
B
(t, s) = min(s, t), 0 s < t.
Dem: (a) resulta da Def. 23; Quanto a (b), basta recorrer `a independencia dos incre-
mentos para ver que
c
B
(t, s) = E[(B
t
0)(B
s
0)] = E[B
t
B
s
] = E[[(B
t
B
s
) +B
s
]B
s
]
= E[(B
t
B
s
)B
s
] +E[B
2
s
] = E[(B
t
B
s
)(B
s
B
0
)] + (E[B
2
s
] 0
2
)
= E[B
t
B
s
]E[B
s
B
0
] +V ar(B
s
) = E[B
t
B
s
]E[B
s
] +V ar(B
s
)
= 0 +s = s
Observacoes:
Ainda que B
t
B
s
d
=
B
ts
, em geral, B
t
() B
s
() = B
ts
().
22
As denicoes do processo de Poisson e do processo de Wiener diferem apenas na dis-
tribuicao dos incrementos. No processo de Poisson, as trajectorias sao funcoes em
escada e no movimento Browniano sao funcoes contnuas. Assim como o processo de
Poisson e uma cadeia de Markov em tempo contnuo, tambem o movimento Browniano
e um processo de difusao.


E facil vericar que o movimento Browniano e 0.5-auto-semelhante, ou seja, que
(T
0.5
B
t
1
, ..., T
0.5
B
tn
)
d
=
(B
Tt
1
, ..., B
Ttn
), T > 0,
qualquer escolha de t
i
0, i = 1, ..., n, n 1.
Com efeito, basta ver que os dois vectores aleatorios em causa, ambos com distribuicao
Gaussiana, tem a mesma media e a mesma matriz de variancias e covariancias. Intui-
tivamente, a auto-semelhanca (que e uma propriedade relativa `a distribuicao, nao `as
traject orias) implica que o padrao de cada trajectoria apresenta conguracoes similares
em qualquer intervalo de tempo, pequeno, ou grande, adaptada a escala. Nao sao, no
entanto, iguais.
A presenca de auto-semelhanca e particularmente util na simulacao de trajectorias. Se
o que se pretende e simular uma trajectoria no intervalo [0, T], e suciente gera-la em
[0, 1], e reescalonar o intervalo com o factor T e a trajectoria com o factor T
0.5
.
As trajectorias do movimento Browniano, ainda que contnuas, sao extremamente ir-
regulares, devido `a independencia dos incrementos. De modo particular, incrementos
em intervalos adjacentes sao independentes, seja qual for a amplitude daqueles. Em
consequencia, as trajectorias deste tipo de processo estocastico nao sao diferenciaveis
em nenhum ponto t: o graco da funcao muda de uma forma completamente im-
previsvel na vizinhanca de qualquer ponto. Apesar da diculdade em conceber uma
funcao assim, a verdade e que o movimento Browniano e considerado uma muito boa
aproximacao para muitos fenomenos reais.
O movimento Browniano apresenta variacao nao limitada em qualquer intervalo nito
[0, T], isto e,
sup

i=1
|B
t
i
() B
t
i1
()| = ,
supremo calculado considerando todas as possveis particoes : 0 = t
0
< < t
n
= T
de [0, T].
Ficando os processos Gaussianos completamente caracterizados pela funcao valor es-
perado e pela funcao covariancia, pode redenir-se movimento Browniano.
Def. 23: Movimento Browniano (Processo de Wiener)
Movimento Browniano e um processo Gaussiano com

B
(t) 0 e c
B
(t, s) = min(s, t).
23
24
25
1.5.2 Processos Derivados do Movimento Browniano
Sao processos com relevancia pratica, denidos `a custa do movimento Browniano, B =
(B
t
, t [0, )).
Def. 24: Ponte Browniana
Ponte Browniana e o processo
X
t
= B
t
tB
1
, 0 t 1.
Claro que X
0
= B
0
0B
1
= 0 e X
1
= B
1
1B
1
= 0. As dis sao Gaussianas e X e um
processo Gaussiano, pelo que

X
(t) 0 e c
X
(t, s) = min(t, s) ts;
2
X
(t) = t(1 t), s, t [0, 1].
Def. 25: Movimento Browniano com deriva
Movimento Browniano com deriva (linear) e o processo estocastico
X
t
= t +B
t
, t 0, e > 0 constantes reais.
X e ainda um processo Gaussiano e

X
(t) = t e c
X
(t, s) =
2
min(t, s), s, t 0.
A funcao valor esperado
X
(t) = t, que corresponde `a deriva determinstica do processo,
determina essencialmente a conguracao das trajectorias.
Def. 26: Movimento Browniano Geometrico
No seu trabalho, Bachelier concluiu que o preco dos activos com maior risco era bem descrito
pelo movimento Browniano. Sendo um processo Gaussiano, o movimento Browniano pode
contudo assumir valores negativos, o que nao e aceitavel para precos. Black, Scholes e Merton
sugeriram entao outro processo estocastico como modelo para os precos especulativos, seja
X
t
= e
t+B
t
, t 0,
que nao e mais do que a exponencial do movimento Browniano com deriva. Se bem que este
ja nao seja um processo Gaussiano (as suas dis ja nao sao Gaussianas), e relativamente
facil calcular a funcao valor esperado e a funcao covariancia.
Comecemos por calcular E[e
Z
], Z N(0, 1). Vem
E[e
Z
] =
1

2
_

e
x
e
z
2
2
dz = e

2
2
_

2
e
(z)
2
2
dz = e

2
2
.
(Note-se que
1

2
e
(z)
2
2
e a expressao da funcao de densidade de uma v.a. com distribuicao
N(, 1).)
26
Recorrendo `a igualdade E[e
z
] = e

2
/2
e `a auto-semelhanca do movimento Browniano, que
permite escrever t
0.5
B
1
= B
t1
= B
t
, obtem-se

X
(t) = e
t
E[e
B
t
] = e
t
E[e
t
0.5
B
1
] = e
t
e
0.5
2
t
= e
(+0.5
2
)t
,
pois B
1
N(0, 1) e E[e
t
0.5
B
1
] = e
(t
0.5
)
2
/2
= e
0.5
2
t
.
Para s t, B
t
B
s
e B
s
sao independentes e B
t
B
s
d
=
B
ts
, vindo entao
c
X
(t, s) = E[X
t
X
s
] E[X
t
]E[X
s
]
= e
(t+s)
E
_
e
(B
t
+B
s
)
_
e
(+0.5
2
)(t+s)
= e
(t+s)
E
_
e
[(B
t
B
s
)+2B
s
]
_
e
(+0.5
2
)(t+s)
= e
(t+s)
E
_
e
(B
t
B
s
)
_
E
_
e
2B
s
_
e
(+0.5
2
)(t+s)
= e
(+0.5
2
)(t+s)
(e

2
s
1).
A funcao variancia do movimento Browniano geometrico e
2
X
(t) = e
(2+
2
)t
(e

2
t
1).
Def. 27: Rudo Branco e Rudo Colorido
Chama-se Rudo Branco ao processo em tempo discreto (sucessao de v.a. i.i.d - ou apenas
nao correlacionadas) (X
t
, t T), tal que:
E[X
t
] ; V ar(X
t
)
2
; c
X
(t, s) 0.
Chama-se Rudo Colorido ao processo estocastico que se dene
X
t
=
B
t+h
B
t
h
, t 0,
onde h > 0 e uma constante.
O rudo colorido e uma aproximacao do rudo branco.

E facil deduzir que

X
(t) 0 e c
X
(t, s) = h
2
[(s +h) min(s +h, t)], s t.
Note-se ainda que c
X
(t, s) = 0, se t s h, donde X
t
e X
s
sao independentes, mas
se t s < h, c
X
(t, s) = h
2
[h (t s)]. Mais ainda, sendo X Gaussiano e sendo c
X
(t, s)
funcao apenas de t s, tem-se um processo estritamente estacionario (cf. Ex. 13). A funcao
variancia
2
X
(t) h
1
evidencia que as utuacoes do rudo colorido se tornam maiores, `a
medida que h diminui.
27
28
1.6 Valores Esperados Condicionados
A nocao de valor esperado condicionado e fundamental para a compreensao das martingalas
e dos integrais estocasticos de Ito, que serao estudados mais adiante.

E uma das nocoes
mais complexas da teoria da probabilidade, mas tambem uma das suas ferramentas mais
poderosas.
1.6.1 A Abordagem Classica de Valor Esperado Condicionado - Exemplos
Vai comecar-se com um exemplo mais ou menos exaustivo da abordagem classica, normal-
mente introduzida recorrendo ao caso simples de um vector aleatorio bidimensional com
dada distribuicao conjunta. Separando o caso contnuo do caso discreto, vao ilustrar-se
sucessivamente:
1. as distribuicoes marginais
2. os valores esperados nao condicionados
3. as vari ancias nao condicionadas
4. as distribuicoes condicionadas
5. os valores esperados condicionados
6. as vari ancias condicionadas
7. as curvas de regressao (tipo I)
Caso Contnuo
f (x, y) = 8xy 0 < x < 1; 0 < y < x
1. f
1
(x) =
_
+

f (x, y) dy =
_
x
0
8xydy = 4x
3
, 0 < x < 1
f
2
(y) =
_
+

f (x, y) dx =
_
1
y
8xydx = 4y(1 y
2
), 0 < y < 1
2. E [X] =
_
+

_
+

xf (x, y) dydx =
_
1
0
_
x
0
x (8xy) dydx =
4
5
ou
E [X] =
_
+

xf
1
(x) dx =
_
1
0
x
_
4x
3
_
dx =
4
5
E [Y ] =
_
+

_
+

yf (x, y) dxdy =
_
1
0
_
1
y
y (8xy) dxdy =
8
15
ou
E [Y ] =
_
+

yf
2
(y) dy =
_
1
0
y
_
4y 4y
3
_
dy =
8
15
29
E
_
X
2
_
=
_
+

_
+

x
2
f (x, y) dydx =
_
1
0
_
x
0
x
2
(8xy) dydx =
2
3
ou
E
_
X
2
_
=
_
+

x
2
f
1
(x) dx =
_
1
0
x
2
_
4x
3
_
dx =
2
3
E
_
Y
2
_
=
_
+

_
+

y
2
f (x, y) dxdy =
_
1
0
_
1
y
y
2
(8xy) dxdy =
1
3
ou
E
_
Y
2
_
=
_
+

y
2
f
2
(y) dy =
_
1
0
y
2
_
4y 4y
3
_
dy =
1
3
3. V ar (X) =
_
+

_
+

(x E [X])
2
f (x, y) dydx = E
_
X
2
_
(E [X])
2
=
2
3

_
4
5
_
2
=
2
75
V ar (Y ) =
_
+

_
+

(y E [Y ])
2
f (x, y) dxdy = E
_
Y
2
_
(E [Y ])
2
=
1
3

_
8
15
_
2
=
11
225
4. f(x|y) =
f(x,y)
f
2
(y)
=
8xy
4y4y
3
=
2x
1y
2
y < x < 1 (y xo em (0, 1))
f(y|x) =
f(x,y)
f
1
(x)
=
8xy
4x
3
=
2y
x
2
0 < y < x (x xo em (0, 1))
5. E [X|y] =
_
+

xf (x|y) dx =
_
1
y
x
2x
1y
2
dx =
2
3
y
2
+y+1
y+1
(y xo em (0, 1)
E [Y |x] =
_
+

yf (y|x) dy =
_
x
0
y
2y
x
2
dy =
2
3
x (x xo em (0, 1))
6. V ar (X|y) = E
_
X
2
|y
_
(E [X|y])
2
=?
E
_
X
2
|y
_
=
_
+

x
2
f (x|y) dx =
_
1
y
x
2 2x
1y
2
dx =
1
2
y
2
+
1
2
(y xo em (0, 1))
V ar (X|y) = E
_
X
2
|y
_
(E [X|y])
2
=
_
1
2
y
2
+
1
2
_

_
2
3
y
2
+y+1
y+1
_
2
=
1
18
y
4
+2y
3
6y
2
+2y+1
(y+1)
2
(y xo em (0, 1))
30
V ar (Y |x) = E
_
Y
2
|x
_
(E [Y |x])
2
=?
E
_
Y
2
|x
_
=
_
+

y
2
f (y|x) dy =
_
x
0
y
2 2y
x
2
dy =
1
2
x
2
(x xo em (0, 1))
V ar (Y |x) = E
_
Y
2
|x
_
(E [Y |x])
2
=
1
2
x
2

_
2
3
x
_
2
=
1
18
x
2
(x xo em
(0, 1))
Ha igualdades importantes, envolvendo valores esperados iterados, que
se vericam de seguida:
Vericacao das igualdades E [E [X|Y ]] = E [X] e E [E [Y |X]] = E [Y ]:
E [E [X|Y ]] = E
_
2
3
Y
2
+Y +1
Y +1
_
=
_
+

2
3
y
2
+y+1
y+1
f
2
(y)dy
=
_
1
0
8
3
y
2
+y+1
y+1
_
y y
3
_
dy =
4
5
= E[X]
E [E [Y |X]] = E
_
2
3
X
_
=
2
3
E [X] =
2
3

4
5
=
8
15
= E[Y ]
Vericacao das igualdades V ar (X) = V ar (E [X|Y ]) +E [V ar (X|Y )] e
V ar (Y ) = V ar (E [Y |X]) +E [V ar (Y |X)]:
V ar (E [X|Y ]) = V ar
_
2
3
Y
2
+Y +1
Y +1
_
= E
_
_
2
3
Y
2
+Y +1
Y +1

4
5
_
2
_
=
_
1
0
_
2
3
y
2
+y+1
y+1

4
5
_
2
(4y 4y
3
)dy =
556
225

32
9
ln 2
E [V ar (X|Y )] = E
_
1
18
Y
4
+2Y
3
6Y
2
+2Y +1
(Y +1)
2
_
=
_
+

1
18
y
4
+2y
3
6y
2
+2y+1
(y+1)
2
f
2
(y) dy
=
_
1
0
1
18
y
4
+2y
3
6y
2
+2y+1
(y+1)
2
_
4y 4y
3
_
dy =
22
9
+
32
9
ln 2
V ar (E [X|Y ]) +E [V ar (X|Y )] =
_
556
225

32
9
ln 2
_
+
_

22
9
+
32
9
ln 2
_
=
2
75
= V ar (X)
V ar (E [Y |X]) = V ar
_
2
3
X
_
=
_
2
3
_
2
V ar [X] =
4
9

2
75
=
8
675
E [V ar (Y |X)] = E
_
1
18
X
2
_
=
1
18
E
_
X
2
_
=
1
18

2
3
=
1
27
V ar (E [Y |X]) +E [V ar (Y |X)] =
8
675
+
1
27
=
11
225
= V ar (Y ) .
31
7. Curva de Regressao (Tipo I) de X sobre Y:
{(x, y) : x = E [X|y] , f
2
(y) > 0} =
_
(x, y) : x =
2
3
y
2
+y+1
y+1
, 0 < y < 1
_
Curva de Regressao (Tipo I) de Y sobre X:
{(x, y) : y = E [Y |x] , f
1
(x) > 0} =
_
(x, y) : y =
2
3
x, 0 < x < 1
_
Caso Discreto
f (x, y) =
x+y
32
, x = 1, 2; y = 1, 2, 3, 4
1. f
1
(x) =
4

y=1
f (x, y) =
4

y=1
x+y
32
=
1
8
x +
5
16
, x = 1, 2
f
2
(y) =
2

x=1
f (x, y) =
2

x=1
x+y
32
=
3
32
+
1
16
y, y = 1, 2, 3, 4
2. E [X] =
2

x=1
4

y=1
xf (x, y) =
2

x=1
4

y=1
x
_
x+y
32
_
=
25
16
ou
E [X] =
2

x=1
xf
1
(x) =
2

x=1
x
_
1
8
x +
5
16
_
=
25
16
E [Y ] =
2

x=1
4

y=1
yf (x, y) =
2

x=1
4

y=1
y
_
x+y
32
_
=
45
16
ou
E [Y ] =
4

y=1
yf
2
(y) =
4

y=1
y
_
3
32
+
1
16
y
_
=
45
16
E
_
X
2
_
=
2

x=1
4

y=1
x
2
f (x, y) =
2

x=1
4

y=1
x
2
_
x+y
32
_
=
43
16
ou
E
_
X
2
_
=
2

x=1
x
2
f
1
(x) =
2

x=1
x
2
_
1
8
x +
5
16
_
=
43
16
E
_
Y
2
_
=
2

x=1
4

y=1
y
2
f (x, y) =
2

x=1
4

y=1
y
2
_
x+y
32
_
=
145
16
ou
E
_
Y
2
_
=
4

y=1
y
2
f
2
(y) =
4

y=1
y
2
_
3
32
+
1
16
y
_
=
145
16
32
3. V ar (X) =
2

x=1
4

y=1
(x E [X])
2
f (x, y) = E
_
X
2
_
(E [X])
2
=
43
16

_
25
16
_
2
=
63
256
V ar (Y ) =
2

x=1
4

y=1
(y E [Y ])
2
f (x, y) = E
_
Y
2
_
(E [Y ])
2
=
145
16

_
45
16
_
2
=
295
256
4. f(x|y) =
f(x,y)
f
2
(y)
=
x+y
32
3
32
+
1
16
y
=
x+y
3+2y
, x = 1, 2 (y xo em {1, 2, 3, 4})
f(y|x) =
f(x,y)
f
1
(x)
=
x+y
32
1
8
x+
5
16
=
x+y
4x+10
, y = 1, 2, 3, 4 (x xo em {1, 2})
5. E [X|y] =
2

x=1
xf (x|y) =
2

x=1
x
_
x+y
3+2y
_
=
3y+5
3+2y
(y xo em {1, 2, 3, 4})
E [Y |x] =
4

y=1
yf (y|x) =
4

y=1
y
x+y
4x+10
=
5x+15
2x+5
(x xo em {1, 2})
6. V ar (X|y) = E
_
X
2
|y
_
(E [X|y])
2
=?
E
_
X
2
|y
_
=
2

x=1
x
2
f (x|y) =
2

x=1
x
2
_
x+y
3+2y
_
=
y+1
3+2y
+ 4
2+y
3+2y
(y xo em
{1, 2, 3, 4})
V ar (X|y) = E
_
X
2
|y
_
(E [X|y])
2
=
_
y+1
3+2y
+ 4
2+y
3+2y
_

_
3y+5
3+2y
_
2
=
5y+9
3+2y

(3y+5)
2
(3+2y)
2
(y xo em {1, 2, 3, 4})
V ar (Y |x) = E
_
Y
2
|x
_
(E [Y |x])
2
=?
E
_
Y
2
|x
_
=
4

y=1
y
2
f (y|x) =
4

y=1
y
2 x+y
4x+10
=
15x+50
2x+5
(x xo em{1, 2})
V ar (Y |x) = E
_
Y
2
|x
_
(E [Y |x])
2
=
_
15x+50
2x+5
_

_
5x+15
2x+5
_
2
= 5
x
2
+5x+5
(2x+5)
2
(x xo em {1, 2})
33
Vericacao das igualdades E [E [X|Y ]] = E [X] e E [E [Y |X]] = E [Y ]:
E [E [X|Y ]] = E
_
3Y +5
3+2Y
_
=
4

y=1
_
3y+5
3+2y
_
f
2
(y) =
4

y=1
_
3y+5
3+2y
_
_
3
32
+
1
16
y
_
=
25
16
= E [X]
E [E [Y |X]] = E
_
5X+15
2X+5
_
=
2

x=1
_
5x+15
2x+5
_
f
1
(x) =
2

x=1
_
5x+15
2x+5
_ _
1
8
x +
5
16
_
=
45
16
= E [Y ] .
Vericacao das igualdades V ar (X) = V ar (E [X|Y ]) +E [V ar (X|Y )] e
V ar (Y ) = V ar (E [Y |X]) +E [V ar (Y |X)]:
V ar (E [X|Y ]) = V ar
_
3Y +5
3+2Y
_
= E
_
_
3Y +5
3+2Y

25
16
_
2
_
=
4

y=1
_
3y+5
3+2y

25
16
_
2 _
3
32
+
1
16
y
_
=
311
887 040
E [V ar (X|Y )] = E
_
5y+9
3+2y

(3y+5)
2
(3+2y)
2
_
=
4

y=1
_
5y+9
3+2y

(3y+5)
2
(3+2y)
2
_
_
3
32
+
1
16
y
_
=
1703
6930
V ar (E [X|Y ]) +E [V ar (X|Y )] =
311
887 040
+
1703
6930
=
63
256
= V ar (X) .
V ar (E [Y |X]) = V ar
_
5X+15
2X+5
_
= E
_
_
5X+15
2X+5

45
16
_
2
_
=
2

x=1
_
5x+15
2x+5

45
16
_
2
_
1
8
x +
5
16
_
=
25
16 128
E [V ar (Y |X)] = E
_
5
x
2
+5x+5
(2x+5)
2
_
=
2

x=1
_
5
x
2
+5x+5
(2x+5)
2
_
_
1
8
x +
5
16
_
=
145
126
V ar (E [X|Y ]) +E [V ar (X|Y )] =
25
16 128
+
145
126
=
295
256
= V ar (Y ) .
7. Curva de Regressao (Tipo I) de X sobre Y:
{(x, y) : x = E [X|y] ef
2
(y) > 0} =
_
(x, y) : x =
3y+5
3+2y
, y {1, 2, 3, 4}
_
=
_
(
8
5
, 1), (
11
7
, 2), (
14
9
, 3), (
17
11
, 4)
_
34
Curva de Regressao (Tipo I) de Y sobre X:
{(x, y) : y = E [Y |x] e f
1
(x) > 0} =
_
(x, y) : y =
5x+15
2x+5
, x {1, 2}
_
=
_
(1,
20
7
),
_
2,
25
9
__
No caso discreto, como e sabido, pode escrever-se f(x, y) na forma de tabela e efectuar todos
os calculos a partir desta. As diferentes funcoes virao denidas com varios ramos e os valores
esperados condicionados terao de ser obtidos um a um.
1.6.2 Valores Esperados Condicionados - Condicao Discreta
Def. 28: Probabilidade Condicionada
Sejam A e B acontecimentos associados `a realizacao de uma experiencia aleatoria, tais que
P(B) > 0. A probabilidade da realizacao de A, condicionada `a realizacao de B, ou proba-
bilidade de A dado B, e
P(A|B) =
P(A

B)
P(B)
.

E evidente que (ver Def. 15)


P(A|B) = P(A) A e B acontecimentos independentes.
O facto de se saber que B se realizou opera uma reducao no espaco de resultados relevantes,
que se restringe assim ao acontecimento B, ou seja, passa a considerar-se o espaco

= B.
Claro que A

, A , mas como e necessario normalizar as probabilidades, estas


tem que ser divididas por P(B).
Def. 29: Funcao de Distribuicao Condicionada. Valor Esperado Condicionado
pela Realizacao de um Acontecimento
Seja X uma v.a. e seja B um acontecimento, tal que P(B) > 0.
A funcao de distribuicao condicionada da v.a. X, dado o acontecimento B, e
F
X
(x|B) =
P(X x, B)
P(B)
, x R.
O valor esperado condicionado da v.a. X, dado o acontecimento B, e
E[X|B] =
E[XI
B
]
P(B)
, I
B
=
_
1, se B
0, se / B
.
I
B
e a chamada funcao indicatriz do acontecimento B.
Como se sabe (Def. 8), se X e v.a. discreta assumindo os valores x
1
, x
2
, ..., entao
E[X|B] =

k=1
x
k
P({ : X() = x
k
}

B)
P(B)
=

k=1
x
k
P(X = x
k
|B)
Se X e v.a. contnua, com funcao de densidade f
X
(x),
35
E[X|B] =
1
P(B)
_

xI
B
(x)f
X
(x)dx =
1
P(B)
_
B
xf
X
(x)dx.
Ex. 15 (Valor esperado condicionado de uma v.a. com distribuicao uniforme)
Seja X() = uma v.a. que assume valores no espaco (0, 1], munido de uma medida de
probabilidade P, tal que
P((a, b]) = b a, (a, b] (0, 1].
X tem distribuicao uniforme em (0, 1], isto e, a sua densidade e f
X
(x) = 1, x (0, 1], (ver
Ex. 3) e a sua funcao de distribuicao e
F
X
(x) = P({ : X() = x}) =
_

_
P() = 0, x 0
P((0, x]) = x, x (0, 1)
P((0, 1]) = 1, x 1
.
Considere-se agora que se realizou um dos acontecimentos A
i
= (
i1
n
,
i
n
], i = 1, ..., n.

E
imediato que P(A
i
) =
1
n
, donde
E[X|A
i
] =
1
P(A
i
)
_
A
i
xf
X
(x)dx = n
_ i
n
i1
n
xdx =
2i 1
2n
.
O valor esperado condicionado E[X|A
i
] e o valor esperado actualizado de X, quando se
sabe que A
i
ocorre. Por exemplo, com n = 6, quando se sabe que A
3
= (
1
3
,
1
2
] se realizou,
tem-se E[X|A
3
] =
5
12
, o ponto medio de A
3
. Recorde-se que E[X] = 0.5. Quer dizer, o ponto
medio de A
3
e o valor esperado condicionado pela realizacao deste acontecimento. O ponto
medio de (0, 1], e o valor esperado nao condicionado.
Def. 30: Valor Esperado Condicionado por uma Variavel Aleatoria Discreta
Seja A
1
, A
2
, ... uma particao de (A
i

A
j
= , i = j e

_
i=1
= ). Seja Y uma v.a. discreta
sobre que assume o valor y
i
quando se realiza o acontecimento A
i
, quer dizer, A
i
= { :
Y () = y
i
}, i = 1, 2, ... . Seja ainda X uma v.a. sobre , tal que E[|X|] < . Admita-se,
por conveniencia e sem perda de generalidade, que P(A
i
) > 0, i.
Nestas condicoes, o valor esperado da v.a. X, dada a v.a. Y , e uma v.a. discreta (funcao
de Y ), que se dene
E[X|Y ]() = E[X|A
i
] = E[X|Y = y
i
], A
i
, i = 1, 2, ... .
Da denicao anterior resulta que, se se sabe que um particular A
i
se realizou, basta ter em
atencao os resultados A
i
. Nessas condicoes, cai-se na Def. 29, pois tem-se a particular
concretizacao E[X|Y = y
i
] da v.a. E[X|Y ]().
36
Ex. 15 (Cont.)
Calculando todos os valores esperados E[X|Y ]() = E[X|A
i
] = E[X|Y = y
i
], A
i
, i =
1, 2, ... , quer dizer, percorrendo todos os acontecimentos A
i
da particao, obtem-se o conjunto
de todos os possveis valores assumidos pela v.a. E[X|Y ] - com Y a assumir o valor constante
y
i
no conjunto A
i
=
_
i 1
n
,
i
n
_
. Neste sentido, pode considerar-se que a v.a. E[X|Y ] nao
e mais do que uma versao grosseira da v.a. original X, isto e, E[X|Y ] nao passa de uma
aproximacao de X, quando se sabe que o acontecimento A
i
se realizou (o valor esperado de
X, sob essa condicao). A v.a. X e assim, de certo modo, gurada pela funcao determinista
E[X|Y ].
Algumas propriedades do valor esperado (da v.a.) E[X|Y ]
P1 - O valor esperado condicionado e um operador linear: Sendo X
1
e X
2
v.a. e c
1
e c
2
constantes,
E[(c
1
X
1
+c
2
X
2
)|Y ] = c
1
E[X
1
|Y ] +c
2
E[X
2
|Y ].
Dem: Imediata, usando a denicao de valor esperado.
P2 - E[X] = E[E[X|Y ]].
Dem: E[E[X|Y ]] =

i=1
E[X|A
i
]P(A
i
) =

i=1
E[XI
A
i
] = E
_
X

i=1
I
A
i
_
= E[X].
(Note-se que se usou a igualdade

i=1
I
A
i
= I

i=1
A
i
= I

= 1.)
P3 - Se X e Y sao independentes, entao E[X|Y ] = E[X].
Dem: A independencia entre X e Y implica que, sendo A um dado conjunto,
P(X A, Y = y
i
) = P(X A)P(Y = y
i
) = P(X A)P(A
i
).
Por outro lado,
{ : I
A
i
() = 1} = A
i
= { : Y () = y
i
},
pelo que P(X A, Y = y
i
) = P(X A, I
A
i
= 1) = P(X A)P(I
A
i
= 1).
Claro que, de modo analogo, se pode estabelecer que
P(X A, Y = y
i
) = P(X A, I
A
i
= 0) = P(X A)P(I
A
i
= 0).
Tem-se assim que as v.a. X e I
A
i
sao independentes e, para A
i
,
E[X|Y ]() = E[X|A
i
] =
E[XI
A
i
]
P(A
i
)
=
E[X]E[I
A
i
]
P(A
i
)
= E[X],
pois E[I
A
i
] = 0P(A
c
i
) + 1P(A
i
) = P(A
i
).
37
Em resumo:
O valor esperado condicionado E[X|Y ], de uma v.a. X condicionada ao comporta-
mento de uma v.a. discreta Y , e tambem uma v.a. discreta - pois e funcao da v.a.
Y .
Para cada conjunto A
i
= { : Y () = y
i
}, E[X|Y ] coincide com o valor esperado
condicionado classico E[X|Y = y
i
].
De certa forma, E[X|Y ] e uma versao grosseira da v.a. X (em termos de valores
esperados, quando se sabe algo sobre o comportamento da v.a. Y ).
Quanto menos forem os valores assumidos pela v.a. Y , mais grosseira e a v.a. E[X|Y ],
como aproximacao da v.a. X. No caso extremo em que Y assume um unico valor
com probabilidade 1 (v.a. degenerada), tem-se E[X|Y ] = E[X], quer dizer, E[X|Y ]
e tambem uma v.a. degenerada e, portanto, limita-se a aproximar X pelo seu valor
esperado.
O valor esperado condicionado E[X|Y ] nao e funcao da v.a. X, somente de Y . A v.a.
X determina apenas o tipo de funcao. Com efeito,
E[X|Y ] = g(Y ), g(y) =

i=1
E[X|Y ] = y
i
I
{y
i
}
(y).
1.6.3

Algebras
Na anterior denicao de valor esperado de uma v.a. X, condicionado a uma v.a. discreta
Y (Def. 30), cou evidente que os valores concretos assumidos por Y nao sao realmente
importantes na denicao de E[X|Y ]. O aspecto essencial e que Y assuma valores distintos
nos conjuntos A
i
da particao de . Estes, sim, evidenciam o mecanismo aleatorio presente
na experiencia.
Na realidade, e de uma forma mais geral, E[X|Y ] pode ser encarada como uma v.a. cons-
truda com base numa classe de subconjuntos de , seja (Y ). Simbolicamente, tem-se
E[X|Y ] = E[X|(Y )].
Naturalmente, a classe (Y ) deve fornecer toda a informacao necessaria sobre o comporta-
mento da v.a. Y , como funcao de . Em termos mais precisos, (Y ) deve ser uma
algebra.
Como se viu atras (pag. 2), tal signica que:
(Y ) e (Y )
Se A (Y ), entao A
c
(Y )
Se A
1
, A
2
, ... (Y ) , entao

_
i
A
i
(Y ) e

i
A
i
(Y ).
38
Chegados a este ponto, pode colocar-se a seguinte questao: Dada uma classe C de subcon-
juntos de , que nao e algebra, existe uma algebra, que pode ser considerada a menor
algebra a conter a classe C?
A resposta e SIM, e tem-se ate a seguinte denicao:
Def. 31: algebra gerada por uma classe C
Dada a classe C de subconjuntos de , a menor algebra a conter C, represente-se por
(C), diz-se a algebra gerada por C.
Naturalmente, para se obter (C), basta juntar a C os necessarios subconjuntos de .
Ex. 16 (algebras elementares)
F
1
= {, }
F
2
= {, , A, A
c
}, A = , A =
F
3
= P() = {A : A }.

E imediato que
F
1
= ({}), isto e, C = {}
F
2
= ({A}), isto e, C = {A}
F
3
= ({F
3
}), isto e, C = {A : A }.
A nao ser em casos muito simples, como os dois primeiros exemplos, nao e possvel ter uma
ideia concreta dos conjuntos que formam uma algebra. Uma excepcao e a algebra
(Y ), obtida a partir de uma v.a. discreta Y .
Retome-se a v.a. discreta Y sobre , que assume o valor y
i
quando se realiza o acontecimento
A
i
, quer dizer,
A
i
= { : Y () = y
i
}, i = 1, 2, ... ,
os conjuntos A
i
formando uma particao de .
Fazendo C = {A
1
, A
2
, ...}, e imediato que devem pertencer a (C), a algebra gerada por
C, todos os conjuntos da forma
A =
_
iI
A
i
,
I um qualquer subconjunto do conjunto N, incluindo I = (A = ) e I = N (A = ).

E facil vericar que a classe dos conjuntos A constitui ela propria uma algebra, seja (Y ).
Ora, uma vez que os conjuntos A pertencem necessariamente a (C), que e por denic ao a
menor algebra contendo C, entao tem-se (Y ) = (C): a algebra obtida a partir de Y
coincide com a algebra gerada por C.

E igualmente facil concluir que pertencem a (Y ) todos os conjuntos da forma


A
a,b
= {Y (a, b]} = { : a < Y () b}, < a < b < ,
39
pois I = {i : a < y
i
b} e um subconjunto de N e
A
a,b
=
_
iI
{ : Y () = y
i
}.
Recorde-se (ver as Defs. 5 e 11) que intervalos deste tipo sao imprescindveis para a ca-
racterizacao da distribuicao de Y , seja esta discreta ou contnua, seja uni-dimensional ou
ndimensional, com n > 1.
Infelizmente, quando Y e v.a. contnua, `a algebra gerada pelos conjuntos A
i
= { :
Y () = y
i
}, y R, nao pertencem os conjuntos { : a < Y () b}. Sendo, no entanto,
necessario garantir que esta preenchido o requisito mnimo de que tais conjuntos pertencem
`a algebra obtida a partir de Y , introduz-se uma nova denicao, que se aplica a todas as
situacoes.
Def. 32: algebra gerada por um vector aleatorio Y
Seja Y = (Y
1
, Y
2
, ..., Y
n
) um vector aleatorio ndimensional (n 1). Chama-se algebra
gerada por Y, e representa-se por (Y), `a menor algebra que contem todos os conjuntos
da forma
{Y (a, b]} = { : a
i
< Y
i
() b
i
, i = 1, 2, ..., n}, < a
j
< b
j
< , j = 1, 2, ..., n.
Esta denicao esta estreitamente ligada `a chamada algebra de Borel, cujos elementos sao
os Borelianos (ver nota da pag. 2). Se tomarmos genericamente = R e C
(1)
= {(a, b] :
< a < b < }, `a algebra B
1
= (C
(1)
) pertencem todos os subconjuntos de R
razoaveis. B
1
e a algebra de Borel
3
. De modo analogo, a algebra dos Borelianos de
R
n
e B
n
= (C
(n)
),
C
(n)
= {(a, b] : < a
i
< b
i
< , i = 1, 2, ..., n}.
Ilustrando com o caso em que Y e uma v.a., Y : R, diz-se que um conjunto A e
determinado pela v.a. Y se, conhecendo-se apenas o valor Y (), assumido pela v.a., e possvel
decidir se A. Por outras palavras, y R, e possvel determinar se Y
1
(y) A ou se
Y
1
(y)

A = . A classe de subconjuntos de assim determinados por Y e a algebra


gerada por Y, (Y ). Corresponde `a informacao veiculada pela variavel aleatoria Y .
Mais ainda, quando Y e v.a. discreta, (Y ) e gerada pela classe de conjuntos {Y
1
(Y ())|
}, como se viu. Em geral, para qualquer v.a. Y : R, (Y ) e dada por (Y ) =
{Y
1
(B)|B algebra de Borel}.
Da mesma forma, se se considera um qualquer elemento de (Y) cam a conhecer-se os
resultados para os quais Y assume valores num rectangulo (a, b] (ou noutro tipo
de Boreliano). Por outras palavras: a algebra gerada por Y contem toda a informacao
3
Se se pretende provar que um determinado subconjunto C de R
n
e um Boreliano, basta mostrar que
C se pode obter `a custa das operacoes

,

e passagem ao complementar, efectuadas sobre os rectangulos


(a, b].
40
essencial sobre a estrutura do vector aleatorio Y, como funcao de , pois contem todos
os conjuntos da forma { : Y C}, C R
n
.
Se Y e um processo estocastico, a Def. 32 tem que ser reformulada.
Def. 33: algebra Gerada por um Processo Estocastico Y
Seja Y = (Y
t
, t T, ) um processo estocastico. Chama-se algebra gerada por Y , e
representa-se por (Y ), `a menor algebra que contem todos os conjuntos da forma
{ : a trajectoria (Y
t
(), t T) pertence a C},
C um qualquer conjunto adequado de funcoes com domnio T.
Ex. 17 (algebra gerada por um movimento Browniano)
Seja B = (B
s
, s t) um movimento Browniano no intervalo [0, t].
A algebra F
t
= (B) = (B
s
, s t), que e a menor algebra contendo a informacao
essencial sobre a estrutura do processo, e gerada pelos conjuntos
A
t
1
,...tn
(C) = { : (B
t
1
(), ..., B
tn
()) C},
para todo o Boreliano C de R
n
e toda a escolha dos ndices t
i
[0, t], n 1.
A Def. 33 e necessariamente vaga, devido ao reduzido instrumental teorico a que se faz apelo,
mas deixa entrever que (Y ) nao e um ser trivial - o que, de certa forma, e evidenciado
tambem pelo Ex. 17. Para se tentar conseguir uma ideia mais precisa sobre (Y ) costuma
ter-se presente a ideia base, repetidas vezes apresentada, de que
Para uma variavel aleatoria (vector aleatorio, ou processo estocastico) Y sobre ,
a algebra (Y ) gerada por Y contem a informacao essencial sobre a estrutura
de Y como funcao de .

E assim formada pelos subconjuntos { : Y () C},
para todo o conjunto adequado C.
Na medida em que Y gera uma algebra, diz-se tambem que Y contem a
informacao representada por (Y ), ou ainda que Y transporta a informacao
(Y ). Note-se que os elementos de (Y ) sao subconjuntos de , o espaco de
resultados da experiencia aleatoria (a genese de tudo).
Uma ultima nota: Seja f uma funcao de Y e considerem-se os subconjuntos de
{ : f(Y ()) C},
denidos `a custa dos ja habituais conjuntos adequados C.
Quando a funcao f e bem comportada, verica-se que tambem estes novos conjuntos per-
tencem a (Y ), isto e, verica-se que
(f(Y )) (Y ).
41
Tambem daqui resulta que uma funcao f, actuando sobre Y , nao fornece nenhuma in-
formacao adicional sobre a estrutura de Y . Diz-se entao que a informacao associada a f(Y )
esta contida em (Y ).
Ex. 18 (Funcao de um movimento Browniano)
Seja o movimento Browniano B = (B
s
, s t), t 0 e denam-se as algebras F
t
=
(B) = (B
s
, s t), t 0.
Considere-se a funcao f(B) = B
t
, para um t xo. Dado que ja e conhecida toda a estrutura
do processo B, tambem se conhece a estrutura da v.a. B
t
, donde resulta que (B
t
) F
t
. A
armacao recproca e claramente falsa. Conhecendo apenas a distribuicao de B
t
, claro que
nao se consegue reconstituir todo o processo B = (B
s
, s t), t 0.
1.6.4 Valor Esperado Condicionado Geral
Na Def. 30 introduz-se o valor esperado de uma v.a. X, condicionado por uma v.a. discreta
Y , E[X|Y ]. Tal denicao nao faz uso directo dos valores y
i
assumidos pela v.a. Y, mas antes
dos subconjuntos A
i
de , A
i
= { : Y () = y
i
}. Foi visto tambem que, nessas condicoes,
a classe dos conjuntos A
i
gera a algebra (Y ).
Vai agora introduzir-se o conceito de valor esperado condicionado geral, dada uma algebra
F sobre , represente-se por E[X|F]. Nas aplicacoes interessantes considera-se F = (Y ),
sendo Y vari avel aleatoria, vector aleatorio ou processo estocastico, no entendimento de que
a informacao essencial sobre a estrutura de Y esta contida em (Y ), por si gerada.
A este proposito, e ainda util reter o seguinte:
Sejam Y, Y
1
e Y
2
variaveis aleatorias, vectores aleatorios ou processos estocasticos
sobre e seja F uma algebra tambem sobre .
Diz-se que a informacao de Y esta contida em F, ou que Y nao contem mais
informacao do que aquela que esta contida em F, quando (Y ) F.
Diz-se que Y
2
contem mais informacao do que Y
1
, quando (Y
1
) (Y
2
).
Def. 34: Valor Esperado Condicionado por uma algebra
Uma v.a. Z e designada o valor esperado de uma v.a. X, condicionado a uma algebra
F, e escreve-se Z = E[X|F], se:
(Z) F, quer dizer, Z nao contem mais informacao do que a que e dada por F.
Z verica a condicao E[XI
A
] = E[ZI
A
], A F.
A denicao de valor esperado condicionado, dada uma algebra F, como sendo uma v.a.
remonta a Kolmogorov. Quando E[|X|] < , demonstram-se a existencia e unicidade de
E[X|F]. Com efeito, desde que E[|X|] < , ha sempre uma variavel aleatoria Z a satisfazer
aquelas duas condicoes, isto e, o valor esperado condicionado existe. Tambem se verica que
42
nao pode haver mais do que uma variavel aleatoria Z a satisfazer as duas condicoes, pois
se houver uma outra variavel aleatoria Z

que as satisfaca, entao quase certamente Z = Z

,
quer dizer, P[ ; Y () = Y

()] = 1.
Observacoes:
1. A condicao E[XI
A
] = E[ZI
A
], A F, mostra que as v.a. X e Z sao aproximadas,
nao no sentido em que X() = Z(), , mas no sentido em que os valores esperados
de X e de Z sao iguais em determinados conjuntos A (os conjuntos que pertencem a
F). Como foi visto atras, Z = E[X|F] e uma versao grosseira da v.a. original X.
2. A experiencia aleatoria e executada, ou seja, um elemento e seleccionado. O valor
de e parcialmente revelado, mas nao o suciente para que se possa calcular X().
No entanto, com base no que se sabe a respeito de , vai calcular-se uma estimativa de
X(). Porque esta estimativa depende do conhecimento parcial disponibilizado sobre
, e funcao de , isto e, E[X|F] depende de , mesmo que essa dependencia nao
apareca de forma explcita. Se a algebra F tem um grande n umero de elementos,
pode considerar-se que existe em F um conjunto A que e igual `a interseccao de todos os
conjuntos da algebra a que pertence o resultado . O modo como e parcialmente
revelado por F consiste precisamente em ser-nos dito que o resultado da experiencia
e A - mas nao nos ser dito de que elemento de A se trata. Nessas condic oes,
E[X|F]() e o valor esperado de X sobre o conjunto A. De tal forma que, qualquer
que seja o resultado A, o valor esperado condicionado E[X|F]() e sempre igual.
3. A Def. 34 possibilita que haja variantes na denicao de E[X|F]. Estas variantes Z

apenas diferem de Z em conjuntos de probabilidade nula, pelo que todas as relacoes


envolvendo E[X|F] devem aceitar-se como quase certas.
Ex. 19 (Valor esperado condicionado - condicao discreta)
Na seccao 1.4.1 (Def. 30) viu-se que
E[X|Y ]() = E[X|A
i
] = E[X|Y = y
i
], A
i
, i = 1, 2, ... .
Por outro lado, nos paragrafos que se seguiram ao Ex. 16, vericou-se que cada elemento A
de (Y ) e da forma
A =
_
iI
A
i
=
_
iI
{ : Y () = y
i
}, I N.
Mais ainda, viu-se que E[X|Y ]() = Z(), A
i
, sendo Z apenas funcao de Y , nao de X.
Logo, sendo funcao de Y , nao contem mais informacao do que Y .
Daqui se retira a primeira conclusao:
(Z) (Y ).
Para se vericar a segunda condicao, basta ter em atencao que, sendo A =
_
iI
A
i
, se pode
escrever
E[XI
A
] = E
_
X

iI
I
A
i
_
=

iI
E[XI
A
i
],
43
o que permite concluir ser
E[ZI
A
] =

iI
E[X|A
i
]P(A
i
) =

iI
E[XI
A
i
] = E[XI
A
].
Verica-se que Z satisfaz a Def. 34 e e na realidade o valor esperado condicionado de X,
dada a algebra (Y ). A Def. 30 e o caso particular da Def. 34, quando a condic ao e
discreta.
O exemplo anterior mostra que, quando Y e v.a. discreta, E[X|Y ] e E[X|(Y )] representam
a mesma v.a.. A denicao seguinte generaliza essa ideia.
Def. 35: Valor Esperado de uma Variavel Aleatoria X Condicionado por uma
Variavel Aleatoria, um Vector Aleatorio ou um Processo Estocastico Y
Seja Y uma v.a., um vector aleatorio ou um processo estocastico sobre e seja (Y ) a
algebra gerada por Y .
O valor esperado condicionado de uma v.a. X, dado Y , dene-se
E[X|Y ] = E[X|(Y )].
Ex. 20 (Valor esperado condicionado e probabilidade condicionada classica)
A probabilidade condicionada e os valores esperados condicionados no sentido classico tambem
sao casos particulares da denicao geral de valor esperado.
Seja B um acontecimento, tal que P(B) > 0, e P(B
c
) > 0. Ja se sabe que F
B
= (B) =
{, , B, B
c
} e que E[X|F
B
]() = E[X|B], B.
Esta e a nocao classica de valor esperado.
De modo semelhante, se se especicar que X = I
A
, para algum acontecimento A, obtem-se
E[I
A
|F
B
]() = E[I
A
|B] =
P(A

B)
P(B)
, B,
que e a probabilidade condicionada de A dado B.
1.6.5 Regras para o Calculo do Valor Esperado Condicionado
A denicao 34 nao e construtiva, pelo que, em geral, nao se consegue calcular E[X|F]. O caso
em que F = (Y ), Y , v.a. discreta, e uma excepcao. No entanto, mesmo nao se conhecendo
a forma do valor esperado condicionado e necessario considera-lo e ter em atencao algumas
regras que se aplicam ao seu calculo.
Regra 1
O valor esperado condicionado e um operador linear: Se X
1
e X
2
sao variaveis aleatorias
e c
1
e c
2
sao constantes,
E[(c
1
X
1
+c
2
X
2
)|F] = c
1
E[X
1
|F] +c
2
E[X
2
|F].
Dem: Imediata, aplicando a Def. 34.
44
Regra 2
Sendo X variavel aleatoria, o valor esperado condicionado de X e um estimador nao
enviesado da variavel aleatoria X, ou seja,
E[X] = E[E[X|F]].
Dem: Imediata, fazendo A = , na Def. 34.
Regra 3
Se a variavel aleatoria X e a algebra F sao independentes, entao E[X|F] = E[X].
Em particular, se X e Y sao independentes, entao E[X|Y ] = E[X].
Dem: se X e F sao independentes, entao X e I
A
sao independentes, A F. Assim
sendo,
E[XI
A
] = E[X]E[I
A
] = E[X]P(A) = E[E[X]I
A
], A F.
Considerando a Def. 34, vem que a v.a. (degenerada) Z = E[X] e E[X|F]. Se
F e independente de X, nada se ganha ao incluir-se a informacao contida em F na
estimacao de X, pois essa informacao nao tem nada a dizer sobre o comportamento de
X.
Regra 4
Se (X) F, entao E[X|F] = X. Em particular, se X e funcao de Y, (X) (Y ) e
E[X|Y ] = X.
Dem: A informacao contida em F fornece todo o conhecimento sobre X, o que permite
escrever
E[X|F]() = E[X()|F] = X()E[1|F] = X() 1 = X().
Se a informacao contida em F e suciente para determinar X (e se (X) F isso
acontece), entao a melhor estimativa para X, baseada na informacao dada por F, e ela
propria. No fundo, e como se calculassemos E[X|x] = x, percorrendo todos os possveis
valores x. Ou seja, e como se calculassemos E[X|X], que so pode ser a propria X.
Generalizando a Regra 4, obtem-se a Regra 5.
Regra 5
Se (X) F, entao, qualquer que seja a variavel aleatoria G,
E[XG|F] = XE[G|F].
Em particular, se X e funcao de Y, (X) (Y ) e E[XG|Y ] = XE[G|Y ].
45
Regra 6
Se F e F

sao duas algebras e F F

, entao:
(a) E[X|F] = E[E[X|F

]|F]
(b) E[X|F] = E[E[X|F]|F

].
Dem: (a) A Def. 34 estabelece que, para A F e Z = E[X|F], E[XI
A
] = E[ZI
A
]; por
outro lado, pela Regra 5, se A F F

, entao E[E[X|F

]|F]I
A
= E[E[X|F

]I
A
|F] =
E[E[XI
A
|F

]|F]. Tomando valores esperados desta ultima igualdade e aplicando a


Regra 2, vem E[E[E[X|F

]|F]I
A
] = E[XI
A
]. Daqui resulta que Z

= E[E[X|F

]|F]
tambem satisfaz E[XI
A
] = E[ZI
A
], mas como E[X|F] e unica, deve ter-se Z = Z

.
Por outras palavras: se F F

, F

contem mais informacao do que F. Se es-


timamos X com base na informacao fornecida por F

(calculando E[X|F

]), e de
seguida estimamos o estimador com base numa menor quantidade de informacao (cal-
culando E[E[X|F

]|F]), so poderemos obter o mesmo resultado que teramos obtido se


houvessemos estimado X directamente a partir de F (ou seja, se houvessemos calculado
directamente E[X|F]).
(b) Pela Regra 4: Uma vez que F F

, E[X|F] nao contem mais informacao do que


F

, isto e, pode lidar-se com E[X|F] como se fosse constante. Entao,


E[E[X|F]|F

] = E[X|F]E[1|F

] = E[X|F].
A Regra 7 e uma generalizacao da Regra 3.
Regra 7
Se a variavel aleatoria X e independente de F e a informacao dada pela vari avel
aleatoria (vector aleatorio, ou processo estocastico) G esta contida em F, entao, para
qualquer funcao h(x, y),
E[h(X, G)|F] = E[E
X
[h(X, G)]|F],
onde E
X
[h(X, G)] signica que G esta xa e o valor esperado se calcula apenas relati-
vamente a X.
Ex. 21 (Ilustracao da Regra 7)
Sejam X e Y variaveis aleatorias independentes. As Regras 7 e 5 permitem estabelecer:
E[XY |Y ] = E[E
X
(XY )|Y ] = E[Y E[X]|Y ] = Y E[X]
E[X +Y |Y ] = E[E
X
[X +Y ]|Y ] = E[X] +Y.
Ex. 22 (Aplicacao ao movimento Browniano)
Comecemos por recordar que um processo estocastico B = (B
t
, t [0, )) se diz um movi-
mento Browniano, ou processo de Wiener, quando:
46
Se inicia com B
0
= 0
Tem incrementos estacionarios e independentes
B
t
N(0, t), t > 0
As trajectorias sao funcoes contnuas de t.
Associe-se a B uma corrente crescente de informacao acerca da estrutura do processo, repre-
sentada pelas algebras F
s
= (B
x
, x s). O objectivo e calcular
E[B
t
|F
s
] = E[B
t
|B
x
, x s], s 0.
Claramente, se s t, F
s
F
t
e da Regra 4 resulta E[B
t
|F
s
] = B
t
.
Quando s < t, pela Regra 1,
E[B
t
|F
s
] = E[(B
t
B
s
) +B
s
|F
s
] = E[(B
t
B
s
)|F
s
] +E[B
s
|F
s
].
Tendo em atencao que B
t
B
s
e F
s
sao independentes, pois F
s
nao tem nada a dizer
sobre o incremento B
t
B
s
, vem E[(B
t
B
s
)|F
s
] = E[B
t
B
s
], pela Regra 3. Claro que
E[B
t
B
s
] = 0. Mais ainda, (B
s
) (B
x
, x s) = F
s
, donde E[B
s
|F
s
] = B
s
e, nalmente,
E[B
t
|F
s
] = E[B
s
|F
s
] = B
s
= B
min(t,s)
.
Ex. 22 (Cont. - Aplicacao ao quadrado do movimento Browniano)
Seja agora o processo estocastico X
t
= B
2
t
t, t 0. Por processo analogo ao visto atras,
chega-se `a igualdade
E[X
t
|F
s
] = X
t
, s t.
Para s < t vem B
2
t
t = [(B
t
B
s
) +B
s
]
2
t = (B
t
B
s
)
2
+B
2
s
+ 2B
s
(B
t
B
s
) t.
Tomando valores esperados condicionados, ca
E[X
t
|F
s
] = E[(B
t
B
s
)
2
|F
s
] +E[B
2
s
|F
s
] + 2E[B
s
(B
t
B
s
)|F
s
] t.
Notando que B
t
B
s
e (B
t
B
s
)
2
sao independentes de F
s
e que (B
2
s
) (B
s
) F
s
, e
aplicando as Regras 3, 4 e 5, chega-se a
E[X
t
|F
s
] = E[(B
t
B
s
)
2
] +B
2
s
+ 2B
s
E[B
t
B
s
] t = (t s) +B
2
s
+ 0 t = X
s
.
Em suma: E[X
t
|F
s
] = X
min(t,s)
. Atente-se que E[(B
t
B
s
)
2
] = (t s)E[(
B
t
B
s

ts
)
2
] =
(t s), pois
B
t
B
s

ts
N(0, 1), donde (
B
t
B
s

ts
)
2

2
(1)
e E[(
B
t
B
s

ts
)
2
] = 1.
47
1.6.6 O Valor Esperado Condicionado como Projeccao
Seja F a algebra habitual e seja L
2
F a famlia de variaveis aleatorias Z com domnio
a satisfazer as condicoes
E[Z
2
] <
A informacao dada por Z esta contida em F: (Z) F
A variavel aleatoria E[X|F] pode interpretar-se como sendo uma versao actualizada do valor
esperado de X, dada a informacao F. Goza da seguinte importante propriedade:
Se X e uma variavel aleatoria com E[X
2
] < , o valor esperado condicionado E[X|F] e a
variavel aleatoria da famlia L
2
F que se encontra mais proxima da variavel aleatoria X,
no sentido da media quadratica, isto e:
E[X E[X|F]]
2
=
min
Z L
2
F
E[(X Z)
2
].
Quer dizer: E[X|F] e a projeccao ortogonal da variavel aleatoria X sobre o espaco L
2
F das
variaveis aleatorias Z, que contem alguma da informacao dada por F.
Observacoes:
No caso particular em que F = (Y ), E[X|Y ] e a funcao de Y que tem segundo
momento nito e esta mais proxima de X, em termos da media quadratica.
Algumas vezes, diz-se que E[X|F] e a melhor previsao de X, dada F. Pode ilustrar-se
o que isto signica com o Ex. 22.
No Ex. 22, concluiu-se que E[B
t
|B
x
, x s] = B
s
e que E[B
2
t
t|B
x
, x s] = B
2
s
s.
Assim sendo, podera entender-se que a melhor previsao para os valores futuros B
t
e
B
2
t
t, dada a informacao sobre o movimento Browniano (o quadrado do movimento
Browniano) ate ao tempo presente, s, e fornecida pelos valores presentes dos processos,
B
s
e B
2
s
s, respectivamente. Pode adiantar-se que esta e a propriedade que caracteriza
a classe das martingalas com segundo momento nito: a melhor previsao dos valores
futuros do processo estocastico e o valor observado no presente.
1.7 Martingalas
1.7.1 Propriedades Denidoras
A nocao de martingala e crucial para a compreensao do integral estocastico de Ito, pois os
integrais estocasticos indenidos de Ito sao construdos de forma a constituir martingalas.
Def. 36: Filtracao
Seja {F
t
, t 0} uma famlia de algebras sobre o mesmo espaco , cada algebra F
t
uma subclasse duma algebra F, tambem sobre .
A famlia {F
t
, t 0}, diz-se uma ltracao se
F
s
F
t
, 0 s t.
48
Se (F
n
, n = 0, 1, 2, ....) e uma sucessao de algebras sobre e F
n
F
n+1
, n, F
n
diz-se
igualmente uma ltracao.
Nas aplicacoes para nos relevantes, uma ltracao esta normalmente ligada a um processo
estocastico.
Def. 37: Processo Estocastico Adaptado a uma Filtracao
Diz-se que um processo estocastico Y = (Y
t
, t 0) se encontra adaptado `a ltracao {F
t
, t
0} quando
(Y
t
) F
t
, t 0.
Observacoes:
Um processo estocastico Y esta sempre adaptado `a ltracao natural, que e a ltracao
por si gerada, F
t
= (Y
s
, s t).
A adaptibilidade de um processo estocastico Y a uma ltracao {F
t
, t 0}, signica
que as variaveis aleatorias Y
t
nao trazem mais informacao do que a dada por F
t
. Ou
ainda que, para cada t, se a informacao em F
t
e conhecida, entao tambem se conhece
o valor de Y
t
.
Se Y = (Y
n
, n = 0, 1, ...) e um processo estocastico em tempo discreto, a adaptibilidade
e denida de forma analoga: para a ltracao (F
n
, n = 0, 1, ...) exige-se que (Y
n
) F
n
.
Ex. 23 (Exemplos de processos adaptados)
Seja (B
t
, t 0) um movimento Browniano e seja (F
t
, t 0) a correspondente ltracao
natural. Processos estocasticos da forma X
t
= f(t, B
t
), t 0, sendo f uma funcao, estao
tambem adaptados a (F
t
, t 0). Tal inclui processos como X
(1)
t
= B
t
, X
(2)
t
= B
2
t
, X
(3)
t
=
B
2
t
t, X
(4)
t
= B
3
t
e X
(5)
t
= B
4
t
, ou processos que dependem de todo o passado do processo
Browniano, como por exemplo
X
(6)
t
=
max
0 s t
B
s
, ou X
(7)
t
=
min
0 s t
B
2
s
.
Quando um processo estocastico X esta adaptado `a ltracao natural Browniana (F
t
, t 0),
diz-se que X esta adaptado ao movimento Browniano. Isto signica que X
t
e uma funcao de
B
s
, s t.
Exemplos de processos estocasticos que nao estao adaptados ao movimento Browniano:
X
(8)
t
= B
t+1
, X
(9)
t
= B
T
B
t
e X
(10)
t
= B
t
+B
T
, T > 0, T xo,
que requerem o conhecimento do movimento em instantes futuros do tempo.
Quando um processo nao esta adaptado ao movimento Browniano e possvel alargar a l-
tracao natural de modo a ser obtida uma outra ltracao que permita ultrapassar isso.
49
Ex. 24 (Extensao de uma ltracao)
Considere-se o movimento Browniano (B
t
, t 0) e a correspondente ltracao natural F
t
=
(B
s
, s t), t 0. O processo estocastico X
t
= B
2
t
gera a ltracao natural F

t
= (B
2
s
, s
t), t 0, que e menor do que (F
t
). Na realidade, para cada t, F

t
F
t
, uma vez que a partir
de B
2
t
so e possvel reconstruir a informacao sobre |B
t
|, nao sobre B
t
. No entanto, (F
t
) e
tambem uma ltracao de (B
2
t
), o que mostra que se pode trabalhar com ltracoes diferentes
para um mesmo processo.
Isso e particularmente verdade no domnio das nancas estocasticas, onde se usa o movimento
Browniano para representar as utuacoes (subidas e descidas, supostas independentes em
intervalos disjuntos do tempo) do mercado nanceiro. Acredita-se que os precos das acc oes,
as taxas de cambio e as taxas de juro sao bem modelados a partir das solucoes de equacoes
diferenciais estocasticas resultantes desse tipo de processo. Tais solucoes sao, elas proprias,
funcoes do movimento Browniano.
Uma vez que as referidas utuacoes constituem, anal, a informacao existente sobre o fun-
cionamento do mercado, e estao em princpio acessveis a todos os interessados, o conhe-
cimento relevante estara consequentemente contido na ltracao natural - que nao inclui
informacao exterior.
O problema e que, em nancas, ha sempre pessoas que sabem mais do que as outras. Por
exemplo, podem saber que uma importante decisao poltica vai ser tomada num futuro
proximo, e que ira mudar completamente o panorama nanceiro. Este conhecimento habilita
as pessoas informadas a agir de uma forma mais competente do que as restantes. Elas tem,
assim, as suas proprias ltracoes, que podem ser mais alargadas do que a ltracao natural.
Considere-se um processo estocastico X = (X
t
, t 0) sobre e admita-se que se dispoe da
informacao F
s
no momento presente, s. Uma questao fundamental e a seguinte:
Como e que a informacao disponvel inuencia o conhecimento sobre o compor-
tamento futuro do processo X?
Se F
s
e X sao dependentes, pode esperar-se que o conhecimento de F
s
reduza a
incerteza sobre os valores de X num momento futuro t (X
t
) pois, se se sabe que
certos acontecimentos se deram no passado, pode incluir-se este conhecimento
nos calculos que efectuarmos. Dessa forma, X
t
pode ser previsto com maior
precisao gracas a F
s
. Formalmente, calcula-se E[X
t
|F
s
], para 0 s < t, que ja
se sabe fornecer a melhor previsao de X
t
, dada a informacao F
s
(ver 1.4.5).
Recordando tambem o Ex. 22, sabe-se que os processos estocasticos X
t
= B
t
e
X
t
= B
2
t
t (B um movimento Browniano) satisfazem a condicao E[X
t
|F
s
] = X
s
,
para s < t. Relativamente a estes processos X, a melhor previsao do valor futuro
X
t
, dada F
s
, e o valor presente, X
s
. Naturalmente, a conclusao podera ser
diferente se se considerar outra ltracao, o que obriga a indicar qual a ltracao
que foi usada na previsao (a nao ser quando nao ha lugar para d uvidas).
50
Def. 38: Martingala em Tempo Contnuo
Um processo estocastico X = (X
t
, t 0) diz-se uma martingala em tempo
contnuo relativamente `a ltracao {F
t
, t 0}, e escreve-se (X, (F
t
)), quando:
E[|X
t
|] < , t 0
X esta adaptado a (F
t
)
E[X
t
|F
s
] = X
s
, para 0 s < t, isto e, dada F
s
, X
s
e a melhor previsao
para X
t
.
Def. 39: Martingala em Tempo Discreto
Um processo estocastico X = (X
n
, n = 0, 1, ...) diz-se uma martingala em
tempo discreto relativamente `a ltracao {F
n
, n = 0, 1, ...), e escreve-se (X, (F
n
)),
quando:
E[|X
n
|] < , n = 0, 1, ...
X esta adaptado a (F
n
)
E[X
n+1
|F
n
] = X
n
, para n = 0, 1, ..., isto e, dada F
n
, X
n
e a melhor previsao
para X
n+1
.
Observacoes:
Pode ver-se que a condicao E[X
n+1
|F
n
] = X
n
, para n = 0, 1, ... e equivalente
a E[Y
n+1
|F
n
] = 0, Y
n+1
= X
n+1
X
n
, n = 0, 1, .... A sucessao (Y
n
) diz-se
a sucessao diferenca da martingala, relativamente `a ltracao F
n
.
Uma martingala goza da notavel propriedade de ter funcao valor esperado
constante, E[X
s
] = E[X
t
], para todos s e t. Esta propriedade resulta da
denicao, E[X
t
|F
s
] = X
s
, s < t, e da Regra 2, E[E[X|F]] = E[X], que
permitem escrever E[X
s
] = E[X
t
]. Fornece um metodo facil para se provar
que um dado processo nao e uma martingala (mas nao para se provar que
e).
Uma denicao alternativa de martingala em tempo discreto e a seguinte:
Um processo estocastico X = (X
n
, n = 0, 1, ...) diz-se uma martingala em
tempo discreto se:
1. E[|X
n
|] < , n = 0, 1, ...
2. E[X
n+1
|X
0
, X
1
, ..., X
n
] = X
n
, para n = 0, 1, ....
1.7.2 Exemplos
Ex. 24 (Somas parciais de variaveis aleatorias independentes)
Seja (Z
n
) uma sucessao de variaveis aleatorias independentes, todas com valor
esperado e tais que E(Z
0
) = 0.
51
Considere-se a sucessao das somas parciais (R
n
), R
n
= Z
0
+ Z
1
+ ... + Z
n
e
a ltracao natural correspondente F
n
= (R
0
, R
1
, ..., R
n
), n 0. Claro que
F
n
= (Z
0
, Z
1
, ..., Z
n
), n 0, pois (Z
0
, Z
1
, ..., Z
n
) e (R
0
, R
1
, ...R
n
) contem a
mesma informacao: R
i
= Z
1
+... +Z
i
e Z
i
= R
i
R
i1
, i = 1, ..., n.
Quer provar-se que (R
n
) e uma martingala em tempo discreto, isto e, que:
1. E[|R
n
|] < , n = 0, 1, ...
2. R esta adaptado a (F
n
)
3. E[R
n+1
|F
n
] = R
n
, para n = 0, 1, ...
As condicoes 1. e 2. sao de vericacao imediata:
- Por hipotese, E[|R
n
|] < , n = 0, 1, ...
- Um processo estocastico esta sempre adaptado `a ltracao natural.
Quanto a 3., e recorrendo ao facto de ser R
n+1
= R
n
+Z
n+1
e `a Regra 1, tem-se
E[R
n+1
|F
n
] = E[(R
n
+Z
n+1
)|F
n
] = E[R
n
|F
n
] +E[Z
n+1
|F
n
].
Por outro lado, sendo F
n
= (R
0
, R
1
, ..., R
n
), a Regra 4 permite estabelecer que
E[R
n
|F
n
] = R
n
e, sendo por hipotese Z
n+1
e F
n
independentes, da Regra 5
resulta E[Z
n+1
|F
n
] = E[Z
n+1
]. Vem, entao,
E[R
n+1
|F
n
] = E[R
n
|F
n
] +E[Z
n+1
|F
n
] = R
n
+E[Z
n+1
].
Conclusao: Se E[Z
n
] = 0, n = 0, 1, ..., (R
n
, n = 0, 1, ...) e uma martingala relati-
vamente a (F
n
, n = 0, 1, ...).
Ex. 25 (Informacao acumulada sobre uma v.a. Z)
Seja Z, tal que E[|Z|] < , uma variavel aleatoria sobre e seja F
t
, t 0, uma
ltracao tambem sobre . Dena-se o processo estocastico X
t
= E[Z|F
t
], t 0.
Uma vez que F
t
se expande `a medida que o tempo passa, X
t
fornece cada vez mais
informacao sobre a variavel aleatoria Z. Em particular, se (Z) F
t
para algum
t, ja se sabe que (Regra 4) X
t
= Z. Quer provar-se que X e uma martingala em
tempo contnuo, isto e, que:
1. E[|X
t
|] < , t 0
2. X esta adaptado a (F
t
)
3. E[X
t
|F
s
] = X
s
, para 0 s < t.
Para se provar 1. e necessario recorrer `a desigualdade de Jensen
4
e `a Regra 2.
Vem entao, sucessivamente,
E[|X
t
|] = E[|E[Z|F
t
]|] E[E[|Z||F
t
]] = E[Z] < .
4
Sendo f uma funcao convexa com domnio R, e existindo os valores esperados indicados, tem-se
f(E[X|F]) E[f(X)|F]. Em particular, |E[X|F]| E[|X||F].
52
Prova-se 2. tendo em atencao que X
t
= E[Z|F
t
], o que implica que X
t
nao
contem mais informacao do que a contida em F
t
, ou ainda que (X
t
) F
t
. De
acordo com a Def. 37, pode concluir-se que X esta adaptado a (F
t
).
Para provar 3., basta vericar que, quando s < t, F
s
F
t
e, tendo em atencao
a Regra 6(a), que
E[X
t
|F
s
] = E[E[Z|F
t
]|F
s
] = E[Z|F
s
] = X
s
.
X e uma martingala em tempo contnuo.
Ex. 26 (Movimento Browniano)
Seja B = (B
t
, t 0) um movimento Browniano. O Ex. 22 mostra que (B
t
, t 0)
e (B
2
t
t, t 0) sao martingalas em tempo contnuo, relativamente `a ltracao
natural F
t
= (B
s
, s t).
Exerccios:
1. Provar que ((B
3
t
3tB
t
), (F
t
)) e tambem uma martingala, isto e, que:
1. E[|B
3
t
3tB
t
|] < , t 0
2. B
3
t
3tB
t
esta adaptado a (F
t
)
3. E[B
3
t
3tB
t
|F
s
] = B
3
s
3sB
s
, para 0 s < t.
2. Determinar um processo estocastico (A
t
), tal que ((B
4
t
+ A
t
), (F
t
)) seja uma
martingala. Sugestao: Comece-se por calcular E[((B
t
B
s
) + B
s
)
4
|F
s
], para
s < t.
Ex. 27 (Transformada de uma martingala)
Seja Y = (Y
n
, n = 0, 1, ...) a sucessao diferenca de uma martingala, relativamente
`a ltracao (F
n
, n = 0, 1, ...). Considere-se um processo estocastico C = (C
n
, n =
1, 2, ...) e assuma-se que, para todo o n, a informacao veiculada por C
n
esta
contida em F
n1
, isto e, (C
n
) F
n1
[o que signica que, dada F
n1
, ca a
conhecer-se C
n
completamente, no momento n 1. Nestas condicoes, diz-se que
C
n
, n = 1, 2, ... e previsvel, relativamente a (F
n
)].
Dena-se agora o processo estocastico
X
0
= 0, X
n
=
n

i=1
C
i
Y
i
, n 1.
O processo X representa-se, signicativamente, por C Y e designa-se a trans-
formada da martingala Y , por C. Evidentemente, sera tambem uma martingala
se satiszer as 3 condicoes habituais:
53
1. E[|X
n
|] < , n = 0, 1, ...
2. X esta adaptado a (F
n
)
3. E[X
n+1
|F
n
] = X
n
, para n = 0, 1, ...
1. E[|X
n
|]
n

i=1
E[|C
i
Y
i
|]
n

i=1
(E[C
2
i
]E[Y
2
i
])
1/2
< , recorrendo `a desigualdade
de Cauchy-Schwarz
5
. Logo, E[C
2
n
] < e E[Y
2
n
] < ], n = 1, ...
2. X
n
esta evidentemente adaptada a (F
n
), pois Y
1
, Y
2
, ..., Y
n
nao contem mais
informacao do que (F
n
) e C
1
, C
2
, ...C
n
e previsvel. Logo, (X
n
) F
n
.
3. Usando a Regra 5, o facto de (C
n
) ser previsvel e de (Y
n
) ser a diferenca de
uma martingala, tem-se
E[X
n
X
n1
|F
n1
] = E[C
n
Y
n
|F
n1
] = C
n
E[Y
n
|F
n1
] = 0.
Verica-se, assim, que (X
n
X
n1
) tambem e a sucessao diferenca de uma martin-
gala. Logo, e como se pretendia mostrar, (X
n
) e uma martingala, relativamente
a F
n
.
Ex. 28 (Transformada de uma martingala Browniana)
Considere-se o movimento Browniano B = (B
s
, s t) e considere-se a particao
0 = t
0
< t
1
< ... < t
n1
< t
n
= t, de [0, t].
Recorrendo `a propriedade dos incrementos independentes de B, e possvel veri-
car que a sucessao
B :
0
B = 0,
i
B = B
t
i
B
t
i1
, i = 1, ..., n,
e uma sucessao diferenca de martingala, relativamente `a ltracao dada por
F
0
= {, }, F
i
= (B
t
j
, 1 j i), i = 1, ..., n.
Considere-se agora a sucessao transformadora

B = (B
t
i1
, i = 1, ..., n), previsvel
relativamente a F
n
. A transformada

B B, dada por
(

B B)
k
=
k

i=1

B
i

i
B =
k

i=1
B
t
i1
(B
t
i
B
t
i1
), k = 1, ...n,
e ainda uma martingala.
Os somatorios acima tem a forma tpica das somas de Riemann-Stieltjes, usadas
para a denicao do correspondente integral
_
t
0
B
s
dB
s
. Contudo, devido `a extrema
irregularidade das trajectorias do movimento Browniano, este integral nao existe
no sentido de Riemann-Stieltjes. Apesar disso, pode adiantar-se desde ja que

BB e uma analogia em tempo discreto do integral estocastico de Ito,


_
t
0
B
s
dB
s
.
5
E[|C
i
Y
i
|] (E[C
2
i
]E[Y
2
i
])
1/2
.
54
1.7.3 Interpretacao das Martingalas como Fair Games
As martingalas sao tradicionalmente consideradas como o modelo dos jogos nao
viciados.
Admita-se a realizacao de um jogo em tempo contnuo e um processo estocastico
(X
t
), que representa a evolucao do chamado valor do jogo ao longo do tempo.
A diferenca X
t
X
s
pode ser encarada como representando os ganhos lquidos
obtidos no intervalo de tempo (s, t], por cada unidade monetaria apostada.
Suponha-se que (X
t
) e adaptado a uma ltracao (F
t
). Pelo que foi visto anteri-
ormente, a melhor previsao para esses ganhos lquidos, dada a informacao (F
s
),
no momento s < t, e
E[X
t
X
s
|F
s
] = E[X
t
|F
s
] X
s
.
Como agora se sabe, se (X, (F
s
)) e uma martingala, E[X
t
|F
s
] X
s
= 0, ou seja,
a melhor previsao para os ganhos lquidos no intervalo de tempo futuro (s, t] e
zero. Que e exactamente o que se espera de um jogo justo.
Os nanceiros jogam certamente, mesmo que nao o admitam, e diz-se que, quando
admitem, estao convencidos de que o fazem de uma forma justa (?!). No contexto
dos jogos, Y
n
representa os ganhos lquidos por unidade monetaria apostada no
nesimo jogo, adaptado a uma ltracao (F
n
). Tais ganhos constituem uma
sucessao previsvel, relativamente a (F
n
), isto e, a aposta C
n
na nesima jogada
nao contem mais informacao do que F
n1
. Quer dizer, no momento n 1 e esta
a melhor informacao disponvel sobre o jogo.
A transformada C Y da martingala Y e tambem uma martingala (ver Ex. 27)
e representa os ganhos lquidos por jogo. De modo particular, (C Y )
n
=
n

i=1
c
i
Y
i
representa os ganhos lquidos ate ao momento n, sendo C
n
Y
n
os ganhos lquidos
totais pela aposta de C
n
unidades monetarias na nesima jogada.
O jogo e nao viciado porque a melhor previsao para os ganhos lquidos C
n
Y
n
dessa jogada, precisamente antes de ela se realizar, e E[C
n
Y
n
|F
n1
] = 0.
Fontes:
Mikosch, Thomas (1998), elementary stochastic calculus with Finance
in View, Advanced Series on Statistical Science & Applied Probability, Vol 6,
World Scientic Publishing Co. Pte.Ltd., Singapore,
e tambem
Centeno, Maria de Lourdes (2003), Teoria do Risco na Actividade Segu-
radora, Celta Editora, Oeiras.
M uller, Daniel (2005), Processos Estocasticos e Aplicacoes (2
a
versao), Serie
Textos de Apoio, CEMAPRE, Lisboa.
55