Sei sulla pagina 1di 84

Notas de Aula - Estatstica I

Professor: Caio Almeida


Monitor: Ana Luiza Perdigao
2 trimestre, 2015

Sum
ario
1 Probabilidade
1.1 Introduc
ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Vari
aveis Aleat
orias . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Esperanca Matem
atica . . . . . . . . . . . . . . . . . . . . . . .
1.3.1 Esperanca de vari
aveis aleatorias simples nao negativas
1.3.2 Espaco das vari
aveis aleatorias com 2o momento finito .
1.4 Esperanca Condicional . . . . . . . . . . . . . . . . . . . . . . .
1.4.1 Esperanca condicional a uma -algebra . . . . . . . . .
1.4.2 Esperanca condicional a uma decomposicao . . . . . . .
1.5 Modos de Convergencia . . . . . . . . . . . . . . . . . . . . . .
1.5.1 Implicac
oes . . . . . . . . . . . . . . . . . . . . . . . . .
1.6 Func
oes Caractersticas . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

2
2
6
13
13
27
29
29
32
35
36
44

2 Estatstica
2.1 Propriedades de uma Amostra Aleatoria . . . . . .
2.2 Func
oes de Vari
aveis Aleatorias . . . . . . . . . . .
2.3 Metodo do Jacobiano . . . . . . . . . . . . . . . . .
2.4 Distribuic
ao Gama . . . . . . . . . . . . . . . . . .
2.5 Amostragem de uma Distribuicao Normal . . . . .
2.6 Estimac
ao Pontual . . . . . . . . . . . . . . . . . .
2.6.1 Metodo dos momentos . . . . . . . . . . . .
2.6.2 Estimadores de m
axima verossimilhanca . .
2.6.3 Metodos para avaliacao de estimadores . . .
2.6.4 Estatsticas suficientes . . . . . . . . . . . .
2.7 Desigualdade de Cramer-Rao . . . . . . . . . . . .
2.8 Testes de Hip
otese . . . . . . . . . . . . . . . . . .
2.8.1 Teste de Raz
ao de Verossimilhanca . . . . .
2.8.2 Metodos de avaliacao de testes de hipotese

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

53
53
55
57
59
60
63
64
65
70
71
73
76
76
79

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

Probabilidade

1.1

Introduc
ao

Imagine o seguinte experimento: jogar para o alto uma moeda nao-viesada e observar
a face voltada para cima. Seus possveis resultados sao observarmos cara(CA) ou coroa(CO). Pela simetria do problema, dado que estamos considerando uma moeda justa,
sabemos que P (CA) = P (CO) = 1/2.
De forma geral, podemos pensar nos eventos que podem advir deste experimento:
CA, CO, CA CO e .
Temos ent
ao que P (CA CO) = 1 e P () = 0;
O caso apresentado acima fica mais interessante quando os experimentos envolvem um n
umero infinito de resultados. Por exemplo, poderamos modificar o experimento para considerar infinitas jogadas da moeda. Os possveis resultados seriam entao
sequencias infinitas de caras e/ou coroas. A probabilidade de cada resultado seria, neste
caso, P () = 0, .
Este resultado deixa claro que, em experimentos envolvendo um n
umero infinito
de resultados, nos interessamos por um conjunto de sequencias (ou eventos) ao inves de
uma sequencia especfica. Neste caso, subconjuntos do espaco amostral (i.e., do conjunto
de possveis resultados) ter
ao importancia fundamental. Iremos, portanto, propor uma
teoria axiom
atica de probabilidades.
Defini
c
ao 1.1.1 Seja um conjunto de pontos . Um sistema A de subconjuntos de
e denominado uma
algebra quando satisfaz `
as seguintes condic
oes:
1. A
2. A A A A
3. A, B A A B A
Defini
c
ao 1.1.2 Seja um conjunto de pontos . Um sistema F de subconjuntos de
e denominado uma -
algebra quando satisfaz `
as seguintes condic
oes:
1. F
2. A F A F

3. An F, n N

i=1 An

Defini
c
ao 1.1.3 O espaco junto com a -
algebra de seus subconjuntos e um espaco
mensur
avel.

Exemplo

Espaco mensur
avel de Borel em R.

Seja = R e F = B(R) = -
algebra de Borel. Como obtemos F nesse exemplo?
Seja A a
algebra formada por uni
oes finitas de conjuntos disjuntos da forma (a, b]. Assim
S
sendo, temos que A A se A = ni=1 (ai , bi ], ai , bi Ri
Note que A e
algebra, mas n
ao e -algebra. De fato,

(0, 1 1/i] = (0, 1)


/ A.

i=1

Assim sendo, definimos B(R) como a menor -algebra que contem A. Note que todo
tipo de intervalo aparece em B(R) (a, b), [a, b], a, [a, b). Por exemplo,

[a, b] =

(a 1/i, b]

i=1

Defini
c
ao 1.1.4 Uma func
ao P : F [0, 1] e denominada uma medida de probabilidade
quando:
1. P () = 1
2. P (A) 0 A F
S
P
3. P (
i=1 Ai ) =
i=1 P (Ai ) se, i 6= j, tivermos que Ai Aj =
Algumas propriedades de uma medida de probabilidade P sao:
P () = 0
A, B F P (A B) = P (A) + P (B) P (A B)
A B P (A) P (B)
An F, n N P (
Demonstra
c
ao

n=1 An )

n=1 P (An )

1. Note que = e = .

P () = P ( )
= P () + P ()
= P () = 0

2. Note que A = (A B) (A B c ) e B = (B A) (B Ac ). Ao separarmos


em conjuntos disjuntos temos que P (A) = P (A B) + P (A B c ) e P (B) =
P (B A) + P (B Ac ). Agora:

P (A B) = P (((A B) (A B c )) (B A) (B Ac ))
= P ((A B) (A B c ) (Ac B))
= P (A B) + P (A B c ) + P (Ac B)
= P (A) + P (B) P (A B)

3. Dessa vez, A = (A B). E, por (A B) B:

P (A) = P (A B)
P (B)

n1
4. Construa a seguinte sequencia de conjuntos Bn = An (i=1
Ai )c . Note que sao
n1
c
c
disjuntos dois a dois, Bn Bn+1 = An An+1 (i=n
i=1 Ai ) (i=1 Ai ) = e

nN Bn = nN An . Assim,

P (nN An ) = P (nN Bn )
X
=
P (Bn )
nN

X
nN

i=n1
P (An ), pois An = Bn (An (i=1
Ai ))n N

Teorema 1.1.1 Seja P uma medida de probabilidade. Ent


ao:
1. P e contnua por baixo, i.e., conjunto An F com An An+1 ,

lim P (An ) = P (

An )

n=1

2. P e contnua por cima, i.e., conjunto An F com An An+1 ,

lim P (An ) = P (

An )

n=1

1. Defina a seguinte sequencia de conjuntos Bn = An Acn1 . Por


n
P
P
construca
o ser
ao disjuntos,
Bn = nN An , e
Bk = An . Agora,

Demonstra
c
ao

nN

P (An ) =

k=1

n
X

P (Bk ) n N , tomando o limite

k=1

lim P (An ) =

P (Bk ) = P (kN Bk ) = P (nN An )

kN

2. Agora podemos usar o resultado anterior para os complementares pois Acn F n,


pois e -
algebra e Acn Acn+1 . Assim, P (nN Acn ) = lim P (Acn ). Por De Morgan
n

e propriedades da medida temos:

1 P (nN Acn ) = P ((nN Acn )c ) = P (nN An )


= lim 1 P (Acn ) = lim P (An )
n

Defini
c
ao 1.1.5 Uma tripla ordenada (, F, P ), onde
e um conjunto de pontos
F e uma -
algebra de subconjuntos de
P e uma medida de probabilidade em F
e chamada de modelo probabilstico ou espaco de probabilidade.

1.2

Vari
aveis Aleat
orias

Seja (, F) um espaco mensur


avel e (R, B(R)) o espaco mensuravel de Borel.
Defini
c
ao 1.2.1 Uma func
ao = () definida em (, F) e uma func
ao F-mensur
avel,
ou uma vari
avel aleat
oria, quando
1 (B) { : () B} F, B B(R),

ou, de forma equivalente, quando 1 (B) (a imagem inversa de B) e um conjunto mensur


avel em .
A vari
avel aleat
oria mais simples possvel e a funcao indicadora de um conjunto
A F, IA (), . Por que?
Uma vari
avel aleat
oria com representacao () =

i=1 ai IAi (),

com

i Ai

e Ai F, i, e denominada discreta. Quando esta soma e finita, a variavel aleatoria


e denominada simples. Note que esta representacao de uma variavel aleatoria simples
nao e necessariamente u
nica. Como um exemplo, tome a funcao f : R dada por
f () = 1, (esta func
ao e F-mensuravel?). Duas possveis representacoes de f sao:

f = 1.I
e
f = 1.IA + 1.IA , A F
Qual a import
ancia da mensurabilidade com respeito a F? Normalmente, variaveis
aleatorias s
ao interpretadas como uma propriedade numerica de um experimento aleatorio.
Assim sendo, perguntas sobre possveis resultados de uma variavel aleatoria somente estarao bem definidas se pudermos buscar respostas em eventos da -algebra F. Em
particular, se uma medida de probabilidade P esta definida em (, F), so faz sentido
falar da probabilidade do evento { : () B} se e F-mensuravel.
Defini
c
ao 1.2.2 Uma probabilidade P em (R, B(R)) com

P (B) = P ( : () B), B B(R)


e chamada de distribuic
ao de probabilidades de em (R, B(R)).

Defini
c
ao 1.2.3 F (x) = P ( : () x) = P ((, x]), x R e chamada de func
ao
de distribuic
ao de .
Temos que:
Uma vari
avel aleat
oria discreta apresenta funcao de distribuicao em degraus.
exemplos: Bernoulli, Binomial, Poisson.
Uma vari
avel aleat
oria contnua apresenta funcao de distribuicao contnua.
Uma vari
avel aleat
oria absolutamente contnua e tal que f (x) com

f(y) dy, x R

F (x) =

Um exemplo de uma vari


avel aleatoria absolutamente contnua (N (, 2 )):

f (x) =

(x)2
1
e 22
2

Um exemplo de uma vari


avel aleatoria singular (contnua mas nao absolutamente
contnua) pode ser construdo utilizando-se como funcao de distribuicao a Funcao de
Cantor (ver Barry James, 1996).
Em geral, n
ao e simples estabelecer que uma funcao = () e uma variavel aleatoria,
pois e necess
ario mostrar que a imagem inversa de qualquer boreliano pertence a F. O
lema abaixo simplifica tal tarefa:
Lema 1.2.1 Seja E um sistema de conjuntos tal que (E) = B(R). Uma condic
ao
necess
aria e suficiente para que = () seja F-mensur
avel e que { : () E}
F, E E.
Demonstra
c
ao () Seja E E. Temos que E B(R). Como e variavel aleatoria,
1 (E) F.
() Defina o conjunto D = {B B(R); 1 (B) F}. Entao, E D B(R) =
(E) (D) B(R). Por hipotese, (E) = B(R), assim (D) = B(R). Note
que se mostrarmos que D e -algebra, teremos o resultado desejado pois entao
D = (D) = B(R). Para ver que D e -algebra:

1. 1 (R) = F = R D
2. Seja d D

1 (d) F. E, por 1 (dc ) = 1 (d)c , temos que

1 (d)c F e, por consequencia, dc D.


3. Seja di D i N. Entao, 1 (di ) F i N. Como 1 (iN di ) =
iN 1 (di ), teremos que iN di D.
Dessa forma, D = B(R). Portanto e F-mensuravel.
Corol
ario 1.2.2 Uma condic
ao necess
aria e suficiente para que = () seja uma
vari
avel aleat
oria e:

{ : () < x} F, x R
ou

{ : () x} F, x R
Demonstra
c
ao Considere as seguintes sistemas de conjuntos:

N = {(, x); x R}
Q = {(, x]; x R}

Usando que (N ) = (Q) = B(R) podemos aplicar o lema anterior e concluir que
sera vari
avel aleat
oria.
Agora, estamos interessados em construir novas variaveis aleatorias a partir de outras
variaveis aleat
orias. O lema abaixo nos mostra uma forma:
Lema 1.2.3 Seja = (x) uma func
ao de borel (i.e., uma func
ao B(R)-mensur
avel) e
= () uma vari
avel aleat
oria. A func
ao composta = e uma vari
avel aleat
oria.
Demonstra
c
ao Tome B B(R). Note que 1 (B) = 1 (1 (B)). Como e funcao
de Borel teremos que 1 (B) B(R). Agora, por ser variavel aleatoria, 1 (1 (B))
F.

Alguns exemplos de vari


aveis aleatorias sao:
n , + max(, 0), min(, 0), || .

Por que estas func


oes s
ao vari
aveis aleatorias?
A partir de uma certa colec
ao de variaveis aleatorias {n } podemos construir novas
funcoes. Por exemplo,

n , lim n .
|k | , lim

k=1

Note que estas func


oes podem atingir valores no intervalo [, +]. Assim sendo,
e recomend
avel estender a classe de variaveis aleatorias para que possam assumir valores
+ e (na reta estendida).
= [, +]
Defini
c
ao 1.2.4 A func
ao = () definida em (, F), com valores em R

ser
a denominada uma vari
avel aleat
oria estendida se 1 (B) F, B B(R).
Teorema 1.2.4

1. Para qualquer vari


avel aleat
oria (incluindo as estendidas),

uma sequencia de vari


aveis aleat
orias simples {n }nN tal que

lim n () = (), .

2. Se () 0, ent
ao uma sequencia de vari
aveis aleat
orias simples que cresce para
, i.e., {n }nN tal que n () (), com n vari
avel aleat
oria simples n.
Demonstra
c
ao Comecaremos a demonstracao pela parte 2. Para todo n N, faca:
n

n () =

n2
X
(k 1)
k=1

onde Ik,n () = 1 quando

k1
2n

2n

()

Ik,n () + nI()n (),

k
2n .

Note que esta sequencia e tal que n () (), . No mais, n e variavel


aleatoria simples n.
Para demonstrar a parte 1, note que = + , para qualquer variavel aleatoria
. No mais, temos que + e sao variaveis aleatorias positivas, o que, usando a

10

parte 2, implica que existem sequencias {n+ }nN e {n }nN tais que n+ () + () e
n () (), com n+ , n vari
aveis aleatorias simples n.
Alem disso, temos que n+ n e uma variavel simples n e

lim +
n n

n = lim n+ lim n = + =
n

Em seguida, apresentaremos um teorema que garante que a classe de variaveis


aleatorias estendidas e fechada com relacao `a convergencia ponto a ponto. Isso porque, se {n }nN e uma sequencia de variaveis aleatorias estendidas, entao

n e lim n
supn , inf n , lim

tambem ser
ao vari
aveis aleat
orias (possivelmente estendidas). Esse fato se segue de:

{ : supn > x} =

{ : n () > x} F

{ : inf n < x} =

[
{ : n () < x} F
n

n = infn (supmn (m ))
lim
lim n = supn (infmn (m ))

Teorema 1.2.5 Seja {n }nN uma sequencia de vari


aveis aleat
orias estendidas e seja

() = lim n ()
n

Ent
ao () tambem e uma vari
avel aleat
oria estendida.
Demonstra
c
ao Utilizando do corolario 1.2.2, seja x R, note que:

{ ; () < x} = { ; lim n () = lim n ()} { ; lim n () < x}

Como as func
oes lim n e lim n sao mensuraveis, temos que 1 ((, x)) F. E,

por x ser arbitr


ario, aplicamos o corolario 1 e temos que e F mensuravel.
A partir disso, temos que, se e sao variaveis aleatorias estendidas, entao + ,
, . e / tambem o s
ao. Podemos demonstrar este resultado utilizando os Teoremas

11

1.1.1 e 1.2.4.
Suponha agora que seja uma variavel aleatoria e vamos considerar conjuntos A F
interessante notar que esta
tais que B B(R), com A = 1 (B) = { : () B}. E
colecao de conjuntos forma uma -
algebra denominada -algebra gerada por e denotada
F . Ja sabemos que, se e uma funcao de Borel, entao () e variavel aleatoria. Alem
disso, nao e difcil mostrar que () e F -mensuravel (o curioso e que a recproca tambem
vale, conforme veremos no Teorema 1.2.6).
Algumas perguntas:
Qual e a maior -
algebra, F ou F ?
F pode ser menor que F?
Teorema 1.2.6 Se e uma vari
avel aleat
oria F -mensur
avel, ent
ao existe uma func
ao
de Borel tal que = .

Demonstra
c
ao

Caso 1: fun
c
ao indicadora

Seja = IA , IA : {0, 1} Como e F -mensuravel, sabemos que A F .


Entao B B(R) tal que A = 1 (B). Considere entao a funcao indicadora de Borel
B : R {0, 1}, definida por:

B (x) =

se x B

se x
/ B

Temos ent
ao que IA () = B (()), .
Caso 2: fun
c
ao simples
P
facil ver que pode ser representada por
Seja () = ni=1 ai IAi (), . E
g(), onde g e a func
ao de Borel dada por:

g(x) =

n
X

ai Bi (x), x R,

i=1

onde Bi e tal que Ai = 1 (Bi ) i.


Caso 3: mensur
avel
Seja uma func
ao F -mensur
avel arbitraria. Pelo Teorema 1.2.4, existe uma sequencia
de funcoes simples {n }nN que converge para . Para todo n, podemos encontrar uma

12

funcao de Borel n tal que n () = n (()), . Logo, n (()) (),


.
Seja C = () e B = {x R : lim supn n (x) = lim inf n n (x)}. Entao C B (por
que?) e B B(R), pois lim supn n lim inf n n e funcao de Borel e {0} B(R).
Defina ent
ao:

(x) =

lim

se x B

se x
/ B

n n (x)

Logo, para todo , () = (()). Como e funcao de Borel, temos o


resultado.

Considere um espaco mensur


avel (, F) e uma decomposicao do espaco infinita
P
e enumer
avel D = {D1 , D2 , . . . }, Di F,
algebra
i Di = . Agora, considere a -
gerada por D, (D), que claramente satisfaz (D) F.
Lema 1.2.7 Seja = () uma vari
avel aleat
oria (D)-mensur
avel. Ent
ao pode ser
representada por

() =

xk IDk (), xk R.

k=1

Em outras palavras, e constante nos


atomos Dk da decomposic
ao.
Demonstra
c
ao Seja Dk D. Podemos definir xk = sup{c R; Dk { ; () <
c} = }. Por construc
ao Dk { ; () < xk } = .

Supondo c > xk , usaremos que o conjunto { ; () < c} pode ser escrito como
uma uni
ao enumer
avel de elementos em D para termos as seguintes relacoes:

Dk { ; () < c} = Dk
c>xk

= Dk { ; () c} =

13

Entao:

Dk { ; () > xk } =
= Dk { ; () 6= xk } =
= Dk { ; () = xk }

Com isso vemos que e constante nos termos da decomposicao D

1.3
1.3.1

Esperanca Matem
atica
Esperan
ca de vari
aveis aleat
orias simples n
ao negativas

Seja (, F, P ) um espaco de probabilidade e : R uma funcao simples, dada por:

() =

N
X

ai IAi ()

i=1

Defini
c
ao 1.3.1 Define-se a esperanca matem
atica de por:

E[]

N
X

ai P (Ai )

i=1

Conforme vimos anteriormente, a representacao de uma funcao simples nao e necessariamente u


nica. Desta forma, a definicao acima faz parecer que a esperanca de uma
variavel aleat
oria simples n
ao negativa depende da como a representamos. O item 4 do
teorema abaixo garante que isso n
ao acontece.
Teorema 1.3.1 Sejam , : R vari
aveis aleat
orias simples e c R. Ent
ao
1. E[c] = cE[]
2. E[ + ] = E[] + E[]
3. E[] E[]
4. = E[] = E[]
5. |E[]| E[||]
Demonstra
c
ao 1. Seja func
ao simples. Dessa forma, () =

n
P
i=1

c R, teremos que c ainda e uma funcao simples. Logo,

ai IAi . Tomando

14

E(c) =

n
X

cai P (Ai )

i=1
n
X

=c

ai P (Ai )

i=1

= cE()

2. Sejam e func
oes simples. Entao:

() =

() =

n
X
i=1
m
X

ai IAi () =
bj IBj () =

j=1

n,m
X
i,j=1
n,m
X

ai IAi Bj ()
bj IAi Bj ()

i,j=1

( + )() =

n,m
X

(ai + bj )IAi Bj ()

i,j=1

Assim sendo, temos:

E[ + ] =
=

n,m
X

(ai + bj )P (Ai Bj )

i,j=1
n,m
X

(ai )P (Ai Bj ) +

i,j=1
n
X

m
X

i=1

j=1

n,m
X

bj P (Ai Bj )

i,j=1

(ai )P (Ai ) +

bj P (Bj )

= E[] + E[]
3. Suponha . Logo:
n
X
i=1

ai IAi ()

m
X

bj IBj (),

j=1

Assim, dado i, j, se Ai Bj 6= , entao ai bj . Logo:

(ai bj )P (Ai Bj ) 0, i, j

15

Somando em j, obtemos:

m
X

(ai bj )P (Ai Bj ) 0, i

j=1

m
X

ai P (Ai Bj )

j=1

m
X

bj P (Ai Bj ), i

j=1

ai P (Ai )

m
X

bj P (Ai Bj ), i

j=1

Somando em i:

E[] =

n
X

n,m
X

ai P (Ai )

i=1

bj P (Ai Bj )

i,j=1

E[]

m
X

bj P (Bj )

j=1

E[] E[]

4. Basta notar que se = = e . Aplicando o item anterior teremos


que E() = E().
5. Para func
ao simples,

|E()| = |

n
X

ai P (Ai )|

i=1

n
X

|ai P (Ai )| =

i=1

n
X

|ai |P (Ai )

i=1

= E(||)

Esperan
ca de vari
aveis aleat
orias n
ao negativas
Seja (, F, P ) um espaco de probabilidade e : R+ uma variavel aleatoria nao
negativa.
Defini
c
ao 1.3.2 Senja S = { : e v.a. simples e }. Define-se a esperanca

16

matem
atica de por:

E[] = sup{E[] : S }
Uma outra definic
ao equivalente e:

E[] = lim E[n ], onde n e n e v.a. simples


nN

Esta segunda representac


ao para a esperanca de v.a. nao negativa esta bem definida
a princpio pois E[n ] E[n+1 ] j
a que sao funcoes simples e a sequencia e monotona.
Com isso, lim E[n ] mesmo que este seja +. Alem disso, temos que sera u
nico de
n

fato, independente de qual sequencia de v.a. simples que tivermos trabalhando. Isto se
deve ao seguinte lema:
Lema 1.3.2 Sejam e {n }nN v.a. simples n
ao negativas tais que n e .
Ent
ao lim E[n ] E[]
nN

Demonstra
c
ao Tome  > 0 e defina An = ; n . Por hipotese sabe-se que
An % . Logo lim = 1. Reescrevendo abaixo:
n

n = n IAn + n IAcn
n IAn
( )IAn
Logo, ao tomar esperanca:

E[n ] E[IAn ] P (An )


= E[] E[IAcn ] P (An )
v.a.simples

E[] maxc ()P (An c ) P (An )n N


An

Agora tomando limite, temos: lim E[n ] E[] . E, por  arbitrario, temos o
n

resultado desejado.
Assim, de uso desse lema e considerando duas sequencias convergentes, que se aproximam por baixo para , {n } e {m } teremos a igualdade de seus limites. Isto ocorre

17

pois:
L1.3.2

def.

E[] = lim E[n ] E[m ]m N.


n

Por procedimento an
alogo obtemos a outra desigualdade desejada para concluir igualdade dos limites.
Tendo que a segunda definic
ao esta sempre satisfeita para as v.a. nao negativas,
resta proceder a fim de mostrar a equivalencia entre elas, ou seja:

E[] = sup{E[] : S }
= lim E[n ], onde n e n e v.a. simples
nN

Demonstra
c
ao () Esta e obtida ao notar que {n } sao funcoes simples e que n
n N.
() Sejam {n } sequencia de v.a. simples; n e considere S . Assim, temos:
L1.3.2

def.

E[] = lim E[n ] E[]


n

Como a func
ao escolhida e arbitraria vale que: lim E[n ] sup E[], onde S
n

Esperan
ca de vari
aveis aleat
orias (Integral de Lebesgue)
Seja (, F, P ) um espaco de probabilidade e : R uma variavel aleatoria. Vimos
anteriormente que + e tambem sao variaveis aleatorias. Alem disso, como + e
assumem valores n
ao negativos, suas esperancas estao bem definidas.
Defini
c
ao 1.3.3 Se min{E[ + ], E[ ]} < , definimos a esperanca de como

E[] = E[ + ] E[ ]
Outra notac
ao e:
Z
dP = E[]

18

O objeto acima tambem e chamado integral de Lebesgue de com relacao `a


medida P .
Defini
c
ao 1.3.4 Dizemos que e integr
avel se

< E[] < +

ou, de forma equivalente


E[||] < .
Defini
c
ao 1.3.5 Dado A F, definimos:
Z

Z
dP =

IA dP

Defini
c
ao 1.3.6 Dado um espaco de probabilidade (, F, P ), definimos:

L1 (, F, P ) = { : R; e integr
avel}
Para provar v
arias propriedades da esperanca matematica, frequentemente provamos
o resultado para func
oes simples e depois o estendemos para funcoes mensuraveis nao
negativas usando a definic
ao dada de esperanca para variaveis aleatorias e o fato de que,
para toda func
ao mensur
avel n
ao negativa f existe uma sequencia de funcoes simples
nao negativas que converge pontualmente para f .
Teorema 1.3.3 Sejam f, g : R+ func
oes mensur
aveis e c 0 . Ent
ao
1. E[cf ] = cE[f ]
2. E[f + g] = E[f ] + E[g]
3. f g E[f ] E[g]
4. f = g E[f ] = E[g]
Demonstra
c
ao Como f, g 0, sabemos que {fn }, {gn }, fn , gn funcoes simples n,
tais que fn f e gn g (Teorema 1.2.4). Logo:

19

1. Note que por c 0, cf 0, de forma que cfn cf . Assim,


def.

E(cf ) = lim E(cfn )


n

fn simples

lim cE(fn )

def.

= cE(f )

2.
def.

E[f + g] = lim E[fn + gn ]


fn ,gn simples

lim E[fn ] + lim E[gn ]

def.

= E[f ] + E[g]

3. Usaremos que Sf Sg , por hipotese, onde Sg = { : e v.a. simples e g} e Sf


o an
alogo para f. Assim,vale que:

sup E[fn ] sup E[gn ],ou seja,


gn Sg

fn Sf

E[f ] E[g]
4. Note que f = g

f g e f g. Aplicando o item anterior nas duas

desigualdades, teremos E[f ] = E[g]


Teorema 1.3.4 (Teorema da Converg
encia Mon
otona) Seja {Xn }nN uma sequencia
crescente de vari
aveis aleat
orias Xn 0 tal que Xn converge pontualmente para X.
Ent
ao:

E[X] = lim E[Xn ]


n

Ou seja, pode-se inverter a ordem entre limite e esperanca.


Demonstra
c
ao Como E[Xn ] E[Xn+1 ] , existe [0, ] (note que nao exclumos
a possibilidade de = ) tal que:

E[Xn ]

20

Como Xn X n, segue que E[Xn ] E[X] n. Logo:

E[X]
Seja S vari
avel aleat
oria simples tal que 0 S X, e seja c constante (0, 1).
Defina An = { : Xn () cS()}, n N.
Note que An An+1 n e =
n=1 An . Para verificar esta igualdade, tome .
Se X() = 0, ent
ao A1 e, se X() > 0, entao cS() < X(), pois c < 1. Entao
An para algum n.
Alem disso:

E[Xn ] E[Xn IAn ] cE[SIAn ], n N


Fazendo n , temos:

cE[S]
Como esta desigualdade e satisfeita para todo c < 1, vale que:

E[S],
para toda vari
avel aleat
oria simples mensuravel S satisfazendo 0 S X. Logo, da
definicao de esperanca de uma variavel aleatoria nao negativa, segue que:

E[X]

lim E[Xn ] = E[X] =


n

Lema 1.3.5 (Lema de Fatou - a) Seja {fn }nN uma sequencia de vari
aveis aleat
orias
n
ao negativas. Ent
ao:

E[lim inf fn ] lim inf E[fn ]


n

Demonstra
c
ao Defina n = inf fk temos que n n+1 , n N. Com isso, temos
kn

uma sequencia de v.a. mon


otonas, e, entao:

21

T CM

E[lim inf fn ] = E[ lim n ] =


n

lim E[n ]

Como por construc


ao n fn n N, do Teorema 6 obtemos E[n ] E[fn ]n N.
A hip
otese de que fn e cotada por baixo (por zero) garante que n = inf fk 0 o
kn

que permite o uso do TCM.


Notando-se que como a sequencia {E[n ]}n e monotona crescente, seu limite existe,
possivelmente sendo .
Com isso,
lim E[n ] = lim inf E[n ] lim inf E[fn ]

Desta forma, juntando a equac


ao anterior com a primeira temos o resultado desejado.

Lema 1.3.6 (Lema de Fatou - b) Seja {fn }nN uma sequencia de vari
aveis aleat
orias
negativas. Ent
ao:

lim sup E[fn ] E[lim sup fn ]


n

Demonstra
c
ao Agora note que fn e cotada superiormente por 0. Para esta demonstracao ser
a usado a seguinte igualdade: lim inf(fn ) = lim sup fn .
Com isso podemos usar o resultado anterior pois fn e uma variavel aleatoria nao
negativa. Ent
ao vale que E[lim inf n (fn )] lim inf n (E[fn ]).
Entao, reescrevendo a equac
ao anterior usando a igualdade inicial temos o resultado.

Teorema 1.3.7 (Teorema da Converg


encia Dominada) Seja {n }nN uma sequencia
de func
oes F-mensur
aveis e uma func
ao F-mensur
avel com E[] < . Suponha que
n e |n | n. Ent
ao:

E[] = lim E[n ]


n

Demonstra
c
ao Note que por hip
otese temos as desigualdades n N:

0 n + e 0 n

22

Dessa forma temos sequencias de v.a. nas quais podemos aplicar o Lema de Fatou.
Entao,

E[lim inf (n + )] lim inf E[(n + )]


n

lim sup E[(n )] E[lim sup(n )]


n

Como a v.a. n
ao varia em n, e por haver convergencia, ou seja, lim inf n =
n

lim sup n , obtemos:


n

lim sup E[n ] E[] lim inf E[n ]


n

Utilizando que por definic


ao, lim sup E[n ] lim inf E[n ] conlcuimos que existe limite
n

para a esperanca de n e este ser


a E[]
Teorema 1.3.8 Seja {Xn }nN uma sequencia de vari
aveis aleat
orias Xn 0. Ent
ao:

E[

Xn ] =

n
P

Xi . Por Xi 0 i, Yn Yn+1 n N. E,

i=1

iN


Aplicando o TCM, E


P

Xi

iN


Agora note que E

n
P

(j)
Xi


= lim E
n


Xi

= sup E

Xi pois Xi 0. Assim,

n
P


Xi .

i=1

i=1

que

E[Xn ]

n=1

n=1

Demonstra
c
ao Defina Yn =
P
lim =
Xi .

n
P

i=1

(j)
Xi


(j)
, onde {Xi }jN e v.a. simples tal

23

n
X

n
X

!
= lim E

Xi

i=1

i=1

v.a.simples

lim

n
X

!
(j)
Xi
n
X

(j)

E(Xi )

i=1

E(Xi )

i=1

Retomando,
!
E

Xi

= lim E
n

iN

= lim

n
X

!
Xi

i=1
n
X

E(Xi )

i=1

E(Xi )

iN

Teorema 1.3.9 Seja (, F, P ) um espaco de probabilidade e f, g L1 (, F, P ), e c


R. Ent
ao:
1. cf e (f + g) L1 (, F, P )
2. E[cf ] = cE[f ]
3. E[f + g] = E[f ] + E[g]
Demonstra
c
ao 1. Por serem integraveis, M R; E[|f |], E[|g|] < M . De posse disso,
temos as seguintes inequac
oes:
(f + g)+ |f + g| |f | + |g|
(f + g) |f + g| |f | + |g|
Tomando esperanca e por serem todas v.a. nao negativas:

E[(f + g)+ ] E[|f |] + E[|g|] 2M < +


E[(f + g) ] E[|f |] + E[|g|] 2M < +

24

Ent
ao, temos o resultado pois: E[(f + g)] = E[(f + g)+ ] E[(f + g) ] < +,
trata-se da diferenca de valores finitos.
Com relac
ao a cf , considerando inicialmente c R+ note que (cf )+ = cf + e
(cf ) = cf . Temos as desigualdades:
0 < cf + |cf | = c|f |
0 < cf |cf | = c|f |

Por f integr
avel, c R+ e tomando a esperanca:
cE[f + ] cE[|f |] cM <
cE[f ] cE[|f |] cM <
Usando a definic
ao de esperanca temos o resultado pois, E[cf ] = cE[f + ]cE[f ] <
. Para o caso onde c R , o raciocnio e analogo considerando que (cf )+ =
cf e (cf ) = cf +
2. Dado que f e integr
avel e c R+ temos que:
E[cf ] = E[cf + ] E[cf ]
T 1.3.3

= cE[f + ] cE[f ]
def

= c(E[f + ] E[f ]) = cE[f ]

Para o caso onde c R usamos que (cf )+ = cf e (cf ) = cf + .


3. Utilizaremos o fato de que j
a demonstramos este resultado para variaveis aleatorias
nao negativas (Teorema 1.3.3). Temos que:

f + g = (f + g)+ (f + g) = f + f + g + g
(f + g)+ + f + g = f + + g + + (f + g)
E[(f + g)+ + f + g ] = E[f + + g + + (f + g) ]
E[(f + g)+ ] E[(f + g) ] = E[f + ] E[f ] + E[g + ] E[g ]
E[f + g] = E[f ] + E[g]

25

Teorema 1.3.10 Seja (, F, P ) um espaco de probabilidade e f, g L1 (, F, P ), e


c R. Ent
ao:
1. Se f = 0 quase certamente, ent
ao E[f ] = 0
2. Se f = g quase certamente, ent
ao E[f ] = E[g]
3. Se f 0 e E[f ] = 0, ent
ao f = 0 quase certamente.
4. Se E[f IA ] E[gIA ] A F, ent
ao f g quase certamente.
Demonstra
c
ao

1. Faremos esta demonstracao em 3 partes.

1.1 f v.a. simples Podemos escrever f =

n
P

ai IAi . Considere o conjunto N= {

i=1

: f () 6= 0}. Por hip


otese, P (N ) = 0 e considere sem perda de generalidade que
a1 = 0.
Assim, i 6= 1, temos Ai N. Logo P (Ai ) = 0 e, tomando esperanca:

E[f ] = a1 P (A1 ) +

ai P (Ai )

Ai N

=0+0=0
1.2 f v.a. n
ao negativa Seja uma v.a. {fn }nN tal que fn 0 e fn f . Alem
disso, por hip
otese, fn f = 0 (q.c.). Entao, fn = 0 (q.c.) n N. Como fn e
v.a. simples, aplica-se o que foi provado no item anterior, ou seja, E[fn ] = 0n.
Aplicando definic
ao da esperanca de v.a. nao negativa:

E[f ] = lim E[fn ], ondefn f


n

fn =0q.c.

1.3 f v.a. qualquer Temos f = f + f . Alem disso, por hipotese, P (B) = 0, onde
B= {; f () 6= 0}.
Com isso, seus subconjuntos B+ = {; f + () > 0} e B = {; f () < 0} terao
medida nula. Dessa forma temos que f + , f = 0 q.c. E, pelo provado acima,
E[f + ] = E[f ] = 0.

26

Concluindo, E[f ] = E[f + ] E[f ] = 0


2. Temos que f g = 0 q.c.. Pelo item anterior, E(f g) = 0. Usando que f, g L1 :

E(f g) = E(f ) E(g) = 0


= E(f ) = E(g)

3. Definimos os conjuntos B = { ; f () > 0} e Bn = { ; f () > 1/n}. Com


isso temos a seguinte desigualdade: f f IB f IBn (1/n)IBn . Tomando a
esperanca nos termos das pontas, teremos que P (Bn ) = 0 n N.

Por B =

Bn e Bn Bn+1 = P (B) = lim P (Bn ) = 0.


n

n=1

Com isso teremos que f = 0 quase certamente


4. Seja B = { : f () > g()} F. Logo:

(f g)IB 0
E[(f g)IB ] 0
E[f IB ] E[gIB ]

Alem disso, como E[f IA ] E[gIA ] A F, temos:

E[f IB ] E[gIB ]
E[f IB ] = E[gIB ]
E[(f g)IB ] = 0

A partir disso, podemos mostrar que P (B) = 0. De fato, faca Bn = { B :


f () g() n1 }, n N. Temos entao que:

27

0 (f g)IBn (f g)IB
0 E[(f g)IBn ] E[(f g)IB ] = 0
E[(f g)IBn ] = 0

Alem disso, como f () g()

1
n

Bn , segue que:

1
IB
n n
1
0 = E[(f g)IBn ] P (Bn )
n
(f g)IBn

P (Bn ) = 0, n N

f
E
acil ver que B = nN Bn . Temos entao que:

P (B)

P (Bn ) = 0

nN

P (B) = 0

1.3.2

Espa
co das vari
aveis aleat
orias com 2o momento finito

Lema 1.3.11 No espaco L2 (, F, P ), a func


ao < , >: L2 L2 7 R, onde < , >=
E[] ser
a um produto interno.
Demonstra
c
ao Seja f , g L2 . Este produto interno estara bem definido devido a
desigualdade de Cauchy Schwarz pois E[f g]2 E[f 2 ]E[g 2 ] < .
Nos procedimentos seguintes usaremos que se f L2 = f L1 para aplicar o
teorema 1.3.9.

Para ser produto interno deve atender `as seguintes condicoes:


(i) (linearidade) < , y >: L2 7 R e funcional linear y L2 .

28

Seja , , L2 e a, b R.

< a + b, > = E[(a + b)]


linear

= E[a + b] = E[a] + E[b]


= aE[] + bE[]
= a < , > +b < , >

(ii) (simetria) < x, y >=< y, x > x, y L2 .


Seja x, y L2 .
< x, y > = E[xy] = E[yx]
=< y, x >

(iii) (positividade) < x, x >> 0 x 6= 0.


Seja f 6= 0 L2 .

< f, f > = E[f 2 ]


> 0 pois f 2 > 0

Alem disso, como o espaco L2 e completo com respeito a norma induzida pelo produto
interno, |||| =< , >1/2 , este e um exemplo de espaco de Hilbert. Algumas de suas
principais caractersticas s
ao:
1. Duas vari
aveis f e g L2 s
ao ortogonais (f g) se < f, g >= E[f g] = 0.
2. O conjunto M L2 e dito um sistema de vari
aveis ortogonais se f g f, g
M (f 6= g). Se em adic
ao ||f || = 1 f M = M e sistema ortonormal.
3. Seja M = {1 , ..., n } um sistema ortonormal e L2 . O melhor estimador linear
no sentido quadr
atico para em termos de M sera:
n
P
=
< , i > i
i=1

29

1.4

Esperanca Condicional

1.4.1

Esperan
ca condicional a uma -
algebra

Seja (, F, P ) um espaco de probabilidade, X : R variavel aleatoria e G uma


-algebra contida em F.
Defini
c
ao 1.4.1 A esperanca de X condicional a G, e uma vari
avel aleat
oria E[X|G] :
R que satisfaz:
1. E[X|G] e G-mensur
avel.
2.

R
G

E[X|G]dP =

XdP G G.

A prova da existencia de uma variavel aleatoria que satisfaca as propriedades da


esperanca condicional se d
a pelo Teorema de Radon-Nikodyn e nao sera vista no curso.
A unicidade e dada pelo pr
oximo teorema.
Teorema 1.4.1 Sejam (, F, P ) um espaco de probabilidade, X : R uma vari
avel
aleat
oria e G uma -
algebra contida em F. Se , : R s
ao vari
aveis aleat
orias que
satisfazem as condic
oes (1-2) da definic
ao de esperanca condicional e N = { :
() 6= ()}, ent
ao P (N ) = 0. Em outras palavras, , s
ao iguais a menos de um
conjunto de probabilidade nula.
Demonstra
c
ao Sejam , vari
aveis aleatorias que satisfazem as condicoes (1-2) da
definicao de esperanca condicional. Entao:

Z
dP, G G

dP =
G

E[IG ] = E[IG ], G G

Logo, utilizando o resultado 4 do Teorema 1.3.10, temos que quase certamente


e quase certamente. Ent
ao = a menos de um conjunto de medida nula.
Teorema 1.4.2 Sejam (, F, P ) um espaco de probabilidade, X, Y : R vari
aveis
aleat
orias e G uma -
algebra contida em F. Se X e G-mensur
avel, ent
ao:

E[XY |G] = XE[Y |G]

30

Demonstra
c
ao Queremos mostrar que

XE[Y |G]dP =

XY dP G G.

Caso 1: X fun
c
ao simples
P
Seja X() = ni=1 ai IAi (). Entao:
Z
XE[Y |G]dP =
G

Z X
n

ai

i=1

n
X

Z
E[Y |G]dP

ai
GAi

n
X

n
X

Y dP

ai
GAi

Z
ai

i=1

IAi E[Y |G]dP

i=1

i=1

ai IAi E[Y |G]dP

G i=1
Z
n
X

IAi Y dP
G

Z X
n

ai IAi Y dP

G i=1

Z
=

XY dP
G

Caso 2: X n
ao negativa
Seja X : R+ G-mensur
avel. Entao existe {Xn }nN tal que Xn X, Xn funcao

31

simples n. Temos que:


Z

Z
XE[Y |G]dP =

X{E[Y |G]+ E[Y |G] }dP

lim Xn E[Y |G] dP

lim Xn E[Y |G] dP

Como Xn E[Y |G]+ XE[Y |G]+ e Xn E[Y |G] XE[Y G] ,


Z
Z
T CM
+
= lim
Xn E[Y |G] dP lim
Xn E[Y |G] dP
n G

Z
Xn E[Y |G]dP
Z
caso1
= lim
Xn Y dP
n G
Z
Z
= lim
Xn Y + dP lim
Xn Y dP
= lim

n G

Como Xn Y + XY + e Xn Y XY ,
Z
Z
T CM
+
=
XY dP XY dP
G

Z
=

XY dP
G

Caso 3: X mensur
avel
Seja X : R G-mensur
avel. Entao X = X + X e podemos escrever:
Z

Z
XE[Y |G]dP =

(X + X )E[Y |G]dP

X E[Y |G]dP

=
G

Z
=

X + Y dP

Z
=

X E[Y |G]dP

X Y dP

(X + X )Y dP

Z
=

XY dP
G

Teorema 1.4.3 Seja (, F, P ) um espaco de probabilidade, X : R uma vari


avel
aleat
oria e G1 G2 -
algebras contidas em F. Ent
ao:
1. E[E[X|G1 ]|G2 ] = E[X|G1 ]

32

2. E[E[X|G2 ]|G1 ] = E[X|G1 ]


Demonstra
c
ao 1. Basta observar que, como E[X|G1 ] e G1 -mensuravel e G1 G2 ,
ent
ao E[X|G1 ] e tambem G2 -mensuravel. Assim sendo, basta aplicar o Teorema 13
com Y = 1 para obter o resultado.
2. Note que E[X|G1 ] e G1 -mensur
avel e, tomando G G1 arbitrario,
Z

E[X|G2 ]dP

E[E[X|G2 ]|G1 ]dP =


G

Z
XdP

=
G

Z
=

E[X|G1 ]dP
G

1.4.2

Esperan
ca condicional a uma decomposi
c
ao

Seja (, F, P ) um espaco probabilstico, X : R uma variavel aleatoria e D =


{D1 , . . . , Dk } uma decomposic
ao de .
Defini
c
ao 1.4.2 Definimos a esperanca condicional de X com respeito a D por

E[X|D] =

k
X

E[X|Di ]IDi ()

i=1

com E[X|Di ] =

E[XIDi ]
P (Di ) .

Note que E[X|D] e uma vari


avel aleatoria D-mensuravel (constante nos atomos Di s).
Em particular, ela assume no
atomo Di a media de X restrita a Di (

E[XIDi ]
P (Di ) ).

Teorema 1.4.4 Seja (, F, P ) um espaco probabilstico, X, Y : R


aleat
orias, a, b R e D = {D1 , . . . , Dk } uma decomposic
ao de .
1. E[aX + bY |D] = aE[X|D] + bE[Y |D]
2. E[X|] = E[X]
3. E[c|D] = c
4. E[E[X|D]] = E[X]
5. Se X e D-mensur
avel, ent
ao E[XY |D] = XE[Y |D]

vari
aveis

33

Demonstra
c
ao 1. Por definic
ao: E(aX + bY |D) =

k
P

E(aX + bY |Di )IDi onde

i=1

E(aXIDi ) E(bY IDi )


+
P (Di )
P (Di )
E(XIDi )
E(Y IDi )
=a
+b
P (Di )
P (Di )

E(aX + bY |Di ) =

= aE(X|Di ) + bE(Y |Di )

Ent
ao,

E(aX + bY |D) =

k
X

aE(X|Di ) + bE(Y |Di )

i=1
def.

= aE(X|D) + bE(Y |D)

2.

E(X|) = E(X|)I

P ()=1

E(XI ) = E(X)

3.

E(c|D) =
=

k
X
i=1
k
X
i=1

=c

E(c|Di )IDi
E(cIDi )
ID
P (Di ) i

34

4.

E(E(X|D)) =
=

k
X
i=1
k
X

E(X|Di )P (Di )
E(XIDi )

i=1
linear

= E X

k
X

!
IDi

i=1

= E(XI ) = E(X)

5.

E(XY |D) =

k
X

E(XY |Di )IDi

i=1
k
X
E(XY IDi )
IDi
=
P (Di )

i=1
k
X
i=1
k
X
i=1
k
X

E(Y xi )
ID , pois X e D mensuravel
P (Di ) i
xi

E(Y IDi )
IDi
P (Di )

xi IDi E(Y |Di ) = XE(Y |D)

i=1

Teorema 1.4.5 Seja (, F, P ) um espaco probabilstico, X : R uma vari


avel
aleat
oria e D1 , D2 decomposico
es de . Se D1  D2 ,
1. E[E[X|D1 ]|D2 ] = E[X|D1 ]
2. E[E[X|D2 ]|D1 ] = E[X|D1 ]
Demonstra
c
ao 1.

35

2.

E[E[X|D2 ]|D1 ] =

m
X
E[E[X|D2 ]ID1j ]ID1j

P (D1j )
Pn
E[ i=1 E[X|D2i ]ID2i ID1j ]ID1j
=
P (D1j )
j=1
P
m E[
X
D2i D1j E[X|D2i ]ID2i ID1j ]ID1j
=
P (D1j )
j=1
m
X

j=1

ID2i

m
X

z }| {
I
E[X|D
]E[
2i
D2i ID1j ]ID1j
D2i D1j
P (D1j )

j=1
m
X

j=1
m
X

E[XID2i ]P (D2i ) ID1j


P (D2i )
P (D1j )

D2i D1j

D2i D1j

E[XID2i ]ID1j

P (D1j )

j=1

ID1j

m
X
j=1
m
X
j=1

E[X

z X}|

{
ID2i ]ID1j

D2i D1j

P (D1j )
E[XID1j ]ID1j
P (D1j )

= E[X|D1 ]

1.5

Modos de Converg
encia

Seja (, F, P ) um espaco probabilstico, : R uma variavel aleatoria e {n }nN


uma sequencia de vari
aveis aleat
orias.
Defini
c
ao 1.5.1 (Converg
encia em probabilidade)
p

n lim P (|n | > ) = 0, .


n

Defini
c
ao 1.5.2 (Converg
encia quase certa)
q.c.

n B F tal que P (B) = 0, com lim n () = (), \B.


n

36

Defini
c
ao 1.5.3 (Converg
encia na norma Lp (0 < p < ))
Lp

n lim E[|n |p ] = 0.
n

Defini
c
ao 1.5.4 (Converg
encia em distribui
c
ao)
d

n lim E[f (n )] = E[f ()]


n

para toda func


ao f contnua e limitada. De modo equivalente:

n lim Fn = F
n

para todo ponto de continuidade da funca


o de distribuic
ao acumulada de , F , sendo
ao de distribuic
ao acumulada de n .
Fn a func
1.5.1

Implica
c
oes

Teorema 1.5.1 Existe a seguinte cadeia de implicac


oes em modos de convergencia:
Lp

q.c.

1. n n
2. n n
3. n n
Demonstra
c
ao 1. Trata-se de uma prova bem simples por meio da desigualdade de
Chebychev,

E(|n |p ) = E(|n |p I{|n |} ) + E(|n |p I{|n |>} )


p P (|n | > ) 0

Como por hip


otese o lado esquedo vai a zero, teremos a convergencia em probabilidade.
2. Usaremos a seguinte equivalencia:
q.c.

Xn X  > 0, P (|Xn X| <  n m) 1.

37

Definindo os seguintes conjuntos:

Am = { ; |Xn X| <  n m}
Cm = { ; |Xm X| }

Note que Cm Acm . Logo:


P (Cm ) 1 P (Am ) m N
= lim P (|Xn X| ) 1 lim P (Am ) = 0
m

3. Sabe-se que:

n P (|n | > ) 0,  > 0


n

lim sup P (|n | > ) = lim inf P (|n | > ) = 0,  > 0


n

Note que:

Fn (x) = P (n x) = P (n x e x + ) + P (n x e > x + )
Alem disso, temos que n x e > x +  |n | > . Isso implica que
P (n x e > x + ) P (|n | > ).
No mais, como P (n x e x + ) P ( x + ) = F (x + ), temos que:

Fn (x) P (|n | > ) + F (x + )


lim sup Fn (x) lim sup P (|n | > ) + lim sup F (x + )
n

lim sup Fn (x) F (x + )


n

Por outro lado:

38

F (x ) = P ( x )
F (x ) = P ( x  e n > x) + P ( x  e n x)

Em seguida, note que n > x e x  |n | > . Isso implica que


P (n > x e x ) P (|n | > ).
No mais, como P (n x e x ) P (n x) = Fn (x), temos que:

F (x ) P (|n | > ) + Fn (x)


lim inf F (x ) lim inf P (|n | > ) + lim inf Fn (x)
n

lim inf Fn (x) F (x )


n

Logo:

F (x ) lim inf Fn (x) lim sup Fn (x) F (x + ),  > 0


n

Fazendo  0 e usando a hipotese de que F e contnua em x:

F (x) lim inf Fn (x) lim sup Fn (x) F (x)


n

Logo, Fn (x) F (x) para todo ponto de continuidade de F .

n
p

O item 3 deste teorema nos informa que: n n . De fato, sabe-se


que a recproca n
ao e verdadeira (veja exemplo 3 abaixo). Entretanto, no caso particular em que = c, c constante, convergencia em distribuicao implica convergencia em
probabilidade.
De fato, sendo:

39

F (x) =

se x < c

se x c

Como n , vale que Fn (x) F (x), x 6= c


Temos ent
ao que:

P (|n c| ) = P (c  n c + )
P (|n c| ) Fn (c + ) Fn (c ) 1
p

n c

Deixaremos para o leitor, completar a prova da parte 2 do teorema acima, fazendo


uso do seguinte teorema:
Teorema 1.5.2
q.c.

n lim P (supkn |k | > ) = 0, .


n

Demonstra
c
ao Seja An = { : |n () ()| > } e A = lim sup An


n=1 kn Ak .

Entao, se A para algum , n () 6 ().

 A {n () 6 ()}
Por outro lado, se n () 6 (),  > 0 tal que , n N, k n tal que
|k () ()| > . Ent
ao lim sup An = A .

 A {n () 6 ()}
 A = {n () 6 ()}
1/n . De fato, note que A A
Em seguida, vamos mostrar que  A =
n=1 A

0 < . Tome ent


ao  A . Sabemos que  tal que A. Entao m N
tal que 1/m < , o que implica que A1/m .

40

1/n
 A
n=1 A
1/n , m tal que A1/m . Ent
No mais, se
ao  tal que  < 1/m, o
n=1 A

que implica que A.

1/n
 A
n=1 A
1/n
 A =
n=1 A

Temos ent
ao que:

q.c.

n P ( : n () 6 ()) = 0
P ( A ) = 0
1/n
P (
)=0
n=1 A

P (A1/n ) = 0, n N
P (A ) = 0,  > 0
P(

kn Ak ) = 0,  > 0

n=1
P cont. por cima

lim P (kn Ak ) = 0,  > 0

lim P (sup |k | > ) = 0,  > 0


n

kn

Corol
ario 1.5.3

q.c.

P (|k | > ) < n .

k=1

Demonstra
c
ao Basta notar que vale a seguinte desigualdade:

lim P (sup|k | > ) lim

P (|k | > )

nk

Note que n
ao existe implicac
ao entre convergencia quase certa e convergencia na
norma Lp . Os exemplos a seguir ilustram esse fato.

41

Exemplo 1

Lp

q.c.

q.c.

n 6 n e n 6 n

Seja = [0, 1], F = B([0, 1]) e P = (.) (Medida de Lebesgue). Considere a sequencia
de variaveis aleat
orias definida por:
1 = I[0,1/2] , 2 = I[1/2,1]

3 = I[0,1/4] , 4 = I[1/4,2/4] , 5 = I[2/4,3/4] , 6 = I[3/4,1]

...
Note que esta sequencia converge na norma Lp para 0. De fato:
Temos que n 0n E[|n |p ] = E[np ]. No mais, se n esta na m-esima linha,
entao E[np ] = 2m . Se n , entao m , ja que m e o n
umero da linha na qual a
n-esima vari
avel da sequencia se encontra.

lim E[np ] = 0
n

Lp

Por outro lado, suponha por contradicao que n () 0para algum . Entao existe
n
N tal que n () = 0, n n
. Porem, linha m, existe n(m) tal que n(m) () = 1.
contradic
ao
q.c.

Logo n () 6 0 para nenhum


Exemplo 2

q.c.

Lp

Lp

n 6 n e n 6 n

Seja = [0, 1], F = B([0, 1]) e P = (.) (Medida de Lebesgue). Considere a sequencia
de variaveis aleat
orias definida por:

n () =

en

0 1/n

> 1/n

para todo n.
Note que, para qualquer 6= 0, existe n() tal que k () = 0, k > n(). De fato,
basta tomar n() > 1/w. Assim sendo, n () 0 (0, 1].
Mas E[|n |p ] = enp .P (n = en ) = enp . n1

42
Lp

n 6 0

Xn X 6 Xn X

Exemplo 3

Seja {Xn }n e X independentes com distribuicao N (0, 21 ). Assim, Xn X pois


as ditribuic
oes acumuladas FXn , n e FX sao todas iguais. No entanto, como Xn X
e variavel aleat
oria com distribuicao N (0, 1), calculando-se P (|Xn X| ) obtemos
P (|Xn X| ) = 22(). NOte que tal probabilidade e diferente de zero e independe
p

de n garantindo que Xn 6 X

Teorema 1.5.4 (Lei Fraca dos Grandes N


umeros) Seja {n }nN uma sequencia de
P
vari
aveis aleat
orias i.i.d. com E[n ] = n e vari
ancia finita. Seja Sn = ni=1 i .
Ent
ao

Sn P
n

Demonstra
c
ao Dado  > 0, usaremos a desigualdade de Chebychev:
P (|Sn /n | > )

E(Sn /n)2
2

Note que o termo da direita vai `a zero para n :

E(
E(Sn /n )2 =

n
P

P
=
=

(i ))2

i=1

n2
P
E(i )2 +
E(i )(j )

i=j

i6=j
n2

2 2 n
+
0
n
n

Em seguida, considere uma sequencia de eventos {An }nN , com An F n, e denote


n o conjunto T kn Ak , que significa uma ocorrencia de um n
por limA
umero infinito
n=1
de A0n s. Por que?
n . Se n 1, kn Ak , entao n 1, kn n tal que
Tome limA
Akn implica que existe uma sequencia {kn }nN crescente, com kn , tal que
Akn n.
Lema 1.5.5 (Lema de Borel Cantelli) Seja {An }nN uma sequencia de eventos, com
An F n.

43

n P (An )

n ) = 0.
< , ent
ao P (limA

n P (An )

n ) = 1.
= e os eventos {An }nN s
ao independentes, ent
ao P (limA

1. Se

2. Se

facil ver que Bn+1 Bn n. Assim


Demonstra
c
ao 1. Defina Bn = kn Ak . E
sendo,

P (lim sup An ) = P (
n=1 Bn )

Note que, se

n P (An )

P cont. por cima

lim P (Bn ) = lim P (kn Ak )

< , entao c R tal que

P (Ak ) +

k<n

n=1 P (An )

P (Ak ) = c

kn

Sabemos que:

lim

P (Ak ) =

P (An ) = c

n=1

k<n

lim

P (Ak ) = c c = 0

kn

Portanto:

P (kn Ak )

P (Ak )

kn

lim P (kn Ak ) lim


n

P (Ak ) = 0

kn

lim P (kn Ak ) = 0
n

P (lim sup An ) = 0

= c. Logo,

44

2. Temos usando De Morgan e as propriedades de medida:


[

1 P (lim sup An ) = P (

kn Ack )

nN

P (kn Ack )

nN

P (Ack ) pois sao independentes

kn

Neste caso e v
alida a desigualdade de Bernoulli, 1 x ex se x 0. Assim:

N
Y

1 P (Ak )

kn

= lim

N
Y

N
P

eP (Ak ) = e

P (Ak )

N >k

kn

kn
N
Y

N
P

1 P (Ak ) lim e

P (Ak )

kn

kn

=0

Ent
ao, pela desigualdade inicial temos P (lim sup An ) = 1

Corol
ario 1.5.6 Seja {n }nN uma sequencia de n
umeros positivos tal que  & 0
P
q.c.
ao n .
quando n % . Se n=1 P (|n | n ) < , ent
Demonstra
c
ao Seja An = { ; |n | n }. Pelo lema de Borel-Cantelli,
n ) = 0. Dessa forma teremos o resultado ao notar:
P (limA
{ ; n 9 }

n
(kn Ak ) = limA

nN

1.6

Func
oes Caractersticas

Vamos comecar definindo uma funcao geradora de momentos.


Defini
c
ao 1.6.1 Seja (, F, P ) um espaco de probabilidade e seja X : R Fmensur
avel. Definimos a func
ao geradora de momentos de X por:

MX (t) E[etX ], t R

Exemplo 1

Func
ao geradora de momentos de uma normal.

Seja X N (, 2 ). Primeiramente, vamos calcular a funcao geradora de momentos


de uma normal padr
ao Z. Note que:

45

MZ (t) = E[etZ ] =

x2
t2
1
etx e 2 dx = e 2
2

Sabemos que, se X = + Z, entao X N (, 2 ). Logo:

MX = E[e(+Z)t ] = et MZ (t) = et+

2 t2
2

A func
ao geradora de momentos e importante pois caracteriza os momentos de uma
variavel aleat
oria. De fato, temos que, se existe MX , E[X n ] =

n MX
tn (0).

Para verificar

isto, basta considerar a expans


ao de Taylor de etX em torno de zero.
Porem, a func
ao geradora de momentos nao garante coincidencia da funcao de distribuicao quando duas vari
aveis aleatorias tem a mesma f.g.m., mas a distribuicao nao
tem suporte compacto (ver exemplo no Casella).
Vamos trabalhar com uma funcao semelhante, a funcao caracterstica.
Defini
c
ao 1.6.2 Seja (, F, P ) um espaco de probabilidade e seja X : R Fmensur
avel. Definimos a func
ao caracterstica de X por:

X (t) E[eitX ], t R

Note que X (t) = MiX (t) = MX (it). A grande vantagem desta funcao sobre a
f.g.m. e que ela caracteriza completamente a funcao de distribuicao de uma variavel
aleatoria, conforme veremos adiante. Esta vantagem advem em parte do fato que a
variavel aleat
oria complexa eitX = cos(tX) + isen(tX), definida em C, possui
esperanca finita para qualquer t, pois sen(.) e cos(.) sao funcoes limitadas.
Algumas propriedades de funcoes caractersticas sao:
P.1 - |X (t)| 1, t R
P.2 - X (0) = 1
P.3 - X(t) = X (t)
P.4 - X e uniformemente contnua
P.5 - Se X e Y s
ao vari
aveis aleat
orias independentes, entao X+Y (t) = X (t).Y (t), t
R

46

P.6 - A func
ao caracterstica de uma variavel aleatoria X determina a funcao de distribuic
ao de X, FX
P.7 - Se Y = aX + b, ent
ao Y (t) = eitb .X (at)
P.8 - Se E|X|n < entao X possui n derivadas contnuas
Demonstra
c
ao P.1

|X (t)| = |E[eitX ]| =

p
[E(cos(tX))]2 + [E(sen(tX))]2

Jensen

p
[E(cos2 (tX)) + E(sen2 (tX))] = 1

P.2

E[eiX.0 ] = E[1] = 1

P.3
X(t) = E[cos(tX)] iE[sen(tX)]
= E[cos(tX) isen(tX)]
= E[cos(tX) + isen(tX)]
= X (t)

P.4
|X (t) X (s)|

Jensen

st

E|eisX (ei(ts)X 1)| E|ei(ts)X 1| 0

pelo Teorema da Convergencia Dominada (7) e o fato de que |eisX | = 1


P.5

X+Y (t) = E[eitX eitY ]


indep.

= E[eitX ]E[eitY ]

= X (t)Y (t)

P.6 - Deriva do fato de que a func


ao caracterstica e a Transformada de Fourier da funcao
de densidade de probabilidade de uma V.A. Como Transformada de Fourier admite

47

uma invers
ao quando a funcao original f e absolutamente integravel e contnua e
a transformada e absolutamente integravel, pode-se obter a densidade original
utilizando-se a Transformada inversa de Fourier.
De fato, dada uma V.A. X com funcao de distribuicao acumulada FX e funcao
caracterstica X temos:
1
FX (z) = limyz limx limu
2

eitx eity
X (t)dt
it

(1)

P.7

Y (t) = aX+b (t) = E[eit(aX+b) ]


= eitb E[eitaX ]
= eitb X (at)

P.8 - Primeiramente precisamos verificar que podemos trocar a ordem da derivada com
a integral. Para tanto usaremos o TCD. Seja h 6= 0:

ei(t+h)X eitX
dF (x)
h
Z
eihX 1
= eitX
dF (x)
h


eihX 1
= E eitX
h

(t + h) (t)
=
h

Agora note que x R:


R
R isx
ixeisx ds
e ds
1
||
| = |x||
|
h
h
h

ihx
itx e

|e

|x|

48

Ent
ao, como por hip
otese X e integravel, podemos aplicar o TCD.
(t + h) (t)
h0
h


ihX 1
itX e
= lim E e
h0
h

0 (t) = lim

T CD

= E[iXeitX ]

E ser
a contnua pelo fato de podermos passar o limite para dentro da integral pois
|ixeisx | = |x| e pois o termo de dentro da esperanca e contnuo em t. Para terminar
a prova basta prosseguir por inducao.

Exemplo 2

Func
ao caracterstica de uma normal padrao.

Z
x2
1
X (t) = E[eitX ] =
eitx e 2 dx
2
Z
(xit)2
t2
1
e 2 e 2 dx
X (t) =
2
Z

(xit)2
t2
t2
1
e 2 dx = e 2
X (t) = e 2
2

Em seguida, vamos obter um resultado bastante pratico para provar que uma sequencia
de variaveis aleat
orias converge em distribuicao para outra variavel aleatoria. Considere
d

entao a sequencia {n }nN , com funcoes de distribuicao {Fn }nN . Note que, se n ,
vale que E[f (n )] E[f ()] para toda funcao f contnua e limitada (por definicao). Em
particular, se tomarmos f (x) = eitx , t R, temos que vale o resultado acima e, pord

tanto, n (t) (t). Como tomamos t arbitrario, temos que, se n , a sequencia


de funcoes caractersticas {n }nN converge pontualmente para (t).
Acontece que a recproca tambem e verdadeira, como veremos pelo resultado abaixo:
Teorema 1.6.1 (Teorema da Continuidade de Paul Levy) Seja {Fn }nN uma sequencia
de func
oes de distribuic
ao cujas func
oes caractersticas s
ao dadas por {n }nN . Se
n (t) (t) t R e se e contnua em zero, ent
ao
1. Existe uma func
ao de distribuic
ao F tal que Fn F fracamente
2. e a func
ao caracterstica de F .

49

Logo, temos que n n pontualmente.

Munidos da ferramenta de funcoes caractersticas, tambem somos capazes de demonstrar os seguintes importantes resultados:
Teorema 1.6.2 (Teorema Central do Limite para vari
aveis aleat
orias i.i.d.) Seja
{n }nN uma sequencia de vari
aveis aleat
orias i.i.d. com media e vari
ancia 2 ,
P
ao
0 < 2 < , e seja Sn = ni=1 i . Ent
Sn
Sn
n E[ n ] d

V ar(Sn )
n

i.e.,

N (0, 1)

(X n ) d
n
N (0, 1).

Demonstra
c
ao Suponha, sem perda de generalidade, = 0. Note que


nXn

Sn
.
n

Entao:

S
n
n

n
Y
t
t
t
(t) = Sn ( ) =
k ( ) = (1 ( ))n
n
n
n
k=1

Fazendo uma expans


ao de taylor de segunda ordem de 1 em torno de zero, obtemos:

1 = (0) + 0 (0)t + 00 ((t))


00 (0)

t2
, com |(t)| |t|
2
(t)

z }| { t2 t2 z
}|
{
= 1 + i2 E[12 ] + [00 ((t)) 00 (0)]
2
2
Note que (t) 0 quando t 0. Logo:
t

( n )
t
t2
t
(1 ( ))n = (1 2
+ 2 ( ))n
2
2 n n
n
2
1
t
t
(1 2 ( ))n
= (1
2n

n
t2

e 2
usando o fato de que (1 +

cn n
n)

ec quando cn c.

Teorema 1.6.3 (Teorema do Mapa Contnuo) Seja {n }nN sequencia de vari


aveis
aleat
orias e g : R R uma func
ao contnua. Ent
ao

50
q.c.

q.c.

1. n g(n ) g()
2. n g(n ) g()
3. n g(n ) g()
q.c.

Demonstra
c
ao 1. Seja B = { : n () 6 ()}. Como n , sabemos que P (B) =
0.
Tome

B c arbitr
ario. Entao n () (). Logo, como g e contnua,

g(n ()) g(()).

q.c.

g(n ) g()
2. Dado  > 0, por v.a., m tal que P (|| < m/2) > 1 .
Por g(.) uniformemente contnua em [-m, m], < m/2 tal que se |x|, |y| m e
|x y| < = |g(x) g(y)| < . Disto segue a seguinte cadeia de relacoes:
{|| m/2 |n | < } {|| m |n | m |n | }
{|g(n ) g()| < }
Assim,
P (|g(n ) g()| < ) P (|| m/2 |n | < )
P (|| m/2)
>1

Como para 0 < < , vale:

P (|g(n ) g()| < ) P (|g(n ) g()| < ) > 1

Tomando n e 0 = g(n ) g()


3. Vamos mostrar que g(n ) g() pontualmente. De fato:

g(n ) (t) = E[eitg(n ) ] = E[cos(tg(n ))] + iE[sen(tg(n ))]

51

Temos que sen(.) e cos(.) s


ao funcoes contnuas e limitadas e g e contnua, o que
d

implica em sen(tg(.)) e cos(tg(.)) contnuas e limitadas. Logo, usando que n :

lim g(n ) (t) = E[cos(tg())] + iE[sen(tg())] = g() (t)

Logo, pelo Teorema da continuidade de Levy, g(n ) g().


Teorema 1.6.4 (Teorema de Slutsky) Sejam {Xn }nN e {Yn }nN sequencia de vari
aveis
d

ao,
aleat
orias tais que Xn X e Yn c, onde c R. Ent
d

1. Xn + Yn X + c
d

2. Yn Xn c X
Demonstra
c
ao 1. Utilizaremos a convergencia de funcoes caractersticas nesta prova.

Xn +Yn (t) = E[eit(Xn +Yn ) ]


= E[eitXn (eitYn eitc )] + E[eit(Xn +c) ]

Por mapa contnuo, g(yn ) = |eityn eitc | 0


E, como |eityn eitc | 2 = E[|eityn eitc |] 0
Dessa forma teremos a seguinte relacao:

|E[eitXn (eitYn eitc )]| E[|eitXn (eitYn eitc )|]


E[|eitYn eitc |]
n

Logo, temos que Xn +Yn X+c


2. Inicialmente c=0. Seja , > 0 e x < 0 < y pontos de continuidade de FX tal que
FX (y) FX (x) = P (x < X < y) > 1 .

52

Por hip
otese, para n suficientemente grande:

P (x < Xn y) = FXn (y) FXn (x) > 1


P (|Yn | < /M ) > 1 , onde M = max{y, x}

Ent
ao,

P (|Xn Yn | < ) P (x < Xn y |Yn | < /M )


> 1 2

Assim, Xn Yn 0 = Xn Yn 0.
Agora generalizando para qualquer c. Note que Xn Yn = cXn + (Yn c)Xn .

cXn (t) = Xn (ct) X (ct) = cX (t)t R

Ja para o segundo termo usamos o caso c=0 e temos (Yn c)Xn 0.


Agora, aplicando o resultado obtido no item 1 temos o resultado.

53

Estatstica

2.1

Propriedades de uma Amostra Aleat


oria

Defini
c
ao 2.1.1 As vari
aveis aleat
orias {Xi }ni=1 s
ao chamadas de amostra aleat
oria de
tamanho n de uma populac
ao f (x) se s
ao i.i.d. e sua func
ao densidade de probabilidade
e f .
Sua densidade conjunta e ent
ao dada por f (x1 , . . . , xn ) =

Qn

i=1 f (xi ).

Defini
c
ao 2.1.2 Considere a amostra aleat
oria {Xi }ni=1 de uma certa populac
ao e seja
T : Rn Rk (em particular, podemos ter k = 1). Temos que Y = T (X1 , . . . , Xn ) e
denominado uma estatstica e sua func
ao de distribuic
ao e chamada distribuic
ao amostral
de Y .
Defini
c
ao 2.1.3 Podemos definir as seguintes estatsticas:
Media amostral:

=
X

Pn

i=1 Xi

Vari
ancia amostral:

S =

Pn

2
X)
n1

i=1 (Xi

Desvio padr
ao amostral

S=

S2

oria de uma populac


ao com media e
Teorema 2.1.1 Seja {Xi }ni=1 uma amostra aleat
vari
ancia 2 , 2 < . Ent
ao:
=
1. E[X]
=
2. V ar(X)
3. E[S 2 ] = 2

2
n

54

Demonstra
c
ao 1.
P
n

X
i=1 i

E[X] = E
n
E[

n
P

linear i=1

i=1

n
P

Xi ]
=

n
n
P

a.a. i=1

E[Xi ]
n

2.
P
n

X
i=1 i

V ar(X) = V ar
n
V ar(

Xi )

i=1
n2

=
n
P

n
P

n2

indep. i=1

i=1

n
P

V ar(Xi )
n2

2
n

3.
P
n

2
(Xi X)

i=1
E[S 2 ] = E

n
P

n1

n1
i=1

n
P

2]
E[(Xi X)

i=1
n
P

i=1

2 ] 2E[Xi X]

E[Xi2 ] + E[X
n1

2 (n1)
n

n1

Isso se deve `
a:
E[Xi2 ] = V ar[Xi ] + E[Xi ]2 = 2 + 2
= V ar[X]
+ E[X]
2 = 2 /n + 2
E[X]
P

=
E[Xi X]

E[Xj Xi ]

j6=i

E[Xi2 ]
n

indep.

j6=i

2 +2
n

(n1)2
n

2 +2
n

55

Uma possvel forma


Em muitos casos, temos interesse em obter a distribuicao de X.
de fazer isso e utilizando a func
ao geradora de momentos.
Teorema 2.1.2 Seja {Xi }ni=1 uma amostra aleat
oria de uma populac
ao com func
ao
e dada por:
geradora de momentos MX (.). ENt
ao a func
ao geradora de momentos de X

MX (t) = (MX (t/n))n


Demonstra
c
ao

n
MX (t) = MP

indep.

Xi

(t/n) =

n
Y

MXi (t/n) = MX (t/n))n

Essa tecnica n
ao funciona quando a f.g.m. da populacao nao existe ou quando a
e irreconhecvel. Para um exemplo, ver pagina 216 do Casella
f.g.m. resultante para X
& Berger.

2.2

Func
oes de Vari
aveis Aleat
orias

Em diversos momentos, estaremos interessados em funcoes de variaveis aleatorias. Seja


entao X uma vari
avel aleat
oria e tome uma funcao g : R : R. Sera que g(X) e uma
variavel aleat
oria?
Para que isso valha, basta que g 1 (B) B(R), B B(R). Note entao que, se g e
funcao de Borel, g(X) e uma vari
avel aleatoria. O proximo passo e determinar a funcao
distribuic
ao acumulada de Y = g(X).
Quando X e uma vari
avel aleatoria discreta, este passo e simples. Basta obtermos:

P (Y = y) = P (g(X) = y) = P (X = g 1 (y)) =

{:X()

P ()
g 1 (y)}

No caso em que X e contnua, estamos interessados em calcular

FY (y) = P (Y y) = P (g(X) y)

Devemos lembrar que:


Se g e mon
otona crescente:

56

FY (y) = P (g(X) y) = P (X g 1 (y)) = FX (g 1 (y)


fY (y) =

dg 1 (y)
P (Y y) = fX (g 1 (y)).
y
dy

Se g e mon
otona decrescente:

FY (y) = P (g(X) y) = P (X g 1 (y)) = 1 FX (g 1 (y)


fY (y) =

Exemplo 1

dg 1 (y)
P (Y y) = fX (g 1 (y)).
y
dy

Suponha X U [0, 1]. Qual e a distribuicao de Y = log(X)?

Sabemos que

Fx (x) =

se 0 x 1

c.c.

No mais, temos que g = log, que e uma funcao monotona decrescente. Logo:

P (Y y) = P (log(X) y) = P (log(X) y) = P (X ey ) = 1 P (X ey )

fY (y) =

ey

se y [0, )

c.c.

Portanto, Y exp(1).

Exemplo 2

Suponha agora X N (0, 1). Qual e a distribuicao de Y = X 2 ?

Note que g e decrescente, se x 0, e crescente, se x 0. Faca entao:

g1 (x) =

x2

se x 0

c.c.

57

g2 (x) =

x2

se x 0

c.c.

FY (y) = P (Y y) = P (g1 (X) y) + P (g2 (X) y)

= P (X y) + P (X y) = P ( y X y)

= FX ( y) FX ( y)

1
1

fY (y) = fX ( y). fX ( y).


2 y
2 y

fY (y) =

1
1 e 2
2 y +
2

y
1
1 e 2
2 y
2

fY (y) =

se y [0, )
c.c.

1 e 2 1
y
2

se y [0, )

c.c.

Logo, Y Gamma( 21 , 2) Y 21
(Veremos mais sobre a distribuicao Gama um pouco adiante.)
Defini
c
ao 2.2.1 Um vetor X = (X1 , . . . , Xn ) cujas componentes s
ao vari
aveis aleat
orias
e chamado vetor aleat
orio.

2.3

M
etodo do Jacobiano

Sejam G0 Rn e G Rn regi
oes abertas e seja g : G0 G uma funcao bijetora onde

g(x1 , . . . , xn ) = (g1 (x1 , . . . , xn ), . . . , gn (x1 , . . . , xn )) = (y1 , . . . , yn )


Entao g e inversvel e

x1 = (g 1 (y1 , . . . , yn ))1 , . . . , xn = (g 1 (y1 , . . . , yn ))n


Defini
c
ao 2.3.1 Definimos o Jacobiano J(x, y) como o determinante:

58



x1

x1

y1 . . . yn


J(x, y) = . . . . . . . . . . . . . .


xn

n
y1 . . . x
yn
Teorema 2.3.1 Seja f a f.d.p. conjunta das vari
aveis aleat
orias X1 , . . . , Xn e sejam
Y1 , . . . , Yn as vari
aveis transformadas por g. Ent
ao:

fY (y1 , . . . , yn ) =

Exemplo 1

f ((g 1 (y1 , . . . , yn ))1 , . . . , (g 1 (y1 , . . . , yn ))n ).|J(x, y)|

se y G

se y
/ G

Sejam X e Y variaveis aleatorias independentes, X, Y exp(1). Mos-

tre que Z = X + Y e W = X/Y tambem sao independentes e encontre sua distribuicao


conjunta.
Temos que:

Z =X +Y Y =Z X
W = X/Y X = Y W

Z
W +1
ZW
X=
W +1

Y =Z YW Y =

Logo:


X
Z
J((X, Y ), (Z, W )) =
Y
Z



W
W +1
=

1
Y
W +1
W
X
W

Z

(W +1)2

Z
(W +1)2

W
Z
1
Z
(
)
2
W + 1 (W + 1)
W + 1 (W + 1)2
ZW
Z
Z
J((X, Y ), (Z, W )) =

=
3
3
(W + 1)
(W + 1)
(W + 1)2

J((X, Y ), (Z, W )) =

59

zw
z
Z
|
,
).|
w + 1 w + 1 (W + 1)2
z
wz
z
z.ez
fZ,W (z, w) = e w+1 .e w+1 .
=
2
(w + 1)
(w + 1)2
fZ,W (z, w) = fX,Y (

Assim sendo:

fZ,W (z, w) = (z.ez ).(

1
) = fZ (z).fW (w)
(w + 1)2

Entao Z e W s
ao independentes.

2.4

Distribuic
ao Gama

Uma vari
avel aleat
oria tem distribuicao Gamma(, ) quando sua densidade satisfaz

f (x|, ) =
onde () =

R
0

x
1
x1 e , 0 < x < , > 0, > 0,

()

t1 et dt.

Suponha ent
ao X Gamma(, ). Temos que:
Z

E[X] =

1
( + 1)
x1 ex/ dx =

()
()

x
0

Alem disso,
Z
( + 1) =

t e dt =

[t et ]
0

t1 (et )dt = ()

Logo, temos que E[X] = . De forma semelhante, podemos mostrar que V ar(X) =
2 .
Em seguida, vamos calcular a funcao geradora de momentos dessa distribuicao.

x1 ext x/
e
dx
()

( 1t
) Z

x/( 1t )
x1 e

]=
0

MX (t) =

MX (t) = E[e

tX

Em particular, temos que:

()( 1t
)

dx =

1
, t < 1/
(1 t)

60

X Gamma(p/2, 2), p Z X 2p
Y Gamma(1, 1/) Y exp()

2.5

Amostragem de uma Distribuic


ao Normal
1. Se Z N (0, 1), ent
ao Z 2 21

Lema 2.5.1

2. Se X1 , . . . , Xn s
ao vari
aveis aleat
orias independentes e Xi 2pi , ent
ao

n
P

Xi

i=1

2P
.
n
pi

i=1

Demonstra
c
ao

1. Defina a vari
avel Y = Z 2 . Construiremos sua funcao acumulada

em func
ao da v.a. Z:

FY (y) = P (Z 2 y) = P ( y Z y) = FZ ( y) FZ ( y), se y 0
= 0 caso contr
ario

Ent
ao sua f.d.p. ser
a dada por:

fZ ( y)y 1/2 fZ ( y)y 1/2


fY (y) =
+
2
2
ey/2 y 1/2 ey/2 y 1/2

=
+
2 2
2 2
ey/2
ey/2 y 1/2

=
=
y 1/2
(1/2)21/2
2
= Y Gamma(1/2, 2) 21

2. Usaremos que 2pi Gamma(pi /2, 2). Assim a funcao geradora de momentos da
vari
avel Xi ser
a:
MXi (t) =

1
(12t)pi /2

61

Agora, por serem independentes:

n
MP

Xi

(t) =

n
Y

MXi (t)

i=1

n
P

Gamma

n
P
2t)( pi )/2

(1
n
X
=
Xi 2P
n

pi
,2
2

pi

Teorema 2.5.2 Seja {Xi }ni=1 uma amostra aleat


oria de uma distribuic
ao N (, 2 ).
a media amostral e S 2 a vari
Seja X
ancia amostral, conforme definidos anteriormente.
Ent
ao:
e S 2 s
1. X
ao vari
aveis aleat
orias independentes
tem distribuica
2. X
o N (, 2 /n)
3.

(n1) 2
S
2

tem distribuica
o 2n1 .

Demonstra
c
ao 1. Utilizaremos o resultado que afirma que, se duas variaveis aleatorias
U e V s
ao func
oes de vetores aleatorios independentes Z e W , respectivamentes,
ent
ao U e V tambem s
ao independentes.
Note que:

S2 =

1 X
2
(Xi X)
n1
i=1

X
1
2+
2]
[(X1 X)
(Xi X)
n1
i=2

i=2

i=2

X
X
1
2+
2]
=
[(
(Xi X))
(Xi X)
n1
. . . , Xn X).
Vamos mostrar que
Logo, S 2 e func
ao do vetor aleatorio (X2 X,

esse vetor e independente de X.


Assumindo, sem perda de generalidade, = 0 e 2 = 1, temos que a funcao
densidade conjunta da amostra e dada por:

fX (x1 , . . . , xn ) =

P
1
2
21 n
i=1 xi , < x <
e
i
n/2
(2)

62

Considere a func
ao g : Rn Rn definida por:

y1 = g1 (x1 , . . . , xn ) = x
, y2 = g2 (x1 , . . . , xn ) = x2
x, . . . , yn = gn (x1 , . . . , xn ) = xn
x



1

1
.....
y1
n
n
y1


x1 . . . xn 1 n1
n1 1

n
n
J(y, x) = . . . . . . . . . . . . . . =
=

. . . . . . . . . . . . . . . . . n
yn
yn

x1 . . . x


n
1
n1
n . . . . .

n
Logo, J(x, y) =

1
J(y,x)

= n. Assim sendo:

fY (y1 , . . . , yn ) = fX (y1

n
X

yi , y2 + y1 , . . . , yn + y1 ).n

i=2

pois y1

Pn

i=2 yi

Pn
1
1 Pn
n
2
2
e 2 (y1 i=2 yi ) e 2 ( i=2 (yi +y1 ) ) , < yi < ,
n/2
(2)

=x

Pn

i=2 (xi

P
x] = x1 e yi + y1 =
x
) = x
[ ni=2 xi (n 1)

xi x
+x
= xi i 2.
Como podemos fatorar fY (y1 , . . . , yn ) em:

fY (y1 , . . . , yn ) = (

n 1/2 n y12 n1/2 1 [Pni=2 y2 +(Pni=2 yi )2 ]


i
2
) e 2
,
n1 e
2
(2) 2

e independente de (X2 X,
. . . , Xn X).
Entao X
e S 2 sao indetemos que X
pendentes.
2. Note que podemos escrever Xi em funcao da normal padrao Z; Xi = + Z. Dessa
forma sua func
ao caracterstica sera:
Xi (t) = eit Z (t)
Ent
ao:

63

indep.

n
X (t) = P

(t/n) =
Xi

n
2 2
t2
it
e 2n
=e

n
Y

Xi (t/n) = (e

it
n

Z (t/n))n

= eit Z (t/ n)
N (; 2 /n)
= X

3. Note que vale a seguinte relacao:

2
(n 1)Sn2 = (n 2)Sn1
+

n1
n1 )2 ,
(Xn X
n

(*)

k denotam a vari
ancia e a media amostrais de uma amostra de tamanho
onde Sk2 e X
1 )2 = 1 (X2 X1 )2 . Como X2 X1 N (0, 2),
k. Para n = 2, temos S22 = 21 (X2 X
2
X2
X1
2

N (0, 1) e

(X2 X1 )2
2

21 , pela parte 1 do Lema 7.

Vamos agora utilizar um argumento de inducao e supor que, para n=k, (k 1)Sk2
ao, utilizando n = k + 1 em ():
2k1 . Ent

k
2
(k)Sk+1
= (k 1)Sk2 +
( Xk+1
}
| {z } k + 1 | {z
2k1

N (0,1)

k )2
X
|{z}

N (0,1/k)

k sao independentes. Isso implica que S 2 e Xk+1


Pela parte 1 do teorema, Sk2 e X
k
k tambem s
k N (0, k+1 ). Logo:
X
ao independentes. Finalmente, Xk+1 X
k
k
k )2
Xk+1 X
(Xk+1 X
q
21
N (0, 1)
k+1
k+1
k

Utilizando o item 2 do Lema 2.5.1, temos que:

2
kSk+1
= (k 1)Sk2 +

2.6

k
k )2 2
(Xk+1 X
k
k+1

Estimac
ao Pontual

Defini
c
ao 2.6.1 Um estimador pontual e qualquer func
ao W (X1 , . . . , Xn ) de uma amostra. Isto e, qualquer estatstica e um estimador pontual.

64

A seguir, veremos alguns metodos de estimacao.

2.6.1

M
etodo dos momentos

Seja {Xi }ni=1 uma amostra com densidade f (x|1 , . . . , K ). Estimadores baseados nos
metodos dos momentos s
ao encontrados igualando os K primeiros momentos amostrais
aos correspondentes K momentos populacionais. Em seguida, resolvemos o sistema de
equacoes, obtendo estimadores para os parametros {j }jK .
De forma mais explcita, suponha que 0i = E[X i ], i = 1, 2, . . . , K sejam os K primeiP
ros momentos populacionais mi = n1 nj=1 (Xj )i , i = 1, 2, . . . , K os K primeiros momentos amostrais. Pelo metodo dos momentos, temos:

m1 = 01 (1 , . . . , K ), . . . , mK = 0K (1 , . . . , K )
Os entimadores (1 , . . . , K ) s
ao obtidos resolvendo o sistema.
Exemplo 1

Estimador de momentos para uma normal.

Seja {Xi }ni=1 uma amostra com Xi N (, 2 ).

Como desejamos estimar dois

parametros, e 2 , utilizamos os dois primeiros momentos. Portanto, temos:


Pn

X
|{z}

i=1 Xi

M
edia amostral

|{z}

M
edia populacional

Pn

2
i=1 (Xi )

n
{z

Segundo momento amostral

2
+ }2
| {z

Segundo momento populacional

X
e 2 = 1
2
= X
(Xi X)
n
i=1

Exemplo 2

Metodo dos momentos para uma binomial.

Seja {Xi }ni=1 uma amostra com Xi Bin(k, p). Logo,

P (Xi = x|k, p) = Ckx px (1 p)kx , x = 0, 1, . . . , k

65

Neste caso, gostaramos de estimar k e p, dois parametros. Portanto, iremos utilizar


novamente os dois primeiros momentos.

=
X

Pn

i=1 Xi

= E[X] =

=
X

pk

Pn

n
i=1 (Xi )

kx

p)

k
X

k
X

xCkx px (1 p)kx

x=1

(k 1)!
px1 (1 p)(k1(x1)) = kp
(k 1 (x 1))!(x 1)!

2
i=1 (Xi )

xCkx px (1

x=0

k
X
x=0

Pn

k
X

= E[Xi2 ] =

x(x 1)

x=2

k
X

x2

x=0

(1)

k!
.px .(1 p)kx
(k x)!x!

k!
P x (1 p)kx + E[Xi ] = k 2 p2 + kp(1 p) (2)
(k x)!x!

Usando (1) e (2), obtemos:

+1
p = X

Pn

X
k =
p

2
i=1 Xi

nX

Note que, apesar do metodo dos momentos oferecer estimadores faceis de se obter
mesmo em casos nos quais os parametros nao sao intuitivos (no sentido de que nao
representam momentos diretamente), este metodo pode nao produzir os melhores estimadores, como e o caso da distribuicao binomial. Neste caso, p pode assumir valores
negativos, apesar de p ser uma probabilidade.

2.6.2

Estimadores de m
axima verossimilhan
ca

Seja {Xi }ni=1 uma amostra com densidade f (x|1 , . . . , K ).

A funcao de verossimi-

lhancada amostra e dada por:

L(|x) = L(1 , . . . , k |x1 , . . . , xn ) =

n
Y

f (xi |1 , . . . , k )

i=1

Defini
c
ao 2.6.2 Para cada vetor amostral x = (x1 , . . . , xn )T , seja (x) o valor para
o vetor parametrico para o qual a func
ao de verossimilhanca atinge seu m
aximo. O
estimador de m
axima verossimilhanca do par
ametro baseado em uma amostra X e

66

(X).
Uma motivac
ao para o uso do estimador de maxima verossimilhanca e que ele encontra a estimativa para o par
ametro que maximiza a verossimilhanca da amostra observada
ter ocorrido. Existem, porem, alguns problemas associados ao uso destes estimadores.
(i) Em alguns casos, encontrar o maximo global de uma funcao e um problema desafiador.
(ii) Podemos acabar com sensibilidade numerica a pequenas alteracoes nos valores da
amostra. Neste caso, o estimador nao sera muito confiavel se for muito instavel,
mesmo que o resultado analtico seja simples. A sensibilidade pode aparecer por
tratar-se de um problema de maximizacao.
A seguir, vamos descrever o algoritmo para obtencao do estimador de maxima verossimilhanca. Assumindo que a funcao de verossimilhanca L(|x) e diferenciavel com
respeito a , devemos primeiramente obter os pontos crticos da funcao (pontos com
derivada nula). Em seguida, devemos testar estes pontos e os extremos do espaco paaximo global.
rametrico para determinar o m

Exemplo 3

Estimador de m
axima verossimilhanca para uma normal.

Seja {Xi }ni=1 uma amostra com Xi N (, 1). Entao


n
1
1
2
2
n
Y
e 2 (xi )
e 2 i=1 (xi )

L(|x) =
=
(2)n/2
2
i=1

Assim sendo,

d
1 X
L(|x) = L(|x)( )
2(xi )(1) = 0
d
2
i=1

n
X
i=1

(xi ) = 0 =

n
X
xi
i=1

=x

e uma candidato a estimador de maxima verossimilhanca.


Entao X
Para provar que L(|x) de fato assume um maximo em x
, vamos calcular a derivada
segunda:

67

n
n
n
X
X
X
d2
2
L(|x) = L(|x){ (xi )} + L(|x)
(1) = L(|x)[( (xi ))2 n]
d2
i=1

i=1

i=1

No ponto = x, temos que:


d2

= L(|x)[0
n] < 0
L(|x)
d2
Logo, e de fato ponto de m
aximo. Como este e o u
nico ponto crtico no intervalo
(, +), devemos agora testar os extremos. Note que:

lim L(|x) = lim L(|x) = 0

Assim sendo, como L(|x) > 0 R, temos que e ponto de maximo global.
Visto este exemplo, vale ressaltar que um ponto importante deste algoritmo e identificar o espaco parametrico para se verificar os extremos. Por exemplo, no caso do estimador de m
axima verossimilhanca de uma populacao com distribuicao de Bernoulli(p),
sabemos que 0 p 1 ou 0 < p < 1. No segundo caso, nao ha necessidade de testar os
extremos.
Exemplo 4 Estimador de m
axima verossimilhanca para uma Bernoulli(p), com
0 p 1.
Temos que

L(p|x) =

n
Y

pxi (1 p)1xi = p

Pn

i=1

xi

(1 p)n

Pn

i=1

xi

i=1

pois quando Xi Bernoulli(p), P (Xi = 1) = p e P (Xi = 0) = 1 p. Sua densidade


pode ent
ao ser representada por pxi (1 p)1xi , xi = 0, 1.
Neste caso, e bem mais simples analisarmos a log-verossimilhanca:

logL(p|x) = ylog(p) + (n y)log(1 p),


onde y =

Pn

i=1 xi .

importante notar que o valor de y afeta a estrutura da funcao logL(p|x). Em


E
particular, essa estrutura e diferente quando y assume valores extremos (y = 0 ou y = n).

68

Assim sendo, vamos separar nossa analise em duas partes. Primeiramente, assumindo
0 < y < n, temos:

d
y ny
logL(p|x) = 0
+
(1) = 0
dp
p
1p
y
y py = np py p = = x

n
e um candidato a estimador de maxima verossimilhanca. A
Temos ent
ao que X
seguir, devemos mostrar que x
e de fato um maximo.

y
(n y)
y(1 2p + p2 ) p2 (n y)
d2
logL(p|x)
=

=
dp2
p2 (1 p)2
p2 (1 p)2
y(1 2p) np2
f (p)
d2
logL(p|x)
=

dp2
p2 (1 p)2
h(p)
Note que h(p) > 0 p. Logo, o sinal da derivada segunda depende de f . Temos que:

f (
x) = y +

2y 2 ny 2
y
2 = y( 1) = y(
x 1) < 0(Por que?)
n
n
n

Logo, x
e ponto de m
aximo.
Por outro lado, quando y = 0 temos logL(p|x) = nlog(1 p) e, quando y = n, temos
logL(p|x) = nlog(p). Assim sendo:

d
1p
logL(p|x) =

dp

n
p

se y = 0(monotona decrescente)
se y = n(monotona crescente)

Logo, quando y = 0, p = 0 maximiza logL(p|x) e, quando y = n, p = 1 maximiza


e o estimador de
logL(p|x). Em ambos os casos, temos p = x
, provando entao que X
maxima vari
ancia de p.
Exemplo 5

Estimador de m
axima verossimilhanca restrito.

Seja {Xi }ni=1 uma amostra de uma N (, 1), onde sabemos que 0. Qual e o
estimador de m
axima verossimilhanca nesse caso?
para o caso irrestrito. Vamos aproveitar esta
Obtivemos no exemplo 3 que M V = X
solucao e adapt
a-la para o caso restrito.

69

Se x
0, ent
ao MV R = M V . Porem, se x
0, devemos analisar a funcao de
verossimilhanca:

P
1
2
21 n
i=1 (xi )
e
n/2
(2)
n
X
d

L(|x) = L(|x)
(xi )
d

L(|x) =

i=1

Sabemos que L(|x) 0. No mais, se x


< 0:
n
n
X
X
(xi ) =
xi n = n(
x ) < 0(pois 0)
i=1

i=1

< 0. Isso implica que o ponto


Portanto, temos que L(|x) e decrescente quando x
de maximo ocorre quando = 0 e, neste caso, deve valer MV R = 0. Logo, MV R =
0).
max(X,

Propriedade de invari
ancia dos estimadores de m
axima verossimilhan
ca:

Su-

ponha que uma certa distribuic


ao populacional seja indexada por um parametro , mas
que estejamos interessados em estimar uma certa funcao de , (), onde : R R. O
seguinte teorema nos permite estimar () a partir do estimador de maxima verossimilhanca para .
Teorema 2.6.1 Se e o estimador de m
axima verossimilhanca de , ent
ao, para toda

func
ao : R R, o estimador de m
axima verossimilhanca de () e ().
Demonstra
c
ao Definindo = () e o valor que maximiza sua verossimilhanca, note:

L (
|x) = sup sup{; (theta)=} L(|x)
= sup L(|x)
= L(M V |x)
= sup{; (theta)= (theta)}
L(|x)

= L ( (theta)|x)

70

2.6.3

M
etodos para avalia
c
ao de estimadores

Ate agora, discutimos metodos para estimar parametros. Neste ponto, estamos interessados em comparar os diferentes estimadores. Para tanto, podemos utilizar o erro medio
quadratico.
Defini
c
ao 2.6.3 O erro medio quadr
atico de um estimador W de um par
ametro e
dado por g() = E[(W )2 ].
As principais vantagens desta medida sao:
Tratabilidade
Facil interpretac
ao:
E[(W )2 ] = E[(W E[W ]+E[W ])2 ] = V ar(W )+(E[W ])2 = V ar(W )+Vies(W )2

Assim sendo, o erro medio quadratico embute uma mistura de penalizacoes por vies
e por variabilidade. Para estimadores nao-viesados, o erro medio quadratico se reduz `a
variancia do estimador.
Uma outra propriedade desej
avel em um estimador e a sua consistencia com relacao
ao parametro estimado.
p

Defini
c
ao 2.6.4 Um estimador Wn de um par
ametro e dito consistente se Wn .
Exemplo 6 Considere {X1 , ..., Xn } a.a.s. de uma populacao N (, 1). Sabemos que
n
P
Xi
Xn =
e um estimador n
ao viesado da media populacional.
n
i=1

Dessa forma, aplicando a Lei dos Grandes N


umeros, Xn , ou seja, este estimador
e consistente.
possvel obter uma condic
E
ao suficiente para que determinado estimador nao viesado seja consistente. Considerando ainda o exemplo acima, tome  > 0 e temos pela
desigualdade de Tchebychev:
E[(Xn )2 ]
2
V ar[Xn ]
=
2

P (|Xn | > )

Logo, se lim V ar[Xn ] = 0 temos que Xn .


n

71

Consist
encia sob Transforma
c
ao Contnua Se tivermos um estimador b consisb onde g(.) e funcao contnua, e um estimador
tente para , podemos ainda dizer que g(),
consistente para g() devido ao teorema do Mapa Contnuo.

2.6.4

Estatsticas suficientes

Defini
c
ao 2.6.5 Uma estatstica T (X) e suficiente para se a distribuic
ao condicional
da amostra X dada T (X) n
ao depende de .

Para entender melhor esta definicao, considere t como um possvel valor de T (X),
tal que P (T (X) = t) > 0, e considere a probabilidade condicional P (X = x|T (X) = t).
Note que, se x e um ponto amostral tal que T (X) 6= t, entao P (X = x|T (X) =
t) = 0. Logo, estamos interessados em P (X = x|T (X) = T (x)). Pela definicao, esta
distribuic
ao condicional n
ao pode depender de se T (X) e uma estatstica suficiente.
A ideia por tr
as disso e que uma estatstica suficiente captura roda a informacao sobre
o parametro . Observar X = x ou T (X) = T (x) revela a mesma informacao sobre ,
apesar de, aparentemente, a segunda informacao ser menos precisa sobre a realizacao de
uma amostra.
Utilizando as regras de probabilidades condicionais, obtemos:

P (X = x; T (X) = T (x))
P (T (X) = T (x))
p(x|)
P (X = x)
P (X = x|T (X) = T (x))
=
,
P (T (X) = T (x))
q(T (x)|)
P (X = x|T (X) = T (x)) =

(*)

onde p(x|) e a probabilidade conjunta da amostra e q(T (x|)) e a distribuicao de


probabilidade de T (x).
Logo, T (x) e uma estatstica suficiente quando a razao de probabilidades em () nao
depende de .
Exemplo 7 Seja {Xi }ni=1 uma amostra de uma Bernoulli(), 0 < < 1, e seja
P
T (X) = ni=1 Xi . Vamos mostrar que T (X) e suficiente.
Note que T (X) Bin(n, ). Logo,

72

Qni=1 xi (1)1xi
p(x|)
1
=
= t,
q(T (x)|)
Cnt t (1 )nt
Cn
onde t =

Pn

i=1 .

Exemplo 8

Como

1
t ,
Cn

T (X) e suficiente.

Seja {Xi }ni=1 uma amostra de uma N (, 2 ), 2 conhecido, e seja

Vamos mostrar que T (X) e suficiente (para ).


T (X) = X.
Sabemos que:
1
e
f (x|) =
n/2
2
(2 )

Pn
2
i=1 (xi )
2 2

1
=
e
n/2
2
(2 )

Pn
x)2 +n(
x)2
i=1 (xi
2 2

N (, 2 ):
Por outro lado, como X
n

q(
x|) =

1
2

(2 n )1/2

(
x)2
2
2 n

1
p(x|)

=
n1 e
2
q(T (x)|)
n(2 ) 2

Pn
x)2
i=1 (xi
2 2

e suficiente.
que n
ao depende de . Logo, X
De forma geral, utilizar a definicao de estatstica suficiente exige intuicao para propor
uma estatstica T adequada e exige tambem o calculo da distribuicao de T . O teorema
a seguir simplifica de forma consideravel a tarefa de se obter uma estatstica suficiente.
Teorema 2.6.2 (Teorema da Fatora
c
ao) Seja f (x|) a densidade conjunta da amostra X. Uma estatstica T (X) e suficiente para se, e somente se, existem func
oes g(.|)
e h(.) tais que, para todos os pontos do espaco amostral e para todos os par
ametros
,

f (x|) = g(T (x)|)h(x)

Demonstra
c
ao Considerando distribuicoes discretas.

73

() Defina g(t|) = P (T (X) = t) e h(x) = P (X = x|T (X) = T (x)). Assim:

f (x|) = P (X = x)
= P (X = x T (X) = T (x))
Bayes

= P (T (X) = T (x))P (X = x|T (X) = T (x))

= g(T (x)|)h(x)

() Seja q(t|) a func


ao de probabilidade de T(X). Defina ainda
AT (x) = {y; T (y) = T (x)}. Dessa forma:

f (x|) hip. g(T (x)|)h(x)


=
q(T (x|)
q(T (x|)
g(T (x)|)h(x)
= P
g(T (y)|)h(y)
AT (x)
const.

g(T (x)|)h(x)
P
g(T (x)|)
h(y)
AT (x)

h(x)
= P
h(y)
AT (x)

Como esta raz


ao independe de temos que T (X) e uma estatstica suficiente.

2.7

Desigualdade de Cramer-Rao

Suponha que, ao estimarmos um parametro , seja possvel obter um limite inferior


para a vari
ancia de qualquer estimador nao-viesado de . Entao, se formos capazes de
escontrar um estimador W tal que sua variancia seja igual a este limite inferior, teremos
encontrado o melhor estimador n
ao-viesado para .
O limitante de Cramer-Rao nos permite trabalhar justamente com a abordade descrita acima. No entanto, nem sempre as hipoteses do teorema que define este limitante
sao satisfeitas. Alem disso, mesmo quando o limitante existe, este nem sempre e atingido.
Teorema 2.7.1 (Desigualdade de Cramer-Rao) Seja {Xi }ni=1 uma amostra com func
ao
densidade de probabilidade f (x|) e seja W um estimador satisfazendo

74

d
E [W (X)] =
d

[W (x)f (x|)]dx

e
V ar (W (X)) <
Ent
ao, temos que:

V ar (W (X))

d
( d
E [W (X)])2

E [(
logf (X|))2 ]

Demonstra
c
ao Para quaisquer duas variaveis aleatorias X e Y ,

(Cov(X, Y ))2 V ar(X)V ar(Y )


(Cov(X, Y ))2
V ar(Y )

V ar(X)

Escolha X = W (X) e Y =

logf (X|).

d
E W (X) =
d

Primeiramente, note que:

Z
W (x)[

f (x|)]dx

f (x|)
W (x)
f (x|)dx
f (x|)

Z
=

f (x|)
= E [W (X)
]
f (x|)

= E [W (X) logf (x|)],

o que sugere a covari


ancia entre W (X) e

logf (X|).

Contudo, note que, fazendo W (X) = 1, temos:

E [ logf (X|)] =

f (x|)dx

d
=
E [1] = 0
d
Portanto:

75

Cov (W (X),

logf (X|)) = E [W (X) logf (X|)]

d
=
E W (X)
d

Tambem, como E [
logf (x|)] = 0,

V ar (

logf (X|)) = E [( logf (X|))2 ]

Logo, usando a desigualdade de Cauchy-Schwarz:

V ar (W (X))

d
( d
E [W (X)])2

E [(
logf (X|))2 ]

Corol
ario 2.7.2 Seja {Xi }ni=1 uma amostra i.i.d. com func
ao densidade de probabilidade f (x|) e seja W um estimador satisfazendo
d
E [W (X)] =
d

[W (x)f (x|)]dx

e
V ar (W (X)) <
Ent
ao, temos que:

V ar (W (X))

d
( d
E [W (X)])2

logf (X|))2 ]
nE [(

Demonstra
c
ao Note que basta mostrar E [(
logf (X|))2 ] = nE [(
logf (X|))2 ]

76

indep.
E [( logf (X|))2 ] = E [( log
f (Xi |))2 ]

i=1

n
X
logf (Xi |))2 ]
= E [(

i=1

n
X

E [(

i=1
iid

= nE [(

logf (Xi |))2 ] +


E [( logf (Xi |))( logf (Xj |))]

i6=j

logf (Xi |))2 ] +

E [

i6=j

logf (Xi |)]E [ logf (Xj |)]

= nE [( logf (Xi |))2 ] +


E [logf (Xi |)] E [logf (Xj |)]

i6=j

1 1
= nE [( logf (Xi |))2 ] +


i6=j

= nE [( logf (Xi |))2 ]

2.8

Testes de Hip
otese

Defini
c
ao 2.8.1 Uma hip
otese e uma afirmac
ao sobre um par
ametro populacional. As
duas hip
oteses complementares em um problema de teste de hip
oteses s
ao chamadas
hip
otese nula (H0 ) e hip
otese alternativa (H1 ).
Defini
c
ao 2.8.2 Um teste de hip
oteses e uma regra que especifica para que valores da
amostra a hip
otese nula e rejeitada. O subconjunto do espaco amostral para o qual H0
e rejeitada e chamado regi
ao de rejeic
ao ou regi
ao crtica.

2.8.1

Teste de Raz
ao de Verossimilhan
ca

Seja {Xi }ni=1 uma amostra aleat


oria com funcao densidade de probabilidade f (x|),
sendo um vetor ou um escalar, e seja o espaco parametrico. A estatstica de teste
de razao de verossimilhanca para testar H0 : 0 contra H1 :
/ 0 e:

(x) =

sup0 L(|x)
,
sup L(|x)

onde L(|x) e a func


ao de verossimilhanca.
Defini
c
ao 2.8.3 Um teste de raz
ao de verossimilhanca e qualquer teste que tenha regi
ao
de rejeica
o da forma {x : (x) c}, onde 0 c 1.

77

Note que (x) e <1 se h


a pelo menos um ponto em c0 para o qual a amostra
observada tem mais chance de ter acontecido do que para qualquer ponto em 0 .
Exemplo 1

Teste raz
ao de verossimilhanca para uma normal.

Seja {Xi }ni=1 uma amostra com Xi N (, 1) e sejam H0 : = 0 e H1 : 6= 0 .


Logo,

(x) =

(x) =

L(0 |x)
L(0 |x)
=
sup L(|x)
L(
x|x)

Pn
2
i=1 (xi 0 )
2
Pn
(x
x)2
i=1 2 i

(2)n/2 e
(2)n/2 e

= e 2 (

Pn

2
i=1 (xi 0 )

Pn

x)2 )
i=1 (xi

Note que:

n
X

(xi 0 ) =

i=1

n
X

(xi x
+x
0 ) =

i=1

n
X

n
X
(xi x
) +
(
x 0 ) 2
2

i=1

(x) = e

12

Pn

x0
i=1 (

)2

i=1

=e

n
(
x0 )2
2

Logo, a regi
ao de rejeic
ao e:

R = {x : (x) c} = {x : e 2 (x0 ) c}
n
2
R = {x : (
x 0 )2 log(c)} = {x : (
x 0 )2 log(c)}
2
n
2
R = {x : |
x 0 | ( log(c))1/2 }
n
Exemplo 2

Teste raz
ao de verossimilhanca para uma exponencial.

Seja {Xi }ni=1 uma amostra de uma populacao com funcao densidade de probabilidade
dada por

f (x|) =

sendo < < .

e(x)

se x

se x <

78

Logo,

L(|x) =

Pn

e i xi +n

se x(1)

se x(1) <

onde x(1) = mini xi .


Considere testar H0 : 0 contra H1 : > 0 . Sabemos que

(x) =

sup0 L(|x)
sup L(|x)

Note que, (, x(1)], L(|x) e crescente. Logo, como L(|x) = 0


(x(1), ), temos que sup L(|x) = L(x(1)|x).
Logo, se x(1) 0 , (x) = 1. Por outro lado, se x(1) > , dado que L(|x) e
crescente (, x(1)], ent
ao sup0 L(|x) = L(0 |x). Assim sendo:

(x) =

se x(1) 0
Pn

eP i=1 xi +n0
n
e i=1 xi +nx(1)

(x) =

se x(1) > 0

se x(1) 0

en(0 x(1))

se x(1) > 0

Desta forma, a regi


ao de rejeicao fica:

R = {x : en(0 x(1)) c} = {x : n(0 x(1)) log(c)}


R = {x : x(1)

log(c)
log(c)
0 } = R = {x : x(1) 0
}
n
n

Note que, neste caso, a regi


ao de rejeicao depende da estatstica suficiente x(1). O
teorema a seguir generaliza este resultado.
Teorema 2.8.1 Seja T (X) uma estatstica suficiente para e sejam (t), (x) estatsticas de teste de raz
ao de verossimilhanca baseadas em T e X, respectivamente.
Ent
ao (T (x)) = (x) para todo x no espaco amostral.

79

Demonstra
c
ao
sup0 L(|x)
sup L(|x)
sup0 f (x|)
=
sup f (x|)
sup0 g(T (x)|)h(x)
=
sup g(T (x)|)h(x)
sup0 L (|T (x))
=
sup L (|T (x))

(x) =

= (T (x))
2.8.2

M
etodos de avalia
c
ao de testes de hip
otese

Um teste de hip
otese do tipo H0 : 0 , H1 : c0 pode cometer dois tipos de erro:
(i) Rejeitar H0 quando 0 (erro do tipo I)
(ii) Nao rejeitar H0 quando c0 (erro do tipo II)
Denotando-se por R a regi
ao de rejeicao do teste, temos:

P (erro do tipo I) = P (X R| 0 )
P (erro do tipo II) = P (X Rc | c0 ) = 1 P (X R| c0 )

Entao

P (X R) =

Probabilidade do erro tipo I

se 0

1 Probabilidade do erro tipo II

se c0

Defini
c
ao 2.8.4 A func
ao potencia de um teste de hip
oteses com regi
ao de rejeic
ao R
e dada por

() = P (X R)
Logo, a func
ao de potencia ideal deve atingir valores proximos de zero quando 0
e proximos de um quando c0
Exemplo 1

Func
ao potencia de uma binomial.

80

Seja X Bin(5, ) e considere testar H0 :

1
2

contra H1 : > 12 .

Primeiramente, considere o teste que rejeita H0 se, e somente se, observa-se sucesso
em todos os experimentos. Neste caso, R = (1, 1, 1, 1, 1). Logo:

() = P (X = (1, 1, 1, 1, 1)) = P (X = 5) = 5
Sabemos que P (erro tipo I) = () para 12 . Como a funcao e crescente:

P (erro tipo I) (1/2) =

1
= 0, 0312
25

Note ent
ao que a probabilidade de cometermos o erro do tipo I e baixa. Por outro
lado, a probabilidade de cometermos um erro do tipo II e bastante alta, especialmente
para valores de entre

1
2

e 0, 75.

Assim sendo, talvez um pesquisador deva considerar um teste alternativo. Um exemplo e um teste que rejeite H0 se X = 3, 4 ou 5. Para este teste, a funcao potencia e dada
por:

() = P (X = 3, 4ou 5) = C53 3 (1 )2 + C54 4 (1 ) + 5 ,


que oferece erros do tipo II bem menores do que o teste anterios, mas erros do tipo
I maiores.
Defini
c
ao 2.8.5 Um teste com func
ao potencia () e um teste de tamanho se
sup0 () = e e um teste de nvel se sup0 () , 0 1.
Defini
c
ao 2.8.6 Um teste com func
ao potencia () e n
ao-viesado se (0 ) (00 )
0 c0 e 00 0 .
Defini
c
ao 2.8.7 Seja C uma classe de testes de H0 : 0 contra H1 : c0 . Um
teste em C com func
ao potencia () e uniformemente mais poderoso (UMP) para a
classe C se () 0 () c0 e 0 () func
ao potencia de um teste em C.
Lema 2.8.2 (Lema de Neyman-Pearson) Considere testar H0 : = 0 contra H1 :
= 1 , onde a func
ao densidade de probabilidade correspondente a i e f (x|i ), i = 1, 2,
usando um teste com regi
ao de rejeic
ao R satisfazendo:

81

x R se f (x|1 ) > kf (x|0 )

(1)

x Rc se f (x|1 ) < kf (x|0 ),

(2)

= P0 (X R).

(3)

para algum k 0, e

Ent
ao:
1. (Suficiencia) Qualquer teste satisfazendo (1), (2) e (3) e UMP para a classe de
testes de nvel .
2. (Necessidade) Se existe um teste satisfazendo (1), (2) e (3) com k > 0, ent
ao todo
teste UMP para a classe de testes de nvel e um teste de tamanho e todo teste
UMP para a classe de testes de nvel satisfaz (1) e (2), a menos de um conjunto
A satisfazendo P0 (X A) = P1 (X A) = 0.
Demonstra
c
ao Vamos demonstrar o lema para o caso em que f (x|0 ) e f (x|1 ) sao
funcoes densidade de probabilidade de variaveis aleatorias contnuas. A prova para o
caso discreto pode ser obtida substituindo integrais por somatorios.
Primeiramente, note que qualquer teste satisfazendo (3) e um teste de tamanho e,
portanto, um teste de nvel , pois sup P (X R) = P0 (X R) = , ja que 0
tem apenas um ponto.
Seja = IR , onde R e a regi
ao de rejeicao de um teste satisfazendo (1), (2) e (3) (teste
1) e seja 0 = IR0 , onde R0 e a regi
ao de rejeicao de um teste de nvel arbitrario (teste
2). Sejam () e 0 () as func
oes potencia correspondentes testes 1 e 2, respectivamente.
Como 0 0 (x) 1 x, as equacoes (1) e (2) implicam em ((x) 0 (x))(f (x|1 )
kf (x|0 )) 0 x. Logo:

Z
0

[(x) 0 (x)][f (x|1 ) kf (x|0 )]dx

= (1 ) 0 (1 ) k((0 ) 0 (0 ))

82

Para demonstrar a parte 1, note que, como o teste 2 e um teste de nvel e o teste
1 e um teste de tamanho , (0 ) 0 (0 ) = 0 (0 ) 0. Logo, como k 0:

0 (1 ) 0 (1 ) k((0 ) 0 (0 )) (1 ) 0 (1 ),
o que implica que (1 ) 0 (1 ). Como o teste 2 e um teste de nvel arbitrario e
c0 = {1 }, o teste 1 e UMP para a classe de testes de nvel .
Para demonstrar a parte 2, considere agora = IR , onde R e a regiao de rejeicao de
um teste satisfazendo (1), (2) e (3) com k > 0 (teste 1) e 0 = IR0 , onde R0 e a regiao de
rejeicao de um teste UMP para a classe de testes de nvel (teste 2). Note que o teste
1 existe por hip
otese.
Pela parte 1, o teste 1 e tambem UMP para a classe de testes de nvel e, portanto,
(1 ) = 0 (1 ). Logo, como k > 0:

0 (0 ) = (0 ) 0 (0 ) 0
Como o teste 2 e um teste de nvel , 0 (0 ) . Logo, 0 (0 ) = , i.e., o teste 2 e
um teste de tamanho . Isso implica que:

(1 ) 0 (1 ) k((0 ) 0 (0 )) = 0
((x) 0 (x))(f (x|1 ) kf (x|0 ))dx = 0 somente se o teste 2 satisfaz (1) e
R
(2), a menos de um conjunto A com A f (x|i )dx = 0. Isso implica que vale a u
ltima
Mas

assertiva da parte 2.
Corol
ario 2.8.3 Considere testar H0 : = 0 contra H1 : = 1 . Suponha que T (X)
e uma estatstica suficiente para e g(t|i ) e a func
ao densidade de probabilidade de T
correspondente a i , i = 0, 1. Ent
ao qualquer teste baseado em T com regi
ao de rejeic
ao
S e UMP para a classe de testes de nvel se satisfaz:

t S se g(t|1 ) > kg(t|0 )

(4)

t S c se g(t|1 ) < kg(t|0 ),

(5)

83

para algum k 0, onde

= P0 (T S).

(6)

Demonstra
c
ao O teste baseado em T tem regiao de rejeicao da forma R = {x; T (x)
S}. De acordo com o teorema da fatoracao podemos escrever f (x|i ) = g(T (x)|i )h(x)
para i = 0, 1. Dessa forma podemos reescrever as desigualdades do corolario:

x R sef (x|1 ) = g(T (x)|1 )h(x) > kg(T (x)|0 )h(x) = kf (x|0 )
e
x Rc sef (x|1 ) = g(T (x)|1 )h(x) < kg(T (x)|0 )h(x) = kf (x|0 )
para algum k 0, onde

= P0 (X R) = P0 (T (X) R)
Assim, pela a condic
ao suficiende do lema de Neyman-Pearson, teremos que o teste
baseado em T e um teste UMP de nvel .

Exemplo 2

Teste UMP normal.

Seja X1 , . . . , Xn uma amostra aleatoria de uma populacao N (, 2 ), com 2 conhe e uma estatstica suficiente para . Considere
cido. Vimos que a media amostrar X
testar H0 : = 0 contra H1 : = 1 , onde 0 > 1 . A desigualdade (4) e equivalente a:

x
<

(2 2 logk)/n 02 + 12
2(1 0 )

para obter a desigualdade acima, usamos que 0 > 1 . Note que o lado direito
aumenta de a `
a medida que k aumenta de 0 a . Logo pelo corolario acima,
o teste com regi
ao de rejeic
ao {
x < c} e UMP para a classe de testes de nvel , onde
< c). Se fixarmos um especfico, o teste UMP rejeita H0 se x
= P0 (X
< c =

z / n + 0 . A escolha de c garante que vale (6).

Potrebbero piacerti anche