Teoria Assintótica PDF

Introduc
ao `
a Teoria Assint
otica
Gauss M. Cordeiro
22o Col
oquio Brasileiro de Matem
atica
Pref
acio
A area de teoria assintotica no Pas cresceu muito nos u
ltimos anos em termos de
producao cientfica. A ideia do trabalho surgiu face à inexistencia de um livro em lngua
portuguesa que apresentasse os topicos mais importantes da teoria assintotica. O texto
aborda estes topicos de forma introdutoria, embora o tratamento matematico seja superficial para alguns deles.
Os pre-requisitos para sua leitura sao conhecimentos elementares de calculo (diferencial e integral) e de algebra linear e tambem nocoes basicas de inferencia estatstica. O
texto, dividido em cinco captulos, e destinado prioritariamente a alunos de mestrado e
doutorado. Entretanto, pode ser usado por alunos dos u
ltimos anos de graduacao.
O Captulo 1 apresenta as nocoes basicas da teoria de verossimilhanca. O Captulo
2 resume alguns conceitos fundamentais em metodos assintoticos que sao rotineiramente
usados em Probabilidade e Estatstica. Este captulo e pre-requisito dos Captulos 3, 4
e 5 que formam o n
ucleo da teoria assintotica de verossimilhanca. O Captulo 3 trata
das expansoes assintoticas de maior interesse na Estatstica. O Captulo 4 apresenta a
teoria assintotica de primeira ordem onde os resultados assintoticos classicos sao usados
com a finalidade de se fazer inferencia. O Captulo 5 aborda refinamentos dos metodos
e procedimentos do Captulo 4, onde se modificam os resultados assintoticos classicos
para se obter melhores aproximacoes na inferencia. Ao longo de todo o texto muitas
demonstracoes foram omitidas, principalmente quando o entendimento do assunto nao
depende delas. Por ser um texto introdutorio, in
umeras vezes o formalismo matematico
foi sacrificado para se ter uma forma mais simples e evidente de apresentar os conceitos
e resultados. Em cada captulo, exemplos procuram consolidar a teoria apresentada e a
serie de exerccios no final, sendo a grande maioria destinada a alunos de mestrado, visa
a exercitar o leitor sobre o assunto abordado.
Varias pessoas contriburam para este livro.
Sou grato aos colegas da UFPE,
Audrey Cysneiros, Claudia Lima, Francisco Cribari-Neto (Coordenador do Mestrado

de Estatstica da UFPE), Francisco Cysneiros, Herbetes Cordeiro Junior, Isaac Xavier
e Jacira Rocha, e do IME/USP, L
ucia Barroso e Slvia Ferrari, que leram partes do
ii
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
manuscrito e deram sugestoes u

teis. Agradeco à Coordenacao do Coloquio Brasileiro de
Matematica e, em especial, aos professores Paulo Cordaro (USP) e Jacob Pallis (Diretor do IMPA), pelo convite para escrever este texto. Agradeco ainda ao Oscar P. Silva
Neto pelo excelente trabalho de preparacao dos originais e aos professores Adiel Almeida
(Coordenador do Programa de Pos-Graduacao em Engenharia de Producao da UFPE),
Carlson Vercosa (Chefe do Departamento de Engenharia Mecanica da UFPE) e Enivaldo
Rocha (Chefe do Departamento de Estatstica da UFPE) pelas condicoes oferecidas de
apoio a este trabalho.
Finalmente, desejo expressar o meu apreco a minha esposa Zilma Cordeiro pela
paciencia com o meu isolamento de fins de semana em Gravata, onde pude escrever este
livro.
Rio, abril de 1999
Gauss M. Cordeiro
Conte
udo
1 Fundamentos de Infer
encia Estatstica
1.1
Introducao
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2
Funcao de verossimilhanca . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3
Funcao Escore e Informacao . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4
Metodos Iterativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5
Modelos Exponenciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.6
Estimacao por Intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.7
Testes de Hipoteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.8
1.7.1
Hipoteses Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.7.2
Hipoteses Compostas . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2 M
etodos Assint
oticos
27
2.1
Conceitos Basicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2
Funcao Caracterstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.3
Momentos e Cumulantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.4
Somas de Variaveis Aleatorias Independentes . . . . . . . . . . . . . . . . . 42
2.5
Teoremas Limites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.6
Transformacao Funcional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
iii
iv
Introduc
ao `
a Teoria Assint
2.7
Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3 Expans
oes Assint
oticas
57
3.1
Introducao
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.2
Expansao de Gram-Charlier . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.3
Expansoes de Edgeworth . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.4
Expansoes de Cornish-Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.5
Expansoes Ponto de Sela . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.6
Expansoes de Laplace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.7
Expansoes Assintoticas para Variaveis Aleatorias
3.8
Expansoes por Metodos Diretos . . . . . . . . . . . . . . . . . . . . . . . . 82
3.9
Expansoes de Funcoes Nao-Lineares . . . . . . . . . . . . . . . . . . . . . . 84
. . . . . . . . . . . . . . 79
3.10 Aproximacao Normal para Algumas Variaveis Discretas . . . . . . . . . . . 85

3.11 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4 Teoria Assint
otica de Primeira Ordem
4.1
93
Fundamentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.1.1
Erro Medio Quadratico . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.1.2
Eficiencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.1.3
Condicoes de Regularidade . . . . . . . . . . . . . . . . . . . . . . . 97
4.1.4
Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
4.1.5
Unicidade Assintotica . . . . . . . . . . . . . . . . . . . . . . . . . . 100
4.1.6
Normalidade Assintotica . . . . . . . . . . . . . . . . . . . . . . . . 102
4.1.7
Eficiencia Assintotica . . . . . . . . . . . . . . . . . . . . . . . . . . 103
4.2
Suficiencia Assintotica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
4.3
Inferencia sem Parametros de Incomodo . . . . . . . . . . . . . . . . . . . 105
22o Col
atica
4.4
Inferencia com Parametros de Incomodo . . . . . . . . . . . . . . . . . . . 110
4.5
Verossimilhanca Perfilada . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
4.6
Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
5 Teoria Assint
otica de Segunda Ordem
119
5.1
Introducao
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5.2
Identidades de Bartlett . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5.3
Correcao do Vies da EMV . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
5.4
Funcao Densidade da EMV . . . . . . . . . . . . . . . . . . . . . . . . . . 125
5.5
Calculo de Probabilidades Baseado na Verossimilhanca . . . . . . . . . . . 128
5.6
Correcao de Bartlett . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
5.7
Estatsticas Aperfeicoadas tendo distribuicao 2 . . . . . . . . . . . . . . . 138
5.8
Testes Escore Melhorados . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
5.9
Aplicacoes à Famlia Exponencial . . . . . . . . . . . . . . . . . . . . . . . 147
5.10 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
Captulo 1
Fundamentos de Infer
encia
Estatstica
1.1
Introduc
ao
A inferencia e a parte fundamental da Estatstica e, claramente, e tao antiga quanto a

teoria e os metodos que formam a Estatstica atual. As primeiras tecnicas de inferencia
surgiram a mais de 200 anos com os trabalhos de Bayes, DeMoivre, Gauss e Laplace. A
inferencia estatstica baseada diretamente na funcao de verossimilhanca foi proposta por
Sir Ronald Fisher em 1912 mas so foi intensificada no perodo de 1930 a 1940 gracas às
suas contribuicoes em problemas de experimentacao agrcola.
O processo de inferir a partir dos dados observados sobre parametros desconhecidos e
parte fundamental da logica indutiva. A inferencia cientfica se confunde com a inferencia
estatstica quando a conexao entre o estado da natureza desconhecido e os fatos observados sao expressos em termos probabilsticos, i.e., o mecanismo de geracao dos dados e
governado por uma componente especificada e um erro estocastico que varia de acordo
com uma distribuicao de probabilidade (conhecida ou desconhecida). Esta composicao define o modelo estatstico que descreve a estrutura probabilstica dos dados como funcao de
quantidades de interesse conhecidas e de outros parametros possivelmente desconhecidos.
A inferencia visa a construir procedimentos ou regras apropriadas de alguma natureza
cientfica baseando-se num certo conjunto de dados, tais como: obter uma estimativa de
um parametro desconhecido, construir um conjunto de valores possveis de que tenha
1
Introduc
ao `
a Teoria Assint
uma confiabilidade especificada ou decidir sobre um valor previamente concebido para .

Neste sentido, as atividades fim da inferencia sao: a estimacao, a construcao de regioes
de confianca e o desenvolvimento de testes de hipoteses.
Varias metodologias de inferencia tem sido propostas e as mais importantes sao decorrentes das teorias de verossimilhanca, Bayesiana, fiducial e estrutural. Este texto trata
exclusivamente da teoria de verossimilhanca. Sobre esta teoria, Sir David R. Cox fez o
seguinte comentario: The likelihood approach plays a central role in the great majority of
statistical theory and it does apply when the main object of the investigation is inferential,
i.e., to obtain answers to specific questions about the model. Na teoria Bayesiana, qualquer incerteza sobre os parametros desconhecidos de um modelo estatstico (como por
exemplo, a validade do modelo) e expressa em termos de probabilidades que representam
graus de credibilidade do estatstico Bayesiano. A inferencia sobre um parametro para
um certo conjunto de dados e conduzida por uma distribuicao a posteriori apropriada para
. A teoria fiducial e certamente a mais difcil e problematica destas teorias, pois alguns
dos seus princpios sao obscuros e dao origem a interpretacoes contraditorias. Ela so e
considerada relevante quando e completamente desconhecido antes da experimentacao.
Nao e necessario supor qualquer distribuicao a priori para , pois ao aplica-la obtem-se
dos dados uma distribuicao de probabilidade para este parametro. Finalmente, a teoria
estrutural (Fraser, 1968) considera que um experimento tem estrutura propria fora do
contexto da famlia de distribuicoes proposta para as observacoes dado . Os erros de
medicao representam caractersticas objetivas do processo de geracao dos dados e existem
independentemente do que foi realmente observado.
Este captulo aborda os fundamentos da teoria de verossimilhanca. Os conceitos
basicos de funcao de verossimilhanca, funcao escore, informacao e suficiencia sao apresentados de forma resumida como pre-requisitos dos Captulos 4 e 5, onde sera discutida a
teoria de verossimilhanca no contexto de grandes amostras. O leitor podera consultar o
livro de Edwards (1972) para ter uma abordagem ampla das tecnicas baseadas na funcao
de verossimilhanca.
22o Col
atica
1.2
Func
ao de verossimilhan
ca
Suponha que y e o valor observado de uma variavel aletoria Y = (Y1 , . . . , Yn )T caracterizada por uma funcao de probabilidade ou densidade com forma analtica f (y; ) conhecida
mas dependente de um vetor = (1 , . . . , p )T de parametros desconhecidos. Seja IRp
o espaco parametrico representando o conjunto de valores possveis para o vetor . A
funcao f (y; ) e denominada func
ao do modelo estatstico e define alguma famlia F de
distribuicoes de probabilidade. O objetivo da inferencia e determinar a distribuicao de Y
na famlia F, ou equivalentemente, testar uma hipotese expressa atraves de . A teoria
de verossimilhanca representa um dos metodos mais comuns de inferencia estatstica.
A funcao de verossimilhanca L() e definida como sendo igual a funcao do modelo,
embora seja interpretada diferentemente como funcao de para y conhecido. Assim,
L() = f (y; ). A inferencia de verossimilhanca pode ser considerada como um processo
de obtencao de informacao sobre um vetor de parametros , a partir do ponto y do espaco
amostral, atraves da funcao de verossimilhanca L(). Varios vetores y 0 s podem produzir
a mesma verossimilhanca ou, equivalentemente, uma dada verossimilhanca pode corresponder a um contorno R(y) de vetores amostrais. Este processo produz uma reducao
de informacao sobre , disponvel em y, que e transferida para as estatsticas suficientes
impressionandefinidas pela funcao de verossimilhanca (vide equacao (1.5) a seguir). E
te como os conceitos (aparentemente distintos) de suficiencia e verossimilhanca, ambos
introduzidos por Fisher, estao intimamente relacionados conforme a descricao acima.
A inferencia via verossimilhanca e fundamentada em princpios genericos como os
descritos a seguir. O princpio de suficiencia estabelece que vetores de dados distintos
com os mesmos valores das estatsticas suficientes para um vetor de parametros fornecem
conclusoes identicas sobre . O princpio fraco de verossimilhanca implica que vetores de
dados com verossimilhancas proporcionais produzem as mesmas conclusoes sobre . Para
a validade destes dois princpios, admite-se que o modelo estatstico em investigacao e
adequado. O princpio forte de verossimilhanca e relativo a variaveis aleatorias distintas
que dependem de um mesmo parametro e de um mesmo espaco parametrico. Supondo
que dois modelos sao adequados aos vetores de dados y e z em questao, este princpio
estabelece que se y e z fornecem verossimilhancas proporcionais, entao as conclusoes sobre
Introduc
ao `
a Teoria Assint
tiradas destes dois vetores de dados sao identicas.

Muito frequentemente, as componentes de Y sao mutuamente independentes para
todas as distribuicoes em F e a verossimilhanca de reduz-se a
L() =
n
Y
f (yi ; ) .
(1.1)
i=1
Usualmente, trabalha-se com a log-verossimilhanca `() = log L(), tambem chamada de

func
ao suporte. No caso de variaveis aleatorias independentes, a log-verossimilhanca e
aditiva
`() =
n
X
log f (yi ; ) .
(1.2)
i=1
Em geral, mesmo no caso de variaveis aleatorias dependentes, a log-verossimilhanca pode

ser dada por uma soma, definindo-a a partir das funcoes densidade (ou de probabilidade)
condicionais. Seja Y(j) = (Y1 , . . . , Yj )T e defina a funcao densidade condicional de Yj dado
Y(j1) = y(j1) por fYj |Y(j1) (yj |y(j1) ; ). Assim, a log-verossimilhanca de e dada por
`() =
n
X
log fYj |Y(j1) (yj |y(j1) ; ) ,
(1.3)
j=1
com Y(0) especificando o que for necessario para determinar a distribuicao da primeira
componente Y1 . A versao (1.3) e importante nos modelos de series temporais.
Exemplo 1.1 Suponha que as componentes de Y s

ao geradas por um modelo autoregressivo estacionario de primeira ordem com par
ametro de correlac
ao e media , i.e.,
Yj = +(Yj1 )+j , onde 2 , . . . , n s
ao vari
aveis aleat
orias independentes distribudas
como normal N (0, ). A log-verossimilhanca (1.3) para = (, , )T se simplifica pois a
distribuicao de Yj dado Y(j1) = (Y1 , . . . , Yj1 )T depende somente de Yj1 e contribui para
a log-verossimilhanca com o termo
1
log fYj |Y(j1) (yj |y(j1) ; ) = log(2 ) (2 )1 {yj (yj1 )}2 .
2
22o Col
atica
Assim, a log-verossimilhanca total `() reduz-se a

n
1
`() = log(2 ) + log(1 2 ) (2 )1 {(y1 )2
2
2
+(yn )2 + (1 + 2 )
n1
X
(yj )2 } +
j=2
n
X
(yj )(yj1 ) .
j=2
A funcao de verossimilhanca informa a ordem natural de preferencia entre diversas

possibilidades de . Um conjunto de dados e mais consistente com um vetor do que
com outro 0 se a verossimilhanca associada a for maior do que aquela associada a
0 . Generalizando, entre os possveis candidatos para estimar o parametro verdadeiro 0
a partir dos mesmos dados y, o vetor de parametros mais plausvel e aquele de maior
verossimilhanca. Neste sentido, o metodo de maxima verossimilhanca (M V ) objetiva
escolher o valor do vetor de parametros (ou a hipotese no sentido mais amplo) que fornece
a chance mais provavel de ocorrer novamente os mesmos dados que ocorreram. Assim,
para estimar o vetor verdadeiro 0 de parametros, escolhe-se aquele vetor de parametros
que maximiza a funcao de verossimilhanca no espaco parametrico . Logo, a estimativa
de m
axima verossimilhanca (EMV) de e o vetor que maximiza L() em , isto e,
L() para todo . Muitas vezes existe um u
L()
nico vetor de parametros que
maximiza a verossimilhanca em , sendo portanto o u
nico vetor mais plausvel neste
espaco parametrico. Entretanto, a EMV pode nao ser u
nica e nem mesmo finita dentro
de um dado espaco de parametros. A EMV desempenha um papel central na inferencia
parametrica em grandes amostras (vide Captulo 4).
Como a funcao logaritmo e monotona, maximizar L() e `() em sao processos
equivalentes. Entao, a EMV e definida de modo que para todo
`() .
l()
(1.4)
O grafico de `() versus em e chamado superfcie suporte. Para p = 1 este grafico
(curva suporte) e bastante informativo, embora nao tenha valor imediato no calculo de .
Para p 3 a superfcie suporte nao pode ser tracada e deve-se recorrer a tecnicas iterativas
apresentadas na Secao 1.4. Se e um conjunto discreto, computa-se `() para os diversos
Introduc
ao `
a Teoria Assint
0 s e escolhe-se como aquele valor de correspondente ao maximo `(). Quando `()

e contnua e diferenciavel em , a EMV pode ser obtida resolvendo-se o sistema de
equacoes simultaneas `()/r = 0 para r = 1, . . . , p desde que nao se encontre na
fronteira do espaco parametrico. Das solucoes deste sistema (em geral nao-linear) pode-se
Convem frisar, entretanto, que a EMV nao coincide necessariamente com
achar a EMV .
alguma solucao do sistema. Mesmo que o sistema tenha solucao u
nica, nao significa que
ela seja a EMV, que pode ate mesmo nem existir.
Como foi enfatizado anteriormente, a funcao de verossimilhanca resume toda a informacao relevante sobre um vetor de parametros e, em especial, o quociente de verossimilhancas ou a diferenca entre log-verossimilhancas expressa as plausibilidades relativas
de dois vetores de parametros especificados. Assim, a verossimilhanca retira dos dados
toda a informacao relevante para inferir sobre um vetor de parametros de interesse e a
sua inspecao possibilita responder questoes especficas sobre estes parametros. Toda
informacao relevante na verossimilhanca sobre um vetor de parametros esta contida num
conjunto de estatsticas denominadas suficientes, definidas a seguir. Assim, um conceito
diretamente relacionado à verossimilhanca e a suficiencia. Considere-se uma estatstica
S = S(Y ) funcao das variaveis aleatorias Y1 , . . . , Yn . Seja s o valor observado de S. Dizse que S e suficiente para na famlia de distribuicoes definida por F se a distribuicao
condicional f (y|s) de Y = (Y1 , . . . , Yn )T dado S = s independe de . A suficiencia de S
implica que toda informacao relevante que os dados y contem sobre esta concentrada
em S. Uma condicao necessaria e suficiente para esta suficiencia e que a verossimilhanca
possa ser fatorada na forma
L() = g(s, )h(y) ,
(1.5)
onde g(, ) depende dos dados y somente atraves de s = s(y) e h(y) e uma funcao dos
dados que independe de . A condicao (1.5) e conhecida como o Teorema da Fatoracao
de Neyman-Fisher. Uma demonstracao detalhada (o caso discreto e trivial) pode ser
encontrada no livro de Lehmann (1959, p.470). Claro que se S e suficiente para , qualquer
funcao um-a-um de S tambem e suficiente. A escolha entre distintas estatsticas suficientes
para um parametro pode ser baseada na consistencia, eficiencia e no fato de ser nao-viesada
(Secao 4.1.1).
22o Col
atica
Uma propriedade que relaciona a suficiencia e a verossimilhanca pode ser deduzida

diretamente da fatoracao (1.5). Se existe um conjunto de estatsticas S1 , . . . , Sm conjuntamente suficientes para os parametros 1 , . . . , p , segue-se de (1.5) que maximizar L()
equivale a maximizar a distribuicao conjunta dessas estatsticas (identificada como g(s, ))
em relacao aos parametros. Entao, as estimativas de MV 1 , . . . , p devem ser funcoes de
S1 , . . . , Sm . Entretanto, as dimensoes m e p de S e , respectivamente, nao sao necessariamente iguais. O caso m < p podera ocorrer se existirem relacoes nao-lineares entre as
componentes de , mas a situacao mais comum na pratica e m p. Como as componentes
do vetor podem nao ser funcoes um a um das estatsticas suficientes S1 , . . . , Sm , as estimativas 1 , . . . , p nao formam necessariamente um conjunto de estatsticas suficientes
para , pois podem ser apenas funcoes de um subconjunto dessas estatsticas.
Usando-se a definicao de suficiencia ou a condicao (1.5) e facil mostrar, por exemplo,
que no caso de observacoes iid (independentes e identicamente distribudas), a media
amostral e suficiente para a media da distribuicao de Poisson e para a probabilidade de
sucesso da distribuicao binomial. Pode-se ainda verificar no caso iid que se Y N (, 2 )
a verossimilhanca para = (, 2 )T pode ser fatorada como (1.5) com g(y, s2 , , 2 )
onde y = yi /n e s2 = (yi y)2 /n e, portanto, a media y e a variancia s2 amostrais
sao estatsticas conjuntamente suficientes para e 2 . Entretanto, s2 sozinha nao sera
suficiente para 2 quando for desconhecido. A partir da log-verossimilhanca do modelo
autoregressivo discutido no exemplo 1.1, observa-se que as estatsticas y12 + yn2 ,
n1
X
yj2 e
j=2
n
X
yj yj1 sao suficientes para os parametros e quando e conhecido.
j=2
A inferencia atraves da funcao suporte deve ser consistente com os dados observados
e, portanto, as conclusoes nao deverao ser alteradas por dois tipos de transformacoes: (i)
transformacao inversvel de Y ; (ii) transformacao nao necessariamente inversvel de .
Mostra-se agora que a funcao suporte quando usada relativamente e invariante segundo transformacao unvoca dos dados. Supondo uma transformacao um-a-um da variavel
aleatoria contnua Y para Z = Z(Y ), a verossimilhanca segundo os novos dados z (L (; z))
pode ser expressa em termos da verossimilhanca segundo os dados y (L(; y)) por
L (; z) = L(; y)|T | ,
(1.6)
Introduc
ao `
a Teoria Assint
onde T =
y
z
e o Jacobiano da transformacao de Y para Z suposto nao-nulo. De (1.6) vem
` (; z) = `(; y) + log |T |, o que demonstra a invariancia da funcao suporte em relacao à

transformacao dos dados.
A funcao suporte relativa a um novo parametro , supondo que os dados sao mantidos
constantes, onde = f () e f e uma transformacao um-a-um, e encontrada diretamente
substituindo por f 1 (). Tem-se `() = `(f 1 ()) = ` (), onde ` e ` sao os suportes em
`() para qualquer
termos de e , respectivamente. Se e a EMV de , obtem-se `()
vem, para todo , `(f 1 ())
`(f 1 ()) ou seja ` ()
` (), o
. Definindo = f ()
que implica ser a EMV de = f (). Note-se que as superfcies suportes `() e ` () tem
= ` ().
Assim, o valor da verossimilhanca
formas distintas, porem o mesmo maximo `()
maximizada segundo um modelo estatstico e u
nico, qualquer que seja a parametrizacao
adotada para o modelo. A propriedade de invariancia estabelece que a EMV de f () e a
funcao f avaliada na EMV de . Ela e importante, pois alguma parametrizacao do modelo
pode conduzir a simplificacoes mais consideraveis no calculo da EMV. A demonstracao
desta propriedade e imediata usando a regra da cadeia no caso de f () ser diferenciavel.
1.3
Func
ao Escore e Informa
c
ao
A primeira derivada da funcao suporte e chamada func

ao (ou vetor) escore
U () =
onde o operador
`()
,
(1.7)
e interpretado como um vetor coluna e, portanto, U () e um vetor
p 1. Assim, U () e o vetor gradiente da superfcie suporte em . As equacoes de MV

= 0 mostrando que a funcao escore e zero em .
sao expressas por U ()

=0
As equacoes de MV sao usualmente nao-lineares e nestes casos as solucoes de U ()
devem ser obtidas por tecnicas iterativas. Quando as EMV tem forma fechada, pode
ser viavel determinar suas distribuicoes exatas e, portanto, obter suas propriedades em
pequenas amostras. Quando este nao e o caso, a inferencia deve ser baseada na teoria
assintotica apresentada nos Captulos 4 e 5.
Como ilustracao do calculo de EMV, considere n observacoes iid da distribuicao nor-
22o Col
atica
mal N (, 2 ) e da distribuicao de Cauchy, cuja densidade e f (y; ) = 1 {1 + (y

)2 }1 , y IR, com o parametro representando a mediana da distribuicao. No caso da
normal, as EMV sao facilmente obtidas de
=ye
2 = s2 , i.e., igualam as estatsticas con2
juntamente suficientes para estes parametros. Sabe-se que

N (, 2 /n) e
2 n 2n1
e como suas distribuicoes sao independentes, n 1(y )/s tem distribuicao tn1 (t
de Student com n 1 graus de liberdade). Estes resultados possibilitam determinar intervalos de confianca exatos para os parametros da normal ou de qualquer distribuicao
definida por uma transformacao a partir da distribuicao normal. A ideia de transformar
uma variavel de modo a obter normalidade e de grande interesse na Estatstica. Por
exemplo, se Y N (, 2 ) define-se a distribuicao lognormal (Z LN (, 2 )) de dois
evidente que a estimacao por MV dos parametros em
parametros por Z = exp(Y ). E
qualquer parametrizacao de Z e feita atraves das estimativas
e
2 . Por exemplo, a
+ r2
2 /2) para
0r = exp(r
EMV do r-esimo momento 0r = E(Z r ) de Z e simplesmente
r 1. No caso da estimacao do parametro da distribuicao de Cauchy (exemplo 1.4
dado a seguir), a equacao de MV nao tem forma simples, sendo representada por um
polinomio de grau n 1 em cujas solucoes em geral incluem varios maximos e mnimos
da log-verossimilhanca. Portanto, a inferencia sobre deve ser baseada em propriedades
assintoticas de sua EMV .

A matriz de informacao (algumas vezes chamada informac
ao esperada) para IRp
obtida dos dados y e uma matriz p p definida por
K() = E{U ()U ()T } .
(1.8)
Para observacoes independentes, a funcao escore e a informacao sao somas de contribuicoes

individuais sobre .
Este texto considera apenas problemas regulares que satisfazem às seguintes condicoes:
(a) e fechado, compacto e tem dimensao finita sendo o parametro verdadeiro 0 um
ponto interior de ; (b) f (y; ) e uma funcao um-a-um de ; (c) as tres primeiras derivadas
de `() existem numa vizinhanca de 0 ; (d) K() e finita e positiva definida numa vizinhanca de 0 . Alem das condicoes (a)-(d), admite-se, para modelos contnuos, que a
10
Introduc
ao `
a Teoria Assint
igualdade
Z
E{t(Y )} = t(y) f (y; )dy
e valida para qualquer estatstica t(Y ). Para modelos discretos basta substituir esta
integral por um somatorio. Esta equacao garante que as operacoes de diferenciacao com
respeito a e integracao em y sao permutaveis. Isso e possvel, por exemplo, se os limites
de variacao de y sao finitos e independem de ou, no caso de infinitos, se a integral
resultante da permutacao e convergente para todo e o integrando e uma funcao contnua
de y e . Estas condicoes de regularidade serao rediscutidas na Secao 4.1.3.
As condicoes anteriores sao usadas para justificar expansoes em series de Taylor e
tecnicas similares. Uma discussao mais detalhada destas condicoes pode ser encontrada
em LeCam (1956, 1970). De agora em diante omite-se o argumento das funcoes de
verossimilhanca, suporte, escore e informacao, escrevendo abreviadamente estas quantidades como L, `, U e K. Ainda, a distribuicao conjunta dos dados e escrita apenas como f
sem os argumentos y e . As demonstracoes serao dadas em forma resumida para modelos
contnuos. Para modelos discretos, basta substituir a integral por um somatorio.
A esperanca e a covariancia da funcao escore sao dadas por
E(U ) = 0
(1.9)
e
U T
Cov(U ) = E
respectivamente. De (1.7) U =
ciando
1 f
f
2`
=E
T
e, entao, E(U ) =
T
f
dy
= K,
=
U f dy = 0 em relacao a vem { U
f + U f }dy =
(1.10)
R
( f dy) = 0. Diferen
R U T
{ + U U T }f dy = 0.
Por (1.8) e (1.9) obtem-se (1.10). Esta equacao implica que o elemento (r, s) de K pode
2
`
` `
ser calculado de duas formas, como E{ r
} ou E{
}, sendo a primeira gerals
r s
mente mais facil. De agora em diante, quantidades avaliadas na EMV serao escritas
com superescritos .
T
A matriz de primeiras derivadas da funcao escore com sinal negativo J = U

=
`

e denominada matriz de informac
ao observada. A matriz Hessiana e simplesmente
T
J e tem-se E(J) = K. Para ser um maximo local, as condicoes U = 0 e J 0 (J
22o Col
atica
11
positiva semi-definida) sao necessarias enquanto que U = 0 e J > 0 (J positiva definida)

sao suficientes.
Exemplo 1.2 Se Y = (Y1 , . . . , Yn )T e os Yi0 s s
ao vari
aveis aleat
orias iid tendo distribuic
ao exponencial com funcao densidade ey , ent
ao a log-verossimilhanca e a funcao
n
n
X
X
simples
escore para sao, respectivamente, `() = n log
yi e U () = n/ yi . E
i=1
i=1
checar diretamente que E{U ()} = 0 e Var{U ()} = n/2 .

Exemplo 1.3 A funcao de probabilidade em serie de potencias SP () e definida por
P (Y = y; ) = ay y /f () para y = 0, 1, . . . e > 0, onde ay 0 e f () =
ay y .
y=0
Supondo que as observacoes sao iid, a func

ao de verossimilhanca e expressa por L() =
ny
f ()
n
Y
ayi , sendo y a media amostral. A EMV e uma func

ao n
ao-linear de y
i=1
()
= 0. A media amostral y e suficiente para e
obtida iterativamente de y/ f 0 ()/f
a informacao para e dada por
K() =
n
[f 0 () + {f ()f 0 () f 0 ()2 }] .
f ()
Expandindo o suporte ` em em serie multivariada de Taylor ao redor de e notando

que U = 0 obtem-se, aproximadamente,
1
T J(
.
)
` ` = ( )
2
(1.11)
A equacao (1.11) revela que a diferenca entre o maximo suporte e o suporte num
ponto arbitrario, que pode ser vista como a quantidade de informacao dos dados sobre ,
O determinante de J(|
J|)
e proporcional a J (i.e. à informacao observada no ponto ).

pode ser interpretado geometricamente como a curvatura esferica da superfcie suporte
no seu ponto maximo. A forma quadratica do lado direito de (1.11) aproxima a superfcie
suporte por um paraboloide, passando pelo seu ponto de maximo, com a mesma curvatura
mede a variabilidade de ao redor
esferica da superfcie neste ponto. O recproco de |J|
E, como esperado, quanto maior a informacao sobre , menor sera a dispersao
da EMV .
de ao redor de .
12
Introduc
ao `
a Teoria Assint
A interpretacao geometrica dos conceitos acima e melhor compreendida no caso uni 2 J.

Uma
parametrico, onde (1.11) reduz-se a equacao de uma parabola ` = ` 1 ( )
2
inspecao grafica mostra que esta parabola aproxima a curva suporte, coincidindo no seu
revelando ainda que quanto
ponto maximo e tendo a mesma curvatura desta curva em ,
maior a curvatura menor a variacao de em torno de .

A equacao (1.11) implica que a verossimilhanca L num ponto qualquer segue, aproximadamente, a expressao
T J(
exp 1 ( )
)
L=L
2

(1.12)
que representa a forma de curva normal multivariada com media e estrutura de covariancia igual a J1 . Atraves desta aproximacao pode-se entao tratar o vetor de
parametros como se fosse um vetor de variaveis aleatorias tendo distribuicao normal multivariada com media igual à EMV e estrutura de covariancia J1 . Quando o suporte
for quadratico, a verossimilhanca tera a forma normal. A forma de L se aproximara cada
vez mais da distribuicao normal quando n tender para infinito.
A formula (1.12) mostra a fatoracao da verossimilhanca como (1.5) pelo menos para
n grande, estabecelendo a suficiencia assint
otica da EMV (Secao 4.2). Conclui-se que,
embora as EMV nao sejam necessariamente suficientes para os parametros do modelo,
esta suficiencia sera alcancada quando a dimensao do vetor de dados tender para infinito.
Convem citar nesta secao algumas propriedades da matriz de informacao.
Seja
Ky () a informacao sobre um vetor parametrico contida nos dados y obtidos de

certo experimento. A informacao e aditiva para amostras y e z independentes, isto e,
Ky+z () = Ky ()+Kz (). Esta igualdade implica que a informacao contida numa amostra
de tamanho n de observacoes iid e igual a n vezes a informacao devida a uma u
nica observacao. Como seria previsto, a informacao (esperada ou observada) sobre contida
nos dados mantem-se invariante segundo qualquer transformacao um-a-um desses dados.
Como conseq
uencia direta de (1.6), obtem-se Kz () = Ky () se z = z(y). Uma propriedade procedente do teorema da fatoracao expressa que a informacao sobre fornecida
por uma estatstica suficiente s = s(y) e a mesma daquela fornecida pelos dados y. Em
smbolos, Ks () = Ky ().
22o Col
atica
13
Em geral, para qualquer estatstica t = t(y) definida pela sua funcao de probabilidade
ou funcao densidade gt (x; ) tem-se Kt () Ky (). A igualdade ocorrera se e somente se
t for suficiente para . Para demonstrar esta importante desigualdade basta desenvolver
E[{U ()
log gt (x; )}2 ] e usar a formula da esperanca condicional da funcao escore
dado t = x, ou seja,
log gt (x; ) .
Assim, a reducao de uma amostra por uma estatstica podera implicar perda de informacao
E{U ()|t = x} =
relativa a um parametro desconhecido. Entretanto, nao havera perda se e somente se a

suficiencia for mantida no processo de reducao dos dados.
As propriedades da EMV e alguns criterios para a estimacao parametrica serao discutidos na Secao 4.1.
1.4
M
etodos Iterativos
Os metodos iterativos para o calculo da EMV sao bastante utilizados na pratica e, em geral, mostram-se imprescindveis quando a dimensao p do espaco de parametros e grande.
em serie multivariada de Taylor ate primeira ordem
Expandindo U (a funcao escore em )
tem-se, aproximadaao redor de um ponto qualquer pertencente a uma vizinhanca de ,
mente,
U T
.
U = U +
( )
Como U = 0 obtem-se a relacao aproximada

= J 1 U
(1.13)
entre a EMV e a funcao escore e a informacao observada avaliadas no ponto proximo

O metodo de Newton-Raphson para o calculo da EMV consiste em usar a equacao
de .
(1.13) iterativamente. Obtem-se uma nova estimativa (m+1) a partir de uma anterior (m)
atraves de
1
(m+1) = (m) + J (m) U (m) ,
(1.14)
onde quantidades avaliadas na m-esima iteracao do procedimento iterativo sao indicadas

com o superescrito (m). O processo e entao repetido ate a distancia entre (m+1) e (m) se
14
Introduc
ao `
a Teoria Assint
tornar desprezvel ou menor que uma quantidade pequena especificada. Geometricamente,

uma iteracao do metodo equivale a ajustar um paraboloide à superfcie suporte em (m) ,
tendo o mesmo gradiente e curvatura da superfcie neste ponto, e entao obter o ponto
maximo do paraboloide que correspondera à estimativa atualizada (m+1) . Quando
e um escalar, a equacao (1.14) reduz-se a (m+1) = (m) U (m) /U 0(m) , onde U 0 =
dU
,
d
que representa o metodo das tangentes, bastante usado para calcular a solucao de uma
equacao nao-linear U = 0.
A seq
uencia {(m) ; m > 1} gerada depende fundamentalmente do vetor inicial (1) ,
dos valores amostrais e do modelo estatstico e, em determinadas situacoes, onde n e
pequeno, pode revelar irregularidades especficas aos valores amostrais obtidos do experi Mesmo existindo a
mento e, portanto, pode nao convergir e mesmo divergir da EMV .
convergencia, se a verossimilhanca tem razes m
ultiplas, nao ha garantia de que o procedimento converge para a raiz correspondente ao maior valor absoluto da verossimilhanca.
No caso uniparametrico, se a estimativa inicial (1) for escolhida proxima de e se J (m)
para m 1 for limitada por um n
umero real positivo, existira uma chance apreciavel que
esta seq
uencia va convergir para .
A expressao (1.13) tem uma forma alternativa assintotica equivalente, pois pela lei
dos grandes n
umeros J deve convergir para K quando n (vide Secao 4.1.4). Assim,
substituindo a informacao observada em (1.13) pela esperada, obtem-se a aproximacao
= K 1 U .
(1.15)
O procedimento iterativo baseado em (1.15) e denominado metodo escore de Fis1
her para parametros, i.e., (m+1) = (m) + K (m) U (m) . O aspecto mais trabalhoso dos
dois esquemas iterativos e a inversao das matrizes J e K. Ambos os procedimentos sao
muitos sensveis em relacao à estimativa inicial (1) . Se o vetor (1) for uma estimativa
consistente, os metodos convergirao em apenas um passo para uma estimativa eficiente
assintoticamente (Secao 4.1.7).
Existe evidencia emprica que o metodo de Fisher e melhor, em termos de convergencia, do que o metodo de Newton-Raphson. Ela possui ainda a vantagem de usufruir
22o Col
atica
15
(atraves da matriz de informacao) de caractersticas especficas ao modelo estatstico.

Ademais, em muitas situacoes, e mais facil determinar a inversa de K em forma fechada
do que a inversa de J, sendo a primeira menos sensvel a variacoes em do que a segunda.
Neste sentido, K pode ser considerada aproximadamente constante em todo o processo
iterativo, requerendo que a inversao seja feita apenas uma vez. Uma vantagem adicional
do metodo escore e que usa-se a matriz K 1 para obter aproximacoes de primeira ordem
para as variancias e covariancias das estimativas 1 , . . . , p como sera visto na Secao 4.1.6.
Exemplo 1.4 No caso da funcao densidade de Cauchy f (y; ) = 1 {1 + (y )2 }1 ,
apresentada na Secao 1.3, mostra-se facilmente que a informac
ao e K = { n2 } e o processo
iterativo (1.14) segue de
(m+1)
(m)
n
4X
y (m)
.
+
n i=1 1 + (yi (m) )2
Exemplo 1.5 A funcao densidade de Weibull W (, ) e dada por
f (y; , ) =
!1
y
exp
! )
com > 0 e > 0. Supondo observac

oes iid, as EMV s
ao expressas por
P
!1
yi log yi
log y
P
i yi
(1.16)
!1/2
= n1
yi
(1.17)
onde y e a media geometrica dos dados. A EMV

e calculada iterativamente de (1.16)
e depois obtem-se de (1.17). A matriz de informac
ao de e e dada por
K=
onde (p) =
R
0
2 /6+0 (2)2
2
0 (2)
(2)
2
2
xp1 ex dx e a func
ao gama e 0 (p) a sua derivada.
16
Introduc
ao `
a Teoria Assint
1.5
Modelos Exponenciais
Suponha que p parametros desconhecidos = (1 , . . . , p )T e p estatsticas (i.e. funcoes

dos dados y) s = (s1 , . . . , sp )T sao tais que a funcao densidade (ou de probabilidade no
caso discreto) de Y = (Y1 , . . . , Yn )T possa ser expressa como
f (y; ) = h(y) exp{sT b()} ,
(1.18)
onde as componentes de s = s(y) sao linearmente independentes. O modelo (1.18) e

denominado modelo exponencial com parametros canonicos 1 , . . . , p e estatsticas suficientes s1 , . . . , sp . Observa-se que (1.18) tem a forma (1.5). O espaco parametrico
consiste de todos os 0 s tais que
h(y) exp(sT )dy < . A quantidade exp{b()}
representa a constante normalizadora de modo a tornar a integral (1.18) igual a 1.

O modelo exponencial (1.18) e de grande interesse pois inclui varias distribuicoes
importantes na analise de dados, tais como, normal, gama, Poisson e binomial, como
casos especiais. Cordeiro, Ferrari, Aubin e Cribari-Neto (1996) listam 24 distribuicoes
importantes no modelo exponencial uniparametrico (p = 1).
Exemplo 1.6 Considere o modelo de regress

ao normal linear Y N (, 2 I), onde =
E(Y ) = X e X e uma matriz n p conhecida, IRp e um vetor de par
ametros
desconhecidos e 2 e a variancia comum desconhecida. A log-verossimilhanca para os
par
ametros = ( T , 2 )T pode ser escrita como
1
n
`(, 2 ) = log 2 2 (y X)T (y X) .
2
2
(1.19)
Maximizando (1.19) obtem-se as EMV = (X T X)1 X T y e

2 = SQR/n, onde
T (yX ).
A forma da log-verossimilhanca para o modelo normal mostra
SQR = (yX )
que a EMV de iguala aquela de mnimos quadrados correspondente `
a minimizacao de
T
(y X) (y X). A forma explcita de implica
T (y X )
+ ( )T X T X( ) .
(y X)T (y X) = (y X )
22o Col
atica
17
Assim, os dados y entram na log-verossimilhanca (1.19) atraves das estimativas e da

soma de quadrados dos resduos SQR. Ent
ao, as estatsticas suficientes para ( T , 2 )T
s
ao (T , SQR)T . Quando 2 e conhecido, e a estatstica suficiente para .
Observe-se que o modelo normal linear pertence `
a famlia exponencial (1.18) pois a
verossimilhanca pode ser expressa por
(
1
1
L() = f (y; ) =
exp y T y 2 + T
n/2
(2)
2

(X T X)1
2
T (X T X)1 n
log 2 ,
2 2
2
)
sendo as estatsticas suficientes (T , y T y). Este exemplo ilustra que a suficiencia e preser
vada segundo transformacao um-a-um, pois y T y = SQR + T (X T X)1 .
A funcao escore e a informacao para o modelo (1.18) sao obtidas de (1.7) e (1.8),
respectivamente, como
U () = s
b()
e K() =
2 b()
.
T
Usando (1.9) verifica-se que o vetor S de estatsticas suficientes tem esperanca E(S) =
b()/. Alem disso, obtem-se de (1.10) a matriz (p p) de covariancia de S como
Cov(S) = 2 b()/T . No exemplo 2.5 (Secao 2.3) mostra-se que b() em (1.18) e
a funcao geradora de cumulantes de S e, portanto, os casos acima se referem aos dois
primeiros cumulantes de S.
A EMV do parametro canonico em modelos exponenciais e solucao da equacao

b()
=s,

ou seja, e obtida igualando E(S) avaliado em ao valor observado s do vetor S de
estatsticas suficientes.
18
1.6
Introduc
ao `
a Teoria Assint
Estimac
ao por Intervalos
Suponha que Y tem funcao densidade ou funcao de probabilidade f (y; ) dependendo

de um parametro real desconhecido. A partir dos dados y constroem-se intervalos de
confianca para atraves de uma quantidade pivotal (t, ) cuja distribuicao pode ser obtida
(pelo menos aproximadamente) nao dependendo de , onde t = t(y) e uma estimativa
pontual razoavel de . Da distribuicao de (t, ) calculam-se os limites a e b tais que
P (a (t, ) b) = 1 ,
(1.20)
onde 1 e uma confiabilidade especificada. Suponha ainda que, para t fixo, (t, )
seja uma funcao monotona de . Entao, observado t, a desigualdade em (1.20) pode ser
invertida para produzir uma regiao de valores de com confiabilidade 1 . Esta regiao
e frequentemente um intervalo do tipo
P {k1 (t) k2 (t)} = 1 ,
(1.21)
onde k1 (t) e k2 (t) sao funcoes de t, a e b mas nao envolvem . O conjunto [k1 (t), k2 (t)]
e um intervalo de 100(1 )% de confianca para . A generalizacao para um vetor
sera feita nas Secoes 4.3 e 4.4. A desigualdade em (1.21) deve ser cuidadosamente
interpretada. Como os limites em (1.21) sao aleatorios, nao se pode interpretar 1
como a probabilidade do parametro verdadeiro 0 estar em algum intervalo observado.
Isto so teria sentido se o parametro desconhecido fosse uma variavel aleatoria e os limites
k1 (t) e k2 (t) constantes. Contrariamente, os intervalos do tipo [k1 (t), k2 (t)] serao em
geral diferentes para amostras diferentes. Alguns deles conterao o valor verdadeiro de
enquanto outros nao. Assim, deve-se interpretar 1 como a freq
uencia esperada
dos casos, numa longa serie de amostras independentes, em que os intervalos [k1 (t), k2 (t)]
conterao 0 .
A distribuicao assintotica N (, K()1 ) da EMV do escalar (Secao 4.1.6) possibilita
1/2 tem
construir um intervalo aproximado para este parametro, supondo que ()K()
1/2 corresponde a um intervalo
distribuicao N (0, 1) aproximadamente. Logo, zK()
aproximado de 100(1)% de confianca para , onde z e tal que (z) = 1/2, sendo ()
22o Col
atica
19
a funcao de distribuicao acumulada da normal reduzida. A informacao observada J()

no calculo deste intervalo. No exemplo 1.2 sobre a distribuicao
podera substituir K()
exponencial pode-se calcular diretamente um intervalo de confianca para o parametro
como z / n.
1.7
Testes de Hip
oteses
A teoria dos testes de hipoteses parametricos e parte integrante da inferencia de verossimilhanca e esta intimamente relacionada à teoria de estimacao. A partir de repeticoes de um
experimento envolvendo um modelo parametrico, o interesse consiste em determinar se
um ou mais parametros pertencem a uma dada regiao do espaco parametrico. Nos testes
parametricos, as hipoteses sao classificadas em simples e compostas. Se uma distribuicao
depende de p parametros e a hipotese especifica valores para d parametros, entao ela e
simples se d = p e composta se d < p. Em termos geometricos, uma hipotese simples
seleciona um u
nico ponto de IRd enquanto uma hipotese composta corresponde a uma
regiao de IRd com mais de um ponto. Nas hipoteses compostas, os parametros adicionais
nao-especificados devem ser estimados.
Admite-se que f (y; ) e a funcao de probabilidade conjunta dos dados y IRn e e
um ponto de IRp . Considere-se uma hipotese nula H : 0 versus uma alternativa
A : 1 (1 = 0 ). Qualquer teste de hipotese divide o espaco amostral (i.e.,
o conjunto de valores possveis do vetor y) em duas regioes mutuamente excludentes: C,
a regiao de rejeicao de H (regiao crtica), e C, a regiao complementar de aceitacao de H.
A decisao de um teste consiste em verificar se o vetor de dados y pertence a C ou a C. Se
a distribuicao de probabilidade dos dados segundo a hipotese nula H e conhecida, pode-se
determinar C tal que, dado H, a probabilidade de rejeita-la (i.e., y C) seja menor ou
igual a um valor pre-especificado tal que
P (y C| 0 ) .
(1.22)
A rejeicao erronea da hipotese nula H, quando ela e verdadeira, e denominada erro

tipo I. Assim, a equacao (1.22) expressa que a probabilidade do erro tipo I ou alarme falso
20
Introduc
ao `
a Teoria Assint
nunca excede (nvel de significancia do teste). O outro tipo de erro que se pode cometer
ao se testar uma hipotese, denominado erro tipo II, e funcao da hipotese alternativa A e
representa a aceitacao erronea da hipotese nula H quando ela e falsa, sua probabilidade
sendo = P (y C| 1 ).
Em geral, pode-se encontrar varias regioes crticas satisfazendo (1.22). Qual delas
deve ser a preferida? Este e o problema crucial da teoria dos testes de hipoteses. Pode-se
escolher uma regiao crtica C tal que ela maximize
1 = P (y C| 1 ) .
A probabilidade 1 , para C fixo, como funcao do vetor especificado na hipotese

alternativa, e denominada funcao poder do teste de H versus A.
1.7.1
Hip
oteses Simples
Se ambas as hipoteses sao simples 0 = {0 } e 1 = {1 }, pode-se demonstrar que

0)
C corresponde ao conjunto de pontos C = {y; L(
k }, onde k e escolhido tal que
L(1 )
R
C
L(0 )dy e L() e a verossimilhanca de . A regiao C e considerada a melhor regiao
crtica (MRC), pois sua funcao poder nao e menor do que aquela de qualquer outra regiao
satisfazendo (1.22). O teste baseado em C e denominado de teste mais poderoso (TMP).
A razao de verossimilhanca L(0 )/L(1 ) e uma estatstica suficiente quando ha apenas
duas distribuicoes em consideracao e, portanto, nada mais natural que obter a MRC
atraves desta razao. Quanto menor for esta razao, pior a consistencia de H aos dados em
questao. Este resultado geral de que a regiao crtica baseada na razao de verossimilhianca
produz o TMP de 0 versus 1 e conhecido como o Lema de Neyman-Pearson.
Quando a alternativa a = 0 e unilateral 1 > 0 (ou 1 < 0 ), o mesmo teste
tambem e otimo para todos os 10 s maiores (menores) do que 0 , sendo denominado de
teste uniformemente mais poderoso (TUMP). Claramente, esta e uma propriedade mais
desejavel. Entretanto, quando a alternativa e bilateral 1 6= 0 em geral nao existe o
TUMP. Para obte-lo, o teste deve estar restrito a certas formas de hipoteses alternativas.
Suponha que existe um vetor S de estatsticas conjuntamente suficientes para um
22o Col
atica
21
vetor de parametros. Comparando-se duas hip

oteses simples relativas a , o teorema
da fatoracao (1.5) implica L(0 )/L(1 ) = g(s, 0 )/g(s, 1 ). Como esperado, se existe a
MRC ela e, necessariamente, funcao dos valores do vetor S segundo H e A. Note-se
que a MRC so tera a forma S a (ou S b ) quando a razao acima for uma funcao
nao-decrescente de s para 0 > 1 . No caso de e s serem escalares, a forma acima
ocorrera quando 2 log g(s, )/s 0. Esta condicao e satisfeita para quase todas as
distribuicoes uniparametricas de probabilidade.
Quando a distribuicao dos dados tem mais de um parametro e o teste e de uma hipotese
simples H versus uma alternativa composta A, uma MRC variando com os parametros
segundo A somente existira em casos especiais. Se existir uma MRC que produza o
TUMP de H versus A e um vetor S de estatsticas conjuntamente suficientes para o
vetor , entao a MRC sera funcao de S. Pode-se provar que, se existir um TUMP de
H versus A satisfazendo determinadas condicoes, entao existira um vetor S suficiente
para . Entretanto, a recproca em geral nao e verdadeira, e a existencia de um vetor de
estatsticas suficientes nao garante a existencia de um TUMP para .
1.7.2
Hip
oteses Compostas
Quando o problema envolve varios parametros, a hipotese nula usualmente e composta.

Mesmo quando a hipotese nula for simples, a funcao poder do teste devera variar com
todos os parametros, e o ideal seria aumenta-la rapidamente em todas as direcoes a partir
do valor 0 especificado na hipotese nula. Entretanto, um sacrifcio de declividade, numa
dada direcao pode aumentar o poder em outra direcao. Este dilema so pode ser resolvido
ponderando a importancia de cada direcao de acordo com suas respectivas conseq
uencias.
Seja T = ( T , T ) IRp o vetor de parametros particionado em duas componentes.
O objetivo e testar a hipotese nula composta H : = (0) versus a hip
otese alternativa
composta A : 6= (0) , onde e sao os vetores de interesse e de perturbacao, respectivamente, com dimensoes q e p q, e (0) e um vetor especificado para . Como a hipotese
H nao define todas as componentes de , o tamanho da regiao crtica deste teste e funcao,
em geral, dos valores nao especificados em . Deve-se, entao, procurar regioes crticas
de tamanhos inferiores a um valor especificado para todos os valores possveis do vetor
22
Introduc
ao `
a Teoria Assint
de perturbacao, ou seja, () . No caso de igualdade para todo , a regiao crtica e

denominada similar para o espaco amostral com respeito a . O teste baseado na regiao
crtica similar e denominado teste similar de tamanho . Em geral, so existem regioes
similares no caso de variaveis aleatorias contnuas iid.
Define-se a funcao caracterstica do conjunto de pontos de uma regiao C por (C) = 1
se y C e (C) = 0 se y 6 C. A esperanca matematica EY {(C)} em relacao a Y
representa a probabilidade que o ponto amostral y pertenca a C e, portanto, e igual ao
tamanho de C quando H e verdadeira e a funcao poder do teste associado a C quando
A e verdadeira. Suponha que S e uma estatstica suficiente para segundo ambas as
facil mostrar que existe um teste de mesmo tamanho que C baseado
hipoteses H e A. E
em alguma funcao de S que tem igual poder daquele teste associado à regiao crtica C.
Isto e uma conseq
uencia imediata do teorema da fatoracao (1.5). Note-se que no caso de
variaveis contnuas EY {(C)} =
(C)L()dy, onde L() e a verossimilhanca de . No
caso discreto, o somatorio substitui a integral. Usando-se (1.5), obtem-se a igualdade,

EY {(C)} = ES [EY {(C)|S}], com o operador ES significando esperanca em relacao à
distribuicao de S. Como S e suficiente para , EY {(C)|S} independe de e tem a mesma
esperanca de (C). Logo, existe um teste baseado em S que tem e coincidentes com
aqueles da regiao crtica original C. Neste sentido, pode-se restringir, sem perda de poder,
a construcao dos testes de hipoteses às funcoes das estatsticas suficientes.
Felizmente, apesar das dificuldades inerentes às hipoteses compostas, existe um
metodo geral para construir regioes crticas em testes de hipoteses compostas, que foi
proposto por Neyman e Pearson em 1928. Este metodo e baseado na razao de verossimilhancas maximizadas segundo ambas hipoteses. No teste de H : = (0) versus
A : 6= (0) com o vetor desconhecido, seja L(, ) a verossimilhanca de e . Se T ) e T = ( (0)T ,
T ) as estimativas de MV de T = ( T , T )
jam ainda T = (T ,
correspondentes à maximizacao de L(, ) segundo A e H, respectivamente. A razao de
verossimilhanca no teste de H versus A e definida por
`R =
L( (0) , )
,
)
L(,
(1.23)
e, portanto, representa o quociente entre os maximos das verossimilhancas condicional à
22o Col
atica
23
= (0) e incondicional. Evidentemente, `R [0, 1]. Note-se que `R e uma estatstica

razoavel para testar a hipotese nula H, pois representa a fracao do maior valor possvel
da verossimilhanca que e consistente com esta hipotese. Valores grandes de `R indicam
que H e razoavel para explicar os dados em questao.
A regiao crtica do teste e, portanto, C = {y; `R k }, onde k e determinado da
distribuicao (exata ou aproximada) g(`) de `R para produzir um teste de tamanho , ou
seja,
R k
0
g(`)d` = . O metodo da razao de verossimilhanca produz regioes crticas simi-
lares quando a distribuicao de `R nao depende de parametros de perturbacao. Em geral,

isso ocorre num grande n
umero de aplicacoes. Como a distribuicao de `R e, em geral,
complicada, utiliza-se uma transformacao conveniente de `R definida por w = 2 log `R
(vide Secao 4.4) que tem, assintoticamente e sob certas condicoes de regularidade, distribuicao 2 com graus de liberdade q igual a dimensao do vetor que esta sendo testado.
A regiao crtica do teste aproximado de H versus A passa a ser C = {y; w 2q ()}, onde
2q () e o ponto crtico da 2q correspondente ao nvel de significancia .
1.8
Exerccios
1. A funcao de probabilidade de Y em serie logartmica e expressa por P (Y = y) =

y /y para 0 < < 1 e y = 1, 2, . . ., onde = {log(1 )}1 . Demonstre que a
EMV de e obtida da equacao
log(1 )}
= y,
/{(1
)
onde y e a media amostral.

2. Suponha uma famlia de densidades indexada por dois parametros 1 e 2 . Demonstre que, se t1 e suficiente para 1 quando 2 e conhecido e t2 e suficiente para 2
quando 1 e conhecido, entao (t1 , t2 ) e suficiente para (1 , 2 ).
3. Suponha a funcao densidade simetrica em (0,1) dada por c()y (1 y) , onde c() e
a inversa da funcao beta. Calcule a EMV de baseada numa amostra de tamanho
n. Qual a sua variancia assintotica?
24
Introduc
ao `
a Teoria Assint
4. Obtenha uma estatstica t de modo que P ( 2 t) = 1 a partir de uma amostra

aleatoria de tamanho n extrada da distribuicao N (, 2 ).
5. Considere a funcao densidade da distribuicao gama
f (y; , ) = y 1 ey /() ,
=y
onde > 0 e > 0. Mostre que as EMV
e no caso iid sao calculadas de /
e
= log(y/
log ()
y) ,
onde y e y sao as medias aritmetica e geometrica dos dados e (x) = d log (x)/dx
e a funcao digama.
6. Uma distribuicao multinomial tem 4 classes de probabilidades (1 )/6, (1 + )/6,
(2 )/6 e (2 + )/6. Em 1200 ensaios as freq
uencias observadas nestas classes
foram 155, 232, 378 e 435, respectivamente. Calcule a EMV de e o seu erro
padrao aproximado.
7. Demonstre que a forma mais geral para uma distribuicao com parametro escalar
cuja EMV iguala a media aritmetica y dos dados e (y; ) = exp{a() + a0 ()(y
) + c(y)}. Assim, y e suficiente para . Interprete a(). Mostre ainda que se e
um parametro de locacao, (y; ) e a funcao densidade da distribuicao normal de
media , e se e um parametro de escala, (y; ) = 1 exp(y/). Quais seriam
as formas da distribuicao se no lugar da media aritmetica fossem consideradas as
medias geometrica e harmonica?
8. Sejam y1 , . . . , yn variaveis aleatorias idd com funcao densidade (y; ). Seja t =
t(y1 , . . . , yn ) uma estatstica suficiente unidimensional para . Se 1 e 2 sao dois
valores fixados de demonstre que, para todo ,
(
(y; )
log
y
(y; 1 )
e funcao somente de .
),
(y; 2 )
log
y
(y; 1 )
22o Col
atica
25
9. Sejam y1 , . . . , yn uma amostra aleatoria de uma distribuicao cuja funcao densidade

e
f (y; ) = ( + 1)y ,
y (0, 1)
n
e > 0. (a) Demonstre que a EMV de e = log
1; (b) Calcule um intervalo
yi
de 95% de confianca para .

10. Mostre que as seguintes distribuicoes sao modelos exponenciais da forma (1.18) com
p = 1 ou p = 2: Poisson, binomial, geometrica, gama (ndice conhecido), gama
(ndice desconhecido), Gaussiana inversa e valor extremo. Identifique em cada caso
as estatsticas suficientes e os parametros canonicos.
11. Sejam y1 , . . . , yn observacoes iid de um modelo de locacao e escala definido por
1
y
.
f (y; , ) = f
(a) Mostre como obter as EMV de e ;

(b) Calcule a matriz de informacao para esses parametros.
12. A funcao densidade da distribuicao normal inversa com parametros > 0 e > 0 e
s
f (y; , ) =
1
3/2
exp (y 1 + y)
e y
2
2

(a) Mostre como obter as EMV de e ;

(b) Calcule a matriz de informacao para esses parametros.
26
Introduc
ao `
a Teoria Assint
Captulo 2
M
etodos Assint
oticos
2.1
Conceitos B
asicos
O objetivo deste captulo e apresentar sistematicamente alguns metodos assintoticos

u
teis em Probabilidade Aplicada e Estatstica. O interesse principal e resumir algumas
ideias basicas importantes em teoria assintotica e ilustra-las com aplicacoes. Os detalhes
matematicos sao excludos e, quando muito, sao fornecidas apenas algumas referencias
e/ou estrategias de demonstracao dos resultados. As nocoes apresentadas neste captulo
formam a base necessaria para se entender os demais captulos deste livro. As secoes
seguintes exigem que o leitor esteja familiarizado com os conceitos de probabilidade dados aqui. Seja {Yn } uma seq
uencia de variaveis aleatorias de interesse definida para n
grande. Aqui n nao representa necessariamente o tamanho da amostra. Apresentam-se
inicialmente os quatro modos mais importantes de convergencia estocastica.
Converg
encia em Probabilidade
A seq
uencia {Yn } converge em probabilidade para uma variavel aleatoria Y (que pode ser
degenerada) se n
lim P (|Yn Y | < ) = 1 para todo real > 0. Indica-se esta convergencia
P
por Yn Y . Esta convergencia implica, para n suficientemente grande, que Yn e

Y sao aproximadamente iguais com probabilidade proxima de 1. O caso especial mais
P
importante e quando Yn k, onde k e uma constante. Se h(u) e uma funcao contnua

P
em u = k, entao Yn k implica h(Yn ) h(k). A nocao associada em inferencia

27
28
Introduc
ao `
a Teoria Assint
estatstica e aquela de consistencia na estimacao de parametros.

Se {Yn } e uma seq
uencia de variaveis aleatorias tal que E(Yn ) k e Var(Yn ) 0
P
quando n , entao Yn k. Entretanto, se Var(Yn ) 6 0, nao se pode tirar

P
qualquer conclusao sobre o comportamento de {Yn }. Por exemplo, E(Yn ) k e Yn

k 0 6= k.
Converg
encia Quase-Certa
Uma seq
uencia de variaveis aleatorias {Yn } converge quase-certamente
(ou converge com

probabilidade um) para uma variavel aleatoria Y se P n
lim Yn = Y = 1. Indica-se esta
q.c.
convergencia por Yn Y .
Converg
encia em M
edia
Uma seq
uencia de variaveis aleatorias {Yn } converge em media de ordem r para Y se
L
r
lim E(|Yn Y |r ) = 0. Usa-se a notacao Yn
Y para indicar este tipo de convergencia.
Quanto maior o valor de r mais restritiva e esta condicao de convergencia. Assim, se

L
s
r
Y para 0 < s < r.
Y , entao Yn
Yn
Este modo de convergencia estocastica admite um criterio de convergencia. Uma

L
r
condicao necessaria e suficiente para Yn
Y e que para todo > 0 exista um n
umero
n0 = n0 () tal que |Yn Ym |r para quaisquer m, n n0 .

As definicoes de convergencia em probabilidade e convergencia quase-certa valem para
qualquer seq
uencia de variaveis aleatorias. Entretanto, a convergencia em media nao vale
para qualquer seq
uencia, pois requer a existencia de certos momentos.
Converg
encia em Distribui
c
ao
Uma seq
uencia de variaveis aleatorias {Yn } converge em distribuicao para Y se
lim P (Yn y) = F (y) para todo ponto y de continuidade da funcao de distribuicao
(nao-degenerada) F de Y . Para indicar esta convergencia usa-se a notacao Yn Y .

Se F e uma funcao de distribuicao degenerada no ponto k, entao P (Yn y) 0 ou
22o Col
atica
29
D
1 dependendo se y < k ou y k. Se h(u) e uma funcao contnua e Yn Y , entao

D
h(Yn ) h(Y ).
Dentre as quatro formas de convergencia definidas acima, a convergencia em distribuicao e a mais fraca. Pode-se demonstrar (vide, por exemplo, Wilks, 1962, Captulo
4, e Serfling, 1980, Captulo 1) que:
(a) Convergencia quase-certa implica convergencia em probabilidade;
(b) Convergencia em media implica convergencia em probabilidade;
(c) Convergencia em probabilidade implica convergencia em distribuicao.
As recprocas das proposicoes (a) - (c) nao sao, em geral, verdadeiras;
D
(d) Se Y e uma variavel aleatoria degenerada em um ponto k e Yn Y ,

P
entao Yn k;
(e) Se
q.c.
P (|Yn Y |) > ) < para todo > 0, entao Yn Y ;
n=1
(f) Se
q.c.
E(|Yn Y |r ) < , entao Yn Y ;
n=1
D
(g) Yn Y 6 lim E(Yn ) = E(Y );

n
(h) Yn Y 6 lim E(Yn ) = E(Y );

n
r
(i) Se Yn
Y , entao lim E(|Yn |k ) = E(|Y |k ) para k r.
Um caso especial importante de (i) corresponde a r = 2. Se n

lim E(|Yn Y |2 ) = 0,
entao lim E(Yn ) = E(Y ) e lim E(Yn2 ) = E(Y 2 );
n
q.c.
(j) Se Yn Y , entao existe uma subseq

uencia {Ynj } de {Yn } tal que Ynj Y ;
P
(l) Yn Y se e somente se toda subseq

uencia {Ynj } de {Yn } contem uma subseq
uencia
que converge quase certamente para Y .
As convergencias em probabilidade e quase-certa nao implicam convergencia em
media. A convergencia em distribuicao tambem nao implica convergencia de momentos e nem mesmo a existencia deles. Pode-se comprovar este fato supondo que Yn tem
30
Introduc
ao `
a Teoria Assint
funcao densidade
fn (y) = (1 en )(y) + en {(1 + y 2 )}1 ,
onde (y) e a funcao densidade da normal reduzida. Assim, fn (y) e uma combinacao
linear das funcoes densidades das distribuicoes normal e Cauchy e converge rapidamente
em distribuicao para a normal reduzida, mesmo sem seus momentos existirem.
As quatro formas de convergencia apresentadas aqui podem ser ilustradas no experimento de infinitos ensaios de Bernoulli independentes. Seja Yn a proporcao de sucessos
nas n repeticoes de Bernoulli independentes, cada uma com probabilidade de sucesso p
constante. Tem-se:
P
Yn p,
q.c.
Yn p,
n(Yn p) D
n(Yn p) P
N
(0,
1),
0,
{p(1 p)}1/2
(log log n)
n(Yn p) q.c.
L2
6 0 e Yn
p.
1/2
(log log n)
Ordens de Magnitude
Os smbolos o() (de ordem menor que) e O() (de ordem no maximo igual a) sao
usados para comparar as ordens de magnitude de seq
uencias de constantes {bn }, {cn }.
Escreve-se bn = o(cn ) se
bn
cn
0 quando n e bn = O(cn ) se a razao bn /cn e
limitada quando n . Assim, supondo n suficientemente grande, bn = o(cn ) implica

que a ordem de magnitude de {bn } e menor que a de {cn }, enquanto que bn = O(cn )
significa que a ordem de magnitude de {bn } e no maximo igual à ordem de {cn }. Neste
termos, bn = o(n1 ) implica que bn n 0 quando n , enquanto bn = O(n1 )
significa que bn k/n para alguma constante k quando n e suficientemente grande.
As ordens de magnitude acima sao trivialmente generalizadas para variaveis aleatorias.
Diz-se que Yn = op (bn ) se
Yn
bn
0. Em especial, Yn k e equivalente a Yn = k + op (1).
Por outro lado, diz-se que Yn = Op (cn ) se a seq

uencia { Ycnn } e limitada em probabilidade
para n suficientemente grande. Mais explicitamente, se Yn = Op (cn ) entao, para todo
> 0, existem constantes k e n0 = n0 () tais que P (|Yn | < cn k ) > 1 quando n n0 .
D
Adicionalmente, se Yn Y , entao Yn = Op (1).
22o Col
atica
31
Um caso especial importante e quando Var(Yn )
v
n
se n > n0 para algum v > 0
finito. Entao, Yn = E(Yn ) + Op (n1/2 ). Se, alem disso, E(Yn ) = + O(n1/2 ) obtem-se o
resultado Yn = + Op (n1/2 ), que especifica a taxa de convergencia em probabilidade de
Yn para .
Mais genericamente, para duas seq
uencias {Yn } e {Xn } de variaveis aleatorias, a
P
notacao Yn = op (Xn ) significa que Yn /Xn 0, enquanto Yn = Op (Xn ) significa que a

seq
uencia {Yn /Xn } e Op (1).
facil verificar que as ordens de magnitude o, O, op e Op satisfazem igualdades tais
E
como: O(na )O(nb ) = O(nab ), Op (na )O(nb ) = Op (nab ), Op (na )op (nb ) =
op (nab ), op (na )O(nb ) = op (nab ), etc.
Normalidade Assint
otica
A seq
uencia {Yn } e assintoticamente normal se existem seq
uencias de constantes
D
{an }, {bn } tais que (Yn an )/bn Z, onde Z tem distribuicao normal reduzida
(Z N (0, 1)). As constantes an , bn sao denominadas media e desvio padrao assintoticos
de Yn , respectivamente. Nao ha conexao direta entre as constantes an , bn e a media e o
desvio padrao de Yn , embora estas constantes representem realmente em varios casos bem
comportados, a media e o desvio padrao de Yn , respectivamente. Por exemplo, a variavel
qui-quadrado padronizada (2n n)/ 2n e assintoticamente normal. O grande interesse

em obter a distribuicao normal assintotica e aproximar os quantis da distribuicao de Yn
por aqueles da distribuicao N (an , b2n ) (vide Secao 3.3).
Embora a normalidade assintotica seja uma caracterstica freq
uente e desejavel na
pratica, existem definicoes similares que se aplicam à convergencia para outras distribuicoes, tais como exponencial, qui-quadrado, Poisson e valor extremo.
Desigualdade de Bienaym
e-Chebyshev
possvel, a partir destes
Seja Y uma variavel aleatoria de media e variancia finitas. E
momentos, calcular alguns limites de probabilidade na variabilidade de Y . A desigualdade
32
Introduc
ao `
a Teoria Assint
de Bienayme-Chebyshev e expressa (para todo > 0) como

P (|Y E(Y )| Var(Y )1/2 ) 2 .
Se Y e uma soma de n variaveis aleatorias iid, o teorema central do limite (Secao 2.5)
mostra que a probabilidade acima tende para 2() quando n , onde () e a
funcao de distribuicao acumulada (fda) da distribuicao normal N (0, 1).
2.2
Func
ao Caracterstica
A funcao caracterstica de uma variavel aleatoria Y tendo funcao de distribuicao F (y) e

definida por
itY
(t) = E(e
)=
eity dF (y),
(2.1)
onde i =
1 e t IR. Sejam dois exemplos: para a distribuicao de Poisson P ()
de parametro , (t) = exp{(eit 1)}, e para a distribuicao normal N (, 2 ), (t) =

exp(it t2 2 /2).
Supondo certas condicoes gerais, a funcao caracterstica determina completamente a
funcao de distribuicao. Este fato permite determinar resultados de grande interesse na teoria assintotica. Em in
umeras situacoes envolvendo funcoes lineares de variaveis aleatorias
independentes, o uso da funcao caracterstica possibilita determinar a distribuicao da
funcao linear em consideracao (vide Secao 2.4).
Se o r-esimo momento 0r de Y existe, (t) pode ser diferenciada k vezes (0 < k r)
em relacao a t e tem-se
0k =
(k) (0)
,
ik
0 k r,
com (0) (t) = (t). Assim, (t) pode ser expandida na vizinhanca de t = 0 como
(t) = 1 +
r
X
k=1
0k
(it)k
+ o(tr ) .
k!
(2.2)
22o Col
atica
33
O logaritmo de (t) tambem apresenta uma expansao similar à expansao de (t)

log (t) =
r
X
k=1
(it)k
+ o(tr ) ,
k!
onde os coeficientes k (k = 1, 2, . . .) sao denominados de cumulantes. Evidentemente,

1 dk log (t)
|t=0 para 0 < k
ik
d tk
0
0
0
1 , . . . , k e k e um polinomio
k =
r. Na Secao 2.3, mostra-se que k e um polinomio em

em 1 , . . . , k .
Define-se a transformacao linear Z = aY + b e sejam Y (t) e Z (t) as funcoes caractersticas de Y e Z. Mostra-se, facilmente, que
Z (t) = eibt Y (at) .
Em especial, se Z e uma variavel aleatoria padronizada, isto e, Z = (Y )/ onde

= E(Y ) e = Var(Y )1/2 , vem

Z (t) = exp
it
Y

Quando Z = Y + b, Z (t) = ebit Y (t) e, entao, log Z (t) = bit + log Y (t). Logo,
uma translacao da variavel aleatoria Y altera somente o coeficiente de it na expansao
de log Z (t), ou seja, os primeiros cumulantes de Z e Y estao relacionados por 1 (Z) =
1 (Y ) + b, mas os demais cumulantes de Z e Y sao iguais r (Z) = r (Y ) para r 2.
Por causa desta semi-invariancia por translacao, os cumulantes sao tambem chamados de
semi-invariantes.
Exemplo 2.1 Suponha que Y tem distribuic
ao gama (Y G(p, )) com par
ametros p e
, ambos n
umeros reais positivos. A func
ao densidade de Y e dada por
f (y) = p y p1 ey /(p) ,
onde (p) =
R
0
xp1 ex dx e a func
ao gama definida para x real ou complexo. A funcao
caracterstica segue de
(t) =
p Z y(+it) p1
e
y dy .
(p) 0
34
Introduc
ao `
a Teoria Assint
A substituicao z = y( it) implica

Z
p
(t) =
ez z p1 dz
p
(p)( it) 0
e, finalmente, (t) = (1 it )p . Assim,

(t) = 1 +
p
p(p + 1) (it)2
it +
+ ,
2
2!
produz os momentos 01 = p/, 02 = p(p + 1)/2 , 03 = p(p + 1)(p + 2)/3 , etc. Os cumulantes s
ao diretamente obtidos de log (t). O k-esimo cumulante k de Y e o coeficiente
de (it)k /k! em p log(1 it ) e, portanto, k = (k 1)!pk , k = 1, 2, . . .
Conhecendo a funcao de distribuicao F (y), a funcao caracterstica pode ser obtida de
(2.1). A recproca tambem e verdadeira e a funcao caracterstica determina univocamente
a funcao de distribuicao. Em muitos problemas de inferencia estatstica e mais facil calcular a funcao caracterstica do que a correspondente funcao de distribuicao. O problema
que surge e como calcular a funcao de distribuicao a partir da funcao caracterstica. A
resposta segue da formula de invers
ao.
Assim, dado (t), a correspondente funcao de distribuicao F (y) e obtida de
1 Z + 1 eity
(t)dt ,
F (y) F (0) =
2
it
suposta contnua em y e 0. Adicionalmente, se
R +
(2.3)
|(t)|dt < , a funcao caracterstica
determina univocamente a funcao densidade f (y) =
dF (y)
dy
de uma distribuicao contnua
por
1 Z + ity
e (t)dt .
(2.4)
2
A demonstracao de (2.3) e (2.4) pode ser encontrada em Wilks (1962, p.116), Fisz (1963,
f (y) =
p.116) e Rao (1973, p.104). Comparando as formulas (2.1) e (2.4) pode ser constatado
o tipo de relacao recproca entre f (y) e (t). Apresentam-se agora dois exemplos de
determinacao da funcao densidade a partir da funcao caracterstica.
Exemplo 2.2 Obtem-se aqui a func
ao densidade correspondente `
a func
ao caracterstica
22o Col
atica
2 /2
(t) = et
35
. Da equacao (2.4) vem

1 Z + ity t2 /2
f (y) =
e e
dt
2
(
)
(
)
(t + iy)2
(iy)2
1 Z +
exp
exp
dt
=
2
2
2
1
y2
= exp
2
2
e, finalmente, f (y) =
2
1 ey /2 ,
2
(
)
1 Z +
(t + iy)2
exp
dt
2
2
que e a func
ao densidade da distribuic
ao normal reduzida.
Exemplo 2.3 Deseja-se calcular a func

ao densidade correspondente `
a func
ao caracterstica (t) = e|t| . De (2.4) vem
1 Z + ity |t|
f (y) =
e e dy
2
e, por simetria,
f (y) =
Z
0
Logo, f (y) =
et cos(ty) dt = et cos(ty) y
1
,
(1+y 2 )
et sen(ty) dt = 1 y 2 f (y) .
y IR, que e a func

ao de Cauchy.
A equacao (2.3) contem F (0) e a determinacao desta quantidade pode ser evitada
usando a formula de inversao alternativa
F (y) =
1
1 Z ity
dt
+
{e (t) eity (t)} .
2 2 0
it
No caso de distribuicoes discretas nos inteiros nao negativos, a formula correspondente à

equacao (2.4) e
P (Y = y) =
1 Z ity
e (t)dt,
2
com alteracao apenas nos limites de integracao.

Como a funcao caracterstica determina univocamente a funcao de distribuicao, o
problema de convergencia em probabilidade de uma seq
uencia de variaveis aleatorias
36
Introduc
ao `
a Teoria Assint
pode ser resolvido atraves da convergencia da seq

uencia correspondente de funcoes caractersticas. Este princpio fundamental, de grande interesse na teoria assintotica, e
conhecido como o teorema da continuidade (Levy, 1937; Cramer, 1937), descrito abaixo.
Teorema da Continuidade
Seja {Yn } uma seq
uencia de variaveis aleatorias tendo funcoes de distribuicao F1 , F2 , . . . e
com funcoes caractersticas correspondentes 1 , 2 , . . . Se n converge pontualmente para
um limite e se e contnua no ponto zero, entao existe uma funcao de distribuicao F
D
de uma variavel aleatoria Y tal que Yn Y , sendo a funcao caracterstica de Y .

Da definicao de convergencia em distribuicao de uma seq
uencia {Yn } de variaveis
D
aleatorias, i.e., Yn Y , usa-se tambem uma notacao equivalente Fn F para as

funcoes de distribuicao de Yn e Y .
Corol
ario
Supondo que as funcoes de distribuicao F, F1 , F2 , . . . tem funcoes caractersticas correspondentes , 1 , 2 , . . . , entao as seguintes proposicoes sao equivalentes:
i) Fn F ;
ii) lim n (t) = (t), para qualquer t IR, e (t) sendo contnua em t = 0;
n
iii) lim
gdFn =
gdF , sendo g uma funcao contnua limitada, i.e., |g| < c para
algum c IR.
Se Fn F , e F e contnua, entao a convergencia e uniforme, ou seja, n
lim sup |Fn (x)
x
F | = 0.
2.3
Momentos e Cumulantes
As funcoes geratrizes de momentos (f gm) e de cumulantes (f gc) de Y sao definidas por

M (t) = E(etY ) e K(t) = log M (t), respectivamente. Observe-se que a funcao caracterstica (t) e expressa diretamente pela f gm M (t) atraves de (t) = M (it). Quando a
f gm nao converge para t real num intervalo contendo a origem, trabalha-se geralmente
22o Col
atica
37
com a funcao caracterstica, que existe sempre para t real e determina univocamente a
distribuicao. Evidentemente, M (t) e K(t) tem a mesma propriedade geradora de momentos e cumulantes que (t) e log (t), respectivamente. Com efeito, 0r = M (r) (0) e
r = K (r) (0), onde o sobrescrito (r) indica a r-esima derivada em relacao a t.
Exemplo 2.4 Para a distribuicao normal N (, 2 ) obtem-se, facilmente,
1
M (t) = exp t + t2 2
2

e, ent
ao, K(t) = t + 12 2 t2 , de modo que 1 = , 2 = 2 e r = 0 para r 3. Como
todos os cumulantes da normal, acima de segunda ordem, s
ao nulos, a proximidade de
uma distribuicao pela distribuicao normal pode ser determinada pelas magnitudes de seus
cumulantes. Este fato revela a import
ancia dos cumulantes na teoria assint
otica.
Exemplo 2.5 Suponha que Y tem func
ao densidade na famlia exponencial
f (y) = exp{y b() + a(y)}, y IRY .
(2.5)
A condicao de normalizacao
Z
IRY
exp{y b() + a(y)}dy = 1
implica para todo

M (t) =
exp{yt + y b() + a(y)}dy
e, ent
ao, a fgm de Y e dada por
M (t) = exp{b( + t) b()} .
A fgc de Y segue como K(t) = log M (t) = b(+t)b(). Logo, o r-esimo cumulante de Y
e dado por r = K (r) (0) = b(r) (). Assim, a func
ao b() na famlia exponencial (2.5) gera
os cumulantes de Y . A funcao b() est
a relacionada diretamente `
a log-verossimilhanca de
e este fato representa uma das maiores motivac
oes para o uso de cumulantes na teoria
assint
otica.
38
Introduc
ao `
a Teoria Assint
Seja Y uma variavel aleatoria e Z = aY + b uma transformacao linear de Y . E

facil verificar que os r-esimos cumulantes de Z (r (Z)) e Y (r (Y )) sao expressos por
r/2
r (Z) = ar r (Y ). Assim, os cumulantes padronizados de Z e Y definidos por r = r /2
sao iguais, i.e., r (Z) = r (Y ). Logo, os cumulantes padronizados de variaveis aleatorias

sao invariantes segundo transformacoes lineares. Os momentos tem uma vantagem sobre
os cumulantes devido à interpretacao (fsica e geometrica) simples. Entretanto, os cumulantes na teoria assintotica sao de maior interesse que os momentos, principalmente
porque se anulam para a distribuicao normal e, com uma simples padronizacao, se tornam
invariantes segundo transformacoes lineares. Mostra-se, a seguir, que o conhecimento de
momentos e de cumulantes ate uma dada ordem sao equivalentes.
A funcao geratriz de momentos M (t) pode ser representada pela expansao
M (t) = 1 +
0k
tk
,
k!
(2.6)
suposta convergente para todo |t| suficientemente pequeno. A soma ilimitada em (2.6)
pode ser divergente para todo real |t| > 0 porque alguns dos momentos de ordem superior
sao infinitos ou porque os momentos, embora finitos, aumentam rapidamente, forcando
a divergencia. Neste caso, trabalha-se com expansoes finitas ate um certo n
umero de
termos, especificando a ordem do erro como funcao do tamanho da amostra n ou de
alguma quantidade relacionada a n.
A funcao geratriz de cumulantes e expandida como
K(t) =
X
k
tk
.
k!
(2.7)
Das equacoes (2.6) e (2.7) vem

exp
X
k
tk
k
k!
=1+
X
k
0k
tk
.
k!
Expandindo em serie de Taylor a funcao exponencial anterior e igualando os coeficientes de mesma potencia em t, expressam-se os momentos em termos dos cumulantes
22o Col
atica
39
de mesma ordem e de ordem inferior. Os seis primeiros momentos sao:

01 = 1 , 02 = 2 + 21 , 03 = 3 + 32 1 + 31 , 04 = 4 + 43 1 + 322 + 62 21 + 41 ,
05 = 5 + 54 1 + 103 2 + 103 21 + 1522 1 + 102 31 + 51 , 06 = 6 + 65 1 + 154 2
+154 21 + 1023 + 603 2 1 + 203 31 + 1532 + 4522 21 + 152 41 + 61 .
A inversao das equacoes acima pode ser obtida diretamente destas formulas ou, mais
facilmente, expandindo o logaritmo abaixo em serie de Taylor
X
tk
tk
0k
k = log 1 +
k!
k!
k
(
X
k
e igualando os coeficientes de mesma potencia em t. Encontram-se,

0
0 0
03
0
0 0
02
0 02
1 = 01 , 2 = 02 02
1 , 3 = 3 32 1 + 21 , 4 = 4 43 1 32 + 122 1
0
0 0
0 0
0 02
02 0
0 03
05
604
1 , 5 = 5 54 1 103 2 + 203 1 + 302 1 602 1 + 241 ,
02
0 0 0
0 03
03
6 = 06 605 01 1504 02 + 3004 02
1 103 + 1203 2 1 1203 1 + 302
02
0 04
06
27002
2 1 + 3602 1 1201 .
Assim, existe uma relacao biunvoca entre momentos e cumulantes. Entretanto, os

cumulantes oferecem mais vantagens em termos estatsticos do que os momentos. Entre estas vantagens, citam-se: (a) muitos calculos estatsticos usando cumulantes sao
mais faceis do que os calculos correspondentes atraves de momentos; (b) para variaveis
aleatorias independentes, os cumulantes de uma soma sao, simplesmente, somas dos cumulantes das variaveis individuais; (c) series do tipo Edgeworth para aproximar densidades
e distribuicoes (vide Secao 3.3) e logaritmos de densidades sao expressas de forma mais
conveniente via cumulantes ao inves de momentos; (d) os cumulantes de in
umeras distribuicoes podem ter ordens pre-estabelecidas, o que nao ocorre com os momentos; (e)
considerando a aproximacao normal (vide Secoes 3.3 e 3.10), os cumulantes (mas nao os
momentos) de ordem superior a um valor especificado podem, usualmente, ser ignorados,
pois tendem a zero mais rapidamente que os demais quando o tamanho da amostra cresce.
Alem destas vantagens, os cumulantes tem interpretacao simples. Os dois primeiros
cumulantes sao o valor medio e a variancia da variavel Y em consideracao. O terceiro
40
Introduc
ao `
a Teoria Assint
cumulante e uma medida de assimetria da distribuicao de Y no sentido de que 3 e zero

quando Y e distribuda simetricamente. Entretanto, 3 = 0 nao e uma condicao suficiente para Y ter distribuicao simetrica. Para termos simetria a distribuicao deve ser
univocamente determinada pelos seus cumulantes e todos os cumulantes de ordem mpar
devem se anular. O quarto cumulante e uma medida de curtose da distribuicao de Y . Os
cumulantes de ordem superior a quatro podem ser interpretados como medidas de naonormalidade, pois eles se anulam quando Y tem distribuicao normal. Na teoria assintotica
r/2
os cumulantes padronizados r = r /2 , para r = 1, 2, . . ., sao mais importantes, principalmente 3 e 4 , por causa da invariancia segundo transformacao linear e por terem
ordens pre-estabelecidas.
Em muitas situacoes e mais facil trabalhar com momentos centrais (r ) do que com
momentos ordinarios (0r ). Existem relacoes simples de recorrencia entre esses momentos.
Tem-se r = E{(Y 01 )r } e desenvolvendo o binomio vem:
r =
r
X
r
k=0
0rk (01 )k .
Analogamente,
0r
r
X
r
k=0
rk 0k
1 .
Em especial, relacoes entre cumulantes e momentos centrais sao bem mais simples do que
entre cumulantes e momentos ordinarios. As seis primeiras sao:
1 = 0, 2 = 2 , 3 = 3 , 4 = 4 + 322 , 5 = 5 + 102 3 ,
6 = 6 + 152 4 + 1023 + 1532
e
2 = 2 , 3 = 3 , 4 = 4 322 , 5 = 5 102 3 ,
6 = 6 152 4 1023 + 3032 .
Exemplo 2.6 Suponha que Y tem distribuic
ao binomial B(n, p) com par
ametros n e p.
Tem-se M (t) = (1 p + pet )n , K(t) = n log(1 p + pet ) e (t) = M (it) = (1 p + peit )n .
Calculam-se, facilmente, 1 = 01 = np, 2 = 2 = np(1 p), 3 = 3 = np(1 p)(1
2p), 4 = 3n2 p2 (1 p)2 + np(1 p)(1 6p + 6p2 ) e 4 = np(1 p)(1 6p + 6p2 ).
22o Col
atica
41
3/2
Assim, os cumulantes padronizados 3 = 3 /k2

1 2p
3 = q
np(1 p)
ao
e 4 = 4 /22 de Y s
4 =
1 6p + 6p2
.
np(1 p)
Note-se que 3 e 4 0 quando n . Este resultado est

a de acordo com o teorema
de DeMoivre-Laplace (Secao 2.5) que mostra que a distribuic
ao binomial padronizada
tende para a distribuicao normal quando n .
Na Secao 2.2 mostrou-se que os momentos de uma variavel aleatoria, se existirem,
podem ser calculados derivando a funcao caracterstica e que, tambem, a funcao caracterstica determina a distribuicao. Entretanto, isto nao implica que o conhecimento dos
momentos determine completamente a distribuicao, mesmo quando os momentos de todas
as ordens existem. Somente segundo certas condicoes, que felizmente sao satisfeitas para
as distribuicoes comumente usadas na teoria assintotica, e que um conjunto de momentos
determina univocamente a distribuicao. Em termos praticos, o conhecimento de momentos, quando todos eles existem, e em geral equivalente ao conhecimento da distribuicao,
no sentido de que e possvel expressar todas as propriedades da distribuicao em termos
de momentos.
Em algumas situacoes, os momentos sao mais facilmente obtidos atraves de outros
metodos que nao o de derivar (t) ou M (t). Uma pergunta pertinente e: Quais as
condicoes para que uma seq
uencia de momentos 01 , 02 , . . . de uma variavel aleatoria Y
determine univocamente a funcao de distribuicao de Y ? Uma condicao suficiente devida
a Cramer (1946) e a seguinte. Seja F (y) uma funcao de distribuicao cujos momentos
X
0k tk
0k , k = 1, 2, . . ., sao todos finitos. Se a serie
e absolutamente convergente para
k=0 k!
algum t > 0, entao F (y) e a u
nica funcao de distribuicao cujos momentos correspondentes
sao iguais a 0k , k = 1, 2, . . .
No caso da variavel aleatoria ser limitada, i.e., se existirem n
umeros a e b finitos (a < b)
tais que F (a) = 0 e F (b) = 1, entao sua funcao de distribuicao F (y) e univocamente
determinada pelos momentos 0k , k = 1, 2, . . ., desde que todos eles existam.
Uma dificuldade que surge no calculo de momentos e cumulantes para demonstrar resultados de natureza generica em teoria assintotica e que o conjunto infinito de momentos
42
Introduc
ao `
a Teoria Assint
(ou cumulantes), pode nao ser suficiente para determinar a distribuicao univocamente.
Por exemplo, Feller (1971, Secao VII.3) apresenta um par de funcoes densidades distintas
produzindo momentos identicos de todas as ordens. A nao-unicidade ocorre quando a
funcao M (t) nao e analtica na origem. Em um grande n
umero de problemas, pode-se
evitar a nao-unicidade incluindo a condicao de que a expansao (2.6) seja convergente para
|t| < , onde > 0.
Finalmente, suponha que {Yn } e uma seq
uencia de variaveis aleatorias com funcoes de
distribuicao F1 , F2 , . . . e cujas seq
uencias de momentos sao conhecidas. Seja 0rn o r-esimo
momento de Yn , suposto finito para quaisquer n e r. Apresenta-se, agora, um criterio
D
simples baseado em momentos para determinar se Yn Y . Suponha que n

lim 0r,n = 0r ,
onde 0r e finito para todo r. Se Fn F , entao 00 , 01 , 02 , . . . e a seq
uencia de momentos
correspondente a F . Em sentido inverso, se 00 , 01 , 02 , . . . determina univocamente a
distribuicao F (y), entao Fn F . A demonstracao deste resultado pode ser encontrada
em Kendall e Rao (1950).
2.4
Somas de Vari
aveis Aleat
orias Independentes
O calculo de distribuicoes assintoticas de somas de variaveis aleatorias independentes e

muito freq
uente em inferencia estatstica. Esta secao trata de algumas propriedades das
somas de variaveis aleatorias independentes supondo um n
umero n finito dessas variaveis.
Na Secao 2.5 e no Captulo 3 consideram-se propriedades das somas quando n .
Sejam Y1 , . . . , Yn variaveis aleatorias iid, copias de uma variavel aleatoria Y . Seja
Sn =
n
X
Yi a soma das n variaveis supondo que todos os momentos de Y existem e que
i=1
E(Y ) = e Var(Y ) = 2 . Tem-se E(Sn ) = n e Var(Sn ) = n 2 .

Em calculos estatsticos e comum padronizar a variavel aleatoria de interesse de modo
que uma distribuicao limite nao-degenerada seja obtida quando n . Em geral,
padroniza-se a nova variavel de modo que ela tenha, exatamente ou aproximadamente,
media zero e variancia constante, ou mesmo unitaria. Assim, obtem-se a soma padronizada
Sn = (Sn n)/( n), que satisfaz E(Sn ) = 0 e Var(Sn ) = 1.
22o Col
atica
43
A fgm MSn (t) de Sn e calculada a partir da fgm MY (t) de Y atraves de

MSn (t) = E(et Sn ) =
n
Y
E(et Yi ) = MY (t)n
i=1
e, portanto, a fgc KSn (t) e simplesmente um m

ultiplo da fgc KY (t)
KSn (t) = n KY (t) .
(2.8)
Logo, os cumulantes de Sn sao simplesmente iguais a n vezes os respectivos cumulantes

de Y , ou seja,
r (Sn ) = n r (Y )
(2.9)
para r 1. A equacao (2.9) apresenta um forte motivo para se trabalhar com cumulantes
no contexto de somas de variaveis aleatorias iid. Da equacao (2.9) obtem-se os cumulantes
padronizados de Sn como
3 (Y )
4 (Y )
r (Y )
3 (Sn ) = , 4 (Sn ) =
, r (Sn ) = r/21
n
n
n
e, assim, estes cumulantes decrescem em potencias de 1/ n. Este fato tambem e muito

importante no desenvolvimento das expansoes de Edgeworth apresentadas na Secao 3.3.
Os cumulantes padronizados de Sn sao iguais aos correspondentes cumulantes de Sn devido
à invariancia segundo uma transformacao linear.
A funcao densidade exata de Sn (ou Sn ) pode ser calculada pela convoluc
ao (soma
ou integral), quando n e pequeno. Assim, no caso contnuo, onde as variaveis sao iid com
ultipla
funcao densidade fY (y), a funcao densidade fSn (s) de Sn e expressa pela integral m
de dimensao n 1
fSn (s) =
Z (n1
Y
i=1
fYi (yi ) fYn s
n1
X
i=1
yi
! n1
Y
dyi .
i=1
No caso discreto esta integral deve ser substituda por um somatorio. As funcoes de
Rz
distribuicao de Sn e Sn seguem de FSn (z) =
fSn (s)ds e FSn (z) = FSn (n + nz),
respectivamente.
44
Introduc
ao `
a Teoria Assint
O calculo algebrico da funcao densidade de Sn pela formula da convolucao so e u

til
para valores pequenos de n ou em casos especiais. Na pratica e mais comum determinar
a distribuicao exata de Sn a partir da formula de inversao (Secao 2.2) ou do criterio de
reprodutividade da funcao caracterstica dado a seguir, ou entao atraves das aproximacoes
assintoticas quando n (vide Secao 2.5 e Captulo 3).
Para a determinacao numerica da integral relativa à fSn (s) dada anteriormente
aproxima-se, em geral, a funcao densidade fY (y) de Y por uma funcao densidade conhecida g(y), onde as convolucoes podem ser calculadas explicitamente em forma simples.
Considera-se, assim, fY (y) = g(y) + (y), onde (y) e uma pequena perturbacao. Em
especial, a escolha de (y) pode ser (y) = g(y)
r cr pr (y),
onde {pr (y)} e um conjunto
de polinomios ortogonais associados a g(y) (vide Secao 3.2). Neste caso, pode-se ter uma
expansao para a convolucao onde os termos principais sao facilmente calculados.
No contexto das aplicacoes, as funcoes caractersticas fornecem os metodos mais
poderosos para determinar a funcao de distribuicao de somas (e medias) de variaveis
aleatorias independentes. Em especial, a funcao caracterstica Sn (t) de Sn tem a propriedade do produto linear similar àquela de MSn (t). Assim, no caso de variaveis aleatorias
independentes Y1 , . . . , Yn com funcoes caractersticas respectivas 1 (t), . . . , n (t), a funcao
caracterstica de Sn =
n
X
Yi e dada por
i=1
Sn (t) =
n
Y
i (t) .
(2.10)
i=1
Quando as variaveis aleatorias sao iid, as funcoes caractersticas de Sn e da media Y n =

Sn /n sao iguais a (t)n e ( nt )n , respectivamente, e a funcao caracterstica de Sn segue
de
nit
t

Sn (t) = exp
!n
(2.11)
O resultado (2.10) da funcao caracterstica de uma soma de variaveis aleatorias independentes e facilmente estendido para uma combinacao linear Z =
k
X
i=1
a funcao caracterstica de Yi , i = 1, . . . , k, tem-se Z (t) =
k
Y
i=1
i (ci t).
ci Yi . Sendo i (ti )
22o Col
atica
45
A funcao de distribuicao de Sn (ou Y n ), pelo menos em teoria, pode ser determinada

a partir da sua funcao caracterstica em (2.10) usando a integral (2.3), embora em certos casos a avaliacao desta integral seja difcil. Em muitas situacoes onde as variaveis
aleatorias sao iid, a determinacao das funcoes de distribuicao de Sn e Y n pode ser feita
a partir do criterio de reprodutividade da funcao caracterstica. Segundo este criterio, se
Y (t; ) e a funcao caracterstica de Y , que depende de um certo vetor de parametros
da sua distribuicao, entao a funcao caracterstica de Sn pode ser expressa por
Sn (t; ) = Y (t; )n = Y (t; n) .
No caso do criterio acima ser satisfeito, Sn tem a mesma distribuicao de Y a menos

da permuta do vetor de parametros por n. Por exemplo, baseando-se neste criterio, e
facil mostrar que se Y tem distribuicao B(m, p), P () e N (, 2 ), entao Sn =
n
X
Yi tem
i=1
distribuicao B(nm, p), P (n) e N (n, n 2 ), respectivamente.
2.5
Teoremas Limites
A Secao 2.4 tratou do calculo da distribuicao de uma soma de variaveis aleatorias iid
supondo n fixo. Esta secao apresenta resultados importantes sobre a distribuicao da
soma de variaveis aleatorias iid quando n . Estes resultados consistem em teoremas limites bastante u
teis na inferencia para aproximar distribuicoes de estatsticas (em
grandes amostras) pela distribuicao normal. Nas aplicacoes verifica-se que muitos desses
resultados assintoticos fornecem boas aproximacoes em amostras moderadas. Os teoremas limites mais citados sao aqueles de Lindeberg-Levy, Liapunov, Lindeberg-Feller e a
integral de DeMoivre-Laplace. A grande maioria destes teoremas foi desenvolvida entre
1920 e 1945 por B.W. Gnedenko, A. Khintchin, P. Levy, J.W. Lindeberg e A.N. Kolmogorov. Um estudo detalhado pode ser encontrado em Wilks (1962, Captulo 9), Fisz
(1963, Captulo 6), Feller (1971, Captulo VIII) e Rao (1973, Secao 2c).
Seja {Yn } uma seq
uencia de variaveis aleatorias iid, Sn =
n
X
Yi a soma das n primeiras
n=1
observacoes e Y n = Sn /n a sua media. Quando se conhece apenas a media E(Yi ) =
46
Introduc
ao `
a Teoria Assint
da seq
uencia, as conclusoes sobre o comportamento de Y n para n grande sao dadas pelas
Leis Fraca e Forte dos Grandes N
umeros apresentadas a seguir:
Lei Fraca dos Grandes N
umeros
P
Se existe E(Yi ) = < , entao Y n .

Lei Forte dos Grandes N
umeros
q.c.
Uma condicao necessaria e suficiente para Y n e que exista E(Yi ) e E(Yi ) = .

Quando se conhece a media E(Yi ) = e a variancia Var(Yi ) = 2 da seq
uencia,
pode-se trabalhar com o teorema central do limite, que mostra o papel de destaque da
distribuicao normal na teoria assintotica. O teorema central do limite e um nome generico
para qualquer teorema dando a convergencia (em distribuicao) de uma soma de variaveis
aleatorias para a distribuicao normal. Formas classicas deste teorema se referem à soma de
variaveis aleatorias independentes. No contexto de teoremas limites algumas vezes usamse os termos global e local para se referir às convergencias das funcoes de distribuicao
e densidade, respectivamente. O termo teorema limite local e tambem usado quando
uma funcao de probabilidade discreta e aproximada por uma funcao densidade (vide
teorema de DeMoivre-Laplace a seguir). Se, alem da media , a variancia 2 da seq
uencia
{Yn } e tambem conhecida, pode-se obter mais informacao sobre o comportamento de Y n
quando n . No contexto de variaveis aleatorias iid, o teorema central do limite
de Lindeberg-Levy representa a forma mais simples dos teoremas centrais de limite mais
gerais.
Teorema de Lindeberg-L
evy
Seja Sn =
S
n n
n
n
(Y n
) a soma padronizada de n variaveis aleatorias iid. Se os
dois primeiros momentos E(Yi ) = e Var(Yi ) = 2 existem e ambos sao finitos, entao
D
Sn N (0, 1), i.e.,

lim P (Sn y) = (y) .
(2.12)
Como a distribuicao limite e contnua, a convergencia da funcao de distribuicao de Sn

para () e uniforme e, entao,
{P (Sn tn ) (tn )} 0
22o Col
atica
47
quando n , onde tn pode depender de n de qualquer forma.

Seja (t) a funcao caracterstica de Yi . Como E(Yi ) = 0 e Var(Yi ) = 2
obtem-se, expandindo (t) como em (2.2),
(t) = 1
A funcao caracterstica de
Sn
n
X
2 t2
+ o(t2 ) .
2
(Yi )/ n e Sn (t) = ( t n )n . Logo,
1=1
t2
t2
Sn (t) = 1
+o
2n
n
(
2 /2
e, portanto, lim Sn (t) = et

n
2 /2
. Como et
!)n
e a funcao caracterstica da distribuicao
normal N (0, 1), a equacao (2.12) decorre do teorema da continuidade.
D
D
A convergencia Sn N (0, 1), ou equivalentemente, 1 n(Y n ) N (0, 1)
representa o resultado central da teoria estatstica, pois permite construir intervalos de
confianca aproximados e testar hipoteses sobre usando a media amostral Y n e sua
2
distribuicao normal N (, n ) aproximada.

A equacao (2.12) garante que a fda da soma padronizada Sn converge para a distribuicao normal reduzida. Entretanto, a funcao densidade de Sn nao converge necessariamente para a funcao densidade da distribuicao normal reduzida, pois as variaveis
aleatorias Y1 , . . . , Yn podem ser discretas. Ha condicoes bem gerais que garantem que a
funcao de probabilidade de Sn pode ser aproximada no caso discreto pela funcao densidade (x) =
2
1 ex /2
2
da distribuicao N (0, 1). O leitor deve consultar na Secao 3.10 as
aproximacoes baseadas na distribuicao normal para algumas variaveis aleatorias discretas.
Teorema Central do Limite (Local) para Densidades

Seja FSn (y) = P (Sn y) a fda de Sn no contexto de variaveis aleatorias iid. Entao, Sn
tem uma funcao densidade contnua fSn (y) =
dFS (y)
n
dy
para todo n suficientemente grande
e
lim fSn (y) = (y)
(2.13)
48
Introduc
ao `
a Teoria Assint
uniformemente em y IR se, e somente se, existir um inteiro k > 0 para o qual a funcao
caracterstica comum (t) de Y1 , . . . , Yn satisfaz
Z
|(t)|k dt < .
(2.14)
O teorema seguinte e um corolario do teorema de Lindeberg-Levy.
Teorema de DeMoivre-Laplace
Se Sn B(n, p) entao Sn = Sn np
tem distribuicao normal N (0, 1) assintotica. Alem
np(1p)
disso, se k = kn depende de n mas |(k np)/ np(1 p)| permanece limitado quando
n , entao
1
P (Sn = k) q
np(1 p)
k np
np(1 p)
(2.15)
an
= 1.
bn
A equacao (2.15) pode ser demonstrada por simples expansao de Taylor e aproximando
com a notacao an bn significando que n

lim
os fatoriais do coeficiente binomial pela formula de Stirling (Secao 3.5, exemplo 3.7). A
proporcao de sucessos em n ensaios Y n = Sn /n tem, portanto, uma distribuicao normal
N (p, p(1 p)/n) assintotica implicando a formula aproximada
P (y1 < Y n < y2 )=(z
2 ) (z1 ) ,
q
onde zi = (yi p)
n
p(1p)
para i = 1, 2.
O teorema de Lindeberg-Levy e um caso especial do teorema seguinte mais geral.
Teorema Central do Limite

Seja {Yn } uma seq
uencia de variaveis aleatorias independentes (mas nao necessariamente
identicamente distribudas) com os dois primeiros momentos E(Yi ) = i e Var(Yi ) = i2
22o Col
atica
49
finitos para i = 1, 2, . . . e com pelo menos um i2 > 0. Segundo condicoes gerais, tem-se
n
X
Sn
(Yi i )
i=1
n
X
!1/2 N (0, 1) .
(2.16)
i2
i=1
Varias condicoes que garantem a convergencia em distribuicao de Sn para a distribuicao normal reduzida no teorema acima tem sido dadas por diferentes autores, incluindo generalizacoes para o caso de somas de variaveis aleatorias dependentes. No caso
de variaveis independentes apresenta-se a seguir uma condicao suficiente (teorema de Liapunov) e uma condicao necessaria e suficiente (teorema de Lindeberg-Feller) para que a
convergencia (2.16) seja satisfeita. Outras condicoes que garantem (2.16) estao fora do
objetivo deste trabalho.
Teorema de Liapunov
Se para variaveis aleatorias independentes a relacao
( n
X
lim
)1/3
3
E(|Yi i | )
i=1
( n
X
)1/2
=0
i2
i=1
e satisfeita, entao segue-se (2.16).
Teorema de Lindeberg-Feller
Suponha que para variaveis aleatorias independentes, Fi (y) e a funcao de distribuicao
de Yi e que s2n = Var(Sn ) =
Pn
i=1
i2 satisfaz
2
n
2
sn
0, sn quando n . A
convergencia (2.16) e satisfeita se, e somente se, para todo > 0

n Z
1 X
lim
(y i )2 dFi (y) = 0 .
n s2
|y
|>s
n
i
n i=1
50
Introduc
ao `
a Teoria Assint
Uma conseq
uencia importante do teorema acima estabelece a seguinte condicao: se para
algum k > 2
n
X
E(|Yi i |k ) = o(skn )
i=1
quando n , entao (2.16) e satisfeita.

Finalmente, torna-se de interesse pratico e teorico caracterizar o erro do teorema
central do limite, i.e., o erro da aproximacao de FSn (y) = P (Sn y) por (y). No caso
iid tem-se a desigualdade de Berry-Esseen
33 E(|Yi |3 )
3
sup |F (y) (y)|
4
n
y
Sn
que e valida para todo n e implica que a taxa de convergencia de (2.12) e n1/2 . Sob
condicoes mais restritivas na expansao assintotica de FSn (y)(y) em potencias de 1/ n,

pode ser demonstrado que (Ibragimov e Linnik, 1971)
|FSn (y) (y)|
E{|Yi |3 }
2 y 2 /2
(1
y
)e
+ o(n1/2 )
3 2 n
uniformemente em y.
2.6
Transformac
ao Funcional
Um resultado muito u
til de transformac
ao funcional se refere ao comportamento
assintotico de uma funcao de duas variaveis aleatorias, onde uma delas admite convergencia em distribuicao, nao se impondo qualquer restricao sobre uma possvel dependencia entre essas variaveis aleatorias. Seja h(Yn , Un ) uma transformacao funcional
D
envolvendo duas variaveis aleatorias Yn e Un supondo que Yn Y e Un k, onde Y

tem distribuicao nao-degenerada e k e uma constante finita. Admitindo-se que h(y, u) e
uma funcao contnua de u em u = k para todos os pontos y no suporte de Y , pode-se
D
demonstrar que h(Yn , Un ) h(Y, k). Este resultado tem grande aplicabilidade na determinacao de in
umeras distribuicoes assintoticas de funcoes de variaveis aleatorias. Em
D
especial, Yn + Un Y + k, Yn Un kY e Yn /Un Y /k se k 6= 0. Como motivacao
pratica, suponha a estatstica Tn = n(Y n )/s definida a partir de n variaveis aleatorias
22o Col
atica
51
Y1 , . . . , Yn iid com media e variancia 2 , onde Y n =
n
X
Yi /n e s2n =
i=1
n
X
(Yi Y n )2 /(n1).
i=1
A distribuicao exata de Tn e tn1 (t de Student com n 1 graus de liberdade). Tem-se

P
E(s2n ) = 2 e limn Var(s2n ) = 0, de modo que s2n 2 e, portanto, sn . Pelo
D
teorema central do limite n(Y n ) N (0, 2 ). Combinando as duas convergencias
D
obtem-se Tn N (0, 1), resultado bastante conhecido de convergencia da distribuicao t

de Student para a distribuicao normal reduzida quando seus graus de liberdade tendem
a infinito.
Uma situacao comum na pratica envolve a seq
uencia {Yn } admitindo-se as con
P
D
vergencias Yn e n(Yn ) Y , onde Y tem funcao de distribuicao F arbitraria.
Logo, n(Yn ) = Y + op (1) e

Y
Yn = + + op (n1/2 ) .
n
Em muitos casos, F e a funcao de distribuicao da normal reduzida.
Seja {h(Yn )} uma transformacao funcional de {Yn }, sendo h() uma funcao qualquer
duas vezes diferenciavel com h0 () 6= 0 e h00 (y) suposta uniformente limitada no suporte
de {Yn } para n > n0 . Por expansao de Taylor vem
n{h(Yn ) h()} = nh0 ()(Yn )

1 00
nh (Zn )(Yn )2 ,
+
2
(2.17)
onde Zn = + (1 )Yn para (0, 1). Como h00 e limitada, o segundo termo em (2.17)
e Op (n1/2 ). Assim, a equacao de linearizacao decorre de (2.17)
Por hipotese
n{h(Yn ) h()} =
nh0 ()(Yn ) + op (1) .
(2.18)
nh0 ()(Yn ) h0 ()Y e, entao, (2.18) implica que
n{h(Yn ) h()} D
Y .
h0 ()
(2.19)
52
Introduc
ao `
a Teoria Assint
Estimando-se h0 () por h0 (Yn ) segue, tambem, a convergencia
n{h(Yn ) h()} D
Y .
h0 (Yn )
Em especial, se Y N (0, 2 ), entao (2.19) conduz ao resultado
n{h(Yn ) h()} N (0, h0 ()2 2 ) .
Alem disso, se = () e uma funcao contnua de , sendo estimada por (Yn ), obtem-se
tambem,
n{h(Yn ) h()} D
N (0, 1) .
(Yn )h0 (Yn )
D
Exemplo 2.7 Supoe-se que n(Yn ) N (0, 2 ) e sejam h1 (Yn ) = Yn2 e h2 (Yn ) =
D
D
Yn . Entao, n(Yn2 2 ) N (0, 42 2 ) e n( Yn ) N (0, 2 /(4)).
Os momentos centrais definidos a partir de n observacoes iid Y1 , . . . , Yn por mk =

n1
n
X
uentes nas formulas das estatsticas e e importante

(Yi Y )k (k = 1, 2, . . .) sao freq
i=1
conhecer suas propriedades em grandes amostras. Para k = 1 e k = 2 tem-se a media e a

variancia amostrais. Pode-se demonstrar que (vide Serfling, 1980, Secao 2.2.3)
q.c.
(i) mk k ;
(ii) o vies de mk e dado por
E(mk k ) =
k(k 1)k1 2 2kk

+ O(n2 );
2n
(iii) a variancia de mk iguala Var(mk ) =
k
n
+ O(n2 ), onde
k = 2k 2k 2kk1 k+1 + k 2 2 2k1 ;
(iv)
n(mk k ) N (0, k ) com k dado em (iii).
22o Col
atica
53
Os resultados (i) (iv) sao verdadeiros para qualquer distribuicao de Y . Notese que a media e a variancia de mk estao definidas em termos dos momentos centrais
2 , k1 , k , k+1 e 2k de Y . O item (iv) para k = 1 e 2 produz
n Y N (0, 2 ) e
ns2 N (0, 4 4 ) ,
pois 1 = 0 e 2 = 2 . Portanto,
ns N (0, (4 4 )/(4 4 )) .
A equacao (2.18) escrita como

h(Yn ) = h() + h0 ()(Yn ) + op (n1/2 )
pode ser generalizada, supondo que h() e uma funcao real diferenciavel ate ordem k, para
h(Yn ) =
k
X
h(j) ()
j=0
j!
(Yn )j + op (nj/2 ) .
Os momentos (e, entao, os cumulantes) de h(Yn ) ate uma ordem pre-fixada podem ser
obtidos a partir dos momentos de Yn elevando-se a expansao acima a potencias de ordens
dos momentos a serem calculados.
Finaliza-se este captulo tratando o problema de estabilizac
ao da vari
ancia na estimacao de um parametro atraves de uma estatstica Yn que e assintoticamente normal
D
mas sua variancia assintotica depende de . Suponha que n(Yn )/v()1/2 N (0, 1),
ou seja, v()/n e a variancia assintotica de Yn . Neste caso, a regiao de rejeicao do
parametro depende de atraves de v() e pode nao haver a propriedade desejavel
de monotonicidade no parametro. Objetiva-se determinar uma transformacao h(Yn ) para
se fazer inferencia sobre = h() de modo que
n(h(Yn ) h()) D
N (0, 1) ,
k
54
Introduc
ao `
a Teoria Assint
ou seja, a variancia assintotica k 2 /n de h(Yn ) e uma constante independente de . Tem-se

Var(h(Yn )) = h0 ()2 Var(Yn ) .
Entao, k 2 = h0 ()2 v(), implicando
h() = k
Z
0
dt
q
(2.20)
v(t)
Dado v() obtem-se de (2.20) a transformacao estabilizadora e o intervalo de confianca
segue baseado em h(Yn ) e = h(), i.e., n|h(Yn ) | kz/2 , onde z/2 e o ponto
crtico da distribuicao N (0, 1) correspondente ao nvel de significancia . Por exemplo,
se v() = 2m e m 6= 1 vem h() = k1m /(1 m). Para m = 1, 2 e 1/2, h() iguala
k2 /2, k/ e 2k , respectivamente. Para m = 1, h() = k log . Cada um desses

valores de m corresponde a uma distribuicao importante. Sejam os casos m = 1/2 e
m = 1. O primeiro caso pode ser caracterizado pela soma Sn de n variaveis aleatorias
D
iid com distribuicao de Poisson P (). Logo, Sn = n(Y n )/ N (0, 1) e v() =
. Assim, h() = 2k e a variancia da raiz quadrada de Y n e estabilizada, ou seja,
q
D
n( Y n ) N (0, 1). O segundo caso (m = 1) pode ser exemplificado pela soma
Sn de n variaveis aleatorias iid com distribuicao gama parametrizada pela media e pelo
parametro de forma p (vide, tambem, exemplo 2.1). Assim, E(Y ) = e Var() = 2 /p.
A soma Sn padronizada e Sn = np(Y n )/ e v() = 2 /p. Entao, h() = k p log e

a variancia de h(Y n ) e estabilizada mediante a transformacao logartmica. Tem-se,
2.7
np(log Y n log ) N (0, 1) .
Exerccios
1. Mostre que a variavel qui-quadrado padronizada (2n n)/ 2n converge em distribuicao para a normal N (0, 1). Avalie um limite para o erro desta aproximacao.
2. Mostre que a variavel aleatoria Y com funcao densidade f (y) = {cosh(y)}1 , y
IR, tem funcao caracterstica (t) = sech(t/2).
22o Col
atica
55
3. Demonstre que os momentos ordinarios da variavel aleatoria com funcao densidade

f (y) = ky p e/y , > 0, y 0 sao 0r = r (p 1 r)/(p 1) se r < p 1 e que,
caso contrario, os momentos nao existem.
4. Justifique que a distribuicao N (, 2 ) e determinada univocamente pelos seus momentos.
5. Mostre que: (a) a distribuicao exponencial cuja funcao densidade e dada por f (y) =
1 ey/ ( > 0) tem cumulantes r = r (r1)!, r = 1, 2, . . . ; (b) a funcao exp(t )
nao pode ser uma funcao caracterstica, exceto se = 2.
D
6. Mostre que: (a) se Y Y , entao Yn = Op (1); (b) se Yn = op (Un ), entao Yn =

D
op (Un ); (c) se Yn Y e Xn X, entao Yn + Xn Y + X.

D
7. Seja n1 (Yn ) N (0, 1). Entao, Yn se, e somente se, n 0 quando

n .
8. Seja (t) a funcao caracterstica da variavel aleatoria Y . Mostre que se Y e contnua
lim|t| (t) = 0 e se Y e discreta lim|t| sup |(t)| = 1.
D
D
n(Yn )/ N (0, 1) e n(Xn c)/ v
D
N (0, 1), c 6= 0. Mostre que c n(Yn )/(Xn ) N (0, 1).
9. Suponha as convergencias
10. Demonstre que as funcoes caractersticas das distribuicoes logstica e de Laplace cujas funcoes densidades sao f (y) = ey (1+ey )2 e f (y) = exp{|y|/}/(2), y
IR em ambos os casos, sao dadas por (t) = (1it)(1+it) e (t) = eit (1+ 2 t2 )1 ,
respectivamente.
D
11. Sejam (Yn )/n N (0, 1) e Xn = 0 e n com probabilidades 1 n1 e n1

D
respectivamente. Mostre que (Yn + Xn )/n N (0, 1).

12. Mostre que se (t) e a funcao caracterstica de uma variavel aleatoria, (t)2 tambem
e uma funcao caracterstica.
13. (a) Uma variavel aleatoria tem momentos 0r = k/(k + r), r = 1, 2, . . ., onde k > 0.
Mostre que sua funcao densidade e f (y) = y k1 , y (0, 1); (b) uma variavel
56
Introduc
ao `
a Teoria Assint
aleatoria tem funcao caracterstica (t) = (1 + t2 )1 . Mostre que sua funcao densidade e f (y) = e|y| /2, y IR.
14. Se Y e uma variavel aleatoria tendo momentos 0r = (k + r)!/k!, k um inteiro
positivo, entao a sua funcao densidade e univocamente determinada por f (y) =
y k ey /k!, y > 0.
15. Se Y1 , . . . , Yn satisfazem às suposicoes do teorema de Lindeberg-Levy e, alem disso,
o momento E(|Yi |3 ) existe, entao Sn = n(Y n )/n tem fda que satisfaz
|FSn (y) (y)|
k E(|Yi |3 )
3 ,
n
onde k e uma constante.

16. Se Y e uma variavel aleatoria tal que E(ekY ) existe para k > 0, entao
P (Y ) E(ekY )/ek .
17. Se Y1 , Y2 , . . . e uma seq
uencia de variaveis aleatorias iid. Se E(Yi ) = e finito, entao
P
Y n .
18. A funcao densidade da distribuicao de Laplace tem a forma f (y; , ) =
(2)1 exp(|y |/), > 0. Mostre que a sua funcao caracterstica e dada
por (t) = (1 + 2 t2 )1 exp(it). Mostre que ela tem momentos de todas as ordens
e que nao e preservada segundo convolucao.
Captulo 3
Expans
oes Assint
oticas
3.1
Introduc
ao
Considere uma expansao assintotica para a funcao gn (y) em algum ponto fixo y expressa
para n como
(
1 (y) 2 (y) 3 (y)

gn (y) = f (y) 1 + +
+ +
n
n
n n
(3.1)
onde n e usualmente o tamanho da amostra ou uma quantidade de informacao. Na

inferencia a funcao gn (y) de interesse e tipicamente uma funcao densidade (ou de distribuicao) de uma estatstica baseada numa amostra de tamanho n e f (y) pode ser
considerada uma aproximacao de primeira ordem tal qual a funcao densidade (ou de
distribuicao) da normal reduzida. A funcao gn (y) pode ser definida diretamente de uma
seq
uencia de comprimento n de variaveis aleatorias, por exemplo, como a funcao densidade da media amostral Y n = n1
n
X
Yi de n variaveis aleatorias iid sendo f (y) sua funcao
i=1
densidade limite, que e usualmente a funcao densidade (y) da normal reduzida. Ela pode
ser tambem uma funcao geratriz de momentos ou cumulantes. Embora a equacao (3.1)
seja definida para um valor fixo y, tem-se o interesse em saber para qual regiao dos valores
de y ela permanece valida como uma expansao assintotica.
Uma caracterstica importante da expansao assintotica (3.1) e que ela nao e, em geral,
uma serie convergente para gn (y) e, assim, tomando-se mais termos no seu lado direito a
aproximacao para gn (y) nao necessariamente melhora.
57
58
Introduc
ao `
a Teoria Assint
As expansoes assintoticas sao usadas rotineiramente em muitas areas da analise

matematica. Os livros de Jeffreys (1962), DeBruijn (1970) e Bleistein e Handelsman
(1975) sao excelentes fontes para estudos aprofundados. Embora uma aproximacao do
tipo (3.1) seja somente valida quando n , obtem-se frequentemente uma boa precisao mesmo para valores pequenos de n. Ha interesse de investigar em cada caso a
precisao da aproximacao (3.1) para varios valores de y, bem como o intervalo de variacao
de y para o qual o erro da aproximacao e uniforme. Apresentam-se a seguir expansoes
do tipo (3.1) permitindo o termo principal f (y) depender de n para algumas funcoes
matematicas de grande interesse na Estatstica:
(i) A funcao gama (n) =
xn1 ex dx admite para n grande a expansao de Stirling
expressa somente em potencias de n1

1/2 n n0,5
(n) = (2)
1
1
139
571
1+
+
+ O(n5 ) .
2
3
12n 288n
51840n
2488320n4
Fixando n e tomando mais termos no lado direito da formula acima, o erro da
aproximacao aumenta. Para valores de n 5, a formula assintotica 2 en nn0,5

e suficiente para muitos propositos;
(ii) A funcao gama incompleta (k, y) =
et tk1 dt admite a expansao
(k, n) = n
k1 n
k 1 (k 1)(k 2)
1+
+
+ O(n3 ) ;
n
n2
(iii) A funcao log y (y), onde (y) =
d log (y)
dy
e a funcao digama, e estudada na
estimacao do parametro de forma da distribuicao gama. Valores inteiros sao computados como (1) = , (n) = +
n1
X
k 1 (n 2), onde = 0, 5772156649 . . .
k=1
e a constante de Euler. Tem-se a expansao, quando o argumento y (ao inves

de n )
(
1
1
1
1
log y (y) =
1+
+
+ O(y 7 )
3
2y
6y 60y
126y 5
Neste captulo sao apresentadas varias expansoes importantes do tipo (3.1), geral-
22o Col
atica
59
mente ate termos de ordem n1 . Entre estas expansoes, citam-se as expansoes de GramCharlier, Edgeworth, Cornish-Fisher, ponto de sela, Laplace e as expansoes que relacionam
funcoes de distribuicao e de variaveis aleatorias. O leitor que desejar maiores detalhes
matematicos podera consultar os livros de McCullagh (1987, Captulos 5 e 6), BarndorffNielsen e Cox (1990, Captulo 4) e Hinkley, Reid e Snell (1991, Captulo 12).
3.2
Expans
ao de Gram-Charlier
Seja f (y) uma funcao densidade conhecida, cujos cumulantes sao dados por 1 , 2 , . . .
O interesse reside em usar f (y) para aproximar uma funcao densidade g(y) (em geral
desconhecida) a partir
caode um operador T (D) a f (y). O operador e formulado
da aplica
como T (D) = exp
j=1
j (D)j /j! e a aproximacao para g(y) e definida por

g(y) = T (D)f (y) ,
onde D e o operador diferencial, ou seja, Dj f (y) = dj f (y)/dy j .

Os cumulantes de
ao determinados como os coeficientes de tr /r! na expansao de
g(y) s
Z
+
ety g(y)dy
log
T (D) =
(Secao 2.3). Expandindo o operador T (D) em serie de Taylor vem
X
1X
j (D)j
de onde se conclui que os cumulantes de g(y) sao dadas por

i! j=1
j!
1 + 1 , 2 + 2 , . . . A funcao g(y) pode nao satisfazer a condicao g(y) 0 para todo y,
i=0
mas seus cumulantes r + r sao definidos mesmo que esta condicao nao seja satisfeita.
De g(y) = T (D)f (y) obtem-se, pela expansao de T (D),
1
g(y) = f (y) 1 Df (y) + (21 + 2 )D2 f (y)
2
1
1
(31 + 31 2 + 3 )D3 f (y) + (41 + 621 2 + 41 3 + 4 )D4 f (y) +
6
24
(3.2)
A equacao (3.2) mostra que a funcao densidade g(y) de uma variavel aleatoria contnua
qualquer pode ser expandida em termos de uma funcao densidade f (y) de referencia
conhecida e de suas derivadas, cujos coeficientes sao funcoes de diferencas (0i s) entre os cumulantes correspondentes associados às funcoes densidade g(y) e f (y). Em
60
Introduc
ao `
a Teoria Assint
muitos casos, Dj f (y) = Pj (y)f (y), onde Pj (y) e um polinomio de grau j em y. Esses polinomios sao geralmente ortogonais com relacao à distribuicao associada a f (y), ou
seja,
Pj (y)Pk (y)f (y) = 0 para j 6= k. Por exemplo, se f (y) e a funcao densidade (y)
da distribuicao normal reduzida, (1)j Pj (y) e o polinomio de Hermite Hj (y) de grau j

definido pela identidade
(D)r (y) = Hr (y)(y) .
Os primeiros polinomios de Hermite sao H0 (y) = 1, H1 (y) = y, H2 (y) = y 2 1, H3 (y) =
y 3 3y, H4 (y) = y 4 6y 2 + 3, H5 (y) = y 5 10y 3 + 15y e H6 (y) = y 6 15y 4 + 45y 2 15.
Esses polinomios tem propriedades interessantes decorrentes da identidade
2
exp(ty t /2) =
j
X
t
j=0
j!
Hj (y) ,
tais como:
d
Hr (y) = r Hr1 (y) ,
dy
Dj Hr (y) = r(j) Hrj (y) para r j,
onde r(j) = r(r 1) (r j + 1). Satisfazem ainda a relacao de recorrencia
Hr (y) = yHr1 (y) (r 1)Hr2 (y) (r 2) .
Suponha agora que as medias e as variancias de g(y) e f (y) sao tomadas iguais, por
exemplo, pela padronizacao atraves de transformacao linear das variaveis. Neste caso,
1 = 2 = 0 e (3.2) implica
4
3
P3 (y) P4 (y) + f (y) .
g(y) = f (y)
3!
4!

(3.3)
Integrando (3.3) obtem-se uma relacao equivalente para as funcoes de distribuicao G(y) =
Ry
g(t)dt e F (y) =
Ry
f (t)dt correspondentes a g(y) e f (y):
G(y) = F (y)
3
4
P2 (y) P3 (y) + f (y) .
3!
4!

(3.4)
O caso especial mais importante e de maior aplicabilidade das expansoes (3.3) e (3.4)
surge quando f (y) e a funcao densidade (y) da distribuicao normal reduzida. Neste
22o Col
atica
61
caso, r = 0 para r > 2 (Secao 2.3) e 3 , 4 , . . . se igualam aos cumulantes de g(y). Assim,
(3.3) simplifica-se para
3
4
5
(6 + 1023 )
g(y) = (y) 1 + H3 (y) + H4 (y) + H5 (y) +
H6 (y) +
3!
4!
5!
6!
(
(3.5)
A expansao (3.5) e denominada expans

ao de Gram-Charlier. Usualmente, nao se consideram em (3.5) polinomios de ordem superior a seis. Os termos em (3.5) ocorrem numa
seq
uencia determinada pelas derivadas sucessivas de (y). Entretanto, esta seq
uencia nao
se apresenta necessariamente em ordem decrescente de magnitude e, algumas vezes, uma
ordenacao diferente deve ser adotada a partir da avaliacao da magnitude dos seus varios
termos. Integrando (3.5) e usando a relacao
Hr (y)(y)dy = Hr1 (y)(y)(r 1) vem
3
4
5
(6 + 1023 )
G(y) = (y)
H2 (y) + H3 (y) + H4 (y) +
H5 (y) + (y),
3!
4!
5!
6!
(
(3.6)
onde (y) e a funcao de distribuicao da normal reduzida.

As formulas (3.5) e (3.6) mostram que as funcoes densidade e de distribuicao de uma
variavel aleatoria qualquer Y padronizada podem, em geral, ser expressas por expansoes
envolvendo seus cumulantes, os polinomios de Hermite e as funcoes densidade e de distribuicao da normal reduzida. Nas aplicacoes de (3.5) e (3.6) e importante coletar os
termos de mesma magnitude, conforme mostra o exemplo seguinte.
Exemplo 3.1 Seja Z uma variavel aleat
oria com distribuic
ao gama de par
ametros 1(escala) e > 0 (forma). A funcao geratriz de cumulantes de Z e K(t) = log(1 t)
e os seus cumulantes igualam r = (r 1)!. Deseja-se obter uma aproximac
ao para a
1/2
func
ao densidade g(y) da variavel gama padronizada Y = (Z 1 )/2
em termos da
func
ao densidade (y) da distribuic
ao normal reduzida. Os cumulantes de Y s
ao dados
por r + r = (r 1)!(2r)/2 (vide Sec
ao 2.3), sendo 1 = 0, 2 = 1 e r = 0, r > 2.
Na expansao de Gram-Charlier da func
ao densidade g(y) = (y)
12
X
cj Hj (y), decorrente
j=0
de (3.5) e ate o termo envolvendo H12 (y), os coeficientes cj tem as seguintes ordens de
magnitude em :
c0
0
c3
c4
c5
c6
c7
c8
c9
c10
c11
c12
1/2 1 3/2 1 3/2 2 3/2 2 5/2 2
62
Introduc
ao `
a Teoria Assint
Assim, os termos da expansao de Gram-Charlier n

ao necessariamente decrescem em ordem de magnitude de . Deve-se ter cuidado ao truncar (3.5) de modo que todos os
termos nao includos sejam realmente de ordem inferior `
aqueles da expans
ao truncada.
Por exemplo, para obter uma expans
ao corrigida para g(y) ate ordem 3/2 , somente os
termos correspondentes a c8 , c10 , c11 e c12 n
ao seriam includos.
3.3
Expans
oes de Edgeworth
Trata-se aqui das expansoes de Edgeworth para somas padronizadas de variaveis aleatorias
univariadas iid. Estas expansoes sao importantes na teoria assintotica quando a integral de
convolucao referente à soma de variaveis aleatorias nao pode ser calculada explicitamente.
A extensao para o caso de variaveis multivariadas esta fora dos objetivos deste texto e o
leitor podera consultar o livro de McCullagh (1987, Captulo 5).
Seja Y uma variavel aleatoria com funcoes densidade f (y) e geratriz de cumulantes
r/2
para r 2. Tem-se 1 =
K(t). Os cumulantes padronizados de Y sao r = r /2
E(y) = e 2 = Var(Y ) = 2 . Suponha que Y1 , . . . , Yn sao realizacoes iid de Y e sejam:

n
X
Sn =
Yi , a soma estocastica e Sn = (Sn n)/( n), a soma padronizada. Como as
i=1
variaveis aleatorias sao iid, as funcoes geratrizes de cumulantes de Sn e Sn sao dadas por
KSn (t) = nK(t) e
nt
t
KSn (t) =
+ nK
(3.7)
respectivamente. A expansao de K(t) em serie de Taylor equivale a uma soma de funcoes

dos cumulantes padronizados de Y
K(t) = t + 2 t2 /2 + 3 3 t3 /6 + 4 4 t4 /24 +
que substituda em (3.7) implica
KSn (t) = t2 /2 + 3 t3 /(6 n) + 4 t4 /(24n) + O(n3/2 ) .
(3.8)
A expansao (3.8) revela o esperado, ou seja, que KSn (t) t2 /2 quando n

, pois pelo teorema central do limite (Secao 2.5) Sn converge em distribuicao para a
distribuicao normal N (0, 1) quando n tende a infinito. A funcao geratriz de momentos
22o Col
atica
63
MSn (t) de Sn e obtida de (3.8) tomando exponenciais. Logo,
MSn (t) = exp(t2 /2){1 + 3 t3 /(6 n) + 4 t2 /(24n) + 23 t6 /(72n) + O(n3/2 )}.

Para obter a funcao densidade de Sn , a equacao acima deve ser invertida termo a termo
usando a identidade
Z
ety (y)Hr (y)dy = tr exp(t2 /2) .
Entao, a funcao densidade de Sn e dada por

3
4
2
fSn (y) = (y) 1 + H3 (y) +
H4 (y) + 3 H6 (y) + O(n3/2 ) .
6 n
24n
72n
(
(3.9)
A integral de (3.9) produz a expansao da funcao de distribuicao de Sn como

3
4
2
FSn (y) = (y) (y) H2 (y) +
H3 (y) + 3 H5 (y) + O(n3/2 ) .
6 n
24n
72n
(
(3.10)
As formulas (3.9) e (3.10) sao as expans

oes de Edgeworth para as funcoes densidade
importante salientar
e de distribuicao de uma soma padronizada Sn , respectivamente. E
que a expansao (3.9) segue diretamente da expansao de Gram-Charlier (3.5), pois os
cumulantes de Sn sao simplesmente r = O(n1r/2 ) para r 3 com 3 = 3 / n e

4 = 4 /n. O termo principal em (3.10) e a funcao de distribuicao (y) da normal
reduzida, como previsto pelo teorema central do limite. O termo de ordem n1/2 e um
ajustamento face à assimetria da distribuicao de Y e os termos de ordem n1 representam
um ajustamento simultaneo devido à assimetria e curtose da distribuicao de Y .
A adequacao das aproximacoes (y), (y){1 + 3 H3 (y)/(6 n)} e (3.9) para a funcao
densidade de Sn depende do valor de y. A aproximacao (3.9) podera nao ser apropriada
nas extremidades da distribuicao de Sn quando |y| crescer, pois os polinomios de Hermite
nao sao limitados. No ponto y = 0, o erro da aproximacao normal (y) e O(n1 ) e nao
O(n1/2 ), enquanto o da expansao (3.9) e O(n2 ), pois os termos de potencia mpar em
n1/2 dependem apenas de polinomios de grau mpar e todos eles se anulam para y = 0.
Assim, desejando-se aproximar a funcao densidade de Sn na origem, fSn (0), obtem-se
uma expansao em potencias de n1 ao inves de potencias de n1/2 . Quando 3 6= 0
(distribuicoes de Y assimetricas) o termo de ordem n1/2 podera ser muito grande nas ex-
64
Introduc
ao `
a Teoria Assint
tremidades da distribuicao de Sn quando H3 (y) for apreciavel, invalidando a aproximacao
(y){1 + 3 H3 (y)/(6 n)} para a funcao densidade de Sn . Diferentemente, a aproximacao

em torno da media E(Sn ) = 0, onde H3 (0) = 0, sera satisfatoria, pois envolvera somente
termos de ordem n1 . Obviamente, se a funcao densidade de Y e simetrica (3 = 0), a
aproximacao normal usual para a funcao densidade de Sn estara correta ate ordem n1/2
ao inves de ate ordem 1.
A funcao (y){1 + 3 H3 (y)/(6 n)} formada pelos dois primeiros termos de (3.9) nao
e uma funcao densidade em y para n fixo e 3 6= 0, pois para 3 y suficientemente grande
e negativo, o valor desta funcao pode ser negativo. Entretanto, isto nao contradiz a
suposicao assintotica da validade de (3.9) que e y fixado e n . Uma forma de
superar esta dificuldade e escrever a aproximacao acima como (y) exp{3 H3 (y)/(6 n)}.
Entretanto, esta forma tem a desvantagem de ser ilimitada e, portanto, pode nao ser
normalizada exatamente em IR.
O erro em (3.10) so sera O(n3/2 ) se Sn tiver distribuicao contnua. No caso discreto,
a funcao de distribuicao exata de Sn e descontnua nos seus possveis valores, com saltos
de ordem O(n1/2 ). A aproximacao (3.10) e contnua e deve envolver erros de ordem n1/2
proximo aos pontos de descontinuidade. Entretanto, Kolassa e McCullagh (1990) propoem
uma versao de (3.10), valida ate O(n1 ) para distribuicoes discretas, pelo ajustamento
dos cumulantes 3 e 4 atraves das correcoes de Sheppard.
Exemplo 3.2 Sejam Y1 , . . . , Yn vari
aveis aleat
orias iid com distribuic
ao exponencial de
media um. A funcao densidade exata de Sn e dada por
Sn (y) =
n(n + y n)n1 exp(n y n)/(n 1)! .
Para obter de (3.9) a expansao de Edgeworth tem-se E(Sn ) = n, Var(Sn ) = n, 3 = 2 e

4 = 6. Logo,
(
H3 (y) H4 (y) H6 (y)

+
+ O(n3/2 ) .
fSn (y) = (y) 1 + +
3 n
4n
18n
Na Tabela 3.1 compara-se para n = 5 o valor exato Sn (y) com a aproximac
ao normal
(y) (termo principal) e com aquelas expans
oes de fSn (y) obtidas da equac
ao acima considerando apenas o termo O(n1/2 ) e com aqueles dois termos de ordem O(n1 ).
22o Col
atica
65
Tabela 3.1: Aproximacoes de Edgeworth para a funcao densidade da soma

padronizada de 5 vari
aveis exponenciais iid
y
-2
-1,5
-1,0
-0,5
0
1
2
3
Exato Normal
0,0043 0,0540
0,1319 0,1295
0,3428 0,2420
0,4361 0,3521
0,3924 0,3989
0,1840 0,2420
0,0577 0,0540
0,0144 0,0044
Expansoes de Edgeworth
ate O(n1/2 ) ate O(n1 )
0,0379
0,0178
0,1512
0,1480
0,3141
0,3329
0,4242
0,4335
0,3989
0,3922
0,1698
0,1887
0,0701
0,0500
0,0163
0,0181
Para valores pequenos de n, a expans

ao de Edgeworth n
ao e boa nas caudas da distribuicao
ao de Edgeworth incluindo
de Sn . A Tabela 3.1 mostra que, fora dessas caudas, a expans
os termos O(n1 ) e superior àquela expans
ao de Edgeworth ate O(n1/2 ). Exceto no ponto
y = 0, a aproximacao normal (y) para Sn (y) n
ao e satisfat
oria, como esperado, pois n
e pequeno.
Exemplo 3.3 Este exemplo (Barndorff-Nielsen e Cox, 1990, p.96) ilustra o desempenho
da expansao de Edgeworth no contexto discreto. Seja Sn a soma de n vari
aveis aleatorias
iid com distribuicao de Poisson de media 1. Assim, Sn tem distribuic
ao de Poisson de
media n. Todos os cumulantes da distribuic
ao de Poisson s
ao iguais e, ent
ao, 3 = 4 = 1.
A soma padronizada Sn = (Sn n)/ n tem func

ao de distribuic
ao aproximada, decorrente
de (3.10), dada por
(
H2 (y) H3 (y) H5 (y)

+
+
+ O(n3/2 ) .
FSn (y) = (y) (y)
24n
72n
6 n
No uso desta expansao para aproximar P (Sn r), pode-se adotar uma correc
ao de con
tinuidade como y = (r n + 0, 5)/ n de modo que P (Sn r) = FSn (y).
A Tabela 3.2 compara a aproximac
ao (y) e as expans
oes de FSn (y) ate O(n1/2 ) e
O(n1 ) com o valor exato de P (Sn r) quando n = 8. Ambas as expans
oes de Edgeworth
aproximam melhor P (Sn r) do que a func
ao de distribuic
ao normal (y).
66
Introduc
ao `
a Teoria Assint
Tabela 3.2: Aproximacoes para a funcao de distribuicao da Poisson de media n = 8

r
2
4
6
8
10
12
14
Exato Normal
0,0138 0,0259
0,0996 0,1079
0,3134 0,2981
0,5926 0,5702
0,8159 0,8116
0,9362 0,9442
0,9827 0,9892
Expansoes de Edgeworth
0,0160
0,0148
0,1021
0,1011
0,3128
0,3141
0,5926
0,5919
0,8151
0,8146
0,9340
0,9374
0,9820
0,9824
Em inferencia, o interesse principal reside em computar nveis de significancia e, assim,

a expansao (3.10) e mais u
til do que a expansao para a funcao densidade (3.9). Frequentemente, em testes de hipoteses, trabalha-se com estatsticas padronizadas de media zero,
j/2
variancia um e cumulantes j = j /2
de ordens O(n1j/2 ) para j 3. Neste caso, as
probabilidades unilaterais envolvendo estatsticas padronizadas do tipo P (Yn y) podem

ser calculadas ate O(n1 ) diretamente de (3.10) como
3
4
2
P (Yn y) = 1 (y) + (y) H2 (y) +
H3 (y) + 3 H5 (y) ,
6 n
24n
72n
(
(3.11)
envolvendo um termo de ordem O(n1/2 ) e mais dois termos de ordem O(n1 ). Entretanto,
as probabilidades bilaterais do tipo P (|Yn | y) sao obtidas (para y > 0) de (3.10) como
4
2
P (|Yn | y) = 2{1 (y)} + 2(y)
H3 (y) + 3 H5 (y) ,
24n
72n
(
envolvendo apenas correcoes de ordem O(n1 ). Neste caso, ocorre cancelamento das
correcoes de ordem O(n1/2 ). Elas sao iguais em magnitude, mas com sinais diferentes, e
se cancelam quando as duas extremidades sao combinadas.
Pode-se trabalhar com as expansoes de Edgeworth (3.9) e (3.10) se as componentes
Yj sao independentes mas nao sao necessariamente identicamente distribudas. Tem-se
r (Sn ) = r (Yj ) e padroniza-se Sn na forma usual
Sn =
Sn 1 (Yj )
2 (Yj )
22o Col
atica
67
e as expansoes (3.9) e (3.10) continuarao valendo desde que as quantidades

3 =
3 (Yj )
{2 (Yj )}3/2
e 4 =
4 (Yj )
{2 (Yj )}2
sejam limitadas quando n .
3.4
Expans
oes de Cornish-Fisher
As expansoes de Cornish-Fisher sao usadas para determinar numericamente as distribuicoes de probabilidade de estatsticas quando suas distribuicoes exatas sao difceis
de ser computadas. Suponha que uma variavel aleatoria contnua padronizada Y tem
media zero, variancia um e cumulantes j de ordens O(n1j/2 ) para j 3. Neste caso, a
expansao de Edgeworth para P (Y y) segue diretamente de (3.11). Suponha agora que
y e u sao definidos por P (Y y ) = (u ) = 1 . As expans
oes de Cornish-Fisher
sao duas expansoes assintoticas relacionando os quantis y e u : uma expansao normalizadora que expressa u como funcao de y e sua expansao inversa dando y em termos
de u .
A demonstracao dessas expansoes requer calculos algebricos longos e apresenta-se aqui
apenas a ideia da prova. Expandindo (u ) vem
(u ) = {y + (u y )} = (y ) +
X
(u y )r
r=1
r!
Dr (y )
e, entao,
(u ) = (y ) +
X
(u y )r
r=1
r!
(1)r1 Hr1 (y )(y ).
(3.12)
Igualando P (Y y ) proveniente de (3.11) à equacao (3.12), pode-se expressar u em

funcao de y ate O(n1 ) como
2
4 3
3
(y 3y ) .
u = p(y ) = y (y2 1) + 3 (4y2 7y )
6 n
36n
24n
(3.13)
Entao, qualquer probabilidade P (Y y ) ate O(n1 ) e facilmente calculada como

1 (u ), com o quantil u dado por (3.13). Este procedimento de calculo e valido
68
Introduc
ao `
a Teoria Assint
para qualquer estatstica contnua padronizada que tenha terceiro e quarto cumulantes de
ordens O(n1/2 ) e O(n1 ), respectivamente, e os demais cumulantes de ordem o(n1 ).
O polinomio (3.13) de Cornish-Fisher representa a transformac
ao normalizadora p(Y )
da variavel Y ate O(n1 ), isto e, p(Y ) N (0, 1) + Op (n3/2 ). Este polinomio e usado
comumente para normalizar qualquer distribuicao de probabilidade fazendo algum dos
seus parametros tender para infinito, ou seja, substituindo-se n no resultado assintotico
de grandes amostras (n ) por algum parametro da distribuicao de interesse que
cresce indefinidamente. O exemplo a seguir ilustra isso.
Exemplo 3.4 Considere o calculo da expans
ao de Cornish-Fisher normalizadora da
vari
avel aleatoria de Poisson Z P (). Padronizando-se esta vari
avel Y = (Z )/
D
pode-se usar (3.13) com ao inves de n . Observe-se que Y N (0, 1)

quando . Como 3 = 1/2 e 4 = 1 , obtem-se
1
1
p(Y ) = Y (Y 2 1)
(3Y 3 8Y 2 + 5Y ) .
72
6
Assim, a variavel transformada p(Y ) acima tem distribuic
ao N (0, 1) com erro O(3/2 ).
A expansao formal de Edgeworth para a distribuic
ao de P (Z z) segue de (3.10) como
y 2 1 y 5 7y 3 + 3y
+
P (Z z) = (y) (y)
72
6
(
+ O(3/2 ),
sendo y = (z + 0, 5)/ com a correc

ao 0,5 de continuidade.
O objetivo da expansao inversa de Cornish-Fisher e expressar os quantis y de Y
como funcao dos correspondentes quantis u da distribuicao normal reduzida. A inversao
da expansao (3.13) para calcular y em termos do quantil u da normal reduzida e feita
atraves da formula geral de inversao de Lagrange. Entao, y = u + g(y ) pode ser
expandido em termos de u como
y u = g(u ) +
Dg 2 (u ) D2 g 3 (u )
+
+
2!
3!
(3.14)
Identificando o polinomio g(y ) = y p(y ) em (3.13), substituindo em (3.14) e calculando as potencias de g(u ) e suas derivadas, obtem-se y em funcao de u ate O(n1 )
22o Col
atica
como
69
2
4 3
3
y = u + (u2 1) 3 (2u3 5u ) +
(u 3u ).
6 n
36n
24n
(3.15)
A importancia da inversao de Cornish-Fisher (3.15) na inferencia e possibilitar o

calculo dos quantis de estatsticas em termos dos quantis correspondentes da distribuicao
normal reduzida, conforme ilustra o exemplo abaixo.
Exemplo 3.5 Suponha que Z 2n e seja Y = (Z n)/ 2n a vari

avel aleat
oria qui
quadrado padronizada, cujos terceiro e quarto cumulantes s
ao 3 = 2 2 e 4 = 12. Logo,
P (Z z ) = P (Y (z n)/ 2n) e, portanto, juntando os dois termos de ordem n1

em (3.15) vem
z = n +
)
1
2 2
3
2n u + (u 1) +
(u 7u ) .
3 n
18n
(
A Tabela 3.3 (Barndorff-Nielsen e Cox, 1990, p.119) mostra a adequac

ao das aproximac
oes para z provenientes da equac
ao acima usando apenas o termo de ordem O(1)(u )
e aquelas incluindo os termos O(n1/2 ) e O(n1 ). Observa-se desta tabela que a correcao
O(n1/2 ) ja melhora substancialmente a aproximac
ao normal, sendo que esta aproximacao
e ruim mesmo para n = 100, ao nvel de signific
ancia de 1%.
Tabela 3.3: Comparacao das expansoes de Cornish-Fisher para os quantis da 2n

Expansoes ate
n Exato
O(1) O(n1/2 ) O(n1 )
5 15,09 12,36
15,20
15,07
10 23,21 20,40
23,34
23,25
0,01 50 76,15 73,26
76,20
76,16
100 135,81 132,90
135,84 135,81
5
9,24
9,65
10 15,99 15,73
0,10 50 63,17 62,82
100 118,50 118,12
9,48
16,16
63,24
118,55
9,24
15,99
63,16
118,50
70
Introduc
ao `
a Teoria Assint
3.5
Expans
oes Ponto de Sela
As expansoes ponto de sela sao muito importantes na teoria assintotica para aproximar
com grande precisao as funcoes densidade e de distribuicao, sendo facilmente deduzidas
da funcao geratriz de cumulantes correspondente.
Sejam Y1 , . . . , Yn variaveis aleatorias contnuas iid com funcao densidade f (y) e funcoes
geratrizes de momentos e cumulantes M (t) e K(t), respectivamente. Define-se a famlia
exponencial conjugada de f (y), indexada por um parametro , por
f (y; ) = exp{y K()}f (y) .
(3.16)
A famlia exponencial (3.16) reproduz exatamente a funcao densidade f (y) postulada para
os dados quando = 0. O divisor necessario para normalizar a expressao exp(y)f (y)
e igual a` funcao geratriz de momentos M (t) de Y . A funcao geratriz de cumulantes
K(t; ) correspondente a (3.16) e expressa em termos daquela K(t) de Y por K(t; ) =
K(t + ) K().
Sejam fSn (s; ) e KSn (t; ) as funcoes densidade e geratriz de cumulantes de Sn relativas à famlia (3.16). Tem-se KSn (t; ) = nK(t + ) nK() e, por inversao, vem
fSn (s; ) = exp{s nK()}fSn (s)
(3.17)
sendo fSn (s) = fSn (s; 0).

As funcoes densidade de Sn e Sn correspondentes à famlia (3.16) estao relacionadas
por
1
fSn (s; ) = fSn (y; ) q
nK 00 ()
(3.18)
onde y = {s nK 0 ()}/ nK 00 (). Aproxima-se fSn (y; ) pela expansao de Edgeworth

(3.9) escolhendo convenientemente y = 0 para anular o termo O(n1/2 ). Esta esco que satisfaz a equacao
lha equivale a considerar a distribuicao em (3.16) definida por
= s/n. Pode-se interpretar
como a EMV de baseada numa u
K 0 ()
nica observacao
00 1/2
= fS (0; ){nK
segue de (3.9),
s de (3.17). Logo, fSn (s; )
()}
. Agora, fSn (0; )
n
22o Col
atica
71
observando que os cumulantes referentes a (3.16) sao n vezes as derivadas de K()

+ O(n2 ),
= 1 {1 + M ()}
fSn (0; )
2
(3.19)
onde M () e um termo de ordem n1 dado por

M () =
34 () 53 ()2
,
24n
(3.20)
sendo j () = K (j) ()/K (2) ()j/2 para j = 3 e 4 e K (j) () = dj K()/dj . Assim, 3 () e

4 () sao os cumulantes padronizados que medem a assimetria e a curtose da distribuicao
(3.16). O erro em (3.19) e O(n2 ), pois o polinomio correspondente a O(n3/2 ) e de ordem
mpar e se anula em zero.
em (3.17), explicitando fSn (s) e usando (3.18) e (3.19) vem
Fazendo =
fSn (s) =
s}
exp{nK()
+ O(n2 )} .
q
{1 + M ()
(2)
2nK ()
(3.21)
A formula (3.21) para aproximar a funcao densidade de Sn e denominada expans

ao ponto
de sela da soma e produz aproximacoes precisas para funcoes densidades baseadas nas
suas funcoes geratrizes de cumulantes. A terminologia e proveniente de uma deducao
alternativa atraves da integral de contorno que inverte na funcao geratriz de momentos
de Sn (Daniels, 1954). Observe-se que o termo principal de (3.21) so depende da funcao
geratriz de cumulantes K(t) de Y . Esta formula e bem diferente da expansao de Edge a funcao geratriz
worth (3.9). Primeiro, para usar (3.21) e necessario calcular, alem de ,
de cumulantes K(t) de Y e nao somente os seus 4 primeiros cumulantes. Entretanto, nas
aplicacoes isso nao apresenta grandes dificuldades. O termo principal em (3.21) nao e
a funcao densidade da distribuicao normal N (0, 1) e, embora seja sempre positivo, nem
sempre integra um. Entretanto, este termo pode ser normalizado. A expansao (3.21) e
dada em potencias de n1 , enquanto a expansao de Edgeworth e dada em potencias de
n1/2 . Uma desvantagem de (3.21) e que nem sempre e facil integrar o seu lado direito
para obter uma aproximacao para a funcao de distribuicao de Sn .
Verifica-se de imediato que a expansao ponto de sela para Sn num ponto qualquer w
segue expressao identica à (3.21) com nK (1) (0) + nwK (2) (0) no lugar de s e o radicando
72
Introduc
ao `
a Teoria Assint
(2)
sendo substituido por 2K (2) ()/K

(0). Esta expansao constitui, em geral, uma melhor
aproximacao para a funcao densidade exata de Sn do que (3.9), pois o erro e O(n2 )
ao inves de O(n3/2 ). Entretanto, na expansao ponto de sela, o erro e multiplicativo,
enquanto na de Edgeworth e aditivo. A formula (3.21) e satisfeita mesmo para regioes
de grandes desvios da forma |s nE(Y )| bn , para bn fixado, e em certos casos, mesmo
para todos os valores de s (Jensen, 1988). Na Secao 5.4 apresenta-se uma aproximacao
para a funcao densidade da EMV baseada em (3.21).
A expansao para a funcao densidade da media amostral Y n = Sn /n segue diretamente
de (3.21) como
(
fY n (y) =
)1/2
y}]{1
+ O(n2 )},
exp[n{K()
+ M ()
2K (2) ()
(3.22)
onde M () e obtido de (3.20). O termo principal em (3.22) e denominado aproximacao

ponto de sela para fY n (y). Assim, basta conhecer a funcao geratriz de cumulantes K(t)
comum de n variaveis aleatorias iid para se obter a aproximacao ponto de sela da funcao
densidade da media amostral dessas variaveis.
Exemplo 3.6 Sejam Y1 , . . . , Yn vari
aveis aleat
orias iid com distribuic
ao N (, 2 ). A
e obtida de +
2 = s/n.
func
ao geratriz de cumulantes e K() = +2 2 /2 e a EMV
= 2 e K (3) () = K (4) () = 0 implicando M () = 0. Logo, obtem-se de
Tem-se K (2) ()
(3.21)
fSn (s) =
exp{(s n)2 /(2n 2 )}
{1 + O(n2 )}.
2
2n
O termo principal da expressao acima e a func

ao N (n, n 2 )
de Sn . Neste caso, a expansao ponto de sela reproduz a func
ao densidade exata de Sn .
Exemplo 3.7 Considere a situac
ao do exemplo 3.2 na qual Y1 , . . . , Yn tem distribuicao
exponencial de media 1 e, entao, Sn tem func
ao densidade Sn (s) = sn1 es /(n 1)!.
e
= 1 n/s, K()
=
Assim, M () = (1 )1 e K() = log(1 ). A EMV
= s2 /n2 . O termo M ()
decorre de (3.20) como M ()
= 1/12n.
log(s/n) e K (2) ()
Logo, a expansao ponto de sela (3.21) implica
fSn (s) =
1
sn1 es
1
+ O(n2 )
n
n1/2
12n
2e n

22o Col
atica
73
A expansao acima esta de acordo com a func

ao densidade exata Sn (s) podendo ser diretamente obtida a partir desta usando a aproximac
ao de Stirling (2)1/2 en nn1/2 {1 +
1
12n
+ O(n2 )} para a funcao gama (n) = (n 1)!.
Usualmente, o interesse maior em inferencia reside em obter aproximacoes precisas

para probabilidades do tipo P (Sn s) (ou P (Y n y)) de uma amostra iid de n observacoes. A expansao de Edgeworth (3.10) pode ser usada com este objetivo, mas o erro
da aproximacao pode se tornar grande nas extremidades da distribuicao de Sn (ou Y n ).
Uma maneira obvia de aproximar P (Sn s) e integrar numericamente a aproximacao
ponto de sela representada pelo termo principal em (3.21), preservando as propriedades
excelentes deste termo, ou seja, calcular
P (Sn s) =
e{nK()x}
dx .
2nK (2) ()
O calculo da integral acima e complicado e o leitor podera consultar Daniels (1987),

DiCiccio, Field e Fraser (1990), Barndorff-Nielsen e Cox (1990, Secao 4.3) e Hinkley, Reid
e Snell (1991, Secao 12.4).
Pode-se demonstrar, com extensa algebra, que a expansao de P (Sn s) ate termos
> 0, e dada por (Daniels, 1987)
de ordem O(n1 ) quando s > nE(Y ), isto e, quando
3 v3 1
v 2 /2) {1(
s+
P (Sn s) = exp(nK
v )} 1 +
6 n n
"
3 (
v 2 1) 1
+(
v)
6 n
n
(
4 (
v 3
v ) 23 (
v 5
v 3 +3
v)
+
24
72
4 v4 23 v6
+
24
72
!)
(3.23)
!)#
(2) 1/2
4 = 4 (),
K
e v = {nK
= K()
onde 3 = 3 (),
()} . A aproximacao obtida de
(3.23) com apenas os termos de ordem O( n) fornece, em geral, bons resultados.
< 0, pode-se obter P (Sn s) ate O(n1/2 ) como

No caso de s < nE(Y ), ou seja,
+ v2 /2)
s
P (Sn s) = H(
v ) + exp(nK
"
3 v3
3 (
v 2 1)
{H(
v ) (
v )} 1
+ (
v)
6 n
6 n
!
(3.24)
74
Introduc
ao `
a Teoria Assint
onde H(w) = 0, 1/2 e 1 quando w < 0, w = 0 e w > 0, respectivamente.

sendo (3.24) correta apenas ate
As equacoes (3.23) e (3.24) dependem do sinal de ,
O(n1/2 ). Uma forma alternativa simples de obter P (Sn s) ate O(n1 ), valida sobre
todo o intervalo de variacao de s, e devida a Lugannani e Rice (1980), que deduziram a
seguinte formula:
1 1
P (Sn s) = (
r) +
(
r),
(3.25)
r v
0 ()
K()}]
1/2 , cujo erro e o(n1 ) uniformemente em s.
onde r = sinal()[2n{
K

As quantidades r e v podem ser interpretadas como a razao de verossimilhanca sinalizada e a estatstica escore (vide Secao 4.3), respectivamente, para testar = 0 no modelo
exponencial (3.17) determinado por Sn .
A aproximacao (3.25) e boa em quase todo o intervalo de variacao de s, exceto proximo
ao ponto s = E(Sn ) ou r = 0, onde deve ser substituda pelo seu limite, quando r 0,
dado por
P (Sn s) =
3
1
+
.
2 6 2n
Os exemplos 3.8 e 3.9 e as Tabelas 3.4 e 3.5 correspondentes ilustram para as distribuicoes exponencial e uniforme, respectivamente, a adequacao das aproximacoes para
P (Sn s) decorrentes de (3.23) incluindo os termos de ordens O(n1/2 ) e O(n1 ) e
aquela aproximacao dada por (3.25), onde estao expressos tambem os valores exatos de
P (Sn s) para comparacao.
Exemplo 3.8 Suponha a distribuic
ao exponencial de media um e func
ao densidade
f (y) = ey (y > 0). Tem-se K() = log(1 ). A Tabela 3.4 compara as tres aproximac
oes decorrentes de (3.23) e (3.25) e o valor exato de P (Sn s) para n = 1, 5 e 10
e diversos valores de s. Observe-se que (3.25) fornece resultados excelentes mesmo para
n = 1.
Exemplo 3.9 Considere a distribuic
ao uniforme com func
ao densidade f (y) = 21 (1
y 1) e K() = log{senh()/}. A Tabela 3.5 compara as tres aproximac
oes decorrentes
de (3.23) e (3.25) e o valor exato de P (Sn s) para n = 1, 3 e 10 e diversos valores de
s. Para n = 10, as aproximacoes (3.23) ate O(n1 ) e (3.25) praticamente se igualam aos
valores exatos.
22o Col
atica
75
Tabela 3.4: Comparacao das aproximacoes ponto de sela para P (Sn s) na

distribuic
ao exponencial
n
1
s
0,5
1,0
3,0
7,0
1,0
3,0
5,0
10,0
20,0
5,0
10 10,0
15,0
20,0
Exato
0,6065
0,3679
0,0498
0,00091
Aproximacao (3.23)
0,6176
0,6077
0,3670
0,3670
0,0482
0,0510
0,00095
0,00091
(3.25)
0,6043
0,3670
0,0500
0,00093
0,99634
0,8153
0,4405
0,0293
0,0000169
0,99638
0,8172
0,4405
0,0291
0,0000171
0,99635
0,8156
0,4405
0,0293
0,0000169
0,99633
0,8152
0,4405
0,0293
0,0000170
0,9682
0,4579
0,0699
0,00500
0,9683
0,4579
0,0695
0,00499
0,9682
0,4579
0,0699
0,00500
0,9682
0,4579
0,0699
0,00500

distribuic
ao uniforme
n
1
s
0,2
0,4
0,6
0,8
Exato
0,4
0,3
0,2
0,1
Aproximacao (3.23)
0,3897
0,3841
0,2831
0,2767
0,1855
0,1830
0,0945
0,0974
(3.25)
0,3838
0,2750
0,1791
0,0948
0,5
1,0
1,5
2,5
0,3177
0,1667
0,0703
0,00260
0,3193
0,1699
0,0710
0,00255
0,3168
0,1676
0,0699
0,00258
0,3168
0,1673
0,0695
0,00254
0,2945
0,0505
0,00247
0,0000159
0,2945
0,0504
0,00246
0,0000159
1,0
10 3,0
5,0
7,0
0,2945
0,2953
0,0505
0,0508
0,00247
0,00249
0,0000159 0,0000160
76
Introduc
ao `
a Teoria Assint
As expansoes ponto de sela (3.23) (3.25) so sao validas para variaveis aleatorias
contnuas. No caso discreto, elas podem ser adaptadas com correcoes de continuidade.
A expansao para P (Sn s) ate O(n1/2 ) correspondente a (3.23) quando s > nE(Y ),
valida para distribuicoes discretas, tem a forma (Daniels, 1987)
P (Sn s) = exp{(
r2 + v2 )/2}{/(1
e )}
(1 (
v ))
3 v
v
1 (e 1)1 )
1 q
(
6 n
00
nK
(3.26)
2
(
1
v
1)
3
1 (e 1)1 ) ,
+q
(
+(
v)
6 n
00
nK
com todas as quantidades ja definidas anteriormente.

A formula de Lugannani e Rice (3.25) pode ser aplicada no contexto discreto com as
e v dadas por
correcoes de continuidade para
= s 0, 5 e v = (1 e ){nK (2) ()}
1/2 .
nK 0 ()
Exemplo 3.10 Ilustra-se na Tabela 3.6 o desempenho das equac

oes (3.25) (com as
correc
oes de continuidade acima) e (3.26) para aproximar P (Sn s) no caso da distribuic
ao de Poisson com media , onde K() = (e 1), supondo = 0, 2, n = 1 e
= 1, n = 1, 5 e 10, e considerando v
arios valores de s. A Tabela 3.6 mostra que o
desempenho da formula (3.25) e excelente mesmo no caso discreto com n = 1.
Outros exemplos numericos apresentados por Daniels (1983, 1987) e Davison e Hinkley
(1988) sinalizam para o uso em inferencia da formula (3.25) no calculo aproximado de
probabilidades nao somente associadas com somas e medias de variaveis aleatorias mas
com in
umeras distribuicoes contnuas e discretas.
22o Col
atica
77

distribuic
ao de Poisson
s
1
2
3
4
= 0, 2,
n=1
Exato
(3.25)
(3.26)
0,1813
0,1840
0,1759
0,0175
0,0177
0,0171
0,00115
0,00116
0,00112
0,0000568 0,0000572 0,0000563
= 1,
n=5
s Exato
(3.25)
1 0,99326
0,99319
3 0,8753
0,8752
5 0,5595
0,5595
15 0,000226 0,000226
3.6
= 1,
n=1
Exato
(3.25)
0,6321
0,6330
0,0803
0,0804
0,0000832 0,0000834
0,00000113 0,00000113
s
1
3
7
9
= 1,
n = 10
s Exato
(3.25)
1 0,9999546 0,9999536
5 0,9707
0,9710
10 0,5421
0,5421
20 0,00345
0,00345
(3.26)
0,99356
0,8765
0,5595
0,000225
(3.26)
0,6330
0,0790
0,0000825
0,00000115
(3.26)
0,9999567
0,9710
0,5421
0,00344
Expans
oes de Laplace
As expansoes assintoticas para muitas integrais usadas em Estatstica, incluindo aproximacoes para funcoes de distribuicao tais como funcao gama e funcoes de Bessel, podem
ser deduzidas por uma tecnica denominada de metodo de Laplace. O interesse inicial e
obter a expansao da transformada de Laplace L(z) =
R
0
ezy f (y)dy para z grande. A
funcao geratriz de momentos M (t) da distribuicao com funcao densidade f (y) sobre os
reais nao-negativos e dada por M (t) = L(t). Para funcoes f (y) bem comportadas, a
forma de L(z) para z grande e determinada pelos valores de f (y) proximos a y = 0.
Expandindo f (y) em serie de Taylor vem
f (y) =
f (r) (0)
yr
r!
e, entao,
L(z) =
yr
(0)
dy
r!
!
zy
(r)
ou
L(z) =
X f (r) (0) Z
r
r!
ezy y r dy .
78
Introduc
ao `
a Teoria Assint
Como a integral acima iguala r!/z r+1 , obtem-se

L(z) =
X f (r) (0)
r
z r+1
f (0) f 0 (0)
+ 2 +
z
z
(3.27)
Exemplo 3.11 Considere a determinac

ao da expans
ao da integral da normal (z) =
1
R
z
(y)dy para z grande. Por simples mudanca de vari

aveis vem
(z) = 1 (z)
2 /2
ezt et
dt .
2 /2
Fazendo f (t) = et
e calculando a expans
ao da integral acima usando (3.27), tem-se
(z) = 1
(z)
1
3
7
1 2 + 4 6 + ...
z
z
z
2z

(3.28)
Para z fixado, o erro cometido no trunamento de (3.28) e menor do que o primeiro termo
omitido, embora a serie infinita seja divergente. Claramente, fixado o n
umero de termos
em (3.28), a aproximacao melhora quando z cresce.
Considere agora que a integral a ser avaliada para z tem a forma

w(z) =
ezr(y) f (y)dy .
(3.29)
O calculo da expansao da integral (3.29) para z grande e u

til para aproximar varias
integrais de interesse na Estatstica. A contribuicao principal para w(z) quando z e
grande vem dos valores de y proximos ao mnimo de r(y) que pode ocorrer em a ou b ou
no interior do intervalo (a, b). Suponha, inicialmente, que r(y) e minimizada em y (a, b)
e que r0 (
y ) = 0, r00 (
y ) > 0 e f (
y ) 6= 0. Tem-se,
w(z) =
exp{z
r z(y y)2 r00 /2 }f (y)dy
com a convencao r = r(
y ), r00 = r00 (
y ), f = f (
y ), etc. Ainda,
s
z
r
w(z) = e
!
2 Z +
1
0
{f + (y y)f + . . .} y y;
dy ,
z
r00
y
r00
22o Col
atica
79
onde (y ; 2 ) representa a funcao densidade da distribuicao normal N (, 2 ). Com

alguma algebra, demonstra-se (Barndorff-Nielsen e Cox, 1990, Secao 3.3) que w(z) pode
ser escrita ate O(z 1 ) como
s
z
r
w(z) = e
2 1
f+
z
r00
z
f00
r(3) f0 r(4) f 5(
r(3) )2 f
002 +
+ O(z 2 )
00
002
003
2
r
2
r
8
r
24
r
!
(3.30)
No caso de r(y) ser minimizada em y = a (ou b) e r0 (

y ) nao sendo nulo, obtem-se
(
z
r
w(z) = e
f
+ O(z 2 )
0
z
r
Outros refinamentos do metodo de Laplace incluindo a possibilidade de r(y) depender

fracamente de z sao apresentados no livro de Barndorff-Nielsen e Cox (1990, Secao 3.3).
Exemplo 3.12 Seja o calculo da func

ao gama (z + 1) =
R
0
xz ex dx para z grande.
Com a mudanca de variavel y = x/z vem

(z + 1) = z
z+1
exp(z log y zy)dy
que e exatamente da forma (3.29) com f (y) = 1 e r(y) = log y + y. Tem-se y = 1, r =

1, r0 = 0, r00 = 1, r(3) = 2 e r(4) = 6. Substituindo esses valores em (3.30) vem
(z + 1) =
2z
z+1/2 z
1
1+
+ O(z 2 )
12z
(3.31)
que e a expansao de Stirling. A aproximac

ao (3.31) e boa para z 1, 5.
3.7
Expans
oes Assint
oticas para Vari
aveis Aleat
orias
Algumas vezes e mais facil aproximar as variaveis aleatorias de interesse diretamente

do que obter aproximacoes atraves de suas funcoes de distribuicao. Sejam X0 , X1 e X2
variaveis aleatorias contnuas com funcoes densidade marginais nao dependentes de n e
tendo suporte em IR. Considere a seq
uencia de variaveis aleatorias {Yn } definida quando
80
Introduc
ao `
a Teoria Assint
n por
Yn = X0 + n1/2 X1 + n1 X2 + Op (n3/2 ) .
(3.32)
Uma expansao como (3.32) e denominada expans

ao estoc
astica assint
otica. Varios exemplos de expansoes do tipo (3.32) aparecem na literatura estatstica. O objetivo principal e
calcular a funcao de distribuicao Fn (y) = P (Yn y) de Yn ate ordem n1 em termos das
funcoes de distribuicao F0 (y) = P (X0 y) e densidade f0 (y) =
dF0 (y)
dy
de X0 e de certos
valores esperados de X1 e X2 condicionados a X0 = y. Expansoes estocasticas assintoticas

e expansoes assintoticas para funcoes de distribuicao sao equivalentes supondo a validade
de certas condicoes de regularidade, conforme determina o seguinte teorema de Cox e
Reid (1987):
Teorema de Cox e Reid

A funcao de distribuicao Fn (y) da variavel aleatoria Yn definida por (3.32), supondo certas
condicoes gerais, e dada ate O(n1 ) por
Fn (y) = F0 (y){1 + n1/2 a1 (y) + n1 a2 (y)},
(3.33)
onde as funcoes a1 (y) e a2 (y) sao determinadas a partir das equacoes

F0 (y)a1 (y) = E(X1 |X0 = y) f0 (y),
F0 (y)a2 (y) = E(X2 |X0 = y) f0 (y) +
1
{E(X12 |X0 = y)f0 (y)} .
2 y
(3.34)
(3.35)
A recproca do teorema acima e tambem verdadeira e pode-se construir Yn em (3.32) a

partir de (3.33) definindo convenientemente X0 , X1 e X2 para satisfazer (3.34) (3.35). A
equivalencia entre as expansoes (3.32) e (3.33) e importante na teoria assintotica, conforme
sera mostrado nos dois exemplos seguintes e na Secao 5.7.
Exemplo 3.13 Como ilustracao da aplicabilidade do teorema de Cox e Reid mostra-se

como obter a expansao de Edgeworth (3.11) para a func
ao de distribuic
ao de Yn a partir
da expansao de Cornish-Fisher (3.15) de Yn . Assim, a expans
ao estoc
astica assintotica
22o Col
atica
81
ate O(n1 ) dada em (3.15) e

2
4
3
(U 3 3U )
Yn = U + (U 2 1) 3 (2U 3 5U ) +
6 n
36n
24n
com U N (0, 1). Identificando X0 = U , f0 (y) = (y), X1 = 3 (U 2 1)/6 e
X2 =
23 (2U 3 5U )/36 + 4 (U 3 3U )/24 vem

E(X1 |U = y) = 3 (y 2 1)/6 ,
E(X2 |U = y) = 23 (2y 3 5y)/36 + 4 (y 3 3y)/24 ,
E(X12 |U = y) = 23 (y 2 1)2 /36
e
2 2
{3 (y 1)2 (y)/36} = 23 (y 5 6y 3 + 5y)(y)/36 .
y
Logo, de (3.34) e (3.35) obtem-se
F0 (y)a1 (y) = 3 (y 2 1)(y)/6
e
F0 (y)a2 (y) = {4 (y 3 3y)/24 + 23 (2y 3 5y)/36}(y) 23 (y 5 6y 3 + 5y)(y)/72
ou
F0 (y)a2 (y) = 4 H3 (y)(y)/24 23 H5 (y)(y)/72 .
Finalmente, substituindo-se em (3.33) chega-se `
a expans
ao de Edgeworth (3.11).
Exemplo 3.14 Suponha a variavel aleat
oria qui-quadrado padronizada Yn = (2n
ao 3 = 2 2 e 4 = 12 (vide exemplo 3.5).

n)/ 2n cujos terceiro e quarto cumulantes s
Mostra-se aqui como se obtem a invers
ao de Cornish-Fisher para Yn a partir da expansao
de Edgeworth para a sua funcao de distribuic
ao e do teorema de Cox e Reid. A expansao
para a funcao de distribuicao de Yn ate O(n1 ) segue de (3.11) como
(
)
2
1
1
Fn (y) = (y) (y) H2 (y) + H3 (y) + H5 (y) .
3 n
2n
9n
82
Introduc
ao `
a Teoria Assint
Define-se X0 = U N (0, 1) e, ent

ao, f0 (y) = (y). Consideram-se X1 e X2 como
func
oes dependentes apenas de U, X1 = 1 (U ) e X2 = 2 (U ), a serem determinadas.
Comparando os termos de ordem O(n1/2 ) da expans
ao acima e de (3.33), obtem-se de
(3.34)
(y)
Logo, X1 =
2
(U 2 1).
3
2
H2 (y) = E{1 (U )|U = y}(y) = 1 (y)(y).
3
Analogamente, comparando os termos de ordem O(n1 ), obtem-se
de (3.35)
1
1
(y) H3 (y) + H5 (y)
2
9
1
= E{X2 |U = y}(y) +
2 y
2 2
(y 1)2 (y)
9
1
= 2 (y)(y) + {(y 2 1)2 y + 4y(y 2 1)}(y).
9
Assim,
1
1
1
2 (y) = H3 (y) + H5 (y) + {(y 2 1)2 y + 4y(y 2 1)}
2
9
9
que pela substituicao dos polinomios de Hermite reduz-se a 2 (y) =
mente, X2 =
1
(U 3
18
1
(y 3
18
7y). Final-
7U ) e a formula (3.32) do teorema de Cox e Reid implica
1
2
Y = U + (U 2 1) +
(U 3 7U ) .
3 n
18n
Este resultado e identico àquele obtido no exemplo 3.5 usando diretamente a f

ormula da
invers
ao de Cornish-Fisher.
3.8
Expans
oes por M
etodos Diretos
Muitas expansoes do tipo (3.1) podem ser deduzidas para funcoes densidade e de distribuicao e para funcoes geratrizes de momentos e cumulantes atraves dos metodos diretos, que consistem em padronizar a variavel aleatoria de interesse e expandir as funcoes
matematicas que dependem de n. Algumas vezes e mais conveniente expandir as funcoes
geratrizes de momentos ou cumulantes e depois inverter termo a termo para obter as expansoes das funcoes de distribuicao e densidade. A seguir, apresentam-se alguns exemplos
de expansoes deduzidas pelos metodos diretos.
22o Col
atica
83
Exemplo 3.15 Seja a funcao densidade da distribuic

ao t de Student com n graus de
liberdade dada por
( n+1 )
gn (y) = 2 n (1 + y 2 /n)(n+1)/2 ,
n( 2 )
y IR .
A vari
avel aleatoria t de Student tem media zero e vari
ancia diferente de um, mas pode-se
obter a expansao de log gn (y) a partir das expans
oes calculadas diretamente
e de
y2
log 1 +
n
y2
1
(n + 1) log 1 +
2
n
( n+1
)
2
log
n
( 2 )
(
y2
y4
(y 2 )j
= + 2 +
+ ,
n
2n
jnj
=
y2
j(y 2 )j+1 + (j + 1)(y 2 )j
+
+
2
2j(j + 1)nj
n
1
1
1
1
+
+
= log
3
2
2
4n 24n
20n5

obtida da expansao de Stirling para log (n + 1). Assim,

1
y2
1
log gn (y) = log(2)
+ (y 4 2y 2 1)
2
2
4n
1
1
(2y 6 3y 4 ) +
(3y 8 4y 6 + 1) + O(n4 ) .
2
12n
24n3
Tomando a exponencial da express
ao anterior, obtem-se

gn (y) = (y) 1 +
6
1 4
1
(y 2y 2 1) +
(3y 8
4n
96n2
5
(3.36)
3
16y 12y + 18y + 12y + 12y + 12y + 3) + O(n )
Da expansao (3.36) verifica-se facilmente que a distribuic

ao t de Student tende para a
distribuicao normal reduzida quando n .
Exemplo 3.16 A distribuicao de Poisson P () pode ser considerada como o limite da
distribuicao binomial B(n, ) fazendo n , 0 com n = fixado. O logaritmo
da probabilidade r de r sucessos na distribuic
ao binomial e dado por (r fixo)
84
Introduc
ao `
a Teoria Assint
log r
r
= log
r!
1
(r 1)
+ (n r) log 1
+ log 1
+ log 1
n
n
n
r
= log
r!
1
2 r 2 r
+
r
+
+ O(n2 ) .
n
2
2
2
Ent
ao,
e r
1
2 r 2 r
r =
1+
r
+
+ O(n2 )
r!
n
2
2
2
(
(3.37)
A expansao (3.37) mostra que a probabilidade da distribuic

ao binomial e aproximada por
uma probabilidade associada à distribuic
ao de Poisson, com erro O(n2 ).
3.9
Expans
oes de Fun
c
oes N
ao-Lineares
Nas secoes anteriores, a discussao se referia a somas (ou medias) de variaveis aleatorias
iid. Discute-se aqui uma generalizacao u
til nas aplicacoes da teoria assintotica referente
a uma funcao nao-linear de uma soma (ou media) de variaveis aleatorias independentes.
Por exemplo, a EMV em muitos problemas e uma funcao nao-linear da soma (ou media)
das observacoes.
P
Seja Tn uma estatstica qualquer tal que Tn e suponha que n(Tn ) tem
distribuicao normal N (0, 1) assintotica. Admite-se que n(Tn ) tem uma expansao de
Edgeworth do tipo (3.33) calculada a partir dos quatro primeiros momentos de Tn . Neste
caso, o teorema de Cox e Reid (Secao 3.7) garante que e possvel encontrar, a partir das
equacoes (3.34) (3.35), as funcoes 1 () e 2 () de uma variavel aleatoria X N (0, 1)
tal que
1 (X) 2 (X)
n(Tn ) = X + +
+ Op (n3/2 ) .
n
n
Seja g(t) uma funcao nao-linear de t bem comportada. Deseja-se obter a expansao
estocastica assintotica para n{g(Tn ) g()} e calcular a expansao de sua funcao de

distribuicao. Tem-se que
(
X
1 (X) 2 (X)
g(Tn ) = g + +
+ + Op (n2 )
n
n
n n
22o Col
atica
85
Expandindo a equacao anterior em serie de Taylor vem

1
n{g(Tn ) g()} = Xg 0 () + 1 (X)g 0 (X) + X 2 g 00 () / n
2

1
+ 2 (X)g 0 () + X1 (X)g 00 () + X 3 g 000 () /n + Op (n3/2 ) .
6
(3.38)
A equacao (3.38) representa uma expansao estocastica assintotica do tipo (3.32) com
X0 = Xg 0 (), X1 = 1 (X)g 0 (X)+ 12 X 2 g 00 () e X2 = 2 (X)g 0 ()+X1 (X)g 00 ()+ 61 X 3 g 000 ()
e, portanto, admite uma expansao de Edgeworth do tipo (3.33), cujas funcoes a1 () e a2 ()
podem ser deduzidas com algum algebrismo das equacoes (3.34) (3.35). Resumindo,
funcoes nao-lineares de estatsticas que possuem expansoes de Edgeworth admitem tais
expansoes que podem ser deduzidas do teorema de Cox e Reid.
3.10
Aproximac
ao Normal para Algumas Vari
aveis
Discretas
As aplicacoes das expansoes de Edgeworth e ponto de sela para variaveis aleatorias discretas envolvem o uso das correcoes de continuidade, que representa um metodo simples de
avaliar probabilidades quando uma distribuicao discreta e aproximada por uma contnua.
Em muitas aplicacoes, a distribuicao contnua que serve como aproximacao e a distribuicao
normal e o metodo consiste em aproximar uma probabilidade do tipo P (Y = y) de uma
distribuicao discreta por um intervalo correspondente P (y 0, 5 Y y + 0, 5) da
distribuicao normal supondo que Y varia de um em um. Similarmente, uma probabilidade
tal qual P (Y y) de uma distribuicao discreta pode ser aproximada por P (Y y + 0, 5)
da distribuicao normal correspondente. O ajustamento de y pela adicao e subtracao de
0,5 e uma correcao de continuidade. A correcao objetiva transformar um ponto y de um
conjunto discreto, num intervalo [y 0, 5, y + 0, 5] contnuo, de modo que o valor aproximado da probabilidade pontual P (Y = y) seja obtido como uma area correspondente
ao intervalo unitario centrado em y e abaixo da funcao densidade usada na aproximacao
contnua. As distribuicoes discretas mais comuns onde sao aplicadas as correcoes de
continuidade sao: binomial, Poisson, binomial negativa e hipergeometrica. No que se
segue a probabilidade P = P (Y k|), onde representa parametros, e aproximada por
86
Introduc
ao `
a Teoria Assint
(u), onde u e uma funcao simples de k e e () e a funcao de distribuicao acumulada

da distribuicao N (0, 1).
Distribui
c
ao Binomial
Se Y B(n, p), entao
P = P (Y k) =
k
X
n
j=0
pj (1 p)nj
para k = 0, . . . , n. Pode-se usar P =((k+0,
5np)/(np(1p))1/2 ) quando min(p, 1p) >

5/n. Este resultado e valido assintoticamente quando n e k , de modo que
(y np)3 /{np(1 p)}2 0. O erro absoluto maximo desta aproximacao e menor do
q
que 0, 140 np(1 p). Um resultado aproximado equivalente e
k np
k np
+ q
,
P =
q
q
np(1 p)
2 np(1 p)
np(1 p)
onde () e a funcao densidade da distribuicao N (0, 1). Melhores aproximacoes para P

sao obtidas das equacoes

P =
2[{(k + 1)(1 p)}1/2 {(n k)p}1/2 ]
(3.39)
ou

P =
{(4k + 3)(1 p)}1/2 {(4n 4k 1)p}1/2
(3.40)
Usa-se (3.39) quando p 0, 05 ou p 0, 93 e (3.40) se 0, 05 < p < 0, 93. Uma aproximacao

mais precisa e dada por Pratt (1968): P (Y k)=(u),
onde
(
)1/2
(1 p)
p
1+
g(k + 0, 5) +
g(n k 0, 5)
np
n(1 p)
u=d

1/2
1
n+
p(1 p)
6
com d = k + 32 (n + 31 )p e g(x) = (1 x2 + 2x log x)(1 x)2 sendo g(1) = 0.
(3.41)
22o Col
atica
87
A aproximacao (3.41) tem erro de ordem de magnitude {np(1p)}3/2 uniformemente em

k. Nos casos triviais k = 0 e k = n 1, onde P = (1 p)n e P = 1 pn , respectivamente,
esta aproximacao se deteriora.
As probabilidades individuais P (Y = k) podem ser computadas por
(k np)2
P (Y = k)=
q
exp
2np(1 p)
2np(1 p)
1
Distribui
c
ao de Poisson
Se Y P (), entao
P = P (Y k) =
k
X
e j
j=0
j!
A probabilidade P acima pode ser computada exatamente a partir da funcao de distribuicao qui-quadrado usando
P = P (Y k) = P (22(k+1) 2) .
A aproximacao classica para P e obtida do teorema central do limite como ((k + 0, 5
)1/2 ). Mesmo para grande sua precisao nao e boa: para = 30, k = 17, resulta
em 0, 0113 enquanto o valor exato e 0, 0073. Uma aproximacao mais precisa para P e
1/3
) 1+
P = P (Y k)=1
(w), onde w = 3[( k+1
1
](k
9(k+1)
+ 1)1/2 , sendo baseada
na aproximacao de Wilson-Hilferty para a distribuicao qui-quadrado. Uma outra aprox
imacao simples supoe que 2( Y ) tem distribuicao normal N (0, 1).

Aproximacoes aperfeicoadas para P = P (Y k) podem ser obtidas de
P =(2{(k
+ 1)1/2 1/2 })
(3.42)
P =((4k
+ 3)1/2 21/2 ) .
(3.43)
A aproximacao (3.42) e bastante adequada proximo aos nveis de significancia usuais

enquanto (3.43) funciona melhor se 0, 05 < P < 0, 93. Uma aproximacao alternativa para
88
Introduc
ao `
a Teoria Assint
P pode ser deduzida da expansao (3.13) de Cornish-Fisher. Assim, P = P (Y k)=(u),
onde u segue do exemplo 3.4 como u = p(w) e w = (k + 0, 5 )/1/2 . Entretanto, a

aproximacao mais precisa para P = P (Y k) segue de P =(u)
com
2

k+ +
{1 + g[(k + 0, 5)/]}1/2 1/2 ,
3
k+1

z=
onde g(x) foi definido logo apos a equacao (3.41). A constante so e relevante para
pequeno e pode ser considerada igual a 0,02 ou, se nas extremidades, igual a 0,022. Esta
aproximacao tem erro de ordem 3/2 uniformemente em k, com alguma deterioracao no
caso trivial k = 0, onde P = e nao requer a aproximacao normal.
Uma probabilidade pontual P (Y = k) pode ser calculada como
k + 0, 5
P (Y = k) =

k 0, 5
Se k e grande, atraves da aproximacao de Stirling para (k + 1) = k!, obtem-se

ek
P (Y = k) =
2k
!k
1
+ O(k 2 )
12k
1+
Distribui
c
ao Binomial Negativa
A distribuicao binomial negativa B (s, p) e definida em ensaios independentes de Bernoulli
para modelar a variavel aleatoria que representa o n
umero Y de falhas verificadas antes
de ocorrerem s sucessos. Entao,

P (Y = k) =
s+k1 s
p (1 p)k ,
k

sendo p a probabilidade de sucesso e k = 0, 1, 2, . . . Tem-se

P = P (Y k) =

k
X
s+j1
j=0
ps (1 p)j ,
22o Col
atica
89
que e identica a P (X s), sendo X B(s + k, p). Logo, da equacao (3.39) vem

P (Y k)=
2[{(k + 1)p}1/2 {s(1 p)}1/2 ] .
A distribuicao binomial negativa pode ser normalizada atraves da transformacao Z =

q
s arcsenh( Y /s), tendo Z, aproximadamente, distribuicao normal N (0, 1).
Distribui
c
ao Hipergeom
etrica
Considere uma populacao de N elementos classificada em S sucessos e N S fracassos.
Retira-se desta populacao, sem reposicao, uma amostra de n indivduos. O n
umero Y
de sucessos nesta amostra tem distribuicao hipergeometrica de parametros (S, n, N ) com
funcao de probabilidade

P (Y = k) =
S
k
N S
nk

N
n

(3.44)
para k = 0, 1, . . . , min(S, n). Demonstra-se que = E(Y ) = np e 2 = Var(Y ) =

n)
np(1 p) (N
, onde p = S/N . Uma aproximacao para a funcao de distribuicao de (3.44)
(N 1)
e dada por
P = P (Y k)=((k
+ 0, 5 )/) .
Sejam = np(1p)(1 Nn ), w = (k +0, 5)/ e v = (k +0, 5)/ . Demonstra-se que
Y tem distribuicao assintoticamente normal quando N se, e somente se,
e . A aproximacao (v) para P e melhor do que (w), e esta correta ate ordem
O( 1 ). Uma aproximacao aperfeicoada para P , correta ate O( 2 ), e P =(u),
onde
u=v+
(1 v 2 )(N 2S)(N 2n) v{N 2 3S(N S)}

+
.
6N 2
48N 2 2
As probabilidades pontuais (3.44) podem ser aproximadas pelas distribuicoes binomial

e de Poisson. Usando a distribuicao binomial, tem-se como primeira aproximacao, quando
n < 0, 1N ,

P (Y = k)=
n k
p (1 p)nk .
k

90
Introduc
ao `
a Teoria Assint
Uma melhoria nesta aproximacao pode ser conseguida substituindo n e p por n = np/p
e p = {(n 1) + (N n)p}/(N 1). Uma aproximacao assintotica cujo termo principal
e a distribuicao binomial e dada por

P (Y = k) =
1
{k (k np)2 }
n k
+O
p (1 p)nk 1 +
k
2N p
N 2 p2
"
!#
Se n > N p, uma expansao melhor e obtida permutando n e N P . Quando p e pequeno e

n e grande, pode-se usar a distribuicao de Poisson como aproximacao tal qual
1
1
1
enp (np)k
1
1+
+
{k (k np)2 } + O 2 + 2
P (Y = k) =
k!
2N p 2n
k
n
"
3.11
#
Exerccios
1. Calcule a funcao de distribuicao da soma Sn de 3, 4, 5 e 6 variaveis aleatorias

uniformes em (0, 1). Compare numericamente as probabilidades P (Sn s) exatas
com aquelas obtidas das expansoes de Edgeworth ate O(n1/2 ) e O(n1 ), fazendo s
igual a um, dois e tres desvios padrao acima da media de Sn .
avel aleatoria qui-quadrado nao-central, com r graus de liberdade
2. Seja 02
r,2 uma vari
e parametro de nao-centralidade 2 , cuja funcao geratriz de momentos e M (t) =
(1 2t)1/(2r) exp{t2 (1 2t)1 }.
(a) Demonstre por expansao direta que
1
M (t) = (1 2t)1/2r 1 + t2 (1 2t)1 + t2 4 (1 2t)2 + O(6 ) ;
2

(b) Demonstre por inversao de M (t), que a funcao densidade f (y; r, 2 ) da

variavel 02
cao densidade fr (y) de uma
r,2 pode ser expandida em termos da fun
variavel aleatoria qui-quadrado central 2r , com r graus de liberdade, como
f (y; r, 2 ) = fr (y) +
+
2
{fr (y) fr+2 (y)}
2
4
{fr (y) 2fr+2 (y) + fr+4 (y)} + O(6 ).
8
22o Col
atica
91
3. Sejam Y1 , . . . , Yn variaveis aleatorias contnuas iid com distribuicao na famlia exponencial (3.16) com = 0 . Demonstre que a funcao densidade da soma Sn =
n
X
Yi
i=1
pode ser expressa por

0 )s + n{K()
K(0 )}]
exp[(
q
{1 + O(n1 )} .
00
2n K ()
fSn (s; 0 ) =
4. Deduza a expansao de Edgeworth para a convolucao Sn de n variaveis aleatorias
iid cuja funcao de distribuicao e F (y) = ( y), y > 0. Calcule numericamente as

probabilidades P (Sn s) atraves das expansoes de Edgeworth e da aproximacao de
Lugannani e Rice para n = 5, 10 e 20 e s igual à media de Sn e igual a 2 e 3 desvios
padrao de Sn acima da media.
5. Compare numericamente as aproximacoes (3.25) com as correcoes de continuidade e
(3.26) no calculo das probabilidades P (S5 s) de uma soma de 5 variaveis aleatorias
iid com distribuicao em serie logartmica, cuja funcao densidade e P (Y = y; ) =
y /y, = {log(1 )}1 , 0 < < 1 e y = 1, 2, . . . Faca = 0, 2, 0, 4, 0, 6
e 0, 8 e s = 5E(y) + k 5Var(Y )1/2 , onde k = 0, 1 e 2, E(Y ) = /(1 ) e

Var(Y ) = (1 )/(1 )2 .
6. Demonstre que para a distribuicao gama, cuja funcao densidade e f (y) =
r y r1 ey /(y), tem-se
(
lim P
(Y r)
y = (y) .
r
7. Demonstre as expansoes abaixo:

(a)
(b)
(n + 1) =
(n + 0, 5) =
2(n + 1)
n+0,5 n1
n n
2n e
1
1
1+
+
;
12(n + 1) 288(n + 1)2
1
7
+ O(n5 )
exp
+
3
24n 2880n

8. Demonstre que a funcao de distribuicao da 2n pode ser expressa da expansao de
92
Introduc
ao `
a Teoria Assint
Gram-Charlier como
F2n (y) = (y)
onde 1 =
2
1 (3)
(y) + (4) (y) ,
6
24
128/(27n n), 2 = 4/(9n) 64/(81n2 ) e (k) (y) =
dk (y)
.
dy k
9. Calcule a expansao ponto de sela para a soma de n variaveis aleatorias binomiais

B(mj , ) com a mesma probabilidade de sucesso mas com ndices m1 , . . . , mn
diferentes.
Captulo 4
Teoria Assint
otica de Primeira
Ordem
4.1
Fundamentos
Neste captulo apresenta-se a teoria assint

otica de primeira ordem definida na inferencia
estatstica dos modelos parametricos supondo que a informacao e grande. Nesta teoria os
resultados sao validos somente quando n e decorrem de tecnicas de linearizacao
local baseadas nas expansoes em serie de Taylor e nos teoremas centrais do limite. Em
especial, a funcao escore sendo uma soma de componentes independentes tem assintoticamente distribuicao normal. A linearizacao local relaciona a distribuicao da EMV com
a distribuicao da funcao escore, implicando que a EMV tambem tem assintoticamente
distribuicao normal. A teoria assintotica de primeira ordem produz uma variedade de
metodos e testes estatsticos que sao equivalentes somente ate esta ordem mas diferem
por quantidades de ordem inferior.
A teoria assintotica de primeira ordem geralmente admite que o n
umero de observacoes
n cresce mas a dimensao do vetor de parametros p se mantem constante. Ela e importante porque produz simplificacoes consideraveis para problemas em grandes amostras,
implicando resultados simples e elegantes. Ao contrario, a teoria em pequenas amostras e
extremamente complicada e as solucoes exatas tem alto grau de complexidade. O ponto
fundamental a favor da teoria assintotica de primeira ordem e que as solucoes aproximadas mostram-se, em geral, bastante razoaveis mesmo quando n nao e grande. Esta
93
94
Introduc
ao `
a Teoria Assint
teoria e importante por dois motivos bem distintos. O primeiro surge quando nao se tem
em princpio uma solucao exata para o problema estatstico ou quando a solucao exata e
muito complicada. Entao, pode ser muito mais vantajoso obter uma aproximacao simples
em grandes amostras para alcancar objetivos praticos ou para se ter mais informacao
sobre a solucao exata do problema. O segundo motivo, o mais freq
uente, revela o seu
papel central na inferencia estatstica quando o problema realmente nao tem solucao exata, como, por exemplo, quando nao existe uma regiao de confianca exata ou um teste
otimo para o parametro de interesse. Entao, torna-se natural e inevitavel obter solucoes
aproximadas supondo que o n
umero de observacoes e grande.
Nesta secao apresentam-se alguns criterios mais comuns (erro medio quadratico
e eficiencia) para selecionar as estimativas dos parametros nos modelos estatsticos e
estudam-se as propriedades assintoticas de maior interesse das EMV, tais como, consistencia, unicidade, normalidade, eficiencia e suficiencia. Estas propriedades sao validas
somente quando n e formam a base da teoria assintotica de primeira ordem com
o objetivo de se fazer inferencia.
4.1.1
Erro M
edio Quadr
atico
Considera-se aqui apenas o caso uniparametrico (p = 1). O erro medio quadr

atico (EMQ)
e uma das medidas preferidas para medir o desempenho de uma estimativa T de um escalar
, sendo definido por
EM Q(T ) = E{(T )2 } = Var(T ) + B()2 ,
onde B() = E(T ) e o vies de T . Em geral, tem-se interesse em estimativas naoviesadas (B() = 0) de variancia mnima (NVVM) visando reduzir o EMQ. Entretanto,
em muitas situacoes, pode-se preferir uma estimativa cujas quantidades B() e Var(T ) sao
pequenas a uma outra estimativa nao-viesada mas de variancia apreciavel. As estimativas
de EMQ mnimo nao sao muito usadas face a dificuldades em minimizar o EMQ sem
restricoes adicionais. Entretanto, existe uma teoria elegante para as estimativas NVVM
que tornam estas estimativas atraentes. O EMQ fornece um limite superior para a probabilidade de que o erro absoluto de estimacao exceda uma determinada quantidade pois,
22o Col
atica
95
pela desigualdade de Chebyshev,

P (|T | ) EM Q(T )/2 .
As EMV em geral sao viesadas em pequenas amostras e na Secao 5.3 mostra-se como
calcular os seus vieses de ordem n1 . Entretanto, as EMV sao assintoticamente naoviesadas.
4.1.2
Efici
encia
obvio que quanto menor for a variancia de uma estimativa nao-viesada, maior sera a
E
chance desta estimativa estar proxima do parametro verdadeiro. Uma propriedade desejavel e que a variancia de uma estimativa nao-viesada seja tao pequena quanto possvel.
Esta propriedade conduz a estimativas mais eficientes. Na estimacao de um escalar ,
uma estimativa T e mais eficiente do que uma outra T 0 (no sentido de usar mais eficientemente as observacoes) se EM Q(T ) EM Q(T 0 ). A eficiencia relativa de T 0 em relacao a
T e expressa pelo quociente e(T 0 , T ) = EM Q(T )/EM Q(T 0 ) e geralmente depende de .
No caso de estimativas nao-visadas, a eficiencia reduz-se ao quociente das variancias das
estimativas e, entao, a estimativa NVVM e a mais eficiente. Felizmente, em problemas
regulares, existe um limite inferior tal que a variancia de uma estimativa nao pode ser
menor do que este limite. Para qualquer estimativa T de um parametro cujo vies e
B(), a sua variancia satisfaz Var(T ) {1 + B 0 ()}2 /K(), onde B 0 () = dB()/d. Esta
expressao e conhecida como desigualdade de Cramer-Rao. Se a estimativa e nao-viesada,
a variancia mnima se iguala ao inverso da informacao.
Se uma estimativa T tem esperanca E(T ) = (), a desigualdade de Cramer-Rao
passa a ser Var(T ) 0 ()2 /K(). Claro que a forma anterior e um caso especial desta
desigualdade. Entao, a eficiencia absoluta de uma estimativa nao-viesada T de ()
e definida por e(T ) = {Var(T )K()/ 0 ()2 }1 sendo evidentemente menor ou igual a
um. Se e(T ) = 1 a estimativa T e eficiente. Quando () = , a eficiencia reduz-se a
e(T ) = {Var(T )K()}1 . A EMV de e assintoticamente eficiente.
Uma condicao necessaria e suficiente para que uma estimativa nao-viesada T de ()
96
Introduc
ao `
a Teoria Assint
seja eficiente (isto e, o limite de Cramer-Rao seja alcancado) e que a funcao escore seja
fatorada como
U () =
K()
{T ()} .
0 ()
(4.1)
Caso T seja nao-viesada para , (4.1) simplifica-se para U () = K()(T ). Podese provar ainda que existe uma estimativa T do escalar () de variancia mnima se, e
somente se, os dados tem distribuicao na famlia exponencial uniparametrica dada por
f (y; ) = exp{a(y)c() b() + d(y)}.
(4.2)
facil comprovar que as equacoes (4.1) e (4.2) sao equivalentes.

E
Uma propriedade importante da EMV e que se existe uma estimativa eficiente de um
escalar , o metodo de maxima verossimilhanca ira produzi-la. Se T e eficiente para ,
(4.1) implica que a funcao escore e linear em T , ou seja, U () = C()T + D(). Para
+ D()
= 0. Como uma estimativa de eficiente e nao-viesada obtem-se
= vem C()T
encontra-se = T .
de E{U ()} = 0: C() + D() = 0. Avaliando esta expressao em ,
Ha uma correspondencia biunvoca entre a existencia de uma estatstica suficiente
para e a existencia de uma estimativa NVVM para alguma funcao de desde que o
campo de variacao dos dados independa do parametro desconhecido. Com efeito, se S e
uma estatstica suficiente para , a equacao (1.5) e valida, e derivando o seu logaritmo
em relacao a resulta na seguinte expressao para a funcao escore:
U () =
log g(s, ) = M (s, ),
onde M e alguma funcao de s e . Satisfeitas algumas condicoes de regularidade, pode-se

provar que esta equacao implica os dados terem distribuicao na famlia (4.2) e, portanto,
que apenas uma funcao desta estatstica T = T (S) (T e tambem suficiente para ) ira
satisfazer (4.1), ou seja, ira estimar alguma funcao () de com variancia igual ao valor
mnimo 0 ()2 /K(). No sentido inverso, quando (4.1) for satisfeita, (4.2) sera verificada
e, obviamente, existira uma estatstica suficiente para . Constata-se ainda comparando
(4.1) com a equacao U () = M (s, ) que a condicao de suficiencia e bem menos restritiva
que a condicao de existencia da estimativa NVVM.
22o Col
atica
97
Seja F uma certa classe de distribuicoes e suponha que todas as estimativas T de um

parametro escalar sejam nao-viesadas e cujas variancias existem para toda distribuicao
desta classe. Lehmann e Scheffe (1950) mostraram que no maximo uma destas estimativas e a mais eficiente para a classe F em consideracao. O teorema de Rao-Blackwell
(Lehmann, 1983, Secao 1.6) mostra que e sempre possvel a partir de uma estimativa T
de nao-viesada e de uma estimativa S de suficiente, construir uma outra estimativa
nao-viesada de que seja pelo menos tao eficiente quanto T . Matematicamente, a estatstica E(T |S) e uma estimativa nao-viesada de e, se Var(T ) existir, a sua variancia
ira satisfazer
Var{E(T |S)} Var(T ) .
A igualdade na expressao acima ocorrera se E(T |S) = T com probabilidade igual a um.
4.1.3
Condi
c
oes de Regularidade
As condicoes seguintes de regularidade sao usadas na teoria assintotica para justificar

e delimitar os erros das expansoes em serie de Taylor. Algumas dessas condicoes ou
a totalidade delas sao necessarias para provar as propriedades assintoticas das EMV de
consistencia, unicidade, normalidade, eficiencia e suficiencia, apresentadas nas Secoes 4.1.4
4.1.7 e 4.2.
Suponha que os dados yi0 s sao realizacoes iid de uma variavel aleatoria Y caracterizada
por distribuicoes P pertencentes a uma certa classe P, que dependem de um vetor de
dimensao p, . Sejam f (y; ) e L() = f (yi ; ) as funcoes de probabilidade ou
densidade comum dos dados e de verossimilhanca para , respectivamente.
As seguintes suposicoes serao necessarias no decorrer deste captulo:
(i) as distribuicoes P sao identificaveis, isto e, 6= 0 implica P 6= P0 ;
(ii) as distribuicoes P tem o mesmo suporte para todo , ou seja, o conjunto
A = {y; f (y; ) > } independe de .
A condicao (i) assegura que as distribuicoes de probabilidade dos dados definidas por
dois valores distintos de sao diferentes e a condicao (ii) garante que seus campos de
variacao sao identicos e independem de . As suposicoes (iii) (v) abaixo garantem a
98
Introduc
ao `
a Teoria Assint
regularidade de f (y; ) como funcao de e a existencia de um conjunto aberto 1 no

espaco parametrico tal que o parametro verdadeiro 0 pertenca a 1 :
(iii) existe um conjunto aberto 1 em contendo 0 tal que a funcao densidade f (y; ),
para quase todo y, admite todas as derivadas ate terceira ordem em relacao a ,
para todo 1 ;
(iv) E {U ()} = 0 e a matriz de informacao 0 < K() < para todo 1 ;
(v) existem funcoes Mijk (y) independentes de tais que, para i, j, k = 1, . . . , p,

3 log f (y; )

< Mijk (y)

i j k
para todo 1 , onde E0 {Mijk (Y )} < .

A condicao (iii) representa a existencia de 1 e de derivadas de f (y; ) ate terceira
ordem em 1 , a (iv) que a matriz de informacao e finita e positiva definida numa vizinhanca aberta de 0 e a (v) que as terceiras derivadas da log-verossimilhanca sao limitadas
por uma funcao integravel de Y cuja esperanca e finita.
4.1.4
Consist
encia
Usualmente, uma estimativa e funcao (explcita ou implcita) do tamanho da amostra n

e, pelo menos intuitivamente, espera-se que a precisao desta estimativa aumente quando
n . Neste sentido, uma estimativa Tn e chamada de consistente para um parametro
se EM Q(Tn ) 0 quando n . A grande maioria dos metodos de estimacao,
como o metodo de maxima verossimilhanca, produz estimativas consistentes segundo certas condicoes de regularidade. Geralmente, duas definicoes de consistencia sao usadas
amplamente na teoria assintotica. Sejam estimativas Tn baseadas em variaveis aleatorias
iid, Y1 , . . . , Yn . Diz-se que Tn e: (a) fracamente consistente para se Tn = + op (1); (b)
fortemente consistente para se Tn = + o(1) com probabilidade um. A consistencia
fraca (forte) ocorre quando Tn satisfaz à lei fraca (forte) dos grandes n
umeros. Entao,
Tn e fracamente ou fortemente consistente para se lim P (|Tn | ) = 0, > 0
n
ou P ( lim Tn = ) = 1, respectivamente. Uma propriedade importante da EMV e a

n
consistencia (forte) supondo validas algumas condicoes de regularidade da Secao 4.1.3.
22o Col
atica
99
Para n fixo define-se a EMV em de modo que

`()
`()
(4.3)
para todo . Por causa da igualdade em (4.3), a seq

uencia de valores de quando
n podera nao ser univocamente determinada. Mostra-se aqui que se as condicoes de
regularidade (i) (ii) da Secao 4.1.3 sao validas e e finito, entao a EMV e (fortemente)
q.c.
consistente para o parametro verdadeiro 0 ( 0 ), ou seja, P0
lim = 0 = 1. Uma
n
versao simplificada da demonstracao usa a desigualdade de Jensen E{(Z)} (E(Z))

valida quando (Z) e uma funcao concava definida em IR e Z e uma variavel aleatoria
integravel. Como a funcao logaritmo e estritamente concava, pode-se aplica-la à variavel
aleatoria L()/L(0 ) para obter
"
E0
L()
log
L(0 )
)#
"
< log E0
L()
L(0 )
)#
para todo 6= 0 , onde E0 significa o operador esperanca matematica segundo o parametro

0 . Mas E0 {L()/L(0 )} = 1 e, portanto, E0 {`()} < E0 {`(0 )} para todo 6= 0 . A
essencia da demonstracao da consistencia de e que (4.3) e E0 {`()} < E0 {`(0 )} sao
incompatveis a menos que convirja para 0 . Pela lei (forte) dos grandes n
umeros
n1 `() = n1 log f (yi ; ) converge para n1 E0 {`()} quando n . Logo, por
causa de E0 {`()} < E0 {`(0 )} vem
lim P0 (`() < `(0 )) = 1,
6= 0 .
(4.4)
O limite em (4.4) especifica que, para n grande, a log-verossimilhanca em 0 excede

o seu valor em qualquer outro ponto 6= 0 , com probabilidade proxima de um. Os
resultados
(4.4) e (4.3)
com = 0 so nao serao incompatveis para n grande se

= L(0 ) = 1 for satisfeita. As condicoes (i) (ii) e a finitude de
P0 lim L()
n
permitem concluir que P0
lim = 0 = 1, ou seja, e (fortemente) consistente para
0 .
Se for infinito ou mesmo infinito enumeravel nao se pode deduzir a consistencia
100
Introduc
ao `
a Teoria Assint
(forte) de diretamente de (4.4) sem as suposicoes (iii) (v) da secao anterior. Assim,
supondo que as condicoes de regularidade
prova-se agora a consistencia (forte) da EMV ,
(i) (v) sao satisfeitas, a partir do resultado (4.4) na situacao geral de infinito. Como
em serie de
a log-verossimilhanca e diferenciavel por (iii), obtem-se por expansao de `()
Taylor ate segunda ordem
= `(0 ) + U (0 )( 0 ) 1 ( 0 )T J( )( 0 )
`()
2
(4.5)
onde J() e a informacao observada (Secao 1.3) para e e um vetor situado entre
e 0 . Como U (0 ) e J( ) sao somas de variaveis aleatorias iid elas convergem pela
lei (forte) dos grandes n
umeros para os seus respectivos valores esperados. Logo, por
q.c.
q.c.
(iv), U () 0 e J( ) K( ) > 0, e de (4.2) com = 0 mais (4.4) conclui-se

q.c.

que `()
`(0 ). Deste modo, a forma quadratica em (4.5) deve aproximar-se de zero
q.c.
quando n cresce e, forcosamente, 0 . Entao, demonstrou-se a consistencia (forte)
de qualquer seq
uencia de estimativas obtidas segundo (4.3).
Segundo as condicoes (i) (v) pode-se tambem demonstrar que, com probabilidade
tendendo a um quando n , existe pelo menos uma seq
uencia de solucoes da
q.c.
equacao de maxima verossimilhanca U () = 0 tal que 0 , ou seja, e fortemente
consistente para 0 . A prova formal, entretanto, e bastante complicada e sera omitida

aqui. Se as observacoes forem independentes mas nao identicamente distribudas, muitos
dos argumentos usados anteriormente continuarao valendo aplicando-se a lei fraca dos
grandes n
umeros.
4.1.5
Unicidade Assint
otica
Segundo as condicoes gerais (i) (v) pode-se demonstrar a unicidade assint

otica de ,
isto e, para n grande existe uma u
nica EMV de 0 . Em outras palavras, para grandes
amostras a log-verossimilhanca se torna estritamente concava. Antes de demonstrar a
existencia de uma u
nica EMV para 0 quando n mostra-se que para n grande
e uma solucao da equacao de MV, U () = 0 e, com probabilidade um, corresponde a
um maximo local em qualquer conjunto aberto centrado em 0 . Expandindo U () ate
22o Col
atica
101
primeira ordem e fazendo = vem, com a mesma notacao de (4.5),

= U (0 ) J( )( 0 ) .
U ()
(4.6)
Os dois termos no lado direito de (4.6) tendem a zero quando n ; o primeiro

pela lei forte dos grandes n
umeros e o segundo pela consistencia da EMV. Logo, para n
grande, e uma solucao de U () = 0. Como as observacoes sao iid pode-se considerar
K() = nk(), para todo , onde k() (> 0 por (iv)) e a matriz de informacao para
q.c.

relativa a uma u
nica observacao. Pela consistencia forte de vem n1 J()
n1 J(0 )
e, pela lei forte dos grandes n
umeros, n1 J(0 ) converge com probabilidade um para
k(0 ) > 0. A conjuncao dos dois resultados implica que qualquer EMV deve verificar
> 0) = 1,
lim P0 (J()
(4.7)
de onde se conclui que corresponde, com probabilidade um, a um maximo local de

Para n grande, se (4.3)
U () = 0. Prova-se agora facilmente a unicidade assint
otica de .
produzisse duas EMV 0 e 00 , elas seriam consistentes e verificariam U () = 0 e (4.7), ou
seja, seriam maximos locais assintoticamente. Entao, existiria entre 0 e 00 um ponto de
q.c.
mnimo consistente para 0 ( 0 ) satisfazendo J() < 0. Mas isto violaria (iv), pois
para n grande, J() deve ser positiva definida para 1 . Como a ocorrencia de dois
maximos locais consistentes implica uma contradicao fica provada a unicidade da EMV
em grandes amostras.
Em geral, no caso multiparametrico p 2, mesmo que U () = 0 tenha solucao u
nica
nao implica que ela seja a EMV de que pode ate mesmo nem existir. Contudo, no
caso uniparametrico (p = 1), se a solucao da equacao de MV for u
nica, a probabilidade
de que esta solucao seja a EMV tendera para um quando n . Havera unicidade
das equacoes de MV quando f (y; ) for uma distribuicao nao-degenerada pertencente à
famlia exponencial com p parametros (Secao 1.5), pois `() sera estritamente concava.
102
4.1.6
Introduc
ao `
a Teoria Assint
Normalidade Assint
otica
Considere n observacoes iid, supondo validas as condicoes de regularidade (i) (v) da

Secao 4.1.3. Se e uma solucao consistente da equacao de maxima verossimilhanca
U () = 0, entao
n( 0 ) Np (0, k(0 )1 ),
(4.8)
ou seja, em grandes amostras, a distribuicao de e aproximadamente normal p-dimensional com media 0 e matriz de covariancia K(0 )1 = n1 k(0 )1 . Cramer (1946, Secao
33.3) e Lehmann (1935, Secao 6.4) apresentam demonstracoes rigorosas da convergencia
(4.8) para p = 1 e p 1, respectivamente. Mostra-se inicialmente a demonstracao de
(4.8) no caso uniparametrico. As condicoes gerais de regularidade garantem a expansao
= 0 em torno do parametro verdadeiro 0 ate segunda ordem:
de U ()
1
U (0 ) + U 0 (0 )( 0 ) + U 00 ( )( 0 )2 = 0,
2
onde | 0 | < | 0 | e, portanto, e necessariamente consistente para 0 . Os dois
primeiros termos no lado esquerdo desta equacao sao Op (n1/2 ) e o terceiro e Op (1), pois
U 0 (0 ) = Op (n), U 00 ( ) = Op (n) e 0 = Op (n1/2 ). Como U (0 ) e U 0 (0 ) sao somas
de variaveis aleatorias iid, a expansao anterior implica
n( 0 )
n
X
Ui0 (0 )
i=1
nk(0 )
Pela lei fraca dos grandes n

umeros
Pn
i=1
+ Op (n
1/2
n
X
Ui (0 )
i=1
nk(0 )
Ui0 (0 )/{nk(0 )} = 1 + op (1). Logo,

n
X
n( 0 ){1 + op (1)} =
Ui (0 )
i=1
nk(0 )
(4.9)
Observe-se que (4.9) e o caso uniparametrico da aproximacao (1.15), a u

ltima equacao
sem o erro estocastico. Aplicando o teorema central do limite à soma estocastica do lado
direito de (4.9) e por (iv) prova-se a convergencia (4.8).
22o Col
atica
103
A demonstracao da normalidade assint

otica de no caso multiparametrico e feita de
forma analoga ao caso p = 1. Quando for um vetor de dimensao p, a igualdade (4.9) e
generalizada para
1
n( 0 ){1 + op (1)} = k(0 )1 U (0 ),
n
(4.10)
onde k() = n1 K() e a matriz de informacao para uma u

nica observacao. De (4.10) e
(iv) e facil checar que tem media assintotica zero e estrutura de covariancia assintotica
= K(0 )1 . Entao, a normalidade p-dimensional assintotica de decorre
dada por Cov()
do teorema central do limite multivariado aplicado ao termo do lado direito de (4.10).
O fato de se aproximar a distribuicao da EMV por Np (0 , n1 k(0 )1 ) e um dos
resultados mais relevantes da teoria assintotica de primeira ordem com objetivos de inferencia.
4.1.7
Efici
encia Assint
otica
No caso p = 1, observe-se que k(0 )1 e a variancia da distribuicao assintotica de
0)
n(
que, em geral, nao coincide com o limite de Cramer-Rao (Secao 4.1.2) para a sua variancia
exata. Este fato e melhor compreendido observando que para qualquer estimativa T de
assintoticamente normal, i.e.,
n(T ) N (0, v()), v() > 0,
(4.11)
tem-se: n
lim {n Var(T )} v() k()1 . O resultado (4.11) implica que a estimativa T
e consistente para , mas ela pode ter vies nao-nulo (para n finito). Contrariamente, o
limite de Cramer-Rao k()1 e relativo à variancia exata de n(T ) exigindo-se que

ela seja necessariamente nao-viesada. Uma estimativa T de e assintoticamente eficiente
se satisfaz (4.11) com v() = k(). Desta definicao e de (4.8) conclui-se que qualquer
solucao consistente de U () = 0 e assintoticamente eficiente.
Nao ha dificuldade em generalizar o limite de Cramer-Rao e (4.11) para as componentes de um vetor de parametros IRp . Assim, se k()r,r representa o r-esimo
elemento da diagonal da matriz k()1 , n1 k()r,r e um limite inferior para a variancia
assintotica de qualquer estimativa de r assintoticamente normal (mesmo viesada para n
104
Introduc
ao `
a Teoria Assint
finito). A desigualdade de Cramer-Rao estabelece que qualquer estimativa nao-viesada de

r tem variancia (exata) superior a n1 k()r,r . Como por (4.8) lim {n Var(r )} = k()r,r ,
n
deduz-se que qualquer componente de e assintoticamente eficiente para o parametro

correspondente.
Os resultados de normalidade e eficiencia assintoticas apresentados aqui poderao ser
generalizados para situacoes menos restritivas em que as observacoes sao independentes
mas nao identicamente distribudas, desde que: a) a lei fraca dos grandes n
umeros se
aplique a` informacao observada media n1 J() com esta convergindo em probabilidade
para n1 K() (a matriz de informacao media); b) o teorema central do limite se aplique
à funcao escore total U () sendo a convergencia para uma distribuicao assintotica naosingular. Existem in
umeros outros aperfeicoamentos com suposicoes mais fracas para
garantir consistencia, unicidade, normalidade e eficiencia da EMV em situacoes gerais e
especficas que nao serao citados aqui.
4.2
Sufici
encia Assint
otica
A fatoracao de Neyman-Fisher (1.5) representa a melhor forma de se verificar a suficiencia

de uma estatstica S = S(Y ). Para demonstrar a suficiencia assint
otica de uma solucao
da equacao de maxima verossimilhanca U () = 0 deve-se supor que as condicoes (i) - (v)
da Secao 4.1.3 sao verdadeiras. Neste caso pode-se expandir `() analogamente à equacao
(4.5) como
1 ( )
T J()(
)
+ op (1)
`() = `()
2
com = Op (n1/2 ). Portanto, a forma da verossimilhanca
exp 1 ( )
T J()(
)
+ op (1)
L() = L()
2

implica que e assintoticamente suficiente para , quando existir uma estatstica suficiente.
Em pequenas amostras, a solucao da equacao de maxima verossimilhanca pode nao
ser suficiente para mas sempre sera funcao de uma estatstica suficiente para , quando
existir uma estatstica suficiente.
22o Col
atica
105
Os resultados assintoticos deduzidos nas Secoes 4.1.4 4.1.8 enaltecem que a teoria assintotica de primeira ordem e simples e elegante para as estimativas de maxima
verossimilhanca.
4.3
Infer
encia sem Par
ametros de Inc
omodo
Seja Y uma variavel aleatoria com funcao de probabilidade ou funcao densidade

f (y; ), , dependendo de um vetor de dimensao p. Seja y = (y1 , . . . , yn )T um
vetor de realizacoes de Y . Quando nao ha parametros de perturbacao o interesse e testar
a hipotese nula simples H : = (0) versus A : 6= (0) , onde (0) e um vetor especificado
para . Ha varias maneiras de testar H que sao equivalentes ate primeira ordem, i.e.,
baseiam-se em estatsticas que diferem tipicamente por quantidades de ordem Op (n1/2 ).
Sejam `(), U (), J() e K() a log-verossimilhanca, a funcao escore e as informacoes
observada e esperada relativas ao vetor , respectivamente. As tres estatsticas comumentes usadas para testar H versus A sao a razao de verossimilhanca de Neyman e
Pearson w = 2 log `R expressa por
`((0) )},
w = 2{`()
(4.12)
SR = U ((0) )T K((0) )1 U ((0) ),
(4.13)
(0) ).
W = ( (0) )T K()(
(4.14)
a estatstica escore de Rao
e a estatstica de Wald
As tres estatsticas acima representam as tecnicas mais importantes para avaliacao e teste
de modelos estatsticos. A forma (4.12) foi proposta por Wilks em 1938. Depois, Wald
propos (4.14) em 1943 e Rao desenvolveu (4.13) em 1947.
As formas quadraticas (4.13) e (4.14) sao deduzidas das distribuicoes assintoticas
respectivamente. As estatsticas (4.12)
Np (0, K((0) )) e Np ((0) , K((0) )1 ) de U ((0) ) e ,
e (4.13) independem da parametrizacao adotada para f (y; ) enquanto a estatstica de
106
Introduc
ao `
a Teoria Assint
Wald depende da parametrizacao do modelo. Apenas a estatstica SR nao requer o calculo

da EMV embora envolva a inversa da matriz de informacao.
Se as condicoes de regularidade (i) (v) da Secao 4.2 sao satisfeitas, as tres estatsticas
acima sao equivalentes ate primeira ordem, isto e, elas tem segundo a hipotese nula H
a mesma distribuicao assintotica 2 com p graus de liberdade. Assim, a hipotese H
sera rejeitada para valores grandes de w, SR e W comparados com o valor crtico 2p ()
obtido da distribuicao 2p para um nvel de significancia nominal fixado. As regioes de
100(1 )% de confianca para sao formadas, aproximadamente, por
R() = {; T () 2p ()},
onde T () pode ser qualquer uma das estatsticas (4.12) (4.14).
Como U ((0) ) e K((0) ) se referem a um vetor de dados de dimensao n, pode-se adotar,
sujeito a condicoes de estabilidade, nos calculos assintoticos quando n , a seguinte
convencao:
U ((0) ) =
n U ((0) ) = Op (n1/2 ),
K((0) ) = n K((0) ),
(0) = Op (n1/2 ),
onde K((0) ) e a informacao media por observacao e U ((0) ) e a funcao escore normalizada.
Tem-se K((0) ) = O(1) e U ((0) ) = Op (1). A vantagem da notacao acima e expressar todas
as quantidades em termos de outras que sao de ordem O(1) ou de variaveis aleatorias que
sao Op (1). Se as observacoes sao iid, entao K((0) ) e a informacao relativa a uma u
nica
observacao.
Se K() e contnua em = (0) obtem-se, quando n ,
P
n1 J((0) ) K((0) ),
P

n1 J()
K((0) ).
(4.15)
podem ser substitudas

Assim, nas estatsticas (4.13) e (4.14) as matrizes K((0) ) e K()
pois as varias estatsticas modificadas serao equivalentes
pelas matrizes J((0) ) ou J(),
ate primeira ordem, ou seja, terao a mesma distribuicao limite 2p . As estatsticas (4.12)
22o Col
atica
107
(4.14) irao diferir quando = (0) por quantidades de ordem Op (n1/2 ).

A distribuicao assintotica das estatsticas (4.12) (4.14) e uma conseq
uencia da distribuicao normal p-dimensional assintotica da funcao escore U () com media zero e estrutura de covariancia K(). Para observacoes independentes este resultado decorre da
aplicacao de um teorema central do limite à soma estocastica U (). Supoe-se aqui problemas regulares com a validade dos seguintes resultados
n U () Np (0, K()),

D
n( ) Np (0, K()1 ) .
(4.16)
A distribuicao assintotica das estatsticas escore (4.13) e Wald (4.14) segue de imediato
das convergencias em (4.16). Para demonstrar a distribuicao assintotica da razao de
= 0.
verossimilhanca, expande-se `() em serie de Taylor em torno da solucao de U ()
Assim,
1 ( )
T J()(
)
+ op (1)
`() = `()
2
ou
) + op (1).
w = ( )T J()(
(4.17)
Usando = K()1 U () + op (n1/2 ) e a segunda convergencia em (4.9) encontra-se

w = U ()T K()1 U () + op (1) .
(4.18)
D
Usando a primeira relacao de convergencia em (4.16) obtem-se de (4.18) que w 2p

supondo H : = (0) verdadeira. De (4.17) e (4.18) verifica-se que W e SR sao assintoticamente equivalentes a w. A mesma equivalencia assintotica ocorre, pela combinacao dos
resultados (4.15) (4.16), com formas variantes das estatsticas (4.13) e (4.14) deduzidas
por J((0) ) ou J().
Assim, as estatsticas
substituindo K((0) ) e K()
1 U ((0) ), U ((0) )T J((0) )1 U ((0) ),
U ((0) )T K()
1 U ((0) ), ( (0) )T J((0) )( (0) ),
U ((0) )T J()
(0) ) e ( (0) )T K((0) )( (0) )
( (0) )T J()(
sao assintoticamente equivalentes à distribuicao 2p .
108
Introduc
ao `
a Teoria Assint

ao multinomial y M (n, ) onde y = (y1 , . . . , yp )T
(com yi > 0) representa p freq
uencias observadas com probabilidades associadas =
(1 , . . . , p )T . Para testar H : = (0) versus A : 6= (0) , as tres estatsticas reduzem(0)
p
p
p
X
X
X
(yi ni )2
(0)
(0)
se a: w = 2
e W =
yi log{yi /(ni )}, SR =
(yi ni )2 /yi . A
(0)
ni
i=1
i=1
i=1
distribuicao limite destas estatsticas segundo H e 2p1 . A estatstica SR e a famosa
estatstica 2 de Pearson. Sobre ela R.L. Plackett foi enf
atico: Pearsons chi-squared
test is one of the great monuments of twentieth-century statistics.
No caso de ser um escalar, as formas (4.13) e (4.14) reduzem-se a SR =
Buse (1982) apresenta uma excelente interU ((0) )2 /K((0) ) e W = ( (0) )2 K().
pretacao geometrica das formas de w, SR e W no caso de escalar. Na pratica, testes
envolvendo um grau de liberdade podem ter mais significado comparando-se as estatsticas

w, SR ou W , com um sinal adequado, com os valores crticos da sua distribuicao
normal N (0, 1) assintotica. As estatsticas sinalizadas abaixo
rw = sinal( (0) )w1/2 ,
q
rSR = U ((0) )/ K( ),
(4.19)
rW = ( (0) ) K()
tem, assintoticamente, segundo H : = (0) , distribuicao normal N (0, 1). Aqui, tambem,
e J((0) ) podem substituir K()
e K((0) ) e a distribuicao normal N (0, 1) assintotica
J()
continua valendo. Na realidade, todas estas estatsticas sinalizadas satisfazem: (i) r =
Z + Op (n1/2 ), onde Z e uma variavel aleatoria que tem assintoticamente distribuicao
normal N (0, 1); (ii) P (r x) = (x) + O(n1/2 ). Assim, elas diferem por quantidades
estocasticas de ordem n1/2 em probabilidade.
Exemplo 4.2 Considere uma amostra aleat
oria de tamanho n da distribuic
ao de Poisson
P (), onde se deseja testar H : = (0) versus A : 6= (0) . De (4.12) (4.14) e
f
acil obter w = 2n((0) y) + 2ny log(y/(0) ), SR = n(y (0) )2 /(0) e W = n(y
(0) )2 /y, sendo y a media amostral. Claramente, o teste de H via SR e equivalente ao
teste baseado na aproximacao normal N (n(0) , n(0) ) da distribuic
ao de ny. Qualquer
uma destas estatsticas tem assintoticamente distribuic
ao 21 .
22o Col
atica
109
Exemplo 4.3 Seja uma amostra de observac

oes y1 , . . . , yn iid da distribuic
ao exponencial
com funcao densidade f (y; ) = ey . A EMV de e = 1/y. Para testar H : = (0)
as estatsticas em (4.19) sao
rw = sinal(1 (0) y)[2n{(0) y log((0) y) 1}]1/2 ,
rSR = rW = n(1 (0) y) .

0
Uma outra estatstica equivalente e a Wald modificada rW
com a informac
ao sendo avali
0
ada na hipotese nula ao inves de ser calculada na EMV. Tem-se rW
= n{(0 y)1 1}.
Pode ser demonstrado por primeiros princpios que

rw = Z +
1 2
Z
3 n
+ Op (n1 ),
0
rW
rSR = rW = Z,
= Z +
2
1 Z
n
+ Op (n1 ),
o que ilustra a equivalencia ate primeira ordem destas estatsticas, isto e, todas elas convergem em distribuicao para a normal N (0, 1) quando n .
As estatsticas em (4.19) sao quantidades pivotais assint
oticas para o parametro
pois convergem para uma distribuicao conhecida que nao envolve este parametro quando
n . Assim, os limites de 100(1 )% de confianca para o escalar podem,
alternativamente, ser obtidos como R() = {; |r()| z }, onde z e tal que (z ) =
1/2 tem a vantagem de englobar conjuntamente
1 /2. A estatstica rW = ( )K()
1/2 , enquanto que a estatstica de Wald alternativa
uma estimativa de e sua precisao K()
1/2 , equivalente assintoticamente a rW , contem uma variavel aleatoria
rW1 = ( )J()
que nao envolve mas pode nao representar uma variancia em pequenas amostras.
J()
Ambas estatsticas sao lineares em . Quando o vies B() de ordem n1 de (vide Secao
e J()
5.3) e apreciavel, deve-se aplicar a rW e rW1 uma correcao de vies (supondo K()
por B(
praticamente constantes) substituindo

).
Alternativamente, determinase intervalos de confianca aproximados para em forma explcita usando as estatsticas
q
rw = sinal( )w1/2 e rSR = U ()/ K() quando elas forem funcoes monotonicas de .
Caso contrario, o intervalo para so podera ser construdo numericamente.
110
Introduc
ao `
a Teoria Assint
4.4
Infer
encia com Par
ametros de Inc
omodo
Apresenta-se aqui a teoria assintotica de primeira ordem quando o modelo estatstico

contem parametros de perturbacao. Suponha que o vetor de parametros de dimensao p
e particionado como = ( T , T )T , onde dim() = q e dim() = p q. Deseja-se testar
H : = (0) versus A : 6= (0) , onde e o vetor de parametros de interesse e o
vetor de parametros de perturbacao. Seja `(, ) a log-verossimilhanca para e . De
agora por diante, os smbolos e indicam quantidades estimadas segundo A e H, i.e.,
T )T e restrita = ( (0)T ,
T )T , respectivamente.
avaliadas nas EMV irrestrita = (T ,
Particionam-se o vetor escore U , a matriz de informacao K e sua inversa K 1 da mesma
maneira que , ou seja, U T = (UT , UT ),

K=
K
K
K
K
K 1 =
K
K
K
K
Usa-se notacao similar para a matriz de informacao observada J e para sua inversa J 1 .
T
Em geral, as quantidades U , U , K , K = K
e K dependem de ambos vetores
e .
A estatstica escore baseia-se na normalidade assintotica da componente da funcao
escore U = U ( (0) , ) correspondente ao vetor de parametros de interesse, ou seja, no
resultado
D
U Nq (0, K ),
(4.20)
Entao, a estatstica
onde K = K ( (0) , ) e a matriz de covariancia assintotica de .
escore e definida pela forma quadratica
U ,
SR = UT K
(4.21)
eK
A vantagem da estatstica escore e que ela
= K ( (0) , ).
onde U = U ( (0) , )
so depende da EMV segundo a hipotese nula. A distribuicao assintotica de SR segundo
D
H : = (0) segue diretamente de (4.20) que implica SR 2q .

O desenvolvimento da estatstica de Wald e similar ao da estatstica escore e decorre
Como tem distribuicao normal p-dimensional
da normalidade assintotica da EMV .
22o Col
atica
111
assintotica com matriz de covariancia K 1 , entao, tem tambem segundo H, distribuicao normal q-dimensional assintotica com media (0) e matriz de covariancia K ,
D
ou seja, (0) Nq (0, K ). A matriz K pode ser consistentemente estimada
),
K ( (0) , ),
J (,
)
ou J ( (0) , ).
Escolhendo a primeira forma a
por K (,
estatstica de Wald e dada por
1 ( (0) ),
W = ( (0) )T K
(4.22)
).
Usando-se as outras matrizes de peso obtem-se estatsticas que
= K (,
onde K
sao assintoticamente equivalentes a (4.22). Em qualquer caso, W e uma forma quadratica
correspondente à distribuicao normal assintotica Nq (0, K ) de (0) e, portanto,
D
W 2q , supondo a hipotese nula verdadeira.

A razao de verossimilhanca para testar H : = (0) e definida como
`( (0) , )}
.
w = 2{`( (0) , )
(4.23)
O inconveniente de (4.23) e que w requer duas maximizacoes. Pode-se mostrar que

D
w 2q segundo H (Wilks, 1938). Logo, as estatsticas (4.21) (4.23) sao equivalentes

ate primeira ordem, pois todas convergem sob a hipotese nula para a distribuicao 2q .
Apresenta-se, resumidamente, a estrategia de demonstracao da equivalencia assintotica
das estatisticas SR , W e w. Em primeiro lugar, a formula da inversa de uma matriz
particionada produz
1
K = (K K K
K )1 ,
T
1
K = K = K K K
e
1
1
K = K
K
K K .
1
1
e
e
Alem disso, K = K
+ K K
K . A relacao entre as estimativas
=
+ K 1 K ( ) + Op (n1 ) .
Recorrendo à aproximacao (1.15) tem-se ate primeira ordem

(0)
K
K
K
K

U
U
112
Introduc
ao `
a Teoria Assint
que substituda em (4.22) implica, ignorando quantidades de ordem op (1),

1
W = (K U + K U )T K (K U + K U ).
(4.24)
Ate primeira ordem tem-se

)
= U + U (
U ( (0) , )
).
= U K (
= K U + op (n1/2 ), vem
Como
= U K K U .
U ( (0) , )
Substituindo em (4.21) resulta ate primeira ordem

SR = (U K K U )T K (U K K U ).
(4.25)
A razao de verossimilhanca pode ser decomposta como

`( (0) , )},
)
`( (0) , )} 2{`( (0) , )
w = 2{`(,
isto e, dada pela diferenca entre duas estatsticas para testar hipoteses sem parametros
de incomodo. Assim, usando o resultado (4.18) tem-se ate primeira ordem
w = (UT UT )
K
K
K
K

U
U
1
UT K
U .
(4.26)
Com uma longa algebra envolvendo as matrizes particionadas anteriores demonstra-se

que as expressoes (4.24) (4.26) sao iguais e, portanto, estabelece-se a equivalencia de
primeira ordem das estatsticas SR , W e w.
Um problema que surge na realizacao dos testes de hipoteses e na construcao de
regioes de confianca para e escolher dentre as estatsticas (4.21) (4.23) que, segundo
H : = (0) , sao assintoticamente equivalentes à distribuicao 2q . Claramente, a escolha
22o Col
atica
113
pode ser pautada no grau de dificuldade de calculo das EMV irrestrita e restrita, notando
ainda que w e SR sao invariantes em relacao à reparametrizacao da distribuicao dos dados
mas a estatstica de Wald nao e invariante. Estas estatsticas sao quantidades pivotais
assintoticas para o parametro e, portanto, podem ser usadas para construir regioes
assintoticas de 100(1 )% de confianca para . Estas regioes sao definidas por um
conjunto aleatorio R() IRq dependente de y e de tal que P ( R()) = 1 .
Assim, regioes de 100(1 )% de confianca em IRq para sao deduzidas diretamente das
estatsticas escore SR em (4.21), Wald em (4.22) e razao de verossimilhanca em (4.23),
produzindo
U 2q ()},
R1 () = {; UT K
TK
2 ()},
1 ( )
R2 () = {; ( )
q
`(,
)
1 2 ()},
R3 () = {; `(, )
2 q
respectivamente. Claro que R3 () e mais facil de ser construda do que as regioes R1 ()
e R2 (), pois estas u
ltimas dependem de formas quadraticas. Observe-se que R3 () e
e a EMV de
decorrente da razao de verossimilhanca perfilada (vide Secao 4.5), pois
condicional a . As regioes R1 (), R2 () e R3 () sao assintoticamente equivalentes
mas em pequenas amostras sao diferentes e podem ser imprecisas. Elas sao aplicaveis em
qualquer problema regular na construcao de regioes de confianca.
No caso do parametro de interesse ser escalar, pode-se tambem construir intervalos
de confianca aproximados para generalizando as estatsticas sinalizadas em (4.19). Assim, obtem-se quantidades pivotais assintoticas para analogas àquelas em (4.19) dadas
por
rw = sinal( )w1/2 ,
1/2 ,
rW = ( )/K
1/2 ,
rSR = U K
1/2
rS0 R = U J ,
(4.27)
1/2
0
rW
= ( )/J .
Todas as estatsticas em (4.27) tem distribuicao normal N (0, 1) assintotica. Como rS2 R =
2
SR , r W
= W e rw2 = w, os intervalos obtidos das regioes R1 (), R2 () e R3 () sao
0
identicos àqueles baseados em rSR , rW e rw , respectivamente. As estatsticas rS0 R e rW
sao
versoes assintoticamente equivalentes a rSR e rW com informacao observada no lugar de

informacao esperada.
Uma grande simplificacao ocorre no calculo das estatsticas w, SR e W quando os
114
Introduc
ao `
a Teoria Assint
vetores de parametros e sao ortogonais. Neste caso, a matriz de informacao e blocodiagonal pois as matrizes K e K se anulam e as equacoes de maxima verossimi sao separaveis. Observe-se que as expressoes (4.24) (4.26)
lhanca para determinar e
reduzem-se, sem calculos adicionais, a UT K U . Como conseq
uencia da informacao
sao assintoticamente independentes e a covariancia
ser bloco-diagonal, as EMV e
assintotica de quando e desconhecido e a mesma daquela covariancia quando e con de condicional a especificado
hecido. Um outro aspecto importante e que a EMV
com uma variacao tambem reduzida da EMV de
varia pouco com na vizinhanca de ,
= Op (n1 ).
com especificado. Mais precisamente, se = Op (n1/2 ), entao
= Op (n1/2 ).
Quando nao ha ortogonalidade,
Exemplo 4.4 Suponha que uma vari

avel aleat
oria Y tem func
ao densidade dependendo
de dois parametros (media) e (precis
ao) escrita convenientemente como
f (y; , ) = exp[{y b()} + c1 (y) + d() + d1 (y)],
(4.28)
onde = q() e uma funcao unvoca do par

ametro . As func
oes densidade das dis1
tribuic
oes normal N (, ), gama G(, ) e normal inversa N (, ) podem ser escritas
na forma (4.28). Das condicoes (1.9) e (1.10) verifica-se que E(Y ) = = db()/d e
Var(Y ) = 1 d2 b()/d2 . Representa-se a func
ao de vari
ancia de Y por V = V () =
d2 b()/d2 pois so depende do parametro e, portanto, somente de . Note-se que realmente mede a precisao de Y sendo 1 uma medida de dispers
ao. Sejam n observacoes
iid do modelo (4.28). Apresentam-se agora as estatsticas (4.21) (4.23) para testar a
media H1 : = (0) (versus A1 : 1 6= (0) ) com o par
ametro de precis
ao desconhecido,
e para testar o parametro de precis
ao H2 : = (0) (versus A2 : 6= (0) ) com a media
desconhecida. A log-verossimilhanca como func
ao de e e expressa por
`(, ) = n{yq() b(q())} + c1 (yi ) + nd() + d1 (yi ) .
As componentes da funcao escore com relac
ao a e s
ao U =
n
(y
V
) e U =
obtida de
n{yq() b(q())} + c1 (yi ) + nd (). As EMV irrestritas s
ao:
= y e ,
0
n
1X
c1 (yi ) = 0.
d () + yq(y) b(q(y)) +
n i=1
0
(4.29)
22o Col
atica
115
A equacao (4.29) pode ser n

ao-linear (caso da distribuic
ao gama) ou ter solucoes
fechadas (casos das distribuicoes normal e normal inversa).
No teste de H1 versus A1 , a EMV segundo A1 e obtida de (4.29). A EMV segundo
H1 e calculada tambem desta equac
ao com (0) no lugar de y. Os par
ametros e sao
ortogonais, o que facilita o calculo das estatsticas escore e de Wald. A informac
ao para
, e bloco-diagonal sendo dada por K = diag{ n
, nd00 ()}. Ent
ao, as estatsticas SR1 e
V
W1 seguem diretamente de (4.21) (4.22) como SR1 = nV (y (0) )2 e W1 = nV (y (0) )2 ,

onde V = V ((0) ) e V = V (y). Assim, as formas de SR1 e W1 s
ao similares; a diferenca
e que as quantidades da primeira est
ao avaliadas em H1 e as da segunda em A1 . A
raz
ao de verossimilhanca w1 pode ser calculada de (4.23) numa forma muito simples
Tem-se
(Cordeiro, 1987) levando-se em considerac
ao as equac
oes que determinam e .
v()},
w1 = 2n{v()
onde v() = d0 () d(). As tres estatsticas SR , W1 e w1
1
convergem assintoticamente, quando a hip

otese H1 e verdadeira, para a distribuic
ao 21 .
No teste de H2 : = (0) versus A2 : 6= (0) observe-se que a EMV de e igual
a media amostral y segundo ambas as hip
oteses. Levando-se em considerac
ao a equacao
(4.29) que determina e facil mostrar que a raz
ao de verossimilhanca para testar H2
d((0) ) ( (0) )d0 ()}.
reduz-se a w2 = 2n{d()
Usando-se ainda (4.29), a funcao
e, portanto, obtem-se a
escore relativa a avaliada em H2 iguala U = n{d0 ((0) ) d0 ()}
2 /d00 ((0) ). A estatstica de Wald e simplesestatstica escore SR = n{d0 ((0) ) d0 ()}
2
As tres estatsticas w2 , SR e W2 s
mente W2 = n( (0) )2 d00 ().
ao assintoticamente
2
equivalentes, quando H2 e verdadeira, `
a distribuic
ao 21 . As formas das tres estatsticas
nos testes de H1 e H2 , relativas `
as distribuic
oes normal, gama e normal inversa, sao
facilmente obtidas destas expressoes gerais a partir das func
oes V e d() (vide exerccio
1 da Secao 4.6).
ao multinomial Y M (n, ), apresentada no exemplo 4.1, sendo o vetor de probabilidades de dimens
ao p. O interesse reside em testar a
hip
otese que o vetor depende de um vetor desconhecido de dimens
ao q muito menor
que p, i.e., testar H : 6= () versus A : 6= (). Seja y = (y1 , . . . , yp )T o vetor
das freq
uencias observadas. Cox e Hinkley (1979, Sec
ao 9.3) demonstram que as tres
estatsticas classicas para testar H versus A tem as seguintes express
oes:
116
Introduc
ao `
a Teoria Assint
w=2
p
X
i=1
yi log
yi
ni ()
e
W =
p
X
, SR =
p
2
X
{yi ni ()}
i=1
ni ()
2 /yi ,
{yi ni ()}
i=1
onde e a EMV de segundo H. Admite-se aqui que yi > 0 para i = 1, . . . , p. A

ideia da demonstracao e transformar a hip
otese H : = () na forma can
onica H :
= (0) , desconhecido, usada nesta sec
ao. Assim, as tres estatsticas tem formas
semelhantes àquelas expressoes do exemplo 4.1 relativas ao teste de uma hip
otese simples
2
sobre . Segundo H, elas tem assintoticamente distribuic
ao p1q , e o teste e conduzido
comparando-se os seus valores com os pontos crticos desta distribuic
ao.
4.5
Verossimilhanca Perfilada
No caso de modelos com parametros de perturbacao costuma-se fazer inferencia usando a

verossimilhanca perfilada. Como na Secao 4.3, seja = ( T , T )T o vetor de parametros
particionado nos vetores e de parametros de interesse e de incomodo, respectivamente.
a EMV de para dado valor
Seja L(, ) a verossimilhanca para e . Denota-se por
de . A verossimilhanca perfilada para e definida por
)
L()
= L(,
(4.30)
e e usada em varios aspectos de forma analoga a uma verossimilhanca genuna. A log
verossimilhanca perfilada e `()

= log L().
A forma (4.30) sugere um procedimento de
que
maximizacao em duas etapas. A primeira etapa consiste em achar o valor u
nico
maximiza `(, ) = log L(, ) com respeito a supondo fixo. A segunda etapa visa
difere de
(EMV usual de
a encontrar o valor de que maximiza `().
Em geral,
) por termos de ordem Op (n1/2 ). Os maximos de `()

e `(, ) coincidem e, entao,

) `(,
) `(, ).
supondo que maximiza (4.30) tem-se: `() l() ou `(,
sao iguais às EMV usuais de e . Convem ressaltar

Assim, as EMV perfiladas e
as seguintes propriedades:
sao solucoes das equacoes de maxima verossi1. Se ` = `(, ) e diferenciavel, e
e solucao
milhanca `/|,
= 0, `/|,
= 0 e, para todo fixado,

de `/| = 0, entao a EMV pode ser obtida diretamente da equacao de
22o Col
atica
117
maxima verossimilhanca perfilada com o vetor efetivamente eliminado, i.e., de
`()/|
= 0.
)
`(
(0) )} e igual à razao de
2. A razao de verossimilhanca perfilada w = 2{`(
verossimilhanca usual para testar a hipotese H : = (0) , i.e.,
)
`(
(0) )} = 2{`(,
)
`( (0) , )}
w = 2{`(
D
e, portanto, w 2q , onde q = dim().

3. A regiao de confianca perfilada
)
`()
R() = {; `(
c}
e uma regiao de confianca aproximada para com o nvel de significancia determi Quando q 5, c = q + 1, q + 3 e q + 5
nado da distribuicao 2q assintotica de w.
produz regioes de 95%, 99% e 99,9% de confianca para .
4. A inversa da informacao observada perfilada J()

para e simplesmente dada por
),
1 = J (,
J()
ou seja, e igual ao bloco (, ) da inversa da matriz de informacao observada usual
T )T . A estrutura de covariancia assintotica de pode ser
J(, ) avaliada em ( T ,
estimada por J() .
4.6
Exerccios
1. Nas distribuicoes normal N (, 1 ), gama G(, ) e normal inversa N (, ) do

exemplo 4.4 apresente as formas das estatsticas w, SR e W para os testes da media
e do parametro de precisao . Obtenha regioes de confianca baseadas nestas tres
estatsticas para ( desconhecido) e ( desconhecido).
2. Suponha que se deseja construir intervalos de confianca para na distribuicao normal N (, 1). Compare os intervalos de confianca para baseados nas estatsticas
rw , rSR e rW dadas em (4.19) com o intervalo exato de 100(1 )% de confianca
para . Ilustre numericamente a comparacao.
118
Introduc
ao `
a Teoria Assint
3. Calcule as estatsticas w, SR e W para testar o parametro nas seguintes distribuicoes uniparametricas: Cauchy CA(), serie logaritmica SL() e serie de
potencias SP ().
4. Suponha a distribuicao de Weibull do exemplo 1.5. Obtenha as formas das estatsticas escore, razao de verossimilhanca e Wald para testar ( desconhecido) e
( desconhecido).
5. Deduza a melhor regiao crtica para testar H : = (0) versus A : = (1) supondo
que a funcao modelo e f (y; ) = c()d(y) exp{a()b(y)}.
6. Calcular a MRC para testar uma hipotese simples H : = (0) versus uma alternativa simples A : = (1) nos casos de ser a media da distribuicao de Poisson
P () e ser a probabilidade de sucesso na distribuicao binomial B(m, ).
7. Suponha a famlia de locacao e escala definida por
f (y; , ) = 1 f (
y
),
onde IR, y IR e > 0. Deduza as formas das estatsticas w, W e SR para

testar as hipoteses H1 : = (0) com desconhecido e H2 : = (0) com
desconhecido.
8. Sejam f0 () e f1 () duas funcoes densidades com o mesmo suporte. Forma-se a
famlia de densidades
f (y) = c()f0 (y)1 f1 (y) ,
onde c() e uma funcao normalizadora. Desenvolva uma estatstica escore para
testar a hipotese H : = 0 baseada em n observacoes iid de f (y).
9. Nas distribuicoes normal N (, ), normal inversa N (, ) e gama G(, ), obtenha
regioes aproximadas de 100(1 )% de confianca para: (a) quando e desconhecido; (b) para quando e desconhecido.
10. Sejam y1 , . . . , yn observacoes de Poisson com medias 1 , . . . , n dadas por log i =
+ xi , onde x1 , . . . , xn sao valores de uma covariavel x conhecida. Determine
intervalos de confianca aproximados para baseados nas estatsticas escore, Wald
e da razao de verossimilhanca.
Captulo 5
Teoria Assint
otica de Segunda
Ordem
5.1
Introduc
ao
Neste captulo apresentam-se alguns resultados referentes à teoria assintotica de segunda

ordem, que sao refinamentos dos resultados gerais do Captulo 4. Agora, os erros associados às propriedades estatsticas sao em geral de ordem O(n2 ) ao inves de ordem O(n1 ),
como na teoria assintotica de primeira ordem. As pesquisas em teoria assintotica de segunda ordem tem crescido a passos largos nos u
ltimos anos, principalmente em relacao
aos seguintes topicos: correcao do vies da EMV, formula aproximada de Barndorff-Nielsen
para a funcao densidade da EMV, calculo aproximado da funcao de distribuicao da EMV,
correcoes de Bartlett para melhorar os testes baseados na razao de verossimilhanca e
extensao para as correcoes tipo-Bartlett de outras estatsticas de teste. Neste captulo,
apresenta-se um estudo resumido de cada um destes topicos, citando-se algumas das principais referencias para estudos posteriores.
5.2
Identidades de Bartlett
Seja L = L() a verossimilhanca total de um problema regular supondo que as observacoes sao independentes mas nao necessariamente identicamente distribudas, onde
e um vetor de IRp . Adota-se a seguinte notacao para as derivadas da log-verossimilhanca
119
120
Introduc
ao `
a Teoria Assint
` = `() = log L(), onde todos os ndices variam de 1 a p : Ur = `/r , Urs = 2 `/r s ,
etc. Os momentos conjuntos de derivadas de `() sao r = E(Ur ), rs = E(Urs ), r,s =
E(Ur Us ), r,st = E(Ur Ust ) e assim por diante. Como r = 0, os correspondentes cumulantes conjuntos (0 s) expressos em termos dos momentos sao: r,s = r,s , rs =
rs , rs,t = rs,t , rs,tu = rs,tu rs tu , r,s,t = r,s,t e r,s,t,u = r,s,t,u (3) r,s t,u ,
onde (k) representa o somatorio sobre todas as k combinacoes de ndices, etc. Os momentos e cumulantes acima nao sao independentes, mas satisfazem certas equacoes que
facilitam seus calculos. Estas equacoes, que representam condicoes de regularidade, sao
denominadas de identidades de Bartlett. As mais importantes sao: r = 0 e rs + r,s = 0.
Os cumulantes 0 s referem-se a um total sobre a amostra e, em geral, sao da ordem O(n).
A ideia central na deducao das identidades de Bartlett e a validade em problemas regulares da formula
E{t(Y
)} =
(y;)
t(y) f
dy para qualquer estatstica t(Y ), ou seja,
pode-se inverter a ordem das operacoes de diferenciacao em relacao a e integracao com

respeito a y. Mostra-se, nesta secao, como obter algumas identidades de Bartlett. As outras identidades poderao ser deduzidas de forma semelhante por diferenciacoes sucessivas
em relacao às componentes de . Expressando as identidades em termos dos cumulantes,
outras identidades analogas podem ser deduzidas para os momentos.
(tu)
As derivadas de cumulantes sao escritas com sobrescritos: (t)
rs = rs /t , rs =
(u)
Ur = Lr /L,
2 rs /t u , rst = rst /u , etc. ZDa definicao da funcao escore tem-se
Z
onde Lr = L/r . Diferenciando Ldy = 1 em relacao a r vem Lr dy = 0 e,
entao, r = E(Ur ) = 0. Diferenciando a u
ltima integral em relacao a s , encontra-se
Z
(Urs L + Ur Us L)dy = 0, ou seja, rs + r,s = 0. Diferenciando novamente a integral
em relacao a t obtem-se r,s,t + rst + (3) r,st = 0. Outras identidades de Bartlett sao
deduzidas de forma analoga:
(r)
r,st + rst st
= 0, r,s,t 2rst + (3) (t)

rs = 0,
(u)
(r)
rst = rst,u , r,stu + rstu stu = 0,

rstu + (4) r,stu + (3) rs,tu + (6) r,s,tu + r,s,t,u = 0,
(u)
r,s,t,u = 3rstu + 2(4) rst (6) (tu)

rs + (3) rs,tu ,
(s)
(r)
(rs)
r,s,tu = rstu rtu stu + tu rs,tu , etc.
22o Col
atica
121
Claro que no caso uniparametrico basta coincidir os ndices para encontrar , +

()
()
= 0, ,, 2 + 3 = 0, e assim por diante.

A grande vantagem das identidades de Bartlett e facilitar a obtencao dos cumulantes
0 s, pois determinada parametrizacao pode conduzir a um calculo direto simples de alguns
cumulantes, sendo os demais calculados indiretamente atraves destas identidades. Esses
cumulantes tem como aplicabilidade principal o calculo do vies de segunda ordem da EMV
(Secao 5.3) e das correcoes de Bartlett (Secao 5.6) e tipo-Bartlett (Secao 5.7).

ao normal N (, 2 ) cuja log-verossimilhanca ` =
`() para = (, 2 )T , baseada numa amostra iid de tamanho n, e dada por
n
n
n
1 X
` = log(2) log 2 2
(yi )2 .
2
2
2 i=1
Os cumulantes sao facilmente obtidos como = n/ 2 , 2 2 = n/2 4 , 2 =

0, ,, = , = = 0, 2 ,2 ,2 = 2 ,2 2 = n/ 6 , 2 2 2 = 2n/ 6 , ,2 =
2 = n/ 4 , ,,2 = 3n/ 4 , 2 2 = 2n/ 6 , etc., muitos deles atraves das
identidades de Bartlett.
5.3
Correc
ao do Vi
es da EMV
As EMV sao, em geral, viesadas para os valores verdadeiros dos parametros em modelos
nao-lineares quando o tamanho n dos dados e pequeno ou a informacao de Fisher e
reduzida. Muitas vezes o vies e ignorado na pratica, justificando-se que ele e desprezvel
quando comparado ao erro padrao da EMV. De fato, o vies e de ordem n1 enquanto que
o desvio padrao da estimativa e de ordem n1/2 . Entretanto, para alguns modelos naolineares, o vies em pequenas amostras pode ser apreciavel e ter magnitude comparavel ao
erro padrao da EMV. Em modelos uniparametricos, Bartlett (1953) deduziu uma formula
para o vies de ordem n1 da EMV no caso iid. Nos modelos multiparametricos, os vieses
de ordem n1 das EMV, supondo observacoes independentes mas nao necessariamente
identicamente distribudas, foram deduzidos em generalidade por Cox e Snell (1968).
Considere um modelo estatstico f (y; ) com IRp . Seja a EMV de obtida como
122
Introduc
ao `
a Teoria Assint
solucao do sistema de equacoes de maxima verossimilhanca Ur = 0 para r = 1, . . . , p.

Suponha que as condicoes (i) (v) dadas na Secao 4.2 sejam satisfeitas. Expandindo
X
Ur = 0 ate primeira ordem vem Ur +
Urs (s s ) + Op (1) = 0 e, em notacao matricial,
s
U = J( ) + Op (1). Como J = K + Op (n1/2 ) tem-se U = K( ) + Op (1) e, entao,

= K 1 U + Op (n1 ) .
(5.1)
A formula (5.1) (identica a (1.14) mais o erro estocastico) desempenha um papel importante no calculo de momentos e cumulantes da EMV de ordens superiores. Expandindo
Ur ate segunda ordem resulta
Ur +
X
s
1X
Urst (s s )(t t ) + op (1) = 0
Urs (s s ) +
2 s,t
(5.2)
e calculando o seu valor esperado encontra-se que

X
rs E(s s ) +
1X
Cov(Urs , s s ) +
rst (st ) + o(1) = 0,
2 s,t
(5.3)
onde rs = r,s representa o elemento (r, s) da inversa K 1 da matriz de informacao.

Segue-se o calculo de Cov(Urs , s s ) ate o(1) com o uso de (5.1): Cov(Urs , s s ) =
!
Cov Urs ,
st
Ut
rs,t st . Definindo o vies de ordem n1 de r por B(r ) e
substituindo a u
ltima expressao em (5.3) obtem-se
X
rs B(s ) =
X
s,t
1
st rs,t + rst + o(1),
2

cuja inversao produz para r = 1, . . . , p ate O(n1 )

B(r ) =
X
s,t,u
ru st
1
rs,t + rst
2
(5.4)
A formula (5.4), devida a Cox e Snell (1968), e bastante geral para determinar o
vies de ordem O(n1 ) da EMV em modelos multiparametricos. Para calcula-lo basta
conhecer a inversa da matriz de informacao e os cumulantes rs,t e rst em relacao a
todos os parametros. A expressao (rs,t + 12 rst ) na formula (5.4) pode ser substituda
22o Col
atica
123
(t)
rst /2, como conseq
uencia da identidade de Bartlett t,rs + rst (t)
por rs
rs = 0.
Em muitas situacoes multiparametricas, torna-se conveniente colocar a equacao (5.4) em

notacao matricial (vide Cordeiro e McCullagh, 1991 e Cordeiro e Klein, 1994).
A grande utilidade da equacao (5.4) e definir uma EMV corrigida ate O(n1 ) dada
A EMV corrigida r tem vies
r ), onde B()
e o vies B() avaliado em .
por r = B(
= + O(n2 ), e pode ser preferida em relacao a` EMV usual
de ordem n2 , isto e, E()
r cujo vies e de ordem O(n1 ). Diz-se que e a EMV de primeira ordem (seu vies e de
ordem n1 ) enquanto e a EMV de segunda ordem (seu vies e de ordem n2 ).
Exemplo 5.2 Como no exemplo anterior, considere n observac
oes iid de uma distribuic
ao normal N (, 2 ).
O interesse reside em calcular os vieses de ordem n1
das EMV dos parametros (media) e (desvio padr

ao). Note-se que os cumulantes
aqui s
ao calculados em relacao a (, ) e n
ao, como no exemplo 5.1, em relacao a
(, 2 ). Os elementos da matriz de informac
ao para e seguem de imediato como
, = n/ 2 , , = 0 e , = 2n/ 2 . Os cumulantes de terceira ordem s
ao calculados
sem maiores dificuldades: = , = , = , = , = = 0, =
, = 2n/ 3 , , = 6n/ 3 e = 10n/ 3 . Logo, usando a equac
ao (5.4) vem
B(
) = 0, como esperado, pois
= yi /n n
ao e viesado; com alguma
algebra, obtem-se
B(
) = 3/4n. Este resultado est
a de acordo com o vies exato de
= {(yi y)2 /n}1/2
dado por E(
) =
n1
2 ( 2 )
,
)
n ( n
2
2 / 2 . Com
que e deduzido da distribuic
ao 2n1 de (n 1)
efeito, usando a expansao de Stirling em E(

) implica E(
) = {1
EMV corrigida de e, entao,
= (1 +
3
4n
+ O(n2 )}. A
3
)
.
4n
No caso de um modelo uniparametrico f (y; ) com IR, o vies de ordem n1 segue

de (5.4) fazendo todos os ndices iguais a . Tem-se,
= 2 , + 1 = 2 () 1 .
B()
2
2

(5.5)
Exemplo 5.3 Considere n observac

ao exponencial de taxa cuja
func
ao densidade e f (y; ) = ey . A informac
ao para e , = n/2 e os cumulantes
e , sao 2n/3 e 0, respectivamente. A EMV de e dada por = 1/y e seu
vies de ordem n1 segue de (5.5) como B(
) = /n. Logo, a EMV corrigida da taxa da
124
Introduc
ao `
a Teoria Assint
distribuicao exponencial e simplesmente = (1 n1 )

. O vies B(
) = /n pode ser obtido
por primeiros princpios expandindo em serie de Taylor ao inves de usar a equacao
(5.5). Entretanto, na pratica, o c
alculo do vies a partir de (5.5) e bem mais freq
uente.
O calculo de momentos e cumulantes da EMV de ordem superior, como por exemplo
e Var()
ate O(n2 ), e bastante complicado e envolve a inversao da expansao (5.2).
E()
Esta inversao se torna bastante complexa à medida em que se incluem na equacao (5.2)
termos de ordem inferior. A inversao da expansao (5.2) produz, ate ordem Op (n3/2 ),
r r =
rs Us +
1 X
2 s,t,i,j,k
rs tu (Ust st )Uu
s,t,u
ri sj tk ijk Us Ut + Op (n3/2 ) .
(5.6)
O primeiro termo do lado direito de (5.6) e de ordem Op (n1/2 ) e os outros dois sao de
ordem Op (n1 ), sendo o erro Op (n3/2 ). Para obter, por exemplo, Var(r ) ate O(n2 )
(rr e o seu termo de ordem n1 ), eleva-se (5.6) ao quadrado e calcula-se seu valor
esperado ate a ordem desejada. O calculo e complicado mesmo no caso uniparametrico.
O leitor podera consultar o livro de Shenton e Bowman (1977), que fornece em toda sua
extensao detalhes destes calculos. Em especial, estes autores apresentam formulas gerais
e Var()
ate ordem n2 no caso multiparametrico, e para os quatro primeiros
para E()
momentos de ate as ordens n2 , n3 , n3 e n4 , respectivamente, no caso uniparametrico.
Neste caso, Ferrari et al. (1996) obtiveram EMV corrigidas ate segunda e terceira ordens e
compararam seus erros padrao. A partir da formula (5.4) para o vies de ordem n1 , podese, alternativamente, calcular o vies da EMV ate ordem n2 no caso multiparametrico
(caso realmente seja necessario) usando a tecnica jacknife (Cox e Hinkley, 1979, Secao
8.4).
Na decada de 90 varios artigos foram publicados apresentando expressoes matriciais
simples para os vieses das EMV em modelos de regressao. Estas expressoes sao faceis
de serem implementadas pois nao dependem do calculo dos cumulantes, sendo funcoes
apenas das caractersticas (de cunho estatstico) do modelo. Cordeiro e McCullagh (1991)
obtiveram uma formula matricial geral para os vieses de ordem n1 das EMV nos modelos
lineares generalizados. Cordeiro (1993) tambem obteve, em notacao matricial, formulas
22o Col
atica
125
de segunda ordem das EMV em dois modelos heterocedasticos de regressao. Cordeiro e

Klein (1994) deduziram formulas matriciais para os vieses de segunda ordem das EMV
em modelos ARMA. Paula e Cordeiro (1995) obtiveram formulas para os vieses de ordem
n1 das EMV dos parametros em modelos nao-exponenciais nao-lineares. Finalmente,
Cordeiro e Cribari-Neto (1998) concluram, atraves de estudos de simulacao dos vieses
das EMV nos modelos nao-exponenciais nao-lineares, que as EMV corrigidas sao mais
precisas em termos de erro medio quadratico do que as estimativas usuais.
5.4
Func
ao Densidade da EMV
Seja Y uma variavel aleatoria cuja funcao geratriz de cumulantes K(t) e conhecida. A
aproximacao ponto de sela para a funcao densidade fY (y) de Y e obtida da equacao (3.22)
fazendo n = 1, ou seja:
1
fY (y)=
q
2K 00 ()
y}
,
exp{K()
(5.7)
= y. A generalidade da equacao (5.7) permite aplicaonde e determinado por K 0 ()

la para aproximar um grande n
umero de funcoes densidade com o conhecimento das
suas correspondentes funcoes geratrizes de cumulantes K(t). Para isso basta resolver as
= y e calcular .
equacoes K 0 ()
A funcao geratriz de cumulantes aparece naturalmente nos modelos exponenciais uniparametricos dados por
fY (y; ) = exp{y b() + h(y)},
(5.8)
sendo trivialmente obtida como K(t) = b( + t) b(). A log-verossimilhanca para dado

y e `(; y) = y b() mais uma constante arbitraria que nao depende de . Assim, a
aproximacao ponto de sela (5.7) para o modelo exponencial (5.8) pode ser escrita como
1
y)},
exp{`(; y) `(;
fY (y; )=
q
2J()
(5.9)
e a EMV de decorrente da equacao K 0 ()

= b0 ()
= y e J()
= d2 `(;y)
onde = (y)
|=
d2
126
Introduc
ao `
a Teoria Assint
A aproximacao (5.9) pode agora ser transformada

e a informacao observada avaliada em .
implicando
para obter a aproximacao correspondente da funcao densidade de ,
1
1/2 exp{`(; y) `(;
y)} .
f(; y)=
J()
2
(5.10)
A equacao (5.10) define uma aproximacao para a funcao densidade da EMV de no

modelo exponencial (5.8). O erro associado a (5.10) e multiplicativo da forma 1+O(n3/2 ).
A equacao (5.10) pode ser generalizada para o modelo exponencial (1.18) de ordem p,
pelo determinante da matriz de informacao observada

substituindo 2 por (2)p/2 e J()
isto e, |J()|,
resultando em
em ,
p/2
1/2 exp{`(; y) `(;
y)} .
f(y; )=(2)
|J()|
(5.11)
Esta equacao e conhecida como aproximac

ao de Barndorff-Nielsen para a funcao den Ela tem propriedades interessantes como a invariancia segundo transsidade de .
formacao um-a-um dos dados e, tambem, segundo reparametrizacao, isto e, se w e
sao parametrizacoes alternativas entao, em obvia notacao, as aproximacoes calculadas de
(5.11) para as funcoes densidade de w
e satisfazem

fw (w; y) = f(; y) .
w
(5.12)
A formula (5.11) pode incluir uma constante de proporcionalidade c() visando tornar sua
Esta constante e, tambem, invariante segundo
integral igual a um sobre o suporte de .
reparametrizacao. Barndorff-Nielsen (1983) examinou a validade da equacao (5.11) para
distribuicoes multiparametricas fora da famlia exponencial.
Exemplo 5.4 Suponha que n observac

oes iid sejam obtidas da distribuic
ao exponencial
com media . A log-verossimilhanca para e dada por `(; y) = n log n
/, onde
= y e J() = n/2 e a informac

ao observada para . A aproximac
ao para a funcao
densidade de
segue de (5.10) como
1
f (; y)=(n)
!n1
1 n/
e
,
(5.13)
22o Col
atica
127
onde (n) = (2)1/2 nn0,5 en e a aproximac

ao de Stirling para (n). Em especial, podese demonstrar que normalizando (5.13) obtem-se a func
ao densidade exata de
. Se o
par
ametro = 1 e usado para especificar a distribuic
ao exponencial, tem-se = y 1
e, com uma simples mudanca de notac
ao, vem `(; y) = n log n/
e J() = n/2 .
Assim, a aproximacao (5.10) para a func
ao densidade de fica de acordo com (5.13),
ilustrando a propriedade (5.12) de invari
ancia.
ao Gaussiana inversa com par
ametros > 0 e >
0, supondo conhecido, cuja func
ao densidade e dada por
s
fY (y; , ) =
3/2
1
e y
exp
2
2
+ y
y
!)
Considere uma amostra de n observac

oes iid desta distribuic
ao. Demonstra-se, usando
pode ser escrita como
(5.10), que a funcao densidade de
f (; y, ) =
n
1
2
1/2 exp n
n
/2)
2
2
(1 +
(1 +
,
)
= 4{( + 4n1 yi1 )1/2 }2 .

onde
Exemplo 5.6 Considere a funcao densidade da distribuic
ao gama com par
ametros
(media) e (ndice) desconhecidos. Tem-se
fY (y; , ) =
y 1 ey/ /() .
Considere n observacoes iid desta distribuic

ao. A EMV de = (, )T e deduzida de
= y e log (
) = log(y/
y ), onde y e y s
ao as medias aritmetica e geometrica
dos dados. Com alguma algebra, demonstra-se atraves de (5.11) que a func
ao densidade
f(, ; y) de = (
, )T admite a decomposic
ao
f(, ; y) = f1 (; , y)f2 (; y),
onde
f1 (; , y) =
!n
n1 exp(n
/)
128
Introduc
ao `
a Teoria Assint
e
f2 (; y) = {(
)()}n {
0 (
) 1}1/2 exp[n{(
)(
) + log }] .
A decomposicao acima revela que as EMV
e s
ao independentes ate a ordem considerada pela aproximacao (5.11). Adicionalmente, a aproximac
ao f1 (; , y) para a funcao
densidade de
e exata apos renormalizac
ao.
Se a dimensao de y e maior do que p, entao f(; y) deve ser interpretada como a
funcao densidade condicional f|t

stica t = t(y), exatamente
(; y) de dada alguma estat
ou aproximadamente ancilar, isto e, a distribuicao marginal de t = t(y) nao depende
de , pelo menos aproximadamente. O leitor podera consultar as seguintes referencias
para obter maiores detalhes da equacao (5.11): Barndorff-Nielsen (1983, 1986, 1988),
McCullagh (1984), Reid (1988), Fraser (1988, 1990) e Barndorff-Nielsen e Cox (1994,
Secoes 6.2 e 7.4).
5.5
C
alculo de Probabilidades Baseado na Verossimilhanca
Para uma variavel aleatoria Y com funcao geratriz de cumulantes K(t), a equacao de
Lugannani e Rice (1980) para aproximar sua funcao de distribuicao FY (y) e dada por
1 1
,
FY (y) = P (Y y)=(z)
+ (z)
z v

(5.14)
K()}]
1/2 e v = K
00 ()
1/2 , sendo obtido de K 0 ()
= y. A
onde z = sinal()[2{
y
equacao (5.14) e usada rotineiramente para aproximar in
umeras funcoes de distribuicao
de variaveis aleatorias baseando-se nas suas funcoes geratrizes de cumulantes.
O uso direto das equacoes (5.10) e (5.11) para computar probabilidades requeridas na
inferencia atraves da verossimilhanca envolve integracao numerica. Entretanto, aproximacoes bem mais simples para calcular probabilidades do tipo P ( ; y) sao baseadas
na aproximacao (5.14) redefinindo as quantidades z e v. No caso de ser um escalar,
Barndorff-Nielsen (1990) e Fraser (1990) integraram a equacao (5.10) e deduziram uma
formula geral analoga à equacao (5.14) para calcular a funcao de distribuicao de dado
22o Col
atica
129
Y = y, ou seja, F(; y) = P ( ; y), que pode ser expressa como

1 1
F(; y) = (r) + (r)

r u

{1 + O(n3/2 )} .
(5.15)
As quantidades em (5.15) sao definidas por

y) `(; y)}]1/2 ,
r = sinal( )[2{`(;
(
u=
com k() =
`(; y)
`(; y)
1 J()
1/2

k()

y
y
(5.16)
2 `(;y)
.
y
Para modelos exponenciais verifica-se de imediato que a quantidade u e igual à es 1/2 . Uma forma alternativa para (5.16) segue de
tatstica de Wald W = ( )J()
F(; y) = (r ){1 + O(n3/2 )},
(5.17)
onde r = r + r1 log(u/r). A versao (5.17) pode, algumas vezes, ser mais precisa do que
a equacao (5.15) embora a diferenca seja mnima.

ao gama, cuja func
ao densidade e definida por
p y p1 ey /(p) supondo que o par
ametro de forma p e conhecido. O interesse aqui
reside no parametro = log , que representa um par
ametro de locac
ao. A func
ao de
distribuicao aproximada de segue de (5.15) ou (5.17), com as quantidades r e u obtidas
de (5.16) como r = [2p{e ( ) 1}]1/2 e u = p1/2 (e 1).
Uma das maiores aplicacoes praticas das equacoes (5.15) e (5.17) reside no calculo
de probabilidades associadas à propria funcao de distribuicao da variavel aleatoria Y
proposta para os dados. Essas probabilidades sao calculadas atraves da aproximacao
FY (y; ) = P (Y y; )=P
( ; y) com P ( ; y) obtido das equacoes (5.15) ou
(5.17) fazendo n = 1. Assim, as probabilidades associadas a variavel aleatoria Y decorrem
A aproximacao (5.15) fornece bons resultados
daquelas probabilidades relativas a EMV .
na pratica, conforme ilustram os exemplos a seguir comparando as aproximacoes (r),
(5.15) e (5.17) com os valores exatos provenientes da funcao de distribuicao de Y .
130
Introduc
ao `
a Teoria Assint
Exemplo 5.8 Suponha uma u

nica observac
ao da distribuic
ao de Cauchy cuja funcao
densidade e f (y; ) = 1 {1 + (y )2 }1 . A func
ao de distribuic
ao acumulada exata
para = 0 e F (y; 0) = 0, 5 + 1 arctg y. Neste caso,
com = 0, obtem-se de (5.16)
q
2
1/2
+ 2 )1 , onde e calculado
log(1 + )}
as quantidades r = sinal(){2
e u = 2(1
iterativamente como descrito no exemplo 1.4. A Tabela 5.1 apresenta as aproximacoes
(r), (5.15) e (5.17) para calcular a func
ao de distribuic
ao F (y; 0). Com base nesta
tabela conclui-se que a equacao (5.15) fornece bons resultados para F (y; 0), enquanto a
aproximacao (r) nao se aplica à distribuic
ao de Cauchy.
Tabela 5.1: Probabilidades exatas e aproximadas (expressas em percentagens) para a

funcao de distribuic
ao de Cauchy com = 0
100
0,32
0,0001
0,28
0,15
y
exata
(r)
(5.15)
(5.17)
30
1,06
0,01
0,94
0,61
5
6,28
0,53
5,58
4,69
1
25,00
11,95
23,22
22,84

ao exponencial com media cuja func
ao de distribuic
ao acumulada e P (Y y; ) = FY (y; ) = 1 e . A Tabela 5.2 compara
os valores exatos de P (Y y; ) com (r) = 1 (r) e com aquelas aproximacoes
P ( ; y) = 1 F(; y) origin
arias de (5.15) e (5.17), supondo = 1 e n = 1.
Observa-se que estas equacoes fornecem melhores resultados do que a aproximac
ao (r).
Tabela 5.2: Valores exatos e aproximados de P (Y y; ) para a distribuicao

exponencial com = 1
y
0,5
1,0
3,0
5,0
7,0
9,0
exato
0,6065
0,3679
0,0498
0,00674
0,000912
0,000123
(r)
0,7329
0,5000
0,0897
0,0144
0,00220
0,000329
(5.15)
(5.17)
0,6070
0,6043
0,3695
0,3670
0,0505
0,0500
0,00689 0,00681
0,000938 0,000926
0,000127 0,000126
22o Col
atica
131
Exemplo 5.10 Considere dois modelos da famlia exponencial definidos pelas funcoes
densidade seguintes:
Modelo
log gama com
parametro de forma
Func
ao densidade
()1 exp(y ey )
log gama com parametro

de locacao
exp{(y ) ey }
Na Tabela 5.3 (Fraser, 1990) as aproximac

oes (r) e (5.15) s
ao comparadas com o valor exato de P (Y y; ), onde valores com se referem `
as probabilidades complementares
P (Y y; ). Os n
umeros desta tabela evidenciam a boa adequac
ao da aproximac
ao (5.15)
e sua superioridade em relacao a func
ao (r).
Tabela 5.3: Probabilidades P (Y y; ) (expressas em percentagens) para dois

modelos log-gama sendo os complementos P (Y y; ) marcados com
Modelo log-gama com parametro de forma = 3
y
0, 577 0,423 1, 26 1, 71 2, 14
exato 1,95
19,78 31,87 8,79
0,92
(r)
2,73
23,11 28,73 7,62
0,77
(5.15) 1,91
19,61 31,98 8,82
0,93
Modelo
y
exato
(r)
(5.15)
log-gama
7
0,08
0,03
0,10
com parametro de locacao = 0

3
1
1
2
4,86 30,78 6,60
0,06
2,14 19,55 11,53 0,15
5,01 31,04 6,63
0,06
Exemplo 5.11 Considere dois modelos n

ao pertencentes `
a famlia exponencial definidos
pelas funcoes densidade seguintes:
Modelo
gama
Func
ao densidade
1
(p) (y )p1 e(y)
logstico
ey (1 + ey )2
Os dois modelos sao de locac

ao da forma f (y ). Na Tabela 5.4 (Fraser, 1990)
comparam-se as aproximacoes (r) e (5.15) com os valores exatos de P (Y y; ). Novamente, a aproximacao (5.15) e bastante adequada para calcular a func
ao de distribuicao
132
Introduc
ao `
a Teoria Assint
de Y e representa um aperfeicoamento sobre a aproximac

ao (r), principalmente nas
caudas de sua distribuicao.
Tabela 5.4: Probabilidades P (Y y; ) (expressas em percentagens) para dois

modelos de locacao sendo os complementos P (Y y; ) marcados com
5.6
Modelo gama com = 0

y
1
3
5
exato 8,03 42,32 12,47
(r)
18,97 26,93 6,33
(5.15) 7,30 43,28 12,83
ep=3
7
10
2,96 0,28
1,28 0,10
3,06 0,29
Modelo logstico com

y
8
6
4
exato 0,03 0,25 1,80
(r)
0,01 0,12 1,07
(5.15) 0,04 0,27 1,87
=0
2
1
11,92 26,89
9,39 24,41
12,14 27,13
Correc
ao de Bartlett
Os testes em grandes amostras apresentados na Secao 4.2 sao freq

uentemente usados na
Estatstica, pois os testes exatos nem sempre existem. Esses testes sao denominados
assintoticos de primeira ordem, isto e, sao baseados em valores crticos obtidos de uma
distribuicao limite conhecida. Um problema natural que surge e verificar se a aproximacao de primeira ordem e adequada para a distribuicao nula da estatstica de teste em
consideracao. Os testes em grandes amostras, cujas distribuicoes de referencia sao quiquadrado, mais conhecidos sao: razao de verossimilhanca (w), escore (SR ) e Wald (W ).
Como foi demonstrado na Secao 4.3, as estatsticas destes tres testes sao equivalentes
em grandes amostras e, em problemas regulares, convergem segundo a hipotese nula H
para a distribuicao 2q , onde q e o n
umero de restricoes impostas por H. Entretanto,
em pequenas amostras, a aproximacao de primeira ordem pode nao ser satisfatoria, conduzindo a taxas de rejeicao bastante distorcidas. A primeira ideia para melhorar os testes
estatsticos foi proposta por Bartlett (1937). Ele considerou apenas a razao de verossimilhanca, computando o seu valor esperado segundo H ate ordem n1 , onde n e o tamanho
da amostra.
22o Col
atica
133
Considere um modelo parametrico f (y; ), onde ( T , T )T , dim() = q e dim() =

p q. Deseja-se testar a hipotese nula composta H : = (0) versus A : 6= (0) , sendo
um vetor de parametros de perturbacao. Seja w a razao de verossimilhanca obtida de
(4.2). Bartlett propos calcular o valor esperado de w segundo H ate ordem n1 como
E(w) = q + b + O(n2 ), onde b = b( (0) , ) e uma constante de ordem O(n1 ), que pode
ser estimada segundo a hipotese nula H. Pode-se verificar, facilmente, que a razao de
verossimilhanca modificada w = w/(1 + b/q) tem valor esperado q, exceto por termos
de ordem o(n1 ). O fator de correcao c = 1 + b/q tornou-se conhecido como correcao
de Bartlett, sendo designado para definir uma raz
ao de verossimilhanca aperfeicoada que
tem distribuicao, segundo a hipotese nula, mais proxima da distribuicao 2q de referencia
do que a razao de verossimilhanca w usual.
Em problemas regulares, para testar uma hipotese nula composta qualquer, Lawley
(1956) deduziu uma formula geral para b em termos de cumulantes da log-verossimilhanca,
que sao simplesmente valores esperados de produtos de derivadas da log-verossimilhanca.
Alem disso, atraves de uma demonstracao extremamente complicada, Lawley concluiu
que os momentos de w concordam com aqueles correspondentes da distribuicao 2q exceto
por termos de ordem n2 . Este resultado e muito importante, pois mostra que a simples
correcao do primeiro momento de w possibilita obter um teste aperfeicoado baseado em
w , cujos momentos (segundo H) concordam, ate termos de ordem n1 , com aqueles
correspondentes da distribuicao qui-quadrado de referencia.
Hayakawa (1977) apresenta a expansao da funcao densidade de w ate O(n1 ) supondo
a hipotese nula H : = (0) verdadeira que, apos simplificacoes conduzidas por Cordeiro
(1987) e Chesher e Smith (1995), pode ser expressa como
(
b
fw (x) = fq (x) 1 +
2
!)
x
1
q
(5.18)
onde, de agora por diante, fq (x) representa a funcao densidade da variavel aleatoria 2q .
Note-se que fw (x) so depende da dimensao de , da funcao densidade fq (x) da distribuicao
2q de referencia e do termo de ordem n1 em E(w). De (5.18) e facil mostrar que a
funcao densidade de w = w/(1 + b/q) ou w(1 b/q), segundo H e ate termos de ordem
O(n1 ), e fw (x) = fq (x), o que comprova que a razao de verossimilhanca modificada
134
Introduc
ao `
a Teoria Assint
pela correcao de Bartlett tem distribuicao identica à distribuicao 2q , exceto por termos
de ordem O(n2 ), como primeiro estabelecido por Lawley. Observa-se que (5.18) e uma
expansao do tipo (3.1) pois a constante b e de ordem O(n1 ). Assim, enquanto P (w
x) = P (2q x) + O(n1 ) tem-se o melhoramento P (w x) = P (2q x) + O(n2 ). O
erro da aproximacao 2q para a distribuicao de w e de ordem n1 , enquanto o erro desta
aproximacao para a distribuicao de w e reduzido para ordem n2 .
Pode-se escrever w na equacao (4.23) do teste de H : = (0) versus A : 6= (0)
como
)
`( (0) , )}
2{`( (0) , )
`( (0) , )},
w = 2{`(,
como antes
onde `( (0) , ) e a log-verossimilhanca avaliada no parametro verdadeiro e
e a EMV de restrita a = (0) . Lawley (1956) demonstrou que
)
`( (0) , )} = p + p ,
2E{`(,
(5.19)
onde p e um termo de ordem n1 dado por

p =
sendo que
(`rstu `rstuvw ),
(5.20)
e o somatorio sobre todas as componentes do vetor , isto e, os ndices
r, s, t, u, v e w variam sobre os p parametros, e os `0 s tem expressoes

n
(u)
`rstu = rs tu rstu /4 rst + (tu)

,
rs
`rstuvw = rs tu vw {rtv (suw /6 (u)
sw )
(v)
(5.21)
(u)
(v)
(u)
+rtu (svw /4 (v)
sw ) + rt sw + rt sw } ,
onde os cumulantes 0 s sao definidos na Secao 5.2. A matriz de informacao total de Fisher
para tem elementos r,s = rs , sendo r,s = rs os correspondents elementos de sua
inversa. Os `0 s das equacoes em (5.21) sao, em geral, de ordem n1 . O valor esperado
`( (0) , )} segue expressao analoga àquela de 2{`(,
)
`( (0) , )}, ou
de 2{`( (0) , )
`( (0) , )} = p q + pq + O(n2 ), com pq deduzido da equacao
seja, 2E{`( (0) , )
(5.20) observando, agora, que o somatorio daquela formula se estende apenas sobre as
componentes em , isto e, sobre os p q parametros de perturbacao, uma vez que esta
fixo em (0) .
22o Col
atica
135
Entao, segundo H, o valor esperado da razao de verossimilhanca e E(w) = q + p

pq + O(n2 ) e, portanto, pode-se melhorar a aproximacao da estatstica de teste pela
distribuicao 2q trabalhando com w = w/c, ao inves de w, onde a correcao de Bartlett e
obtida de
c=1+
p pq
.
q
(5.22)
A estatstica corrigida w tem distribuicao 2q ate O(n1 ) sob H. Em outras palavras,

o teste aperfeicoado compara w com a distribuicao 2q de referencia. A dificuldade do
aperfeicoamento reside no calculo de p e pq a partir das equacoes (5.20) e (5.21).
No caso da correcao de Bartlett depender de parametros desconhecidos, eles devem ser
substitudos pelas suas estimativas de maxima verossimilhanca segundo H, mas isto nao
afeta a ordem da aproximacao resultante. O inconveniente no uso da formula de Lawley
(5.22) na pratica e o calculo do grande n
umero de produtos de cumulantes em testes
envolvendo tres ou mais parametros. Entretanto, para varios modelos estatsticos, os
cumulantes da log-verossimilhanca sao invariantes segundo permutacao de parametros,
conforme descrito por Cordeiro (1983) no contexto dos modelos lineares generalizados.
No caso uniparametrico relativo ao teste de H : = (0) versus A : 6= (0) , a correcao
`((0) )} e deduzida de (5.20)
de Bartlett para a razao de verossimilhanca w = 2{`()
(5.21), fazendo todos os ndices iguais a , implicando
2
()
()
()
()2
1 = { /4 + } { (5 /12 2 ) + 2 } .
(5.23)
A razao de verossimilhanca modificada pela correcao 1 + 1 , i.e., w = w/(1 + 1 ), tem

distribuicao nula aproximada pela distribuicao 21 com erro O(n2 ).
Uma metodologia para calcular as correcoes de Bartlett em modelos estatsticos consiste em: (i) inverter a matriz de informacao segundo H e A; (ii) calcular os cumulantes
0 s que aparecem em (5.21) para todas as combinacoes de parametros; (iii) substituir
os 0 s em (5.21) e desenvolver as somas em (5.20) sobre todos os parametros em e
sobre aqueles parametros de perturbacao em ; (iv) manipular os termos em p e pq
com o intuito de encontrar expressoes algebricas simples. A reparametrizacao, quando
possvel, visando ortogonalizar os vetores de parametros e (Secao 4.3) implica grandes
simplificacoes no calculo das correcoes de Bartlett.
136
Introduc
ao `
a Teoria Assint

oes iid da distribuic
ao N (, 2 ). O interesse reside
em calcular as correcoes de Bartlett para os testes de H1 : = (0) versus A1 : 6= (0) ( 2
2
desconhecido) e H2 : 2 = (0) versus A2 : 2 6= (0) ( desconhecido). As estatsticas

da raz
ao de verossimilhanca para estes testes s
ao obtidas da log-verossimilhanca `(, 2 )
sendo dadas por
(yi (0) )2
w1 = 2{`(
,
) `( ,
)} = n log
(yi y)2
(
(0)
e
2
w2 = 2{`(
,
) `(
,
(0)2
(0)
)} = n log
2
"
2 (0)
+
(0)2
respectivamente, onde
=
= y,
2 = (yi y)2 /n e
2 = (yi (0) )2 /n. Os
cumulantes 0 s para o calculo das correc
oes de Bartlett s
ao ent
ao deduzidos como no
exemplo 5.1. Usando as equacoes (5.20) e (5.21) pode-se obter E(w1 ) e E(w2 ) ate O(n1 )
considerando as somas sobre todas as componentes de = (, 2 )T e fazendo todos os
ndices iguais ao parametro 2 e ao par
ametro , respectivamente. Assim,
E(w1 ) = 1 +
(`rstu `rstuvw ) (`2 2 2 2 `2 2 2 2 2 2 )
, 2
e
E(w2 ) = 1 +
(`rstu `rstuvw ) (` ` ) .
, 2
Computando-se os `0 s e apos alguma

algebra obtem-se
E(w1 ) = 1 + 3/(2n) e
E(w2 ) = 1 + 11/(6n),
de onde seguem as estatsticas modificadas w1 = w1 /(1 + 3/2n) e w2 = w2 /(1 + 11/6n)

para melhorar os testes de H1 e H2 , respectivamente. Aqui, as correc
oes de Bartlett nao
dependem de parametros desconhecidos. Elas podem ser obtidas por primeiros princpios
dos resultados n
2 / 2 2n e n
2 / 2 2n1 aproximando E(log 2n ) por log n n1 .
ao exponencial com media
. A log-verossimilhanca para e `() = n log ny/, onde y e media das observac
oes. A razao de verossimilhanca para testar H : = (0) versus A : 6= (0) e dada
22o Col
atica
137
por w = 2n{y log(y/(0) ) (y (0) )}. Os cumulantes seguem de , = n/2 , ,, =

, = 2n/3 , = 4n/3 , = 30n/4 , , = 18n/4 , etc. Substituindo estes cumulantes em (5.23) obtem-se a correc
ao de Bartlett c = 1 + 1 como
c = 1 + 1/(6n(0) ).
As pesquisas em correcoes de Bartlett tiveram um grande impulso a partir de 1982 e,

nos dias atuais, constituem uma area consolidada de grande interesse da teoria assintotica.
Estas pesquisas seguem quatro direcoes principais: a primeira corresponde ao desenvolvimento de formulas algebricas simples para as correcoes em modelos especiais; a segunda pesquisa metodos alternativos gerais de calculo das correcoes de Bartlett; a terceira
restringe-se a aplicacoes numericas e a estudos de simulacao; finalmente, a quarta visa
a interpretar as correcoes à luz da geometria diferencial e a relaciona-las com topicos de
interesse recente, como ortogonalidade de parametros, verossimilhancas nao-canonicas,
etc.
Cordeiro (1983, 1987) e Cordeiro e Paula (1989) desenvolveram formulas gerais para
as correcoes de Bartlett em notacao matricial nos modelos lineares generalizados e nos
modelos nao-lineares da famlia exponencial, respectivamente. Barndorff-Nielsen e Cox
(1984a) apresentaram um metodo indireto de calculo das correcoes de Bartlett em modelos parametricos gerais, a partir de uma simples relacao entre a correcao e as constantes
normalizadoras da distribuicao da estimativa de maxima verossimilhanca condicional a
uma estatstica ancilar, exata ou aproximada. Tambem, Barndorff-Nielsen e Cox (1984b)
investigaram a distribuicao de w com relacao a varios tipos de censura e regras de parada
nos processos Browniano e de Poisson. Porteous (1985) obteve correcoes para modelos de
selecao de covariaveis quando a razao de verossimilhanca tem forma fechada. Correcoes
de Bartlett para testes em modelos multivariados com matrizes de covariancia estruturais foram desenvolvidos por Mller (1986). McCullagh e Cox (1986) interpretaram
a correcao de Bartlett em termos de combinacoes invariantes de cumulantes das duas
primeiras derivadas da log-verossimilhanca. Barndorff-Nielsen e Blaesild (1986) propuseram um algoritmo para calcular as correcoes em situacoes onde varias hipoteses alternativas sao lineares na mesma parametrizacao. Uma forma para E(w) invariante em relacao
a permutacao de parametros foi desenvolvida para modelos exponenciais por Ross (1987).
138
Introduc
ao `
a Teoria Assint
Attfield (1991) e Cordeiro (1993) mostraram como corrigir os testes da razao de verossimilhanca em modelos heterocedasticos. Cordeiro, Paula e Botter (1994) obtiveram correcoes
de Bartlett para a classe dos modelos de dispersao proposta por Jrgensen (1987), generalizando os resultados de Cordeiro (1983, 1987) e Cordeiro e Paula (1989). Finalmente,
Cordeiro et al. (1995) apresentaram formulas gerais simples para as correcoes de Bartlett
em modelos exponenciais uniparametricos.
5.7
Estatsticas Aperfei
coadas tendo distribui
c
ao 2
Como foi apresentado nas Secoes 4.2 e 4.3, os testes escore e de Wald sao assintoticamente
equivalentes aos testes baseados na razao de verossimilhanca. Cordeiro e Ferrari (1991)
demonstraram que, sob condicoes gerais de regularidade como aquelas descritas na Secao
4.2, qualquer estatstica S cuja distribuicao assintotica e qui-quadrado pode ser aperfeicoada por um fator de correcao multiplicativo expresso como um polin
omio de grau k,
de modo que os momentos da estatstica modificada sejam identicos aos correspondentes
da distribuicao qui-quadrado de referencia, exceto por termos de ordem n2 . A estatstica
corrigida tem a forma S = S(1
Pk
i=1 ci S
i1
), onde os c0i s de ordem n1 sao determinados
de tal maneira que a distribuicao de S sob a hipotese nula seja qui-quadrado (ate esta
ordem). O fator multiplicativo acima e denominado correc
ao tipo-Bartlett, sendo uma
extensao da classica correcao de Bartlett correspondente ao caso de k = 1. Apresenta-se
agora a demonstracao deste resultado.
Seja S uma estatstica arbitraria com a finalidade de testar uma hipotese nula composta cuja distribuicao assintotica, supondo esta hipotese verdadeira, e qui-quadrado com
q graus de liberdade, ou seja, sua funcao de distribuicao FS (x) satisfaz lim FS (x) = Fq (x),
n
onde Fq (x) representa a funcao de distribuicao da variavel 2q . Sob certas condicoes de

regularidade, Chandra (1985) demonstrou que FS (x) pode ser expressa ate O(n1 ) como
uma combinacao linear finita de funcoes de distribuicao qui-quadrado com graus de liberdade q, q + 2, . . . , q + 2k. Assim, a funcao de distribuicao de S, na qual termos de ordem
inferior a n1 sao omitidos, pode ser escrita como
FS (x) = Fq (x) +
k
X
i=0
ai Fq+2i (x),
(5.24)
22o Col
atica
139
onde os a0i s sao quantidades de ordem n1 . Na realidade, elas sao funcoes de parametros
desconhecidos. Para que a funcao FS (x) em (5.24) seja uma funcao de distribuicao ate
ordem O(n1 ) e necessario que a condicao
k
X
ai = 0 seja satisfeita. As estatsticas escore
i=0
e de Wald apresentam expansoes do tipo (5.24) para suas funcoes de distribuicao com
k = 3, enquanto k = 1 para a razao de verossimilhanca.
Sejam as relacoes de recorrencia
Fq+2 (x) = Fq (x)
2x
fq (x)
q
e
fq+2 (x) =
onde fq (x) =
dFq (x)
dx
x
fq (x),
q
e a funcao densidade da variavel 2q . Usando estas relacoes, a equacao
(5.24) pode ser dada por

FS (x) = Fq (x) fq (x)
k
X
Ci xi ,
i=1
onde Ci = 201
i
k
X
a` para i = 1, . . . , k e
`=i
0i
E{(2q )i }
q
q
=2
+ i /
2
2
i

A forma funcional anterior, envolvendo um polinomio de grau k, sugere a estatstica

modificada
S =S 1
k
X
ci S
i1
(5.25)
i=1
Os c0i s sao determinados em (5.25) de maneira a satisfazer FS (x) = Fq (x) ate O(n1 ),
i.e., de modo que S tenha sob a hipotese nula distribuicao 2q ate esta ordem. O teorema
de Cox e Reid (Secao 3.7) aplicado à expressao (5.25) produz a funcao de distribuicao de
S ate ordem n1 como
FS (x) = FS (x) + fS (x)
k
X
ci xi ,
i=1
onde fS (x) =
dFS (x)
.
dx
Uma vez que S tem distribuicao 2q ate O(n1 ), e que os c0i s sao
140
Introduc
ao `
a Teoria Assint
O(n1 ), obtem-se ate esta ordem

FS (x) = FS (x) + fq (x)
k
X
ci xi .
(5.26)
i=1
Substituindo na equacao (5.26) a expansao de FS (x) dada anteriormente tem-se

FS (x) = Fq (x) + fq (x)
n
X
(ci Ci )xi .
i=1
A igualdade FS (x) = Fq (x) ate ordem n1 e satisfeita se, e somente se, ci = Ci para
i = 1, . . . , k. Consequentemente, a estatstica aperfeicoada
(
S = S 1 2
k
k
X
X
i=1
!
i1
a` 01
i S
(5.27)
`=i
tem distribuicao 2q ate ordem n1 sob a hipotese nula. O termo entre chaves na formula
(5.27) e denominado correcao tipo-Bartlett e objetiva melhorar a aproximacao da distribuicao da estatstica S pela distribuicao 2q . O melhoramento e no sentido de que
P (S x) = Fq (x) + O(n2 ) enquanto P (S x) = Fq (x) + O(n1 ), ou seja, baseando-se
o teste em S , o erro da aproximacao qui-quadrado e reduzido de O(n1 ) para O(n2 ). A
correcao tipo-Bartlett quando k > 1 nao e uma correcao de Bartlett genuna, pois envolve
a propria estatstica nao-modificada. Claramente, no caso da razao de verossimilhanca,
quando k = 1, a correcao em (5.27) se torna igual a um escalar que e a propria correcao
de Bartlett.
Os coeficientes a1 , . . . , ak necessarios para se obter S podem ser expressos como
funcoes dos termos de ordem O(n1 ) dos k primeiros momentos da estatstica naomodificada S (vide Cordeiro e Ferrari, 1998). Estes coeficientes sao calculados para
cada tipo de estatstica (razao de verossimilhanca, escore, Wald, Wald modificada, etc.)
atraves de formulas especiais como funcoes dos cumulantes conjuntos 0 s (vide Secao 5.2).
Formulas matriciais para os a0i s relativas aos testes escore sao dadas, em generalidade,
por Ferrari e Cordeiro (1994).
22o Col
atica
5.8
141
Testes Escore Melhorados
Os testes escore, tambem conhecidos como testes do multiplicador de Lagrange, sao bastante usados em Estatstica e Econometria como uma alternativa para os testes da razao
de verossimilhanca, principalmente quando a estimacao segundo a hipotese alternativa e
mais trabalhosa do que segundo a hipotese nula. Neste caso, os testes escore sao mais
simples pois requerem somente estimacao segundo a hipotese nula. Em tabelas de contingencia para analise de dados sob a forma de contagens, os testes usuais conhecidos como
2 de Pearson sao testes escore. As aplicacoes dos testes escore aparecem em modelos
lineares generalizados (Pregibon, 1982), em modelos de series temporais (Hosking, 1980,
1981 e Poskitt e Tremayne, 1981, 1982), em modelos de sobrevivencia (Lawless, 1982) e
em in
umeros modelos econometricos (Breusch e Pagan, 1980 e Engle, 1984).
Retorna-se aqui ao problema descrito na Secao 4.3 de testar a hipotese nula composta H : = (0) versus a hipotese alternativa composta A : 6= (0) , onde
= ( T , T )T , dim() = q e dim() = p q.
A funcao escore total U () =
(U (, )T , U (, )T )T para e particionada conforme .

K = K() para e sua inversa, particionadas como , sao

K() =
K
K
K
K
e K()1 =
K
K
A matriz de informacao
K
,
K

T ) e =
onde todas as submatrizes acima sao, em geral, funcoes de e . Sejam = (T ,
T )T as EMV irrestrita e restrita de , respectivamente. As funcoes avaliadas em
( (0)T ,
sao, como antes, denotadas com um til. A estatstica escore SR para testar H : = (0)
).
Como
U , onde U = U (,
versus A : 6= (0) pode ser expressa como SR = UT K
foi estabelecido na Secao 4.3, satisfeitas certas condicoes de regularidade como aquelas
da Secao 4.1.3, a distribuicao de SR converge em grandes amostras para a distribuicao 2q
sob a hipotese nula.
A expansao assintotica da funcao de distribuicao de SR segue a expansao (5.24) com
k = 3 (Harris, 1985). Para apresentar os seus coeficientes a0 , a1 , a2 e a3 , necessita-se
definir as seguintes matrizes particionadas conforme :

A=
0
0
1
0 K
e M = K 1 A,
1
Os elementos tpicos
onde K
representa a estrutura de covariancia assintotica de .
142
Introduc
ao `
a Teoria Assint
(i, j) de A e M sao denotados por aij e mij , respectivamente. Harris (1985) demonstrou
que
a0 = (A2 A1 A3 )/24, a1 = (3A3 2A2 + A1 )/24,
a2 = (A2 3A3 )/24 e a3 = A3 /24,
onde as quantidades A1 , A2 e A3 de ordem n1 sao dadas como funcoes dos cumulantes
conjuntos 0 s (Secao 5.2) por
A1 = 3(ijk + 2i,jk )(rst + 2rs,t )aij ast mkr
6(ijk + 2i,jk )r,s,t aij akr mst
+6(i,jk i,j,k )(rst + 2rs,t )ajs akt mir
6(i,j,k,r + i,j,kr )akr mij ,
A2 = 3i,j,k r,s,t akr mij mst
(5.28)
+6(ijk + 2i,jk )r,s,t aij mkr mst

6i,j,k r,s,t akt mir mjs
+3i,j,k,r mij mkr ,
A3 = 3i,j,k r,s,t mij mkr mst + 2i,j,k r,s,t mir mjs mkt .
As somas nas equacoes (5.28) sao tomadas em relacao a todos os parametros 1 , . . . , p
de . Observe-se que, como esperado,
3
X
ai = 0. As formulas (5.28) sao extremamente
i0
complicadas para serem analisadas num contexto geral. Para modelos especiais, elas
podem sofrer reducao consideravel.
Determinando-se os A0i s para o modelo em consideracao, a estatstica escore aperfeicoada tem a representacao (5.27), ou seja,
SR = SR {1 (c + bSR + aSR2 )},
(5.29)
onde
a=
A3
,
12q(q + 2)(q + 4)
b=
A2 2A3
,
12q(q + 2)
c=
A1 A 2 + A3
.
12q
(5.30)
22o Col
atica
143
A correcao tipo-Bartlett em (5.29) para melhorar o teste de H : = (0) tem os coeficientes determinados pelas equacoes (5.30) e (5.28) como funcoes de cumulantes conjuntos
de derivadas da log-verossimilhanca. O teste escore aperfeicoado de H : = (0) pode
ser conduzido comparando a estatstica escore modificada SR com a distribuicao 2q de
referencia, sendo o erro da aproximacao qui-quadrado de ordem O(n2 ). No caso das
quantidades A1 , A2 e A3 envolverem parametros em , estes devem ser substitudos pelas
mas o erro da aproximacao 2 para a distribuicao nula de S
suas estimativas em
R
continuara sendo de ordem O(n ) (Cordeiro e Ferrari, 1991).

Da expansao da funcao de distribuicao de SR ate O(n1 ), Harris (1985) deduziu ate
esta ordem e sob H : = (0) , os tres primeiros momentos de SR como
01 (SR ) = q +
A1
,
12
A1 (q + 2) + 2A2
,
6
A1 (q + 2)(q + 4) + 4A2 (q + 4) + 8A3
03 (SR ) = q(q + 2)(q + 4) +
.
4
02 (SR ) = q(q + 2) +
(5.31)
As equacoes (5.31) podem ser usadas para calcular A1 , A2 e A3 quando os momentos 0r (SR ) de SR para r = 1, 2 e 3 forem mais facilmente determinados por primeiros
princpios.
Suponha agora o caso uniparametrico de testar H : = (0) versus A : 6= (0) , onde
a estatstica escore tem expressao SR = [U ()2 /E{U ()2 }]=(0) sendo U () = d`()/d a
funcao escore total para com o quociente em SR avaliado em = (0) . Para melhorar
o teste de H demonstra-se (Cordeiro e Ferrari, 1991) que as quantidades A1 , A2 e A3
em (5.28) sao dadas por A1 = 0, A2 = 34 /22 e A3 = 523 /32 , onde 2 = E{U ()2 }
e a informacao total de Fisher para e 3 = E{U ()3 } e 4 = E{U ()4 } 322 sao os
3/2
terceiro e quarto cumulantes da funcao escore total, respectivamente. Sejam 1 = 3 /2
e 2 = 4 /22 as medidas usuais de assimetria e curtose da funcao escore, isto e, os seus

terceiro e quarto cumulantes padronizados. A estatstica escore aperfeicoada (5.29) para
testar H0 : = (0) tem a forma simples

SR = SR 1
o
1 n
3(512 32 ) + (32 1012 )SR + 12 SR2 .
36

(5.32)
144
Introduc
ao `
a Teoria Assint
O primeiro coeficiente em (5.32), (512 32 )/12, e uma medida da nao-normalidade ou

nao-normalidade inversa da funcao escore, pois se anula para as distribuicoes normal e
normal inversa. O terceiro coeficiente, 12 /36, corrige a assimetria da funcao escore e o
segundo, (32 1012 )/36, e uma combinacao linear das medidas de assimetria e curtose
desta funcao.
Exemplo 5.14 Consideram-se aqui tres modelos biparametricos: a distribuic
ao normal
N (, 1 ) com media e variancia 1 e as distribuic
oes normal inversa N (, ) de
media positiva e parametro de precis
ao positivo e gama G(, ) de media positiva
e ndice positivo. As duas u
ltimas distribuic
oes tem as seguintes func
oes densidades:
Distribuicao
Func
ao Densidade
2y 3
N (, )
!1/2
G(, )
(y )2
exp
22 y
(
y 1 ey/ /()
Para estes tres modelos o interesse reside em testar a media H1 : = (0) versus
A1 : 6= (0) quando o parametro de dispers
ao 1 e desconhecido. O c
alculo dos cuoes (5.28) pode ser encontrado em Cordeiro e
mulantes conjuntos 0 s e dos A0i s das equac
Ferrari (1991). Apresentam-se, a seguir, as formas das estatsticas escore tradicional SR
e aperfeicoada SR nestes tres modelos:
Modelo normal N (, 1 ):
n2 (y (0) )2
SR = X
n
SR
1
1 (3 SR ) ;
2n
= SR
(0) 2
(yi )
i=1
Modelo normal inverso N (, ):

n2 (y (0) )2
SR =
n
X
(yi (0) )2
(0)
yi
i=1
onde = X
n
i=1
n(0)
(0) 2
(yi ) /yi
"
SR = SR
1
5(0)
(0) 2
1
6 2+
SR +
SR
4n
)#
22o Col
atica
145
(0) )2 /(0)2 e S segue de (5.29) (5.30) com

Modelo gama G(, ): SR = n(y
R
0 )2 },
A1 = 6(1 2 00 20 )/{n(1
1 + 9/{n(1
0 )}
A2 = 18(n)
A3 = 20/(n),
onde 0 e 00 sao as derivadas da func

ao digama avaliadas na EMV restrita que e
decorrente da equacao
(0)
(0)
= y + log
log ()
,
(0)
y
sendo y a media geometrica dos dados.
Exemplo 5.15 Trabalha-se ainda com os tres modelos descritos no exemplo 5.14, onde
o interesse agora e testar o parametro de precis
ao H2 : = (0) versus A2 : 6= (0)
quando a media e desconhecida. Apresentam-se a seguir as formas das estatsticas SR
e SR nestes modelos:
Modelo normal N (, 1 ):
SR =
SR
n
X
1
{n (0) (yi y)2 }
2n
i=1
1
1
(33 34SR + 4SR2 ) ;
18n
= SR
Modelo normal inverso N (, ):

n
1
(0) X
(yi y)2
SR =
n 2
2n
y i=1
yi
SR = SR 1
)2
1
(33 34SR + 4SR2 ) ;
18n

Modelo gama G(, ):

SR =
n(0) {log (0) 0 log(y/

y )}2
1 (0) 00
146
Introduc
ao `
a Teoria Assint
e SR segue de (5.29) (5.30) com

A1 =
e
3
,
(0)
n (1 (0) 00 )
A2 =
3(0) (2000 + (0) 0000 )

n(1 (0) 00 )2
2
5(1 + (0) 000 )2

A3 =
,
n(0) (1 (0) 00 )3
onde 0 , 00 , . . . denotam funcoes poligamas avaliadas em = (0) .

Exemplo 5.16 Considera-se aqui o teste escore para o par
ametro da distribuic
ao exponencial tratada no exemplo 5.3. A estatstica escore para testar H : = (0) versus
A : 6= (0) e SR = n((0) y 1)2 . A estatstica escore corrigida SR segue facilmente de
(5.32) como

1
2
S R = SR 1
(3 11SR + 2SR ) .
18n
Os coeficientes desta estatstica podem, tambem, ser calculados das equac
oes (5.31), pois
neste caso os momentos ordinarios de SR ate O(n1 ) s
ao facilmente obtidos notando
que ny tem distribuicao gama com media n/ e ndice igual a 1, a saber: 01 (SR ) =
1, 02 (SR ) = 3 + 4/n e 03 (SR ) = 15 + 130/n. Substituindo em (5.31) obtem-se os A0i s e a
mesma expressao de SR dada anteriormente.
Recentemente, varios artigos tem sido publicados apresentando as estatsticas escore corrigidas (5.29) em classes amplas de modelos de regressao. Cordeiro, Ferrari e
Paula (1993) e Cribari-Neto e Ferrari (1995a) obtiveram correcoes tipo-Bartlett para
testes escore em modelos lineares generalizados com parametro de dispersao conhecido e
desconhecido, respectivamente. Correcoes similares para testes escore em modelos lineares heterocedasticos e em modelos nao-lineares da famlia exponencial foram obtidos por
Cribari-Neto e Ferrari (1995b) e Ferrari e Cordeiro (1996), respectivamente. No calculo
dessas correcoes tem sido mostrado atraves de estudos de simulacao que as estatsticas
escore modificadas por (5.29) sao melhores aproximadas pela distribuicao 2 de referencia
do que as estatsticas escore usuais. Uma revisao da literatura dos testes escore aperfeicoados e dada por Cribari-Neto e Cordeiro (1996).
22o Col
atica
5.9
147
Aplicac
oes `
a Famlia Exponencial
A famlia exponencial uniparametrica, constitui um dos modelos estatsticos mais importantes, incluindo muitas distribuicoes classicas. Alem de um amplo espectro de aplicacoes,
ela tem in
umeras propriedades interessantes (vide, por exemplo, Bickel e Doksum, 1977).
O objetivo desta secao e apresentar o calculo das correcoes de Bartlett para a razao de
verossimilhanca e tipo-Bartlett para a estatstica escore na famlia exponencial especificada por um u
nico parametro.
Considere um conjunto de n variaveis aleatorias iid com funcao densidade, ou no caso
discreto com funcao de probabilidade, definida na famlia exponencial uniparametrica
(y; ) = exp{()d(y) + v(y)}/(),
(5.33)
onde e um parametro escalar, (), (), d() e v() sao funcoes conhecidas e () e
positiva para todo no espaco de parametros. Admite-se que o conjunto suporte de
(5.33) e independente de e que () e () tem derivadas contnuas ate quarta ordem.
Varias distribuicoes importantes em termos de aplicacoes à Economia, Engenharia, Biologia, Medicina, entre outras areas, sao membros da famlia (5.33), tais como as seguintes
distribuicoes: geometrica, Bernoulli, binomial, binomial negativa, Poisson, Poisson truncada, serie logaritmica, serie de potencias, zeta, hipergeometrica nao-central, Maxwell,
Erlang, exponencial, Rayleigh, Pareto, potencia, valor extremo, valor extremo truncada,
qui-quadrado e McCullagh (1989). Outras distribuicoes de dois parametros como normal,
gama, log-normal, log-gama, Laplace e Weibull podem ser consideradas pertencentes à
famlia exponencial (5.33) supondo que um de seus parametros e conhecido.
O objetivo aqui e corrigir as estatsticas da razao de verossimilhanca e escore no teste
de H : = (0) versus A : 6= (0) , onde (0) e um valor especificado para . Seja
() = {d()/d}/{()d()/d}.
Verifica-se facilmente da funcao escore que E{d(y)} = (). A estimativa de maxima
148
Introduc
ao `
a Teoria Assint
As estatsticas w
verossimilhanca de e obtida iterativamente de n1 d(yi ) = ().
e SR para o teste de H podem ser expressas por
((0) )} + 2n log{((0) )/()}
w = 2n(){(
)
e SR = n d()/d (() + d)2 /(d()/d) com = (0) , onde d = n1 d(yi ).
Seja U () = 0 d(y) 0 / a funcao escore relativa a uma u
nica observacao. Derivadas
em relacao a sao representadas por linhas. Observe-se que E{d(y)} = (). Sejam vr =
vr () = E{U (r1) ()} e v(r) = v(r) () = E{U ()r } para r = 1, 2, 3 e 4 e v2(2) = E{U 0 ()2 }.
Os vi0 s estao relacionados com os cumulantes 0 s da Secao 5.2. Usando as identidades de
Bartlett tem-se: v1 = 0, v(2) = v2 , v(3) = 2v3 3v20 e v(4) = 3v4 + 8v30 6v200 + 3v2(2) .
facil verificar atraves da funcao escore U () que v2 = 0 0 , v3 = 200 0 0 00 ,
E
v4 = 3(000 0 + 00 00 ) 0 000 e v2(2) = 002 0 /0 + 02 02 .
Inserindo as equacoes acima na formula (5.23) obtem-se a correcao de Bartlett para
definir a razao de verossimilhanca aperfeicoada w no teste de H : = (0) . Escreve-se
esta correcao como
cB = 1 +
()
,
12n
(5.34)
expressando a funcao () por (Cordeiro et al., 1995)

() =
4 02 002 0 0 00 00 + 502 002 + 30 02 000 302 0 000

.
03 03
(5.35)
A formula de () em (5.35) depende apenas de e e de suas tres primeiras derivadas

em relacao a . Quando e linear em , correspondente à famlia exponencial natural,
tem-se a reducao simples () = (5 002 3 0 00 )/ 03 . Pode-se, entao, calcular a correcao
para w em qualquer distribuicao de (5.33) inserindo simplesmente as funcoes correspondentes e , e suas derivadas, na equacao (5.35). Uma dificuldade na interpretacao desta
equacao e que os termos individuais nao sao invariantes em relacao a reparametrizacao e,
portanto, eles nao tem interpretacao geometrica independente do sistema de coordenadas
especificado.
22o Col
atica
149
Deduz-se, agora, o teste escore aperfeicoado da hipotese H : = (0) . A partir

da equacao (5.32) e usando as diversas relacoes entre os vi0 s, obtem-se, apos extensiva
algebra, os coeficientes a = a(), b = b() e c = c() da estatstica escore modificada
SR = SR {1 n1 (c + bSR + aSR2 )}, deduzidas por Ferrari et al. (1996) como
a=
( 0 00 0 00 )2
3603 03
(5.36)
b=
02 002 + 110 0 00 00 1002 002 30 02 000 + 302 0 000

.
3603 03
O coeficiente c segue, diretamente, de (5.35) como c = ()/12. Substituindo as equacoes

(5.36) e c na formula de SR , obtem-se a estatstica escore melhorada para testar H :
= (0) na famlia exponencial uniparametrica. Os coeficientes a e b, a exemplo de (),
dependem do modelo apenas atraves das funcoes e e de suas tres primeiras derivadas.
A grande vantagem das equacoes (5.35) (5.36) e que elas nao requerem o calculo de
cumulantes mas somente das derivadas de e . Claramente, a, b e c sao avaliados em
= (0) para calcular numericamente as correcoes.
Da equacao (5.35) pode-se demonstrar que () = 2 se: (i) ()() = c1 , ou (ii) ()
e linear, por exemplo () = c1 + c2 , e () = c3 /c4 , onde c1 , c2 , c3 e c4 sao constantes
arbitrarias. Estas condicoes sao individualmente suficientes, mas nao sao necessarias,
para garantir () = 2. Tambem, demonstra-se, das equacoes (5.36) que as condicoes
(i) e (ii) sao, tambem, individualmente suficientes para que se tenha a = 1/9 e b =
11/18, implicando, entao, que a estatstica escore modificada seja da forma SR = SR {1
(3 11SR + 2SR2 )/(18n)}. Pode-se verificar que isto ocorre para varias distribuicoes que
satisfazem uma das condicoes acima.
As equacoes (5.35) e (5.36) sao, facilmente, calculadas algebricamente com o auxlio de
programas de computacao simbolica como REDUCE, MATHEMATICA (Wolfram, 1996)
e MAPLE. Cordeiro et al. (1995) e Ferrari et al. (1996) apresentam, repectivamente,
formulas especiais para (), a(), b() e c() em 30 distribuicoes da famlia exponencial
(5.33). Seguem abaixo, oito exemplos, onde () = 12c():
150
Introduc
ao `
a Teoria Assint
(i) Binomial (0 < < 1, m IN , m conhecido,

y = 0, 1, 2, . . . , m): () = log{/(1 )},

() = (1 )m , d(y) = y, v(y) = log m
:
y
a=
(2 1)2
,
36m(1 )
b=
22( 1) + 7
,
36m( 1)
c=
(1 ) 1
.
6m( 1)
(ii) Poisson ( > 0, y = 0, 1, 2, . . .): () = log , () = exp(), d(y) = y, v(y) = log y!:
a = 1/(36), b = 7/(36), c = 1/(6).
(iii) Normal ( > 0, < < , < y < ):
(a) conhecido: () = (2)1 , () = 1/2 , d(y) = (y )2 , v(y) = {log(2)}/2: a = 2/9,
b = 11/9, c = 1/3.
(b) conhecido: () = /, () = exp{2 /(2)}, d(y) = y, v(y) = {y 2 + log(2)}/2:
a = 0, b = 0, c = 0.
(iv) Normal Inversa ( > 0, > 0, y > 0):
(a) conhecido: () = , () = 1/2 , d(y) = (y )2 /(22 y), v(y) = {log(2y 3 )}/2:
a = 2/9, b = 11/9, c = 1/3.
(b) conhecido: () = /(22 ), () = exp(/), d(y) = y,
v(y) = /(2y) + [log{/(2y 3 )}]/2: a = /(4), b = 5/(4), c = 0.
(v) Gama (k > 0, > 0, y > 0):
(a) k conhecido: () = , () = k , d(y) = y, v(y) = (k 1) log y log{(k)}: a = 1/(9k),
b = 11/(18k), c = 1/(6k).
(b) conhecido: (k) = 1 k, (k) = k (k), d(y) = log y, v(y) = y:
a=
00 (k)2
,
36 0 (k)3
b=
10 00 (k)2 + 3 0 (k) 000 (k)

,
36 0 (k)3
c=
5 00 (k)2 3 0 (k) 000 (k)

,
12 0 (k)3
onde () e a funcao digama.

(vi) Rayleigh ( > 0, y > 0): () = 2 , () = 2 , d(y) = y 2 , v(y) = log(2y): a = 1/9,
b = 11/18, c = 1/6.
(vii) Pareto ( > 0, k > 0, k conhecido, y > k): () = + 1, () = (k )1 , d(y) = log y,
v(y) = 0: a = 1/9, b = 11/18, c = 1/6.
(viii) Weibull ( > 0, > 0, conhecido, y > 0): () = , () = , d(y) = y ,
v(y) = log + ( 1) log y: a = 1/9, b = 11/18, c = 1/6.
22o Col
atica
5.10
151
Exerccios
1. Seja Yn uma variavel aleatoria que tende em distribuicao para uma variavel 2q
quando n . Seja fq (y) a funcao densidade de 2q . Demonstre que as expansoes
seguintes para as funcoes densidade fn (y) e geratriz de momentos Mn (t) de Yn sao
equivalentes ate O(n1 ):
(a) fn (y) = fq (y)(1 nc ) + fq+2 (y) nc ;
(b) fn (y) = fq (y){1 + nc ( yq 1)};
(c) Mn (t) = (1 2t)q/2 {1 +
2ct
(1
n
2t)1 }.
Mostre, tambem, que a funcao densidade de Yn (1 +

portanto, (1 +
2c
)
nq
2c
)
nq
e fq (y) com erro o(n1 ) e,
e a correcao de Bartlett de Yn .
2. Demonstre que o vies de ordem n1 da EMV do parametro da famlia ex = 00 /(2n0 02 ), onde

ponencial (5.33) e deduzido da equacao (5.5) como ()
() = E{d(y)} e as derivadas sao em relacao ao parametro .
3. Para as distribuicoes (i) (viii) da famlia exponencial (5.33) apresentadas na Secao
obtido da equacao (5.5), e dado por:
5.9 mostre que o vies B() da EMV ,
= 0;
(i) Binomial: B()
= 0;
(ii) Poisson: B()
= 0; (b) conhecido, B(
(iii) Normal: (a) conhecido, B()
) = 0;
= 2/n; (b) conhecido, B(
(iv) Normal Inversa: (a) conhecido, B()
) = 0;
= /(nk); (b) conhecido, B()
=
(v) Gama: (a) k conhecido, B()
e a funcao digama;
= /(8n);
(vi) Rayleigh: B()
00 (k)
,
2n 0 (k)2
onde ()
= /n;
(vii) Pareto: B()
= (1 )/(2n2 ).
(viii) Weibull: B()
4. Suponha a distribuicao 2 com n

umero de graus de liberdade desconhecido.
(a) Calcule a aproximacao de Barndorff-Nielsen para a funcao densidade da EMV
(b) Calcule o vies de ordem n1 de ;
(c) Calcule as correcoes de Bartlett e tipo;
Bartlett para melhorar as estatsticas da razao de verossimilhanca e escore no teste
de H : = (0) versus A : 6= (0) .
152
Introduc
ao `
a Teoria Assint
5. Usando (5.10) calcule a aproximacao para a funcao densidade da EMV nas distribuicoes (i) (viii) da famlia exponencial (5.33) descritas na Secao 5.9.
6. A distribuicao de von Mises usada para analise de dados circulares e um membro
da famlia exponencial (5.33) onde ( > 0, 0 < < 2, conhecido, 0 < y < 2):
() = , () = 2I0 (), d(y) = cos(y ), v(y) = 0 e I () e a funcao de Bessel
(b)
de primeira especie e ordem . (a) Determine o vies de ordem n1 da EMV ;
Das equacoes (5.35) (5.36) encontre as correcoes de Bartlett e tipo-Bartlett para
melhorar as estatsticas da razao verossimilhanca e escore no teste de H : = (0)
versus A : 6= (0) ; (b) Deduza de (5.10) a aproximacao para a funcao densidade de
.
7. Para os modelos log-gama, gama e logstico descritos nos exemplos 5.10 e 5.11,
apresente formulas para aproximar P (Y y; ) baseadas em (5.15).
8. Caracterize as seguintes distribuicoes de um parametro: geometrica, binomial negativa, Poisson truncada, serie logaritmica, serie de potencias, Maxwell, Pareto,
Rayleigh, valor extremo, lognormal e potencia, como membros da famlia exponencial (5.33). (a) Deduza das equacoes (5.35) (5.36) as correcoes para melhorar os
testes da razao de verossimilhanca e escore (Cordeiro et al., 1995; Ferrari et al.,
1996). (b) Deduza formulas para os vieses de ordem n1 das EMV do parametro
que caracteriza estas distribuicoes.
9. Sejam n observacoes independentes y1 , . . . , yn de uma distribuicao de Poisson com
a estrutura log linear log i = + xi , i = 1, . . . , n. Suponha o teste de H :
= 0 versus A : 6= 0. Demonstre que a estatstica escore para este teste e
SR = ns2 (y s2 )1 e que A1 , A2 e A3 sao obtidos das equacoes (5.28) como: A1 =
0, A2 = 3(3 s4 /s22 )(n
)2 e A3 = 5s23 /(n
s32 ), onde sa =
n
X
i=1
(xi x)a /n e
= y.
22o Col
atica
153
Refer
encias
Attfield, C.L.F. (1991).
A Bartlett-adjustment to the likelihood ratio test for ho-
moskedasticity in the linear model. Economics Letters, 37, 119123.

Barndorff -Nielsen, O.E. (1983). On a formula for the distribution of the maximum
likelihood estimator. Biometrika, 70, 343365.
Barndorff -Nielsen, O.E. (1986). Inference on full and partial parameters based on the
standardized signed log-likelihood ratio. Biometrika, 73, 307322.
Barndorff -Nielsen, O.E. (1988). Contribution to discussion of paper by N. Reid (1988).
Statistical Science, 3, 228229.
Barndorff -Nielsen, O.E. (1990). Approximate interval probabilities. J.R. Statist. Soc.
B, 52, 485496.
Barndorff -Nielsen, O.E. e Blaesild, P. (1986). A note on the calculation of Bartlett
adjustments. J. R. Statist. Soc. B, 46, 483495.
Barndorff -Nielsen, O.E. e Cox, D.R. (1984a). Bartlett adjustments to the likelihood
ratio statistic and the distribution of the maximum likelihood estimator. J. R. Statist.
Soc. B, 46, 484495.
Barndorff -Nielsen, O.E. e Cox, D.R. (1984b). The effect of sampling rules on likelihood
statistics. Int. Statist. Rev., 52, 309326.
Barndorff -Nielsen, O.E. e Cox, D.R. (1990). Asymptotic Techniques for use in Statistics. Londres: Chapman and Hall.
Barndorff -Nielsen, O.E. e Cox, D.R. (1994). Inference and Asymptotics. Londres:
Chapman and Hall.
Barndorff -Nielsen, O.E. e Hall, P. (1988). On the level-error after Bartlett adjusment
of the likelihood ratio statistic. Biometrika, 75, 374378.
Bartlett, M.S. (1953). Approximate Confidence Intervals I. Biometrika, 40, 1219.
154
Introduc
ao `
a Teoria Assint
Bickel, P.J. e Doksum, K.A. (1977). Mathematical Statistics: Basic Ideas and Selected
Topics. Oakland: Holden-Day.
Bleistein, N. e Handelsman, R.A. (1975). Asymptotic Expansions of Integrals. Nova
York: Holt, Rinehart and Winston.
Breusch, T.S. e Pagan, A.R. (1980). The Lagrange multiplier test and its applications
to model specification in econometrics. Review of Economic Studies, 47, 239253.
Chandra, T.K. (1985).
Asymptotic expansions of perturbed chi-square variables.
Sankhya A, 47, 100110.

Chesher, A. e Smith, R.J. (1995).
Bartlett corrections to likelihood ratio tests.
Biometrika, 82, 433436.

Cordeiro, G.M. (1983). Improved likelihood ratio statistics for generalized linear models.
J. R. Statist. Soc. B, 45, 404413.
Cordeiro, G.M. (1987). On the corrections to the likelihood ratio statistics. Biometrika,
74, 265274.
Cordeiro, G.M. (1993). Bartlett corrections and bias correction for two heteroscedastic
regression models. Comm. Statist. Theor. and Meth., 22, 169188.
Cordeiro, G.M. e Cribari-Neto, F. (1998). On Bias reduction in exponential and nonexponential family regression models. Comm. Statist. Simul. Comput., 27, 485
500.
Cordeiro, G.M., Cribari-Neto, F., Aubin, E.C.Q. e Ferrari, S.L.P. (1995). Bartlett corrections for one-parameter exponential family models. J. Statist. Comput. Simul.,
53, 211231.
Cordeiro, G.M. e Ferrari, S.L.P. (1991). A modified score statistic having chi-squared
distribution to order n1 . Biometrika, 78, 573582.
Cordeiro, G.M., Ferrari, S.L.P. e Paula, G.A. (1993). Improved score tests for generalized linear models. J. R. Statist. Soc. B, 55, 661674.
22o Col
atica
155
Cordeiro, G.M. e Ferrari, S.L.P. (1998). A note on Bartlett-type corrections for the first
few moments of test statistics. J. Statist. Plan. Infer., 71, 261269.
Cordeiro, G.M. e Klein, R. (1994). Bias correction in ARMA models. Statist. Probab.
Lett., 19, 169176.
Cordeiro, G.M. e McCullagh, P. (1991). Bias correction in generalized linear models.
J.R. Statist. Soc. B, 53, 629643.
Cordeiro, G.M. e Paula, G.A. (1989). Improved likelihood ratio statistics for exponential
family nonlinear models. Biometrika, 76, 93100.
Cordeiro, G.M., Paula, G.A. e Botter, D.A. (1994). Improved likelihood ratio tests for
dispersion models. Int. Statist. Rev., 62, 257276.
Cox, D.R. e Hinkley, D.V. (1979). Theoretical Statistics. Nova York: Chapman and
Hall.
Cox, D.R. e Reid, N. (1987). Parameter orthogonality and approximate conditional inference (with discussion). J.R. Statist. Soc. B, 49, 139.
Cox, D.R. e Snell, E.J. (1968). A general definition of residuals (with discussion). J.R.
Statist. Soc. B, 30, 248278.
Cram
er, H. (1937). Random Variables and Probability Distributions. Londres: Cambridge University Press.
Cram
er, H. (1946). Mathematical Methods of Statistics. Princeton: Princeton University Press.
Cribari -Neto, F. e Cordeiro, G.M. (1996). On Bartlett and Bartlett-type corrections.
Econometric Reviews, 15, 339367.
Cribari -Neto, F. e Ferrari, S.L.P. (1995a). Second order asymptotics for score tests in
generalized linear models. Biometrika, 82, 426432.
Cribari -Neto, F. e Ferrari, S.L.P. (1995b). Bartlett-corrected tests for heteroskedastic
linear models. Econometric Letters, 48, 113-118.
156
Introduc
ao `
a Teoria Assint
Daniels, H.E. (1954). Saddlepoint approximations in Statistics. Ann. Math. Statist.

25, 631-650.
Daniels, H.E. (1983). Saddlepoint approximations for estimating equations. Biometrika,
70, 89-96.
Daniels, H.E. (1987). Tail probability approximations. Int. Stat. Rev., 55, 3748.
Davison, A.C. e Hinkley, D.V. (1988). Saddlepoint approximations in resampling methods. Biometrika, 75, 417432.
DeBruijn, N.G. (1970). Asymptotic Methods in Analysis. Amsterdam: North-Holland.
DiCiccio, T.J., Field, C.A. e Fraser, D.A.S. (1990). Approximation of marginal tail
probabilities and inference for scalar parameters. Biometrika, 77, 7795.
Edwards, A.W.F. (1972). Likelihood. Cambridge: Cambridge University Press.
Engle, R.F. (1984). Wald, likelihood ratio and Lagrange multiplier tests in econometrics.
In: Griliches, Z. & Intriligator, M.(eds). Handbook of Econometrics. Amsterdam:
North-Holland.
Feller, W. (1971). An Introduction to Probability Theory and Its Applications. Nova
York: John Wiley.
Ferrari, S.L.P., Botter, D.A., Cordeiro, G.M. e Cribari-Neto, F. (1996). Second and third
order bias reduction in one-parameter models. Statist. Probab. Lett., 30, 339345.
Ferrari, S.L.P. e Cordeiro, G.M. (1994). Matrix formulae for computing improved score
tests. J. Statist. Comput. Simul., 49, 196206.
Ferrari, S.L.P. e Cordeiro, G.M. (1996). Corrected score tests for exponential family
nonlinear models. Statist. Probab. Lett., 26, 712.
Ferrari, S.L. de P., Cordeiro, G.M., Uribe-Opazo, M.A. e Cribari-Neto, F. (1996). Improved score tests for one-parameter exponential family models. Statist. Probab.
Lett., 30, 6171.
22o Col
atica
157
Fisz, M. (1963). Probability Theory and Mathematical Statistics. Nova York: John
Wiley.
Fraser, D.A.S. (1968). The Structure of Inference. Nova York: John Wiley.
Fraser, D.A.S. (1988). Normed likelihood as saddlepoint approximation. J. Mult. Anal.,
27, 181193.
Fraser, D.A.S. (1990). Tail probabilities from observed likelihoods. Biometrika, 77, 65
76.
Harris, P. (1985). An asymptotic expansion for the null distribution of the efficient score
statistic. Biometrika, 72, 653659.
Hayakawa, T. (1977). The likelihood ratio criterion and the asymptotic expansion of its
distribution. Ann. Inst. Statist. Math. A, 29, 359378.
Hinkley, D.V., Reid, N. e Snell, E.J.(eds) (1991). Statistical Theory and Modelling.
Londres: Chapman and Hall.
Hosking, J.R.M. (1980). Lagrange multiplier tests of time-series model. J.R. Statist.
Soc. B, 42, 170181.
Hosking, J.R.M. (1981). Lagrange multiplier tests of multivariate time-series models.
J.R. Statist. Soc. B, 43, 219230.
Ibragimov, I.A. e Linnik, Yu.V. (1971). Independent and Stationary Sequences of Random Variables. Groningen: Wolters-Noordhoff.
Jeffreys, H. (1962). Asymptotic Approximations. Oxford: Oxford University Press.
Jensen, J.L. (1988). Uniform saddlepoint approximations. Adv. Appl. Prob., 20, 622
634.
Jrgensen, B. (1987). Exponential dispersion models (with discussion). J.R. Statist.
Soc. B, 49, 127162.
158
Introduc
ao `
a Teoria Assint
Kendall, e Rao, K.S. (1950). On the generalized second limit theorem in the theory of
probabilities. Biometrika, 37, 224.
Kolassa, J. e McCullagh, P. (1990). Edgeworth expansions for discrete distributions.
Ann. Statist., 18, 981985.
Lawley, D.N. (1956). A general method for approximating to the distribution of the
likelihood ratio criteria. Biometrika, 71, 233244.
Lawless, J.F. (1982). Statistical Models and Methods for Lifetime Data. Nova York:
John Wiley.
LeCam, L. (1956). On the asymptotic theory of estimation and testing hypotheses. Proc.
3rd Berkeley Symp., 1, 129156.
LeCam, L. (1970). On the assumptions used to prove asymptotic normality of maximum
likelihood estimates. Ann. Math. Statist., 41, 802828.
Lehmann, E.L. (1959). Testing Statistical Methods. Nova York: John Wiley.
Lehmann, E.L. (1983). Theory of Point Estimation. Nova York: John Wiley.
Lehmann, E.L. e Scheffe, H. (1950). Completeness, similar regions, and unbiased estimation, Part I. Sankhya, 10, 305340.
L
evy, P. (1937). Theorie de laddition des variables aleatoires. Paris: Gauthier-Villars.
Lugannani, R. e Rice, S. (1980). Saddlepoint approximation for the distribution of the
sum of independent random variables. Adv. Appl. Prob., 12, 475490.
McCullagh, P. (1984). Tensor notation and cumulants of polynomials. Biometrika, 71,
461476.
McCullagh, P. (1987). Tensor methods in Statistics. Londres: Chapman and Hall.
McCullagh, P. (1989). Some statistical properties of a family of continuous univariate
distributions. J. Amer. Statist. Assoc., 84, 125141.
22o Col
atica
159
McCullagh, P. e Cox, D.R. (1986). Invariants and likelihood ratio statistics. Ann.
Statist., 14, 14191430.
Mller, J. (1986). Bartlett adjustments for structured covariances. Scand. J. Statist.,
13, 115.
Paula, G.A. e Cordeiro, G.M. (1995). Bias correction and improved residuals for nonexponential family nonlinear models. Comm. Statist. Simul. Comput., 24, 1193
1210.
Porteous, B.T. (1985). Improved likelihood ratio statistics for covariance selection models. Biometrika, 72, 97101.
Poskitt, D.S. e Tremayne, A.R. (1981). An approach to testing linear time series models.
Ann. Statist. 9, 974986.
Poskitt, D.S. e Tremayne, A.R. (1982). Diagnostic tests for multiple time series models.
Ann. Statist., 10, 114120.
Pratt, J.W. (1968). A normal approximation for binomial, F, beta and other common
related tail probabilities. J. Amer. Statist. Assoc., 63, 14571483.
Pregibon, D. (1982). Score tests in GLIM with applications. Lecture Notes in Statistics,
14, 8797.
Rao, C.R. (1973). Linear Statistical Inference and Its Applications. Nova York: John
Wiley.
Reid, N. (1988). Saddlepoint methods and statistical inference. Statistical Science, 3,
213238.
Ross, W.H. (1987). The expectation of the likelihood ratio criterion. Int. Statist. Rev.,
55, 315330.
Serfling, R.J. (1980). Approximation Theorems of Mathematical Statistics. Nova York:
John Wiley.
160
Introduc
ao `
a Teoria Assint
Shenton, L.R. e Bowman, K.O. (1977). Maximum likelihood Estimation in Small Samples. Londres: Charles Griffin.
Wilks, S.S. (1938). The large-sample distribution of the likelihood ratio for testing composite hypotheses. Ann. Math. Statist., 9, 6062.
Wilks, S.S. (1962). Mathematical Statistics. Nova York: John Wiley.
Wolfram, S. (1996). The Mathematica Book. New York: Addison-Wesley.

Teoria Assintótica PDF

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Teoria Assintótica PDF

Caricato da

Copyright:

Formati disponibili

Introduc

Sou grato aos colegas da UFPE,

Audrey Cysneiros, Claudia Lima, Francisco Cribari-Neto (Coordenador do Mestrado

manuscrito e deram sugestoes u

Rio, abril de 1999

Funcao Escore e Informacao . . . . . . . . . . . . . . . . . . . . . . . . . .

Estimacao por Intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

Somas de Variaveis Aleatorias Independentes . . . . . . . . . . . . . . . . . 42

Expansoes Ponto de Sela . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

Expansoes Assintoticas para Variaveis Aleatorias

Expansoes por Metodos Diretos . . . . . . . . . . . . . . . . . . . . . . . . 82

Expansoes de Funcoes Nao-Lineares . . . . . . . . . . . . . . . . . . . . . . 84

3.10 Aproximacao Normal para Algumas Variaveis Discretas . . . . . . . . . . . 85

Erro Medio Quadratico . . . . . . . . . . . . . . . . . . . . . . . . . 94

Unicidade Assintotica . . . . . . . . . . . . . . . . . . . . . . . . . . 100

Normalidade Assintotica . . . . . . . . . . . . . . . . . . . . . . . . 102

Eficiencia Assintotica . . . . . . . . . . . . . . . . . . . . . . . . . . 103

Suficiencia Assintotica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

Inferencia sem Parametros de Incomodo . . . . . . . . . . . . . . . . . . . 105

Inferencia com Parametros de Incomodo . . . . . . . . . . . . . . . . . . . 110

Verossimilhanca Perfilada . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

Identidades de Bartlett . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

Correcao do Vies da EMV . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

Funcao Densidade da EMV . . . . . . . . . . . . . . . . . . . . . . . . . . 125

Calculo de Probabilidades Baseado na Verossimilhanca . . . . . . . . . . . 128

Correcao de Bartlett . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

Estatsticas Aperfeicoadas tendo distribuicao 2 . . . . . . . . . . . . . . . 138

Testes Escore Melhorados . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

Aplicacoes `a Famlia Exponencial . . . . . . . . . . . . . . . . . . . . . . . 147

5.10 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151

A inferencia e a parte fundamental da Estatstica e, claramente, e tao antiga quanto a

uma confiabilidade especificada ou decidir sobre um valor previamente concebido para .

tiradas destes dois vetores de dados sao identicas.

Usualmente, trabalha-se com a log-verossimilhanca `() = log L(), tambem chamada de

Em geral, mesmo no caso de variaveis aleatorias dependentes, a log-verossimilhanca pode

log fYj |Y(j1) (yj |y(j1) ; ) ,

Exemplo 1.1 Suponha que as componentes de Y s

Assim, a log-verossimilhanca total `() reduz-se a

A funcao de verossimilhanca informa a ordem natural de preferencia entre diversas

O grafico de `() versus em e chamado superfcie suporte. Para p = 1 este grafico

0 s e escolhe-se como aquele valor de correspondente ao maximo `(). Quando `()

Uma propriedade que relaciona a suficiencia e a verossimilhanca pode ser deduzida

yj yj1 sao suficientes para os parametros e quando e conhecido.

e o Jacobiano da transformacao de Y para Z suposto nao-nulo. De (1.6) vem

` (; z) = `(; y) + log |T |, o que demonstra a invariancia da funcao suporte em relacao `a

A primeira derivada da funcao suporte e chamada func

e interpretado como um vetor coluna e, portanto, U () e um vetor

p 1. Assim, U () e o vetor gradiente da superfcie suporte em . As equacoes de MV

sao expressas por U ()

mal N (, 2 ) e da distribuicao de Cauchy, cuja densidade e f (y; ) = 1 {1 + (y

juntamente suficientes para estes parametros. Sabe-se que

assintoticas de sua EMV .

Para observacoes independentes, a funcao escore e a informacao sao somas de contribuicoes

E{t(Y )} = t(y) f (y; )dy

A matriz de primeiras derivadas da funcao escore com sinal negativo J = U

positiva semi-definida) sao necessarias enquanto que U = 0 e J > 0 (J positiva definida)

checar diretamente que E{U ()} = 0 e Var{U ()} = n/2 .

Supondo que as observacoes sao iid, a func

ayi , sendo y a media amostral. A EMV e uma func

Expandindo o suporte ` em em serie multivariada de Taylor ao redor de e notando

e proporcional a J (i.e. `a informacao observada no ponto ).

A interpretacao geometrica dos conceitos acima e melhor compreendida no caso uni 2 J.

maior a curvatura menor a variacao de em torno de .

n0 = n0 () tal que |Yn Ym |r para quaisquer m, n n0 .

P (|Yn Y |) > ) < para todo > 0, entao Yn Y ;