Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
ao `
a Teoria Assint
otica
Gauss M. Cordeiro
22o Col
oquio Brasileiro de Matem
atica
Pref
acio
A area de teoria assintotica no Pas cresceu muito nos u
ltimos anos em termos de
producao cientfica. A ideia do trabalho surgiu face `a inexistencia de um livro em lngua
portuguesa que apresentasse os topicos mais importantes da teoria assintotica. O texto
aborda estes topicos de forma introdutoria, embora o tratamento matematico seja superficial para alguns deles.
Os pre-requisitos para sua leitura sao conhecimentos elementares de calculo (diferencial e integral) e de algebra linear e tambem nocoes basicas de inferencia estatstica. O
texto, dividido em cinco captulos, e destinado prioritariamente a alunos de mestrado e
doutorado. Entretanto, pode ser usado por alunos dos u
ltimos anos de graduacao.
O Captulo 1 apresenta as nocoes basicas da teoria de verossimilhanca. O Captulo
2 resume alguns conceitos fundamentais em metodos assintoticos que sao rotineiramente
usados em Probabilidade e Estatstica. Este captulo e pre-requisito dos Captulos 3, 4
e 5 que formam o n
ucleo da teoria assintotica de verossimilhanca. O Captulo 3 trata
das expansoes assintoticas de maior interesse na Estatstica. O Captulo 4 apresenta a
teoria assintotica de primeira ordem onde os resultados assintoticos classicos sao usados
com a finalidade de se fazer inferencia. O Captulo 5 aborda refinamentos dos metodos
e procedimentos do Captulo 4, onde se modificam os resultados assintoticos classicos
para se obter melhores aproximacoes na inferencia. Ao longo de todo o texto muitas
demonstracoes foram omitidas, principalmente quando o entendimento do assunto nao
depende delas. Por ser um texto introdutorio, in
umeras vezes o formalismo matematico
foi sacrificado para se ter uma forma mais simples e evidente de apresentar os conceitos
e resultados. Em cada captulo, exemplos procuram consolidar a teoria apresentada e a
serie de exerccios no final, sendo a grande maioria destinada a alunos de mestrado, visa
a exercitar o leitor sobre o assunto abordado.
Varias pessoas contriburam para este livro.
ii
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
Gauss M. Cordeiro
Conte
udo
1 Fundamentos de Infer
encia Estatstica
1.1
Introducao
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2
Funcao de verossimilhanca . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3
1.4
Metodos Iterativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5
Modelos Exponenciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.6
1.7
Testes de Hipoteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.8
1.7.1
Hipoteses Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.7.2
Hipoteses Compostas . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2 M
etodos Assint
oticos
27
2.1
Conceitos Basicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2
Funcao Caracterstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.3
Momentos e Cumulantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.4
2.5
Teoremas Limites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.6
Transformacao Funcional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
iii
iv
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
2.7
Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3 Expans
oes Assint
oticas
57
3.1
Introducao
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.2
Expansao de Gram-Charlier . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.3
Expansoes de Edgeworth . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.4
Expansoes de Cornish-Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.5
3.6
Expansoes de Laplace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.7
3.8
3.9
. . . . . . . . . . . . . . 79
93
Fundamentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.1.1
4.1.2
Eficiencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.1.3
Condicoes de Regularidade . . . . . . . . . . . . . . . . . . . . . . . 97
4.1.4
Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
4.1.5
4.1.6
4.1.7
4.2
4.3
22o Col
oquio Brasileiro de Matem
atica
4.4
4.5
4.6
Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
5 Teoria Assint
otica de Segunda Ordem
119
5.1
Introducao
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5.2
5.3
5.4
5.5
5.6
5.7
5.8
5.9
Captulo 1
Fundamentos de Infer
encia
Estatstica
1.1
Introduc
ao
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
22o Col
oquio Brasileiro de Matem
atica
1.2
Func
ao de verossimilhan
ca
Suponha que y e o valor observado de uma variavel aletoria Y = (Y1 , . . . , Yn )T caracterizada por uma funcao de probabilidade ou densidade com forma analtica f (y; ) conhecida
mas dependente de um vetor = (1 , . . . , p )T de parametros desconhecidos. Seja IRp
o espaco parametrico representando o conjunto de valores possveis para o vetor . A
funcao f (y; ) e denominada func
ao do modelo estatstico e define alguma famlia F de
distribuicoes de probabilidade. O objetivo da inferencia e determinar a distribuicao de Y
na famlia F, ou equivalentemente, testar uma hipotese expressa atraves de . A teoria
de verossimilhanca representa um dos metodos mais comuns de inferencia estatstica.
A funcao de verossimilhanca L() e definida como sendo igual a funcao do modelo,
embora seja interpretada diferentemente como funcao de para y conhecido. Assim,
L() = f (y; ). A inferencia de verossimilhanca pode ser considerada como um processo
de obtencao de informacao sobre um vetor de parametros , a partir do ponto y do espaco
amostral, atraves da funcao de verossimilhanca L(). Varios vetores y 0 s podem produzir
a mesma verossimilhanca ou, equivalentemente, uma dada verossimilhanca pode corresponder a um contorno R(y) de vetores amostrais. Este processo produz uma reducao
de informacao sobre , disponvel em y, que e transferida para as estatsticas suficientes
impressionandefinidas pela funcao de verossimilhanca (vide equacao (1.5) a seguir). E
te como os conceitos (aparentemente distintos) de suficiencia e verossimilhanca, ambos
introduzidos por Fisher, estao intimamente relacionados conforme a descricao acima.
A inferencia via verossimilhanca e fundamentada em princpios genericos como os
descritos a seguir. O princpio de suficiencia estabelece que vetores de dados distintos
com os mesmos valores das estatsticas suficientes para um vetor de parametros fornecem
conclusoes identicas sobre . O princpio fraco de verossimilhanca implica que vetores de
dados com verossimilhancas proporcionais produzem as mesmas conclusoes sobre . Para
a validade destes dois princpios, admite-se que o modelo estatstico em investigacao e
adequado. O princpio forte de verossimilhanca e relativo a variaveis aleatorias distintas
que dependem de um mesmo parametro e de um mesmo espaco parametrico. Supondo
que dois modelos sao adequados aos vetores de dados y e z em questao, este princpio
estabelece que se y e z fornecem verossimilhancas proporcionais, entao as conclusoes sobre
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
n
Y
f (yi ; ) .
(1.1)
i=1
n
X
log f (yi ; ) .
(1.2)
i=1
n
X
(1.3)
j=1
com Y(0) especificando o que for necessario para determinar a distribuicao da primeira
componente Y1 . A versao (1.3) e importante nos modelos de series temporais.
22o Col
oquio Brasileiro de Matem
atica
n1
X
(yj )2 } +
j=2
n
X
(yj )(yj1 ) .
j=2
(1.4)
(curva suporte) e bastante informativo, embora nao tenha valor imediato no calculo de .
Para p 3 a superfcie suporte nao pode ser tracada e deve-se recorrer a tecnicas iterativas
apresentadas na Secao 1.4. Se e um conjunto discreto, computa-se `() para os diversos
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
(1.5)
onde g(, ) depende dos dados y somente atraves de s = s(y) e h(y) e uma funcao dos
dados que independe de . A condicao (1.5) e conhecida como o Teorema da Fatoracao
de Neyman-Fisher. Uma demonstracao detalhada (o caso discreto e trivial) pode ser
encontrada no livro de Lehmann (1959, p.470). Claro que se S e suficiente para , qualquer
funcao um-a-um de S tambem e suficiente. A escolha entre distintas estatsticas suficientes
para um parametro pode ser baseada na consistencia, eficiencia e no fato de ser nao-viesada
(Secao 4.1.1).
22o Col
oquio Brasileiro de Matem
atica
n1
X
yj2 e
j=2
n
X
j=2
A inferencia atraves da funcao suporte deve ser consistente com os dados observados
e, portanto, as conclusoes nao deverao ser alteradas por dois tipos de transformacoes: (i)
transformacao inversvel de Y ; (ii) transformacao nao necessariamente inversvel de .
Mostra-se agora que a funcao suporte quando usada relativamente e invariante segundo transformacao unvoca dos dados. Supondo uma transformacao um-a-um da variavel
aleatoria contnua Y para Z = Z(Y ), a verossimilhanca segundo os novos dados z (L (; z))
pode ser expressa em termos da verossimilhanca segundo os dados y (L(; y)) por
L (; z) = L(; y)|T | ,
(1.6)
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
onde T =
y
z
1.3
Func
ao Escore e Informa
c
ao
onde o operador
`()
,
(1.7)
22o Col
oquio Brasileiro de Matem
atica
e como suas distribuicoes sao independentes, n 1(y )/s tem distribuicao tn1 (t
de Student com n 1 graus de liberdade). Estes resultados possibilitam determinar intervalos de confianca exatos para os parametros da normal ou de qualquer distribuicao
definida por uma transformacao a partir da distribuicao normal. A ideia de transformar
uma variavel de modo a obter normalidade e de grande interesse na Estatstica. Por
exemplo, se Y N (, 2 ) define-se a distribuicao lognormal (Z LN (, 2 )) de dois
evidente que a estimacao por MV dos parametros em
parametros por Z = exp(Y ). E
qualquer parametrizacao de Z e feita atraves das estimativas
e
2 . Por exemplo, a
+ r2
2 /2) para
0r = exp(r
EMV do r-esimo momento 0r = E(Z r ) de Z e simplesmente
r 1. No caso da estimacao do parametro da distribuicao de Cauchy (exemplo 1.4
dado a seguir), a equacao de MV nao tem forma simples, sendo representada por um
polinomio de grau n 1 em cujas solucoes em geral incluem varios maximos e mnimos
da log-verossimilhanca. Portanto, a inferencia sobre deve ser baseada em propriedades
(1.8)
10
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
igualdade
Z
e valida para qualquer estatstica t(Y ). Para modelos discretos basta substituir esta
integral por um somatorio. Esta equacao garante que as operacoes de diferenciacao com
respeito a e integracao em y sao permutaveis. Isso e possvel, por exemplo, se os limites
de variacao de y sao finitos e independem de ou, no caso de infinitos, se a integral
resultante da permutacao e convergente para todo e o integrando e uma funcao contnua
de y e . Estas condicoes de regularidade serao rediscutidas na Secao 4.1.3.
As condicoes anteriores sao usadas para justificar expansoes em series de Taylor e
tecnicas similares. Uma discussao mais detalhada destas condicoes pode ser encontrada
em LeCam (1956, 1970). De agora em diante omite-se o argumento das funcoes de
verossimilhanca, suporte, escore e informacao, escrevendo abreviadamente estas quantidades como L, `, U e K. Ainda, a distribuicao conjunta dos dados e escrita apenas como f
sem os argumentos y e . As demonstracoes serao dadas em forma resumida para modelos
contnuos. Para modelos discretos, basta substituir a integral por um somatorio.
A esperanca e a covariancia da funcao escore sao dadas por
E(U ) = 0
(1.9)
e
U T
Cov(U ) = E
respectivamente. De (1.7) U =
ciando
1 f
f
2`
=E
T
e, entao, E(U ) =
T
f
dy
= K,
=
U f dy = 0 em relacao a vem { U
f + U f }dy =
(1.10)
R
( f dy) = 0. Diferen
R U T
{ + U U T }f dy = 0.
Por (1.8) e (1.9) obtem-se (1.10). Esta equacao implica que o elemento (r, s) de K pode
2
`
` `
ser calculado de duas formas, como E{ r
} ou E{
}, sendo a primeira gerals
r s
mente mais facil. De agora em diante, quantidades avaliadas na EMV serao escritas
com superescritos .
T
`
e denominada matriz de informac
ao observada. A matriz Hessiana e simplesmente
T
J e tem-se E(J) = K. Para ser um maximo local, as condicoes U = 0 e J 0 (J
22o Col
oquio Brasileiro de Matem
atica
11
i=1
ay y .
y=0
f ()
n
Y
i=1
()
= 0. A media amostral y e suficiente para e
obtida iterativamente de y/ f 0 ()/f
a informacao para e dada por
K() =
n
[f 0 () + {f ()f 0 () f 0 ()2 }] .
f ()
(1.11)
A equacao (1.11) revela que a diferenca entre o maximo suporte e o suporte num
ponto arbitrario, que pode ser vista como a quantidade de informacao dos dados sobre ,
O determinante de J(|
J|)
de ao redor de .
12
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
inspecao grafica mostra que esta parabola aproxima a curva suporte, coincidindo no seu
revelando ainda que quanto
ponto maximo e tendo a mesma curvatura desta curva em ,
exp 1 ( )
)
L=L
2
(1.12)
que representa a forma de curva normal multivariada com media e estrutura de covariancia igual a J1 . Atraves desta aproximacao pode-se entao tratar o vetor de
parametros como se fosse um vetor de variaveis aleatorias tendo distribuicao normal multivariada com media igual `a EMV e estrutura de covariancia J1 . Quando o suporte
for quadratico, a verossimilhanca tera a forma normal. A forma de L se aproximara cada
vez mais da distribuicao normal quando n tender para infinito.
A formula (1.12) mostra a fatoracao da verossimilhanca como (1.5) pelo menos para
n grande, estabecelendo a suficiencia assint
otica da EMV (Secao 4.2). Conclui-se que,
embora as EMV nao sejam necessariamente suficientes para os parametros do modelo,
esta suficiencia sera alcancada quando a dimensao do vetor de dados tender para infinito.
Convem citar nesta secao algumas propriedades da matriz de informacao.
Seja
22o Col
oquio Brasileiro de Matem
atica
13
Em geral, para qualquer estatstica t = t(y) definida pela sua funcao de probabilidade
ou funcao densidade gt (x; ) tem-se Kt () Ky (). A igualdade ocorrera se e somente se
t for suficiente para . Para demonstrar esta importante desigualdade basta desenvolver
E[{U ()
dado t = x, ou seja,
log gt (x; ) .
Assim, a reducao de uma amostra por uma estatstica podera implicar perda de informacao
E{U ()|t = x} =
1.4
M
etodos Iterativos
Os metodos iterativos para o calculo da EMV sao bastante utilizados na pratica e, em geral, mostram-se imprescindveis quando a dimensao p do espaco de parametros e grande.
em serie multivariada de Taylor ate primeira ordem
Expandindo U (a funcao escore em )
tem-se, aproximadaao redor de um ponto qualquer pertencente a uma vizinhanca de ,
mente,
U T
.
U = U +
( )
(1.13)
(1.14)
14
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
dU
,
d
que representa o metodo das tangentes, bastante usado para calcular a solucao de uma
equacao nao-linear U = 0.
A seq
uencia {(m) ; m > 1} gerada depende fundamentalmente do vetor inicial (1) ,
dos valores amostrais e do modelo estatstico e, em determinadas situacoes, onde n e
pequeno, pode revelar irregularidades especficas aos valores amostrais obtidos do experi Mesmo existindo a
mento e, portanto, pode nao convergir e mesmo divergir da EMV .
convergencia, se a verossimilhanca tem razes m
ultiplas, nao ha garantia de que o procedimento converge para a raiz correspondente ao maior valor absoluto da verossimilhanca.
No caso uniparametrico, se a estimativa inicial (1) for escolhida proxima de e se J (m)
para m 1 for limitada por um n
umero real positivo, existira uma chance apreciavel que
esta seq
uencia va convergir para .
A expressao (1.13) tem uma forma alternativa assintotica equivalente, pois pela lei
dos grandes n
umeros J deve convergir para K quando n (vide Secao 4.1.4). Assim,
substituindo a informacao observada em (1.13) pela esperada, obtem-se a aproximacao
= K 1 U .
(1.15)
her para parametros, i.e., (m+1) = (m) + K (m) U (m) . O aspecto mais trabalhoso dos
dois esquemas iterativos e a inversao das matrizes J e K. Ambos os procedimentos sao
muitos sensveis em relacao `a estimativa inicial (1) . Se o vetor (1) for uma estimativa
consistente, os metodos convergirao em apenas um passo para uma estimativa eficiente
assintoticamente (Secao 4.1.7).
Existe evidencia emprica que o metodo de Fisher e melhor, em termos de convergencia, do que o metodo de Newton-Raphson. Ela possui ainda a vantagem de usufruir
22o Col
oquio Brasileiro de Matem
atica
15
(m+1)
(m)
n
4X
y (m)
.
+
n i=1 1 + (yi (m) )2
f (y; , ) =
!1
y
exp
! )
!1
yi log yi
log y
P
i yi
(1.16)
!1/2
= n1
yi
(1.17)
K=
onde (p) =
R
0
2 /6+0 (2)2
2
0 (2)
(2)
2
2
xp1 ex dx e a func
ao gama e 0 (p) a sua derivada.
16
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
1.5
Modelos Exponenciais
(1.18)
(1.19)
22o Col
oquio Brasileiro de Matem
atica
17
1
1
L() = f (y; ) =
exp y T y 2 + T
n/2
(2)
2
(X T X)1
2
T (X T X)1 n
log 2 ,
2 2
2
)
sendo as estatsticas suficientes (T , y T y). Este exemplo ilustra que a suficiencia e preser
vada segundo transformacao um-a-um, pois y T y = SQR + T (X T X)1 .
A funcao escore e a informacao para o modelo (1.18) sao obtidas de (1.7) e (1.8),
respectivamente, como
U () = s
b()
e K() =
2 b()
.
T
Usando (1.9) verifica-se que o vetor S de estatsticas suficientes tem esperanca E(S) =
b()/. Alem disso, obtem-se de (1.10) a matriz (p p) de covariancia de S como
Cov(S) = 2 b()/T . No exemplo 2.5 (Secao 2.3) mostra-se que b() em (1.18) e
a funcao geradora de cumulantes de S e, portanto, os casos acima se referem aos dois
primeiros cumulantes de S.
A EMV do parametro canonico em modelos exponenciais e solucao da equacao
b()
=s,
ou seja, e obtida igualando E(S) avaliado em ao valor observado s do vetor S de
estatsticas suficientes.
18
1.6
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
Estimac
ao por Intervalos
(1.20)
onde 1 e uma confiabilidade especificada. Suponha ainda que, para t fixo, (t, )
seja uma funcao monotona de . Entao, observado t, a desigualdade em (1.20) pode ser
invertida para produzir uma regiao de valores de com confiabilidade 1 . Esta regiao
e frequentemente um intervalo do tipo
P {k1 (t) k2 (t)} = 1 ,
(1.21)
onde k1 (t) e k2 (t) sao funcoes de t, a e b mas nao envolvem . O conjunto [k1 (t), k2 (t)]
e um intervalo de 100(1 )% de confianca para . A generalizacao para um vetor
sera feita nas Secoes 4.3 e 4.4. A desigualdade em (1.21) deve ser cuidadosamente
interpretada. Como os limites em (1.21) sao aleatorios, nao se pode interpretar 1
como a probabilidade do parametro verdadeiro 0 estar em algum intervalo observado.
Isto so teria sentido se o parametro desconhecido fosse uma variavel aleatoria e os limites
k1 (t) e k2 (t) constantes. Contrariamente, os intervalos do tipo [k1 (t), k2 (t)] serao em
geral diferentes para amostras diferentes. Alguns deles conterao o valor verdadeiro de
enquanto outros nao. Assim, deve-se interpretar 1 como a freq
uencia esperada
dos casos, numa longa serie de amostras independentes, em que os intervalos [k1 (t), k2 (t)]
conterao 0 .
A distribuicao assintotica N (, K()1 ) da EMV do escalar (Secao 4.1.6) possibilita
1/2 tem
construir um intervalo aproximado para este parametro, supondo que ()K()
1/2 corresponde a um intervalo
distribuicao N (0, 1) aproximadamente. Logo, zK()
aproximado de 100(1)% de confianca para , onde z e tal que (z) = 1/2, sendo ()
22o Col
oquio Brasileiro de Matem
atica
19
como z / n.
1.7
Testes de Hip
oteses
A teoria dos testes de hipoteses parametricos e parte integrante da inferencia de verossimilhanca e esta intimamente relacionada `a teoria de estimacao. A partir de repeticoes de um
experimento envolvendo um modelo parametrico, o interesse consiste em determinar se
um ou mais parametros pertencem a uma dada regiao do espaco parametrico. Nos testes
parametricos, as hipoteses sao classificadas em simples e compostas. Se uma distribuicao
depende de p parametros e a hipotese especifica valores para d parametros, entao ela e
simples se d = p e composta se d < p. Em termos geometricos, uma hipotese simples
seleciona um u
nico ponto de IRd enquanto uma hipotese composta corresponde a uma
regiao de IRd com mais de um ponto. Nas hipoteses compostas, os parametros adicionais
nao-especificados devem ser estimados.
Admite-se que f (y; ) e a funcao de probabilidade conjunta dos dados y IRn e e
um ponto de IRp . Considere-se uma hipotese nula H : 0 versus uma alternativa
A : 1 (1 = 0 ). Qualquer teste de hipotese divide o espaco amostral (i.e.,
o conjunto de valores possveis do vetor y) em duas regioes mutuamente excludentes: C,
a regiao de rejeicao de H (regiao crtica), e C, a regiao complementar de aceitacao de H.
A decisao de um teste consiste em verificar se o vetor de dados y pertence a C ou a C. Se
a distribuicao de probabilidade dos dados segundo a hipotese nula H e conhecida, pode-se
determinar C tal que, dado H, a probabilidade de rejeita-la (i.e., y C) seja menor ou
igual a um valor pre-especificado tal que
P (y C| 0 ) .
(1.22)
20
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
nunca excede (nvel de significancia do teste). O outro tipo de erro que se pode cometer
ao se testar uma hipotese, denominado erro tipo II, e funcao da hipotese alternativa A e
representa a aceitacao erronea da hipotese nula H quando ela e falsa, sua probabilidade
sendo = P (y C| 1 ).
Em geral, pode-se encontrar varias regioes crticas satisfazendo (1.22). Qual delas
deve ser a preferida? Este e o problema crucial da teoria dos testes de hipoteses. Pode-se
escolher uma regiao crtica C tal que ela maximize
1 = P (y C| 1 ) .
1.7.1
Hip
oteses Simples
R
C
crtica (MRC), pois sua funcao poder nao e menor do que aquela de qualquer outra regiao
satisfazendo (1.22). O teste baseado em C e denominado de teste mais poderoso (TMP).
A razao de verossimilhanca L(0 )/L(1 ) e uma estatstica suficiente quando ha apenas
duas distribuicoes em consideracao e, portanto, nada mais natural que obter a MRC
atraves desta razao. Quanto menor for esta razao, pior a consistencia de H aos dados em
questao. Este resultado geral de que a regiao crtica baseada na razao de verossimilhianca
produz o TMP de 0 versus 1 e conhecido como o Lema de Neyman-Pearson.
Quando a alternativa a = 0 e unilateral 1 > 0 (ou 1 < 0 ), o mesmo teste
tambem e otimo para todos os 10 s maiores (menores) do que 0 , sendo denominado de
teste uniformemente mais poderoso (TUMP). Claramente, esta e uma propriedade mais
desejavel. Entretanto, quando a alternativa e bilateral 1 6= 0 em geral nao existe o
TUMP. Para obte-lo, o teste deve estar restrito a certas formas de hipoteses alternativas.
Suponha que existe um vetor S de estatsticas conjuntamente suficientes para um
22o Col
oquio Brasileiro de Matem
atica
21
1.7.2
Hip
oteses Compostas
22
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
L( (0) , )
,
)
L(,
(1.23)
22o Col
oquio Brasileiro de Matem
atica
23
R k
0
1.8
Exerccios
log(1 )}
= y,
/{(1
)
24
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
(y; )
log
y
(y; 1 )
e funcao somente de .
),
(y; 2 )
log
y
(y; 1 )
22o Col
oquio Brasileiro de Matem
atica
25
y (0, 1)
n
e > 0. (a) Demonstre que a EMV de e = log
1; (b) Calcule um intervalo
yi
f (y; , ) =
1
3/2
exp (y 1 + y)
e y
2
2
26
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
Captulo 2
M
etodos Assint
oticos
2.1
Conceitos B
asicos
Converg
encia em Probabilidade
A seq
uencia {Yn } converge em probabilidade para uma variavel aleatoria Y (que pode ser
degenerada) se n
lim P (|Yn Y | < ) = 1 para todo real > 0. Indica-se esta convergencia
P
28
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
Converg
encia Quase-Certa
Uma seq
uencia de variaveis aleatorias {Yn } converge quase-certamente
(ou converge com
probabilidade um) para uma variavel aleatoria Y se P n
lim Yn = Y = 1. Indica-se esta
q.c.
convergencia por Yn Y .
Converg
encia em M
edia
Uma seq
uencia de variaveis aleatorias {Yn } converge em media de ordem r para Y se
L
r
lim E(|Yn Y |r ) = 0. Usa-se a notacao Yn
Y para indicar este tipo de convergencia.
s
r
Y para 0 < s < r.
Y , entao Yn
Yn
r
condicao necessaria e suficiente para Yn
Y e que para todo > 0 exista um n
umero
Converg
encia em Distribui
c
ao
Uma seq
uencia de variaveis aleatorias {Yn } converge em distribuicao para Y se
lim P (Yn y) = F (y) para todo ponto y de continuidade da funcao de distribuicao
22o Col
oquio Brasileiro de Matem
atica
29
D
h(Yn ) h(Y ).
Dentre as quatro formas de convergencia definidas acima, a convergencia em distribuicao e a mais fraca. Pode-se demonstrar (vide, por exemplo, Wilks, 1962, Captulo
4, e Serfling, 1980, Captulo 1) que:
(a) Convergencia quase-certa implica convergencia em probabilidade;
(b) Convergencia em media implica convergencia em probabilidade;
(c) Convergencia em probabilidade implica convergencia em distribuicao.
As recprocas das proposicoes (a) - (c) nao sao, em geral, verdadeiras;
D
entao Yn k;
(e) Se
q.c.
n=1
(f) Se
q.c.
n=1
D
r
(i) Se Yn
Y , entao lim E(|Yn |k ) = E(|Y |k ) para k r.
q.c.
30
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
funcao densidade
fn (y) = (1 en )(y) + en {(1 + y 2 )}1 ,
onde (y) e a funcao densidade da normal reduzida. Assim, fn (y) e uma combinacao
linear das funcoes densidades das distribuicoes normal e Cauchy e converge rapidamente
em distribuicao para a normal reduzida, mesmo sem seus momentos existirem.
As quatro formas de convergencia apresentadas aqui podem ser ilustradas no experimento de infinitos ensaios de Bernoulli independentes. Seja Yn a proporcao de sucessos
nas n repeticoes de Bernoulli independentes, cada uma com probabilidade de sucesso p
constante. Tem-se:
P
Yn p,
q.c.
Yn p,
n(Yn p) D
n(Yn p) P
N
(0,
1),
0,
{p(1 p)}1/2
(log log n)
n(Yn p) q.c.
L2
6 0 e Yn
p.
1/2
(log log n)
Ordens de Magnitude
Os smbolos o() (de ordem menor que) e O() (de ordem no maximo igual a) sao
usados para comparar as ordens de magnitude de seq
uencias de constantes {bn }, {cn }.
Escreve-se bn = o(cn ) se
bn
cn
Yn
bn
22o Col
oquio Brasileiro de Matem
atica
31
v
n
finito. Entao, Yn = E(Yn ) + Op (n1/2 ). Se, alem disso, E(Yn ) = + O(n1/2 ) obtem-se o
resultado Yn = + Op (n1/2 ), que especifica a taxa de convergencia em probabilidade de
Yn para .
Mais genericamente, para duas seq
uencias {Yn } e {Xn } de variaveis aleatorias, a
P
Normalidade Assint
otica
A seq
uencia {Yn } e assintoticamente normal se existem seq
uencias de constantes
D
{an }, {bn } tais que (Yn an )/bn Z, onde Z tem distribuicao normal reduzida
(Z N (0, 1)). As constantes an , bn sao denominadas media e desvio padrao assintoticos
de Yn , respectivamente. Nao ha conexao direta entre as constantes an , bn e a media e o
desvio padrao de Yn , embora estas constantes representem realmente em varios casos bem
comportados, a media e o desvio padrao de Yn , respectivamente. Por exemplo, a variavel
Desigualdade de Bienaym
e-Chebyshev
possvel, a partir destes
Seja Y uma variavel aleatoria de media e variancia finitas. E
momentos, calcular alguns limites de probabilidade na variabilidade de Y . A desigualdade
32
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
Se Y e uma soma de n variaveis aleatorias iid, o teorema central do limite (Secao 2.5)
mostra que a probabilidade acima tende para 2() quando n , onde () e a
funcao de distribuicao acumulada (fda) da distribuicao normal N (0, 1).
2.2
Func
ao Caracterstica
(t) = E(e
)=
eity dF (y),
(2.1)
onde i =
(k) (0)
,
ik
0 k r,
com (0) (t) = (t). Assim, (t) pode ser expandida na vizinhanca de t = 0 como
(t) = 1 +
r
X
k=1
0k
(it)k
+ o(tr ) .
k!
(2.2)
22o Col
oquio Brasileiro de Matem
atica
33
r
X
k=1
(it)k
+ o(tr ) ,
k!
k =
Define-se a transformacao linear Z = aY + b e sejam Y (t) e Z (t) as funcoes caractersticas de Y e Z. Mostra-se, facilmente, que
Z (t) = eibt Y (at) .
Z (t) = exp
it
Y
Quando Z = Y + b, Z (t) = ebit Y (t) e, entao, log Z (t) = bit + log Y (t). Logo,
uma translacao da variavel aleatoria Y altera somente o coeficiente de it na expansao
de log Z (t), ou seja, os primeiros cumulantes de Z e Y estao relacionados por 1 (Z) =
1 (Y ) + b, mas os demais cumulantes de Z e Y sao iguais r (Z) = r (Y ) para r 2.
Por causa desta semi-invariancia por translacao, os cumulantes sao tambem chamados de
semi-invariantes.
Exemplo 2.1 Suponha que Y tem distribuic
ao gama (Y G(p, )) com par
ametros p e
, ambos n
umeros reais positivos. A func
ao densidade de Y e dada por
f (y) = p y p1 ey /(p) ,
onde (p) =
R
0
xp1 ex dx e a func
ao gama definida para x real ou complexo. A funcao
caracterstica segue de
(t) =
p Z y(+it) p1
e
y dy .
(p) 0
34
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
p
p(p + 1) (it)2
it +
+ ,
2
2!
produz os momentos 01 = p/, 02 = p(p + 1)/2 , 03 = p(p + 1)(p + 2)/3 , etc. Os cumulantes s
ao diretamente obtidos de log (t). O k-esimo cumulante k de Y e o coeficiente
de (it)k /k! em p log(1 it ) e, portanto, k = (k 1)!pk , k = 1, 2, . . .
Conhecendo a funcao de distribuicao F (y), a funcao caracterstica pode ser obtida de
(2.1). A recproca tambem e verdadeira e a funcao caracterstica determina univocamente
a funcao de distribuicao. Em muitos problemas de inferencia estatstica e mais facil calcular a funcao caracterstica do que a correspondente funcao de distribuicao. O problema
que surge e como calcular a funcao de distribuicao a partir da funcao caracterstica. A
resposta segue da formula de invers
ao.
Assim, dado (t), a correspondente funcao de distribuicao F (y) e obtida de
1 Z + 1 eity
(t)dt ,
F (y) F (0) =
2
it
suposta contnua em y e 0. Adicionalmente, se
R +
(2.3)
dF (y)
dy
por
1 Z + ity
e (t)dt .
(2.4)
2
A demonstracao de (2.3) e (2.4) pode ser encontrada em Wilks (1962, p.116), Fisz (1963,
f (y) =
p.116) e Rao (1973, p.104). Comparando as formulas (2.1) e (2.4) pode ser constatado
o tipo de relacao recproca entre f (y) e (t). Apresentam-se agora dois exemplos de
determinacao da funcao densidade a partir da funcao caracterstica.
Exemplo 2.2 Obtem-se aqui a func
ao densidade correspondente `
a func
ao caracterstica
22o Col
oquio Brasileiro de Matem
atica
2 /2
(t) = et
35
1
y2
= exp
2
2
e, finalmente, f (y) =
2
1 ey /2 ,
2
(
)
1 Z +
(t + iy)2
exp
dt
2
2
que e a func
ao densidade da distribuic
ao normal reduzida.
Z
0
Logo, f (y) =
et cos(ty) dt = et cos(ty) y
1
,
(1+y 2 )
et sen(ty) dt = 1 y 2 f (y) .
A equacao (2.3) contem F (0) e a determinacao desta quantidade pode ser evitada
usando a formula de inversao alternativa
F (y) =
1
1 Z ity
dt
+
{e (t) eity (t)} .
2 2 0
it
1 Z ity
e (t)dt,
2
36
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
Teorema da Continuidade
Seja {Yn } uma seq
uencia de variaveis aleatorias tendo funcoes de distribuicao F1 , F2 , . . . e
com funcoes caractersticas correspondentes 1 , 2 , . . . Se n converge pontualmente para
um limite e se e contnua no ponto zero, entao existe uma funcao de distribuicao F
D
Corol
ario
Supondo que as funcoes de distribuicao F, F1 , F2 , . . . tem funcoes caractersticas correspondentes , 1 , 2 , . . . , entao as seguintes proposicoes sao equivalentes:
i) Fn F ;
ii) lim n (t) = (t), para qualquer t IR, e (t) sendo contnua em t = 0;
n
iii) lim
gdFn =
gdF , sendo g uma funcao contnua limitada, i.e., |g| < c para
algum c IR.
Se Fn F , e F e contnua, entao a convergencia e uniforme, ou seja, n
lim sup |Fn (x)
x
F | = 0.
2.3
Momentos e Cumulantes
22o Col
oquio Brasileiro de Matem
atica
37
com a funcao caracterstica, que existe sempre para t real e determina univocamente a
distribuicao. Evidentemente, M (t) e K(t) tem a mesma propriedade geradora de momentos e cumulantes que (t) e log (t), respectivamente. Com efeito, 0r = M (r) (0) e
r = K (r) (0), onde o sobrescrito (r) indica a r-esima derivada em relacao a t.
Exemplo 2.4 Para a distribuicao normal N (, 2 ) obtem-se, facilmente,
1
M (t) = exp t + t2 2
2
e, ent
ao, K(t) = t + 12 2 t2 , de modo que 1 = , 2 = 2 e r = 0 para r 3. Como
todos os cumulantes da normal, acima de segunda ordem, s
ao nulos, a proximidade de
uma distribuicao pela distribuicao normal pode ser determinada pelas magnitudes de seus
cumulantes. Este fato revela a import
ancia dos cumulantes na teoria assint
otica.
Exemplo 2.5 Suponha que Y tem func
ao densidade na famlia exponencial
f (y) = exp{y b() + a(y)}, y IRY .
(2.5)
A condicao de normalizacao
Z
IRY
e, ent
ao, a fgm de Y e dada por
M (t) = exp{b( + t) b()} .
A fgc de Y segue como K(t) = log M (t) = b(+t)b(). Logo, o r-esimo cumulante de Y
e dado por r = K (r) (0) = b(r) (). Assim, a func
ao b() na famlia exponencial (2.5) gera
os cumulantes de Y . A funcao b() est
a relacionada diretamente `
a log-verossimilhanca de
e este fato representa uma das maiores motivac
oes para o uso de cumulantes na teoria
assint
otica.
38
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
0k
tk
,
k!
(2.6)
suposta convergente para todo |t| suficientemente pequeno. A soma ilimitada em (2.6)
pode ser divergente para todo real |t| > 0 porque alguns dos momentos de ordem superior
sao infinitos ou porque os momentos, embora finitos, aumentam rapidamente, forcando
a divergencia. Neste caso, trabalha-se com expansoes finitas ate um certo n
umero de
termos, especificando a ordem do erro como funcao do tamanho da amostra n ou de
alguma quantidade relacionada a n.
A funcao geratriz de cumulantes e expandida como
K(t) =
X
k
tk
.
k!
(2.7)
X
k
tk
k
k!
=1+
X
k
0k
tk
.
k!
Expandindo em serie de Taylor a funcao exponencial anterior e igualando os coeficientes de mesma potencia em t, expressam-se os momentos em termos dos cumulantes
22o Col
oquio Brasileiro de Matem
atica
39
X
k
40
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
os cumulantes padronizados r = r /2 , para r = 1, 2, . . ., sao mais importantes, principalmente 3 e 4 , por causa da invariancia segundo transformacao linear e por terem
ordens pre-estabelecidas.
Em muitas situacoes e mais facil trabalhar com momentos centrais (r ) do que com
momentos ordinarios (0r ). Existem relacoes simples de recorrencia entre esses momentos.
Tem-se r = E{(Y 01 )r } e desenvolvendo o binomio vem:
r =
r
X
r
k=0
0rk (01 )k .
Analogamente,
0r
r
X
r
k=0
rk 0k
1 .
Em especial, relacoes entre cumulantes e momentos centrais sao bem mais simples do que
entre cumulantes e momentos ordinarios. As seis primeiras sao:
1 = 0, 2 = 2 , 3 = 3 , 4 = 4 + 322 , 5 = 5 + 102 3 ,
6 = 6 + 152 4 + 1023 + 1532
e
2 = 2 , 3 = 3 , 4 = 4 322 , 5 = 5 102 3 ,
6 = 6 152 4 1023 + 3032 .
Exemplo 2.6 Suponha que Y tem distribuic
ao binomial B(n, p) com par
ametros n e p.
Tem-se M (t) = (1 p + pet )n , K(t) = n log(1 p + pet ) e (t) = M (it) = (1 p + peit )n .
Calculam-se, facilmente, 1 = 01 = np, 2 = 2 = np(1 p), 3 = 3 = np(1 p)(1
2p), 4 = 3n2 p2 (1 p)2 + np(1 p)(1 6p + 6p2 ) e 4 = np(1 p)(1 6p + 6p2 ).
22o Col
oquio Brasileiro de Matem
atica
41
3/2
3 = q
np(1 p)
ao
e 4 = 4 /22 de Y s
4 =
1 6p + 6p2
.
np(1 p)
X
0k tk
0k , k = 1, 2, . . ., sao todos finitos. Se a serie
e absolutamente convergente para
k=0 k!
algum t > 0, entao F (y) e a u
nica funcao de distribuicao cujos momentos correspondentes
sao iguais a 0k , k = 1, 2, . . .
No caso da variavel aleatoria ser limitada, i.e., se existirem n
umeros a e b finitos (a < b)
tais que F (a) = 0 e F (b) = 1, entao sua funcao de distribuicao F (y) e univocamente
determinada pelos momentos 0k , k = 1, 2, . . ., desde que todos eles existam.
Uma dificuldade que surge no calculo de momentos e cumulantes para demonstrar resultados de natureza generica em teoria assintotica e que o conjunto infinito de momentos
42
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
(ou cumulantes), pode nao ser suficiente para determinar a distribuicao univocamente.
Por exemplo, Feller (1971, Secao VII.3) apresenta um par de funcoes densidades distintas
produzindo momentos identicos de todas as ordens. A nao-unicidade ocorre quando a
funcao M (t) nao e analtica na origem. Em um grande n
umero de problemas, pode-se
evitar a nao-unicidade incluindo a condicao de que a expansao (2.6) seja convergente para
|t| < , onde > 0.
Finalmente, suponha que {Yn } e uma seq
uencia de variaveis aleatorias com funcoes de
distribuicao F1 , F2 , . . . e cujas seq
uencias de momentos sao conhecidas. Seja 0rn o r-esimo
momento de Yn , suposto finito para quaisquer n e r. Apresenta-se, agora, um criterio
D
2.4
Somas de Vari
aveis Aleat
orias Independentes
n
X
i=1
22o Col
oquio Brasileiro de Matem
atica
43
n
Y
E(et Yi ) = MY (t)n
i=1
(2.8)
(2.9)
para r 1. A equacao (2.9) apresenta um forte motivo para se trabalhar com cumulantes
no contexto de somas de variaveis aleatorias iid. Da equacao (2.9) obtem-se os cumulantes
padronizados de Sn como
3 (Y )
4 (Y )
r (Y )
3 (Sn ) = , 4 (Sn ) =
, r (Sn ) = r/21
n
n
n
Z (n1
Y
i=1
n1
X
i=1
yi
! n1
Y
dyi .
i=1
No caso discreto esta integral deve ser substituda por um somatorio. As funcoes de
Rz
distribuicao de Sn e Sn seguem de FSn (z) =
fSn (s)ds e FSn (z) = FSn (n + nz),
respectivamente.
44
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
r cr pr (y),
de polinomios ortogonais associados a g(y) (vide Secao 3.2). Neste caso, pode-se ter uma
expansao para a convolucao onde os termos principais sao facilmente calculados.
No contexto das aplicacoes, as funcoes caractersticas fornecem os metodos mais
poderosos para determinar a funcao de distribuicao de somas (e medias) de variaveis
aleatorias independentes. Em especial, a funcao caracterstica Sn (t) de Sn tem a propriedade do produto linear similar `aquela de MSn (t). Assim, no caso de variaveis aleatorias
independentes Y1 , . . . , Yn com funcoes caractersticas respectivas 1 (t), . . . , n (t), a funcao
caracterstica de Sn =
n
X
Yi e dada por
i=1
Sn (t) =
n
Y
i (t) .
(2.10)
i=1
nit
t
Sn (t) = exp
!n
(2.11)
O resultado (2.10) da funcao caracterstica de uma soma de variaveis aleatorias independentes e facilmente estendido para uma combinacao linear Z =
k
X
i=1
k
Y
i=1
i (ci t).
ci Yi . Sendo i (ti )
22o Col
oquio Brasileiro de Matem
atica
45
n
X
Yi tem
i=1
2.5
Teoremas Limites
A Secao 2.4 tratou do calculo da distribuicao de uma soma de variaveis aleatorias iid
supondo n fixo. Esta secao apresenta resultados importantes sobre a distribuicao da
soma de variaveis aleatorias iid quando n . Estes resultados consistem em teoremas limites bastante u
teis na inferencia para aproximar distribuicoes de estatsticas (em
grandes amostras) pela distribuicao normal. Nas aplicacoes verifica-se que muitos desses
resultados assintoticos fornecem boas aproximacoes em amostras moderadas. Os teoremas limites mais citados sao aqueles de Lindeberg-Levy, Liapunov, Lindeberg-Feller e a
integral de DeMoivre-Laplace. A grande maioria destes teoremas foi desenvolvida entre
1920 e 1945 por B.W. Gnedenko, A. Khintchin, P. Levy, J.W. Lindeberg e A.N. Kolmogorov. Um estudo detalhado pode ser encontrado em Wilks (1962, Captulo 9), Fisz
(1963, Captulo 6), Feller (1971, Captulo VIII) e Rao (1973, Secao 2c).
Seja {Yn } uma seq
uencia de variaveis aleatorias iid, Sn =
n
X
n=1
46
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
da seq
uencia, as conclusoes sobre o comportamento de Y n para n grande sao dadas pelas
Leis Fraca e Forte dos Grandes N
umeros apresentadas a seguir:
Lei Fraca dos Grandes N
umeros
P
Teorema de Lindeberg-L
evy
Seja Sn =
S
n n
n
n
(Y n
dois primeiros momentos E(Yi ) = e Var(Yi ) = 2 existem e ambos sao finitos, entao
D
(2.12)
22o Col
oquio Brasileiro de Matem
atica
47
A funcao caracterstica de
Sn
n
X
2 t2
+ o(t2 ) .
2
1=1
t2
t2
Sn (t) = 1
+o
2n
n
(
2 /2
2 /2
. Como et
!)n
D
D
A convergencia Sn N (0, 1), ou equivalentemente, 1 n(Y n ) N (0, 1)
representa o resultado central da teoria estatstica, pois permite construir intervalos de
confianca aproximados e testar hipoteses sobre usando a media amostral Y n e sua
2
2
1 ex /2
2
dFS (y)
n
dy
e
lim fSn (y) = (y)
(2.13)
48
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
uniformemente em y IR se, e somente se, existir um inteiro k > 0 para o qual a funcao
caracterstica comum (t) de Y1 , . . . , Yn satisfaz
Z
|(t)|k dt < .
(2.14)
Teorema de DeMoivre-Laplace
Se Sn B(n, p) entao Sn = Sn np
np(1p)
disso, se k = kn depende de n mas |(k np)/ np(1 p)| permanece limitado quando
n , entao
1
P (Sn = k) q
np(1 p)
k np
np(1 p)
(2.15)
an
= 1.
bn
A equacao (2.15) pode ser demonstrada por simples expansao de Taylor e aproximando
os fatoriais do coeficiente binomial pela formula de Stirling (Secao 3.5, exemplo 3.7). A
proporcao de sucessos em n ensaios Y n = Sn /n tem, portanto, uma distribuicao normal
N (p, p(1 p)/n) assintotica implicando a formula aproximada
P (y1 < Y n < y2 )=(z
2 ) (z1 ) ,
q
onde zi = (yi p)
n
p(1p)
para i = 1, 2.
22o Col
oquio Brasileiro de Matem
atica
49
finitos para i = 1, 2, . . . e com pelo menos um i2 > 0. Segundo condicoes gerais, tem-se
n
X
Sn
(Yi i )
i=1
n
X
!1/2 N (0, 1) .
(2.16)
i2
i=1
Varias condicoes que garantem a convergencia em distribuicao de Sn para a distribuicao normal reduzida no teorema acima tem sido dadas por diferentes autores, incluindo generalizacoes para o caso de somas de variaveis aleatorias dependentes. No caso
de variaveis independentes apresenta-se a seguir uma condicao suficiente (teorema de Liapunov) e uma condicao necessaria e suficiente (teorema de Lindeberg-Feller) para que a
convergencia (2.16) seja satisfeita. Outras condicoes que garantem (2.16) estao fora do
objetivo deste trabalho.
Teorema de Liapunov
Se para variaveis aleatorias independentes a relacao
( n
X
lim
)1/3
3
E(|Yi i | )
i=1
( n
X
)1/2
=0
i2
i=1
Teorema de Lindeberg-Feller
Suponha que para variaveis aleatorias independentes, Fi (y) e a funcao de distribuicao
de Yi e que s2n = Var(Sn ) =
Pn
i=1
i2 satisfaz
2
n
2
sn
0, sn quando n . A
50
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
Uma conseq
uencia importante do teorema acima estabelece a seguinte condicao: se para
algum k > 2
n
X
E(|Yi i |k ) = o(skn )
i=1
Sn
que e valida para todo n e implica que a taxa de convergencia de (2.12) e n1/2 . Sob
E{|Yi |3 }
2 y 2 /2
(1
y
)e
+ o(n1/2 )
3 2 n
uniformemente em y.
2.6
Transformac
ao Funcional
Um resultado muito u
til de transformac
ao funcional se refere ao comportamento
assintotico de uma funcao de duas variaveis aleatorias, onde uma delas admite convergencia em distribuicao, nao se impondo qualquer restricao sobre uma possvel dependencia entre essas variaveis aleatorias. Seja h(Yn , Un ) uma transformacao funcional
D
demonstrar que h(Yn , Un ) h(Y, k). Este resultado tem grande aplicabilidade na determinacao de in
umeras distribuicoes assintoticas de funcoes de variaveis aleatorias. Em
D
22o Col
oquio Brasileiro de Matem
atica
51
n
X
Yi /n e s2n =
i=1
n
X
(Yi Y n )2 /(n1).
i=1
D
teorema central do limite n(Y n ) N (0, 2 ). Combinando as duas convergencias
D
(2.17)
onde Zn = + (1 )Yn para (0, 1). Como h00 e limitada, o segundo termo em (2.17)
e Op (n1/2 ). Assim, a equacao de linearizacao decorre de (2.17)
Por hipotese
n{h(Yn ) h()} =
(2.18)
n{h(Yn ) h()} D
Y .
h0 ()
(2.19)
52
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
n{h(Yn ) h()} D
Y .
h0 (Yn )
Em especial, se Y N (0, 2 ), entao (2.19) conduz ao resultado
Alem disso, se = () e uma funcao contnua de , sendo estimada por (Yn ), obtem-se
tambem,
n{h(Yn ) h()} D
N (0, 1) .
(Yn )h0 (Yn )
D
Exemplo 2.7 Supoe-se que n(Yn ) N (0, 2 ) e sejam h1 (Yn ) = Yn2 e h2 (Yn ) =
D
D
Yn . Entao, n(Yn2 2 ) N (0, 42 2 ) e n( Yn ) N (0, 2 /(4)).
n
X
i=1
(i) mk k ;
(ii) o vies de mk e dado por
E(mk k ) =
k
n
+ O(n2 ), onde
(iv)
22o Col
oquio Brasileiro de Matem
atica
53
Os resultados (i) (iv) sao verdadeiros para qualquer distribuicao de Y . Notese que a media e a variancia de mk estao definidas em termos dos momentos centrais
2 , k1 , k , k+1 e 2k de Y . O item (iv) para k = 1 e 2 produz
n Y N (0, 2 ) e
ns2 N (0, 4 4 ) ,
pois 1 = 0 e 2 = 2 . Portanto,
ns N (0, (4 4 )/(4 4 )) .
pode ser generalizada, supondo que h() e uma funcao real diferenciavel ate ordem k, para
h(Yn ) =
k
X
h(j) ()
j=0
j!
(Yn )j + op (nj/2 ) .
Os momentos (e, entao, os cumulantes) de h(Yn ) ate uma ordem pre-fixada podem ser
obtidos a partir dos momentos de Yn elevando-se a expansao acima a potencias de ordens
dos momentos a serem calculados.
Finaliza-se este captulo tratando o problema de estabilizac
ao da vari
ancia na estimacao de um parametro atraves de uma estatstica Yn que e assintoticamente normal
D
mas sua variancia assintotica depende de . Suponha que n(Yn )/v()1/2 N (0, 1),
ou seja, v()/n e a variancia assintotica de Yn . Neste caso, a regiao de rejeicao do
parametro depende de atraves de v() e pode nao haver a propriedade desejavel
de monotonicidade no parametro. Objetiva-se determinar uma transformacao h(Yn ) para
se fazer inferencia sobre = h() de modo que
n(h(Yn ) h()) D
N (0, 1) ,
k
54
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
Z
0
dt
q
(2.20)
v(t)
segue baseado em h(Yn ) e = h(), i.e., n|h(Yn ) | kz/2 , onde z/2 e o ponto
crtico da distribuicao N (0, 1) correspondente ao nvel de significancia . Por exemplo,
se v() = 2m e m 6= 1 vem h() = k1m /(1 m). Para m = 1, 2 e 1/2, h() iguala
q
D
n( Y n ) N (0, 1). O segundo caso (m = 1) pode ser exemplificado pela soma
Sn de n variaveis aleatorias iid com distribuicao gama parametrizada pela media e pelo
parametro de forma p (vide, tambem, exemplo 2.1). Assim, E(Y ) = e Var() = 2 /p.
2.7
Exerccios
1. Mostre que a variavel qui-quadrado padronizada (2n n)/ 2n converge em distribuicao para a normal N (0, 1). Avalie um limite para o erro desta aproximacao.
2. Mostre que a variavel aleatoria Y com funcao densidade f (y) = {cosh(y)}1 , y
IR, tem funcao caracterstica (t) = sech(t/2).
22o Col
oquio Brasileiro de Matem
atica
55
D
D
n(Yn )/ N (0, 1) e n(Xn c)/ v
D
N (0, 1), c 6= 0. Mostre que c n(Yn )/(Xn ) N (0, 1).
9. Suponha as convergencias
10. Demonstre que as funcoes caractersticas das distribuicoes logstica e de Laplace cujas funcoes densidades sao f (y) = ey (1+ey )2 e f (y) = exp{|y|/}/(2), y
IR em ambos os casos, sao dadas por (t) = (1it)(1+it) e (t) = eit (1+ 2 t2 )1 ,
respectivamente.
D
56
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
aleatoria tem funcao caracterstica (t) = (1 + t2 )1 . Mostre que sua funcao densidade e f (y) = e|y| /2, y IR.
14. Se Y e uma variavel aleatoria tendo momentos 0r = (k + r)!/k!, k um inteiro
positivo, entao a sua funcao densidade e univocamente determinada por f (y) =
y k ey /k!, y > 0.
15. Se Y1 , . . . , Yn satisfazem `as suposicoes do teorema de Lindeberg-Levy e, alem disso,
o momento E(|Yi |3 ) existe, entao Sn = n(Y n )/n tem fda que satisfaz
|FSn (y) (y)|
k E(|Yi |3 )
3 ,
n
Y n .
18. A funcao densidade da distribuicao de Laplace tem a forma f (y; , ) =
(2)1 exp(|y |/), > 0. Mostre que a sua funcao caracterstica e dada
por (t) = (1 + 2 t2 )1 exp(it). Mostre que ela tem momentos de todas as ordens
e que nao e preservada segundo convolucao.
Captulo 3
Expans
oes Assint
oticas
3.1
Introduc
ao
Considere uma expansao assintotica para a funcao gn (y) em algum ponto fixo y expressa
para n como
(
(3.1)
n
X
i=1
densidade limite, que e usualmente a funcao densidade (y) da normal reduzida. Ela pode
ser tambem uma funcao geratriz de momentos ou cumulantes. Embora a equacao (3.1)
seja definida para um valor fixo y, tem-se o interesse em saber para qual regiao dos valores
de y ela permanece valida como uma expansao assintotica.
Uma caracterstica importante da expansao assintotica (3.1) e que ela nao e, em geral,
uma serie convergente para gn (y) e, assim, tomando-se mais termos no seu lado direito a
aproximacao para gn (y) nao necessariamente melhora.
57
58
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
(n) = (2)
1
1
139
571
1+
+
+ O(n5 ) .
2
3
12n 288n
51840n
2488320n4
(k, n) = n
k1 n
k 1 (k 1)(k 2)
1+
+
+ O(n3 ) ;
n
n2
d log (y)
dy
estimacao do parametro de forma da distribuicao gama. Valores inteiros sao computados como (1) = , (n) = +
n1
X
k=1
1
1
1
1
log y (y) =
1+
+
+ O(y 7 )
3
2y
6y 60y
126y 5
Neste captulo sao apresentadas varias expansoes importantes do tipo (3.1), geral-
22o Col
oquio Brasileiro de Matem
atica
59
mente ate termos de ordem n1 . Entre estas expansoes, citam-se as expansoes de GramCharlier, Edgeworth, Cornish-Fisher, ponto de sela, Laplace e as expansoes que relacionam
funcoes de distribuicao e de variaveis aleatorias. O leitor que desejar maiores detalhes
matematicos podera consultar os livros de McCullagh (1987, Captulos 5 e 6), BarndorffNielsen e Cox (1990, Captulo 4) e Hinkley, Reid e Snell (1991, Captulo 12).
3.2
Expans
ao de Gram-Charlier
Seja f (y) uma funcao densidade conhecida, cujos cumulantes sao dados por 1 , 2 , . . .
O interesse reside em usar f (y) para aproximar uma funcao densidade g(y) (em geral
desconhecida) a partir
caode um operador T (D) a f (y). O operador e formulado
da aplica
j=1
log
T (D) =
X
1X
j (D)j
mas seus cumulantes r + r sao definidos mesmo que esta condicao nao seja satisfeita.
De g(y) = T (D)f (y) obtem-se, pela expansao de T (D),
1
g(y) = f (y) 1 Df (y) + (21 + 2 )D2 f (y)
2
1
1
(31 + 31 2 + 3 )D3 f (y) + (41 + 621 2 + 41 3 + 4 )D4 f (y) +
6
24
(3.2)
A equacao (3.2) mostra que a funcao densidade g(y) de uma variavel aleatoria contnua
qualquer pode ser expandida em termos de uma funcao densidade f (y) de referencia
conhecida e de suas derivadas, cujos coeficientes sao funcoes de diferencas (0i s) entre os cumulantes correspondentes associados `as funcoes densidade g(y) e f (y). Em
60
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
muitos casos, Dj f (y) = Pj (y)f (y), onde Pj (y) e um polinomio de grau j em y. Esses polinomios sao geralmente ortogonais com relacao `a distribuicao associada a f (y), ou
seja,
Pj (y)Pk (y)f (y) = 0 para j 6= k. Por exemplo, se f (y) e a funcao densidade (y)
exp(ty t /2) =
j
X
t
j=0
j!
Hj (y) ,
tais como:
d
Hr (y) = r Hr1 (y) ,
dy
Dj Hr (y) = r(j) Hrj (y) para r j,
onde r(j) = r(r 1) (r j + 1). Satisfazem ainda a relacao de recorrencia
Hr (y) = yHr1 (y) (r 1)Hr2 (y) (r 2) .
Suponha agora que as medias e as variancias de g(y) e f (y) sao tomadas iguais, por
exemplo, pela padronizacao atraves de transformacao linear das variaveis. Neste caso,
1 = 2 = 0 e (3.2) implica
4
3
P3 (y) P4 (y) + f (y) .
g(y) = f (y)
3!
4!
(3.3)
Integrando (3.3) obtem-se uma relacao equivalente para as funcoes de distribuicao G(y) =
Ry
g(t)dt e F (y) =
Ry
G(y) = F (y)
3
4
P2 (y) P3 (y) + f (y) .
3!
4!
(3.4)
O caso especial mais importante e de maior aplicabilidade das expansoes (3.3) e (3.4)
surge quando f (y) e a funcao densidade (y) da distribuicao normal reduzida. Neste
22o Col
oquio Brasileiro de Matem
atica
61
caso, r = 0 para r > 2 (Secao 2.3) e 3 , 4 , . . . se igualam aos cumulantes de g(y). Assim,
(3.3) simplifica-se para
3
4
5
(6 + 1023 )
g(y) = (y) 1 + H3 (y) + H4 (y) + H5 (y) +
H6 (y) +
3!
4!
5!
6!
(
(3.5)
3
4
5
(6 + 1023 )
G(y) = (y)
H2 (y) + H3 (y) + H4 (y) +
H5 (y) + (y),
3!
4!
5!
6!
(
(3.6)
func
ao densidade g(y) da variavel gama padronizada Y = (Z 1 )/2
em termos da
func
ao densidade (y) da distribuic
ao normal reduzida. Os cumulantes de Y s
ao dados
por r + r = (r 1)!(2r)/2 (vide Sec
ao 2.3), sendo 1 = 0, 2 = 1 e r = 0, r > 2.
Na expansao de Gram-Charlier da func
ao densidade g(y) = (y)
12
X
cj Hj (y), decorrente
j=0
de (3.5) e ate o termo envolvendo H12 (y), os coeficientes cj tem as seguintes ordens de
magnitude em :
c0
0
c3
c4
c5
c6
c7
c8
c9
c10
c11
c12
1/2 1 3/2 1 3/2 2 3/2 2 5/2 2
62
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
3.3
Expans
oes de Edgeworth
Trata-se aqui das expansoes de Edgeworth para somas padronizadas de variaveis aleatorias
univariadas iid. Estas expansoes sao importantes na teoria assintotica quando a integral de
convolucao referente `a soma de variaveis aleatorias nao pode ser calculada explicitamente.
A extensao para o caso de variaveis multivariadas esta fora dos objetivos deste texto e o
leitor podera consultar o livro de McCullagh (1987, Captulo 5).
Seja Y uma variavel aleatoria com funcoes densidade f (y) e geratriz de cumulantes
r/2
para r 2. Tem-se 1 =
Sn =
Yi , a soma estocastica e Sn = (Sn n)/( n), a soma padronizada. Como as
i=1
variaveis aleatorias sao iid, as funcoes geratrizes de cumulantes de Sn e Sn sao dadas por
KSn (t) = nK(t) e
nt
t
KSn (t) =
+ nK
(3.7)
(3.8)
22o Col
oquio Brasileiro de Matem
atica
63
(3.9)
(3.10)
A adequacao das aproximacoes (y), (y){1 + 3 H3 (y)/(6 n)} e (3.9) para a funcao
densidade de Sn depende do valor de y. A aproximacao (3.9) podera nao ser apropriada
nas extremidades da distribuicao de Sn quando |y| crescer, pois os polinomios de Hermite
nao sao limitados. No ponto y = 0, o erro da aproximacao normal (y) e O(n1 ) e nao
O(n1/2 ), enquanto o da expansao (3.9) e O(n2 ), pois os termos de potencia mpar em
n1/2 dependem apenas de polinomios de grau mpar e todos eles se anulam para y = 0.
Assim, desejando-se aproximar a funcao densidade de Sn na origem, fSn (0), obtem-se
uma expansao em potencias de n1 ao inves de potencias de n1/2 . Quando 3 6= 0
(distribuicoes de Y assimetricas) o termo de ordem n1/2 podera ser muito grande nas ex-
64
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
A funcao (y){1 + 3 H3 (y)/(6 n)} formada pelos dois primeiros termos de (3.9) nao
e uma funcao densidade em y para n fixo e 3 6= 0, pois para 3 y suficientemente grande
e negativo, o valor desta funcao pode ser negativo. Entretanto, isto nao contradiz a
suposicao assintotica da validade de (3.9) que e y fixado e n . Uma forma de
superar esta dificuldade e escrever a aproximacao acima como (y) exp{3 H3 (y)/(6 n)}.
Entretanto, esta forma tem a desvantagem de ser ilimitada e, portanto, pode nao ser
normalizada exatamente em IR.
O erro em (3.10) so sera O(n3/2 ) se Sn tiver distribuicao contnua. No caso discreto,
a funcao de distribuicao exata de Sn e descontnua nos seus possveis valores, com saltos
de ordem O(n1/2 ). A aproximacao (3.10) e contnua e deve envolver erros de ordem n1/2
proximo aos pontos de descontinuidade. Entretanto, Kolassa e McCullagh (1990) propoem
uma versao de (3.10), valida ate O(n1 ) para distribuicoes discretas, pelo ajustamento
dos cumulantes 3 e 4 atraves das correcoes de Sheppard.
Exemplo 3.2 Sejam Y1 , . . . , Yn vari
aveis aleat
orias iid com distribuic
ao exponencial de
media um. A funcao densidade exata de Sn e dada por
Sn (y) =
22o Col
oquio Brasileiro de Matem
atica
65
Exato Normal
0,0043 0,0540
0,1319 0,1295
0,3428 0,2420
0,4361 0,3521
0,3924 0,3989
0,1840 0,2420
0,0577 0,0540
0,0144 0,0044
Expansoes de Edgeworth
ate O(n1/2 ) ate O(n1 )
0,0379
0,0178
0,1512
0,1480
0,3141
0,3329
0,4242
0,4335
0,3989
0,3922
0,1698
0,1887
0,0701
0,0500
0,0163
0,0181
66
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
Exato Normal
0,0138 0,0259
0,0996 0,1079
0,3134 0,2981
0,5926 0,5702
0,8159 0,8116
0,9362 0,9442
0,9827 0,9892
Expansoes de Edgeworth
ate O(n1/2 ) ate O(n1 )
0,0160
0,0148
0,1021
0,1011
0,3128
0,3141
0,5926
0,5919
0,8151
0,8146
0,9340
0,9374
0,9820
0,9824
(3.11)
envolvendo um termo de ordem O(n1/2 ) e mais dois termos de ordem O(n1 ). Entretanto,
as probabilidades bilaterais do tipo P (|Yn | y) sao obtidas (para y > 0) de (3.10) como
4
2
P (|Yn | y) = 2{1 (y)} + 2(y)
H3 (y) + 3 H5 (y) ,
24n
72n
(
envolvendo apenas correcoes de ordem O(n1 ). Neste caso, ocorre cancelamento das
correcoes de ordem O(n1/2 ). Elas sao iguais em magnitude, mas com sinais diferentes, e
se cancelam quando as duas extremidades sao combinadas.
Pode-se trabalhar com as expansoes de Edgeworth (3.9) e (3.10) se as componentes
Yj sao independentes mas nao sao necessariamente identicamente distribudas. Tem-se
r (Sn ) = r (Yj ) e padroniza-se Sn na forma usual
Sn =
Sn 1 (Yj )
2 (Yj )
22o Col
oquio Brasileiro de Matem
atica
67
3 (Yj )
{2 (Yj )}3/2
e 4 =
4 (Yj )
{2 (Yj )}2
3.4
Expans
oes de Cornish-Fisher
As expansoes de Cornish-Fisher sao usadas para determinar numericamente as distribuicoes de probabilidade de estatsticas quando suas distribuicoes exatas sao difceis
de ser computadas. Suponha que uma variavel aleatoria contnua padronizada Y tem
media zero, variancia um e cumulantes j de ordens O(n1j/2 ) para j 3. Neste caso, a
expansao de Edgeworth para P (Y y) segue diretamente de (3.11). Suponha agora que
y e u sao definidos por P (Y y ) = (u ) = 1 . As expans
oes de Cornish-Fisher
sao duas expansoes assintoticas relacionando os quantis y e u : uma expansao normalizadora que expressa u como funcao de y e sua expansao inversa dando y em termos
de u .
A demonstracao dessas expansoes requer calculos algebricos longos e apresenta-se aqui
apenas a ideia da prova. Expandindo (u ) vem
(u ) = {y + (u y )} = (y ) +
X
(u y )r
r=1
r!
Dr (y )
e, entao,
(u ) = (y ) +
X
(u y )r
r=1
r!
(3.12)
(3.13)
68
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
para qualquer estatstica contnua padronizada que tenha terceiro e quarto cumulantes de
ordens O(n1/2 ) e O(n1 ), respectivamente, e os demais cumulantes de ordem o(n1 ).
O polinomio (3.13) de Cornish-Fisher representa a transformac
ao normalizadora p(Y )
da variavel Y ate O(n1 ), isto e, p(Y ) N (0, 1) + Op (n3/2 ). Este polinomio e usado
comumente para normalizar qualquer distribuicao de probabilidade fazendo algum dos
seus parametros tender para infinito, ou seja, substituindo-se n no resultado assintotico
de grandes amostras (n ) por algum parametro da distribuicao de interesse que
cresce indefinidamente. O exemplo a seguir ilustra isso.
Exemplo 3.4 Considere o calculo da expans
ao de Cornish-Fisher normalizadora da
vari
avel aleatoria de Poisson Z P (). Padronizando-se esta vari
avel Y = (Z )/
D
+ O(3/2 ),
Dg 2 (u ) D2 g 3 (u )
+
+
2!
3!
(3.14)
Identificando o polinomio g(y ) = y p(y ) em (3.13), substituindo em (3.14) e calculando as potencias de g(u ) e suas derivadas, obtem-se y em funcao de u ate O(n1 )
22o Col
oquio Brasileiro de Matem
atica
como
69
2
4 3
3
y = u + (u2 1) 3 (2u3 5u ) +
(u 3u ).
6 n
36n
24n
(3.15)
)
1
2 2
3
2n u + (u 1) +
(u 7u ) .
3 n
18n
(
n Exato
O(1) O(n1/2 ) O(n1 )
5 15,09 12,36
15,20
15,07
10 23,21 20,40
23,34
23,25
0,01 50 76,15 73,26
76,20
76,16
100 135,81 132,90
135,84 135,81
5
9,24
9,65
10 15,99 15,73
0,10 50 63,17 62,82
100 118,50 118,12
9,48
16,16
63,24
118,55
9,24
15,99
63,16
118,50
70
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
3.5
Expans
oes Ponto de Sela
As expansoes ponto de sela sao muito importantes na teoria assintotica para aproximar
com grande precisao as funcoes densidade e de distribuicao, sendo facilmente deduzidas
da funcao geratriz de cumulantes correspondente.
Sejam Y1 , . . . , Yn variaveis aleatorias contnuas iid com funcao densidade f (y) e funcoes
geratrizes de momentos e cumulantes M (t) e K(t), respectivamente. Define-se a famlia
exponencial conjugada de f (y), indexada por um parametro , por
f (y; ) = exp{y K()}f (y) .
(3.16)
A famlia exponencial (3.16) reproduz exatamente a funcao densidade f (y) postulada para
os dados quando = 0. O divisor necessario para normalizar a expressao exp(y)f (y)
e igual a` funcao geratriz de momentos M (t) de Y . A funcao geratriz de cumulantes
K(t; ) correspondente a (3.16) e expressa em termos daquela K(t) de Y por K(t; ) =
K(t + ) K().
Sejam fSn (s; ) e KSn (t; ) as funcoes densidade e geratriz de cumulantes de Sn relativas `a famlia (3.16). Tem-se KSn (t; ) = nK(t + ) nK() e, por inversao, vem
fSn (s; ) = exp{s nK()}fSn (s)
(3.17)
nK 00 ()
(3.18)
segue de (3.9),
s de (3.17). Logo, fSn (s; )
()}
. Agora, fSn (0; )
n
22o Col
oquio Brasileiro de Matem
atica
71
(3.19)
34 () 53 ()2
,
24n
(3.20)
s}
exp{nK()
+ O(n2 )} .
q
{1 + M ()
(2)
2nK ()
(3.21)
segue expressao identica `a (3.21) com nK (1) (0) + nwK (2) (0) no lugar de s e o radicando
72
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
(2)
aproximacao para a funcao densidade exata de Sn do que (3.9), pois o erro e O(n2 )
ao inves de O(n3/2 ). Entretanto, na expansao ponto de sela, o erro e multiplicativo,
enquanto na de Edgeworth e aditivo. A formula (3.21) e satisfeita mesmo para regioes
de grandes desvios da forma |s nE(Y )| bn , para bn fixado, e em certos casos, mesmo
para todos os valores de s (Jensen, 1988). Na Secao 5.4 apresenta-se uma aproximacao
para a funcao densidade da EMV baseada em (3.21).
A expansao para a funcao densidade da media amostral Y n = Sn /n segue diretamente
de (3.21) como
(
fY n (y) =
)1/2
y}]{1
+ O(n2 )},
exp[n{K()
+ M ()
2K (2) ()
(3.22)
{1 + O(n2 )}.
2
2n
1
sn1 es
1
+ O(n2 )
n
n1/2
12n
2e n
22o Col
oquio Brasileiro de Matem
atica
73
e{nK()x}
dx .
2nK (2) ()
3 (
v 2 1) 1
+(
v)
6 n
n
(
4 (
v 3
v ) 23 (
v 5
v 3 +3
v)
+
24
72
4 v4 23 v6
+
24
72
!)
(3.23)
!)#
(2) 1/2
4 = 4 (),
K
e v = {nK
= K()
onde 3 = 3 (),
()} . A aproximacao obtida de
3 v3
3 (
v 2 1)
{H(
v ) (
v )} 1
+ (
v)
6 n
6 n
!
(3.24)
74
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
(
r),
(3.25)
r v
0 ()
K()}]
1/2 , cujo erro e o(n1 ) uniformemente em s.
onde r = sinal()[2n{
K
As quantidades r e v podem ser interpretadas como a razao de verossimilhanca sinalizada e a estatstica escore (vide Secao 4.3), respectivamente, para testar = 0 no modelo
exponencial (3.17) determinado por Sn .
A aproximacao (3.25) e boa em quase todo o intervalo de variacao de s, exceto proximo
ao ponto s = E(Sn ) ou r = 0, onde deve ser substituda pelo seu limite, quando r 0,
dado por
P (Sn s) =
3
1
+
.
2 6 2n
Os exemplos 3.8 e 3.9 e as Tabelas 3.4 e 3.5 correspondentes ilustram para as distribuicoes exponencial e uniforme, respectivamente, a adequacao das aproximacoes para
P (Sn s) decorrentes de (3.23) incluindo os termos de ordens O(n1/2 ) e O(n1 ) e
aquela aproximacao dada por (3.25), onde estao expressos tambem os valores exatos de
P (Sn s) para comparacao.
Exemplo 3.8 Suponha a distribuic
ao exponencial de media um e func
ao densidade
f (y) = ey (y > 0). Tem-se K() = log(1 ). A Tabela 3.4 compara as tres aproximac
oes decorrentes de (3.23) e (3.25) e o valor exato de P (Sn s) para n = 1, 5 e 10
e diversos valores de s. Observe-se que (3.25) fornece resultados excelentes mesmo para
n = 1.
Exemplo 3.9 Considere a distribuic
ao uniforme com func
ao densidade f (y) = 21 (1
y 1) e K() = log{senh()/}. A Tabela 3.5 compara as tres aproximac
oes decorrentes
de (3.23) e (3.25) e o valor exato de P (Sn s) para n = 1, 3 e 10 e diversos valores de
s. Para n = 10, as aproximacoes (3.23) ate O(n1 ) e (3.25) praticamente se igualam aos
valores exatos.
22o Col
oquio Brasileiro de Matem
atica
75
s
0,5
1,0
3,0
7,0
1,0
3,0
5,0
10,0
20,0
5,0
10 10,0
15,0
20,0
Exato
0,6065
0,3679
0,0498
0,00091
Aproximacao (3.23)
ate O(n1/2 ) ate O(n1 )
0,6176
0,6077
0,3670
0,3670
0,0482
0,0510
0,00095
0,00091
(3.25)
0,6043
0,3670
0,0500
0,00093
0,99634
0,8153
0,4405
0,0293
0,0000169
0,99638
0,8172
0,4405
0,0291
0,0000171
0,99635
0,8156
0,4405
0,0293
0,0000169
0,99633
0,8152
0,4405
0,0293
0,0000170
0,9682
0,4579
0,0699
0,00500
0,9683
0,4579
0,0695
0,00499
0,9682
0,4579
0,0699
0,00500
0,9682
0,4579
0,0699
0,00500
s
0,2
0,4
0,6
0,8
Exato
0,4
0,3
0,2
0,1
Aproximacao (3.23)
ate O(n1/2 ) ate O(n1 )
0,3897
0,3841
0,2831
0,2767
0,1855
0,1830
0,0945
0,0974
(3.25)
0,3838
0,2750
0,1791
0,0948
0,5
1,0
1,5
2,5
0,3177
0,1667
0,0703
0,00260
0,3193
0,1699
0,0710
0,00255
0,3168
0,1676
0,0699
0,00258
0,3168
0,1673
0,0695
0,00254
0,2945
0,0505
0,00247
0,0000159
0,2945
0,0504
0,00246
0,0000159
1,0
10 3,0
5,0
7,0
0,2945
0,2953
0,0505
0,0508
0,00247
0,00249
0,0000159 0,0000160
76
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
As expansoes ponto de sela (3.23) (3.25) so sao validas para variaveis aleatorias
contnuas. No caso discreto, elas podem ser adaptadas com correcoes de continuidade.
A expansao para P (Sn s) ate O(n1/2 ) correspondente a (3.23) quando s > nE(Y ),
valida para distribuicoes discretas, tem a forma (Daniels, 1987)
P (Sn s) = exp{(
r2 + v2 )/2}{/(1
e )}
(1 (
v ))
3 v
v
1 (e 1)1 )
1 q
(
6 n
00
nK
(3.26)
2
(
1
v
1)
3
1 (e 1)1 ) ,
+q
(
+(
v)
6 n
00
nK
22o Col
oquio Brasileiro de Matem
atica
77
s
1
2
3
4
= 0, 2,
n=1
Exato
(3.25)
(3.26)
0,1813
0,1840
0,1759
0,0175
0,0177
0,0171
0,00115
0,00116
0,00112
0,0000568 0,0000572 0,0000563
= 1,
n=5
s Exato
(3.25)
1 0,99326
0,99319
3 0,8753
0,8752
5 0,5595
0,5595
15 0,000226 0,000226
3.6
= 1,
n=1
Exato
(3.25)
0,6321
0,6330
0,0803
0,0804
0,0000832 0,0000834
0,00000113 0,00000113
s
1
3
7
9
= 1,
n = 10
s Exato
(3.25)
1 0,9999546 0,9999536
5 0,9707
0,9710
10 0,5421
0,5421
20 0,00345
0,00345
(3.26)
0,99356
0,8765
0,5595
0,000225
(3.26)
0,6330
0,0790
0,0000825
0,00000115
(3.26)
0,9999567
0,9710
0,5421
0,00344
Expans
oes de Laplace
As expansoes assintoticas para muitas integrais usadas em Estatstica, incluindo aproximacoes para funcoes de distribuicao tais como funcao gama e funcoes de Bessel, podem
ser deduzidas por uma tecnica denominada de metodo de Laplace. O interesse inicial e
obter a expansao da transformada de Laplace L(z) =
R
0
funcao geratriz de momentos M (t) da distribuicao com funcao densidade f (y) sobre os
reais nao-negativos e dada por M (t) = L(t). Para funcoes f (y) bem comportadas, a
forma de L(z) para z grande e determinada pelos valores de f (y) proximos a y = 0.
Expandindo f (y) em serie de Taylor vem
f (y) =
f (r) (0)
yr
r!
e, entao,
L(z) =
yr
(0)
dy
r!
!
zy
(r)
ou
L(z) =
X f (r) (0) Z
r
r!
ezy y r dy .
78
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
X f (r) (0)
r
z r+1
f (0) f 0 (0)
+ 2 +
z
z
(3.27)
R
z
2 /2
ezt et
dt .
2 /2
Fazendo f (t) = et
e calculando a expans
ao da integral acima usando (3.27), tem-se
(z) = 1
(z)
1
3
7
1 2 + 4 6 + ...
z
z
z
2z
(3.28)
Para z fixado, o erro cometido no trunamento de (3.28) e menor do que o primeiro termo
omitido, embora a serie infinita seja divergente. Claramente, fixado o n
umero de termos
em (3.28), a aproximacao melhora quando z cresce.
ezr(y) f (y)dy .
(3.29)
exp{z
r z(y y)2 r00 /2 }f (y)dy
com a convencao r = r(
y ), r00 = r00 (
y ), f = f (
y ), etc. Ainda,
s
z
r
w(z) = e
!
2 Z +
1
0
{f + (y y)f + . . .} y y;
dy ,
z
r00
y
r00
22o Col
oquio Brasileiro de Matem
atica
79
w(z) = e
2 1
f+
z
r00
z
f00
r(3) f0 r(4) f 5(
r(3) )2 f
002 +
+ O(z 2 )
00
002
003
2
r
2
r
8
r
24
r
!
(3.30)
w(z) = e
f
+ O(z 2 )
0
z
r
R
0
xz ex dx para z grande.
z+1
2z
z+1/2 z
1
1+
+ O(z 2 )
12z
(3.31)
3.7
Expans
oes Assint
oticas para Vari
aveis Aleat
orias
80
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
n por
Yn = X0 + n1/2 X1 + n1 X2 + Op (n3/2 ) .
(3.32)
dF0 (y)
dy
de X0 e de certos
(3.33)
1
{E(X12 |X0 = y)f0 (y)} .
2 y
(3.34)
(3.35)
22o Col
oquio Brasileiro de Matem
atica
81
X2 =
e
F0 (y)a2 (y) = {4 (y 3 3y)/24 + 23 (2y 3 5y)/36}(y) 23 (y 5 6y 3 + 5y)(y)/72
ou
F0 (y)a2 (y) = 4 H3 (y)(y)/24 23 H5 (y)(y)/72 .
Finalmente, substituindo-se em (3.33) chega-se `
a expans
ao de Edgeworth (3.11).
Exemplo 3.14 Suponha a variavel aleat
oria qui-quadrado padronizada Yn = (2n
82
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
(y)
Logo, X1 =
2
(U 2 1).
3
2
H2 (y) = E{1 (U )|U = y}(y) = 1 (y)(y).
3
Analogamente, comparando os termos de ordem O(n1 ), obtem-se
de (3.35)
1
1
(y) H3 (y) + H5 (y)
2
9
1
= E{X2 |U = y}(y) +
2 y
2 2
(y 1)2 (y)
9
1
= 2 (y)(y) + {(y 2 1)2 y + 4y(y 2 1)}(y).
9
Assim,
1
1
1
2 (y) = H3 (y) + H5 (y) + {(y 2 1)2 y + 4y(y 2 1)}
2
9
9
que pela substituicao dos polinomios de Hermite reduz-se a 2 (y) =
mente, X2 =
1
(U 3
18
1
(y 3
18
7y). Final-
1
2
Y = U + (U 2 1) +
(U 3 7U ) .
3 n
18n
3.8
Expans
oes por M
etodos Diretos
Muitas expansoes do tipo (3.1) podem ser deduzidas para funcoes densidade e de distribuicao e para funcoes geratrizes de momentos e cumulantes atraves dos metodos diretos, que consistem em padronizar a variavel aleatoria de interesse e expandir as funcoes
matematicas que dependem de n. Algumas vezes e mais conveniente expandir as funcoes
geratrizes de momentos ou cumulantes e depois inverter termo a termo para obter as expansoes das funcoes de distribuicao e densidade. A seguir, apresentam-se alguns exemplos
de expansoes deduzidas pelos metodos diretos.
22o Col
oquio Brasileiro de Matem
atica
83
y IR .
A vari
avel aleatoria t de Student tem media zero e vari
ancia diferente de um, mas pode-se
obter a expansao de log gn (y) a partir das expans
oes calculadas diretamente
e de
y2
log 1 +
n
y2
1
(n + 1) log 1 +
2
n
( n+1
)
2
log
n
( 2 )
(
y2
y4
(y 2 )j
= + 2 +
+ ,
n
2n
jnj
=
y2
j(y 2 )j+1 + (j + 1)(y 2 )j
+
+
2
2j(j + 1)nj
n
1
1
1
1
+
+
= log
3
2
2
4n 24n
20n5
(2y 6 3y 4 ) +
(3y 8 4y 6 + 1) + O(n4 ) .
2
12n
24n3
Tomando a exponencial da express
ao anterior, obtem-se
gn (y) = (y) 1 +
6
1 4
1
(y 2y 2 1) +
(3y 8
4n
96n2
5
(3.36)
3
84
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
log r
r
= log
r!
1
(r 1)
+ (n r) log 1
+ log 1
+ log 1
n
n
n
r
= log
r!
1
2 r 2 r
+
r
+
+ O(n2 ) .
n
2
2
2
Ent
ao,
e r
1
2 r 2 r
r =
1+
r
+
+ O(n2 )
r!
n
2
2
2
(
(3.37)
3.9
Expans
oes de Fun
c
oes N
ao-Lineares
Nas secoes anteriores, a discussao se referia a somas (ou medias) de variaveis aleatorias
iid. Discute-se aqui uma generalizacao u
til nas aplicacoes da teoria assintotica referente
a uma funcao nao-linear de uma soma (ou media) de variaveis aleatorias independentes.
Por exemplo, a EMV em muitos problemas e uma funcao nao-linear da soma (ou media)
das observacoes.
P
Seja Tn uma estatstica qualquer tal que Tn e suponha que n(Tn ) tem
distribuicao normal N (0, 1) assintotica. Admite-se que n(Tn ) tem uma expansao de
Edgeworth do tipo (3.33) calculada a partir dos quatro primeiros momentos de Tn . Neste
caso, o teorema de Cox e Reid (Secao 3.7) garante que e possvel encontrar, a partir das
equacoes (3.34) (3.35), as funcoes 1 () e 2 () de uma variavel aleatoria X N (0, 1)
tal que
1 (X) 2 (X)
n(Tn ) = X + +
+ Op (n3/2 ) .
n
n
Seja g(t) uma funcao nao-linear de t bem comportada. Deseja-se obter a expansao
X
1 (X) 2 (X)
g(Tn ) = g + +
+ + Op (n2 )
n
n
n n
22o Col
oquio Brasileiro de Matem
atica
85
1
n{g(Tn ) g()} = Xg 0 () + 1 (X)g 0 (X) + X 2 g 00 () / n
2
1
+ 2 (X)g 0 () + X1 (X)g 00 () + X 3 g 000 () /n + Op (n3/2 ) .
6
(3.38)
A equacao (3.38) representa uma expansao estocastica assintotica do tipo (3.32) com
X0 = Xg 0 (), X1 = 1 (X)g 0 (X)+ 12 X 2 g 00 () e X2 = 2 (X)g 0 ()+X1 (X)g 00 ()+ 61 X 3 g 000 ()
e, portanto, admite uma expansao de Edgeworth do tipo (3.33), cujas funcoes a1 () e a2 ()
podem ser deduzidas com algum algebrismo das equacoes (3.34) (3.35). Resumindo,
funcoes nao-lineares de estatsticas que possuem expansoes de Edgeworth admitem tais
expansoes que podem ser deduzidas do teorema de Cox e Reid.
3.10
Aproximac
ao Normal para Algumas Vari
aveis
Discretas
As aplicacoes das expansoes de Edgeworth e ponto de sela para variaveis aleatorias discretas envolvem o uso das correcoes de continuidade, que representa um metodo simples de
avaliar probabilidades quando uma distribuicao discreta e aproximada por uma contnua.
Em muitas aplicacoes, a distribuicao contnua que serve como aproximacao e a distribuicao
normal e o metodo consiste em aproximar uma probabilidade do tipo P (Y = y) de uma
distribuicao discreta por um intervalo correspondente P (y 0, 5 Y y + 0, 5) da
distribuicao normal supondo que Y varia de um em um. Similarmente, uma probabilidade
tal qual P (Y y) de uma distribuicao discreta pode ser aproximada por P (Y y + 0, 5)
da distribuicao normal correspondente. O ajustamento de y pela adicao e subtracao de
0,5 e uma correcao de continuidade. A correcao objetiva transformar um ponto y de um
conjunto discreto, num intervalo [y 0, 5, y + 0, 5] contnuo, de modo que o valor aproximado da probabilidade pontual P (Y = y) seja obtido como uma area correspondente
ao intervalo unitario centrado em y e abaixo da funcao densidade usada na aproximacao
contnua. As distribuicoes discretas mais comuns onde sao aplicadas as correcoes de
continuidade sao: binomial, Poisson, binomial negativa e hipergeometrica. No que se
segue a probabilidade P = P (Y k|), onde representa parametros, e aproximada por
86
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
Distribui
c
ao Binomial
Se Y B(n, p), entao
P = P (Y k) =
k
X
n
j=0
pj (1 p)nj
k np
k np
+ q
,
P =
q
q
np(1 p)
2 np(1 p)
np(1 p)
P =
(3.39)
ou
P =
(3.40)
onde
(
)1/2
(1 p)
p
1+
g(k + 0, 5) +
g(n k 0, 5)
np
n(1 p)
u=d
1/2
1
n+
p(1 p)
6
(3.41)
22o Col
oquio Brasileiro de Matem
atica
87
Distribui
c
ao de Poisson
Se Y P (), entao
P = P (Y k) =
k
X
e j
j=0
j!
A probabilidade P acima pode ser computada exatamente a partir da funcao de distribuicao qui-quadrado usando
P = P (Y k) = P (22(k+1) 2) .
A aproximacao classica para P e obtida do teorema central do limite como ((k + 0, 5
)1/2 ). Mesmo para grande sua precisao nao e boa: para = 30, k = 17, resulta
em 0, 0113 enquanto o valor exato e 0, 0073. Uma aproximacao mais precisa para P e
1/3
) 1+
P = P (Y k)=1
(w), onde w = 3[( k+1
1
](k
9(k+1)
+ 1)1/2 1/2 })
(3.42)
P =((4k
+ 3)1/2 21/2 ) .
(3.43)
88
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
com
2
k+ +
{1 + g[(k + 0, 5)/]}1/2 1/2 ,
3
k+1
z=
onde g(x) foi definido logo apos a equacao (3.41). A constante so e relevante para
pequeno e pode ser considerada igual a 0,02 ou, se nas extremidades, igual a 0,022. Esta
aproximacao tem erro de ordem 3/2 uniformemente em k, com alguma deterioracao no
caso trivial k = 0, onde P = e nao requer a aproximacao normal.
Uma probabilidade pontual P (Y = k) pode ser calculada como
k + 0, 5
P (Y = k) =
k 0, 5
!k
1
+ O(k 2 )
12k
1+
Distribui
c
ao Binomial Negativa
A distribuicao binomial negativa B (s, p) e definida em ensaios independentes de Bernoulli
para modelar a variavel aleatoria que representa o n
umero Y de falhas verificadas antes
de ocorrerem s sucessos. Entao,
P (Y = k) =
s+k1 s
p (1 p)k ,
k
k
X
s+j1
j=0
ps (1 p)j ,
22o Col
oquio Brasileiro de Matem
atica
89
que e identica a P (X s), sendo X B(s + k, p). Logo, da equacao (3.39) vem
P (Y k)=
Distribui
c
ao Hipergeom
etrica
Considere uma populacao de N elementos classificada em S sucessos e N S fracassos.
Retira-se desta populacao, sem reposicao, uma amostra de n indivduos. O n
umero Y
de sucessos nesta amostra tem distribuicao hipergeometrica de parametros (S, n, N ) com
funcao de probabilidade
P (Y = k) =
S
k
N S
nk
N
n
(3.44)
e dada por
P = P (Y k)=((k
+ 0, 5 )/) .
Sejam = np(1p)(1 Nn ), w = (k +0, 5)/ e v = (k +0, 5)/ . Demonstra-se que
Y tem distribuicao assintoticamente normal quando N se, e somente se,
e . A aproximacao (v) para P e melhor do que (w), e esta correta ate ordem
O( 1 ). Uma aproximacao aperfeicoada para P , correta ate O( 2 ), e P =(u),
onde
u=v+
P (Y = k)=
n k
p (1 p)nk .
k
90
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
Uma melhoria nesta aproximacao pode ser conseguida substituindo n e p por n = np/p
e p = {(n 1) + (N n)p}/(N 1). Uma aproximacao assintotica cujo termo principal
e a distribuicao binomial e dada por
P (Y = k) =
1
{k (k np)2 }
n k
+O
p (1 p)nk 1 +
k
2N p
N 2 p2
"
!#
3.11
#
Exerccios
2
{fr (y) fr+2 (y)}
2
4
{fr (y) 2fr+2 (y) + fr+4 (y)} + O(6 ).
8
22o Col
oquio Brasileiro de Matem
atica
91
3. Sejam Y1 , . . . , Yn variaveis aleatorias contnuas iid com distribuicao na famlia exponencial (3.16) com = 0 . Demonstre que a funcao densidade da soma Sn =
n
X
Yi
i=1
2n K ()
fSn (s; 0 ) =
lim P
(Y r)
y = (y) .
r
(b)
(n + 1) =
(n + 0, 5) =
2(n + 1)
n+0,5 n1
n n
2n e
1
1
1+
+
;
12(n + 1) 288(n + 1)2
1
7
+ O(n5 )
exp
+
3
24n 2880n
92
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
Gram-Charlier como
F2n (y) = (y)
onde 1 =
2
1 (3)
(y) + (4) (y) ,
6
24
dk (y)
.
dy k
Captulo 4
Teoria Assint
otica de Primeira
Ordem
4.1
Fundamentos
94
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
teoria e importante por dois motivos bem distintos. O primeiro surge quando nao se tem
em princpio uma solucao exata para o problema estatstico ou quando a solucao exata e
muito complicada. Entao, pode ser muito mais vantajoso obter uma aproximacao simples
em grandes amostras para alcancar objetivos praticos ou para se ter mais informacao
sobre a solucao exata do problema. O segundo motivo, o mais freq
uente, revela o seu
papel central na inferencia estatstica quando o problema realmente nao tem solucao exata, como, por exemplo, quando nao existe uma regiao de confianca exata ou um teste
otimo para o parametro de interesse. Entao, torna-se natural e inevitavel obter solucoes
aproximadas supondo que o n
umero de observacoes e grande.
Nesta secao apresentam-se alguns criterios mais comuns (erro medio quadratico
e eficiencia) para selecionar as estimativas dos parametros nos modelos estatsticos e
estudam-se as propriedades assintoticas de maior interesse das EMV, tais como, consistencia, unicidade, normalidade, eficiencia e suficiencia. Estas propriedades sao validas
somente quando n e formam a base da teoria assintotica de primeira ordem com
o objetivo de se fazer inferencia.
4.1.1
Erro M
edio Quadr
atico
onde B() = E(T ) e o vies de T . Em geral, tem-se interesse em estimativas naoviesadas (B() = 0) de variancia mnima (NVVM) visando reduzir o EMQ. Entretanto,
em muitas situacoes, pode-se preferir uma estimativa cujas quantidades B() e Var(T ) sao
pequenas a uma outra estimativa nao-viesada mas de variancia apreciavel. As estimativas
de EMQ mnimo nao sao muito usadas face a dificuldades em minimizar o EMQ sem
restricoes adicionais. Entretanto, existe uma teoria elegante para as estimativas NVVM
que tornam estas estimativas atraentes. O EMQ fornece um limite superior para a probabilidade de que o erro absoluto de estimacao exceda uma determinada quantidade pois,
22o Col
oquio Brasileiro de Matem
atica
95
As EMV em geral sao viesadas em pequenas amostras e na Secao 5.3 mostra-se como
calcular os seus vieses de ordem n1 . Entretanto, as EMV sao assintoticamente naoviesadas.
4.1.2
Efici
encia
obvio que quanto menor for a variancia de uma estimativa nao-viesada, maior sera a
E
chance desta estimativa estar proxima do parametro verdadeiro. Uma propriedade desejavel e que a variancia de uma estimativa nao-viesada seja tao pequena quanto possvel.
Esta propriedade conduz a estimativas mais eficientes. Na estimacao de um escalar ,
uma estimativa T e mais eficiente do que uma outra T 0 (no sentido de usar mais eficientemente as observacoes) se EM Q(T ) EM Q(T 0 ). A eficiencia relativa de T 0 em relacao a
T e expressa pelo quociente e(T 0 , T ) = EM Q(T )/EM Q(T 0 ) e geralmente depende de .
No caso de estimativas nao-visadas, a eficiencia reduz-se ao quociente das variancias das
estimativas e, entao, a estimativa NVVM e a mais eficiente. Felizmente, em problemas
regulares, existe um limite inferior tal que a variancia de uma estimativa nao pode ser
menor do que este limite. Para qualquer estimativa T de um parametro cujo vies e
B(), a sua variancia satisfaz Var(T ) {1 + B 0 ()}2 /K(), onde B 0 () = dB()/d. Esta
expressao e conhecida como desigualdade de Cramer-Rao. Se a estimativa e nao-viesada,
a variancia mnima se iguala ao inverso da informacao.
Se uma estimativa T tem esperanca E(T ) = (), a desigualdade de Cramer-Rao
passa a ser Var(T ) 0 ()2 /K(). Claro que a forma anterior e um caso especial desta
desigualdade. Entao, a eficiencia absoluta de uma estimativa nao-viesada T de ()
e definida por e(T ) = {Var(T )K()/ 0 ()2 }1 sendo evidentemente menor ou igual a
um. Se e(T ) = 1 a estimativa T e eficiente. Quando () = , a eficiencia reduz-se a
e(T ) = {Var(T )K()}1 . A EMV de e assintoticamente eficiente.
Uma condicao necessaria e suficiente para que uma estimativa nao-viesada T de ()
96
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
seja eficiente (isto e, o limite de Cramer-Rao seja alcancado) e que a funcao escore seja
fatorada como
U () =
K()
{T ()} .
0 ()
(4.1)
Caso T seja nao-viesada para , (4.1) simplifica-se para U () = K()(T ). Podese provar ainda que existe uma estimativa T do escalar () de variancia mnima se, e
somente se, os dados tem distribuicao na famlia exponencial uniparametrica dada por
f (y; ) = exp{a(y)c() b() + d(y)}.
(4.2)
22o Col
oquio Brasileiro de Matem
atica
97
4.1.3
Condi
c
oes de Regularidade
98
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
4.1.4
Consist
encia
22o Col
oquio Brasileiro de Matem
atica
99
(4.3)
lim = 0 = 1. Uma
n
E0
L()
log
L(0 )
)#
"
< log E0
L()
L(0 )
)#
6= 0 .
(4.4)
0 .
Se for infinito ou mesmo infinito enumeravel nao se pode deduzir a consistencia
100
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
(forte) de diretamente de (4.4) sem as suposicoes (iii) (v) da secao anterior. Assim,
supondo que as condicoes de regularidade
prova-se agora a consistencia (forte) da EMV ,
(i) (v) sao satisfeitas, a partir do resultado (4.4) na situacao geral de infinito. Como
em serie de
a log-verossimilhanca e diferenciavel por (iii), obtem-se por expansao de `()
Taylor ate segunda ordem
= `(0 ) + U (0 )( 0 ) 1 ( 0 )T J( )( 0 )
`()
2
(4.5)
onde J() e a informacao observada (Secao 1.3) para e e um vetor situado entre
e 0 . Como U (0 ) e J( ) sao somas de variaveis aleatorias iid elas convergem pela
lei (forte) dos grandes n
umeros para os seus respectivos valores esperados. Logo, por
q.c.
q.c.
4.1.5
Unicidade Assint
otica
22o Col
oquio Brasileiro de Matem
atica
101
(4.6)
(4.7)
mnimo consistente para 0 ( 0 ) satisfazendo J() < 0. Mas isto violaria (iv), pois
para n grande, J() deve ser positiva definida para 1 . Como a ocorrencia de dois
maximos locais consistentes implica uma contradicao fica provada a unicidade da EMV
em grandes amostras.
Em geral, no caso multiparametrico p 2, mesmo que U () = 0 tenha solucao u
nica
nao implica que ela seja a EMV de que pode ate mesmo nem existir. Contudo, no
caso uniparametrico (p = 1), se a solucao da equacao de MV for u
nica, a probabilidade
de que esta solucao seja a EMV tendera para um quando n . Havera unicidade
das equacoes de MV quando f (y; ) for uma distribuicao nao-degenerada pertencente `a
famlia exponencial com p parametros (Secao 1.5), pois `() sera estritamente concava.
102
4.1.6
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
Normalidade Assint
otica
n( 0 ) Np (0, k(0 )1 ),
(4.8)
ou seja, em grandes amostras, a distribuicao de e aproximadamente normal p-dimensional com media 0 e matriz de covariancia K(0 )1 = n1 k(0 )1 . Cramer (1946, Secao
33.3) e Lehmann (1935, Secao 6.4) apresentam demonstracoes rigorosas da convergencia
(4.8) para p = 1 e p 1, respectivamente. Mostra-se inicialmente a demonstracao de
(4.8) no caso uniparametrico. As condicoes gerais de regularidade garantem a expansao
= 0 em torno do parametro verdadeiro 0 ate segunda ordem:
de U ()
1
U (0 ) + U 0 (0 )( 0 ) + U 00 ( )( 0 )2 = 0,
2
onde | 0 | < | 0 | e, portanto, e necessariamente consistente para 0 . Os dois
primeiros termos no lado esquerdo desta equacao sao Op (n1/2 ) e o terceiro e Op (1), pois
U 0 (0 ) = Op (n), U 00 ( ) = Op (n) e 0 = Op (n1/2 ). Como U (0 ) e U 0 (0 ) sao somas
de variaveis aleatorias iid, a expansao anterior implica
n( 0 )
n
X
Ui0 (0 )
i=1
nk(0 )
Pn
i=1
+ Op (n
1/2
n
X
Ui (0 )
i=1
nk(0 )
n( 0 ){1 + op (1)} =
Ui (0 )
i=1
nk(0 )
(4.9)
22o Col
oquio Brasileiro de Matem
atica
103
1
n( 0 ){1 + op (1)} = k(0 )1 U (0 ),
n
(4.10)
4.1.7
Efici
encia Assint
otica
0)
n(
que, em geral, nao coincide com o limite de Cramer-Rao (Secao 4.1.2) para a sua variancia
exata. Este fato e melhor compreendido observando que para qualquer estimativa T de
assintoticamente normal, i.e.,
(4.11)
tem-se: n
lim {n Var(T )} v() k()1 . O resultado (4.11) implica que a estimativa T
e consistente para , mas ela pode ter vies nao-nulo (para n finito). Contrariamente, o
104
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
4.2
Sufici
encia Assint
otica
implica que e assintoticamente suficiente para , quando existir uma estatstica suficiente.
Em pequenas amostras, a solucao da equacao de maxima verossimilhanca pode nao
ser suficiente para mas sempre sera funcao de uma estatstica suficiente para , quando
existir uma estatstica suficiente.
22o Col
oquio Brasileiro de Matem
atica
105
Os resultados assintoticos deduzidos nas Secoes 4.1.4 4.1.8 enaltecem que a teoria assintotica de primeira ordem e simples e elegante para as estimativas de maxima
verossimilhanca.
4.3
Infer
encia sem Par
ametros de Inc
omodo
(4.12)
(4.13)
(0) ).
W = ( (0) )T K()(
(4.14)
e a estatstica de Wald
As tres estatsticas acima representam as tecnicas mais importantes para avaliacao e teste
de modelos estatsticos. A forma (4.12) foi proposta por Wilks em 1938. Depois, Wald
propos (4.14) em 1943 e Rao desenvolveu (4.13) em 1947.
As formas quadraticas (4.13) e (4.14) sao deduzidas das distribuicoes assintoticas
respectivamente. As estatsticas (4.12)
Np (0, K((0) )) e Np ((0) , K((0) )1 ) de U ((0) ) e ,
e (4.13) independem da parametrizacao adotada para f (y; ) enquanto a estatstica de
106
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
n U ((0) ) = Op (n1/2 ),
K((0) ) = n K((0) ),
(0) = Op (n1/2 ),
onde K((0) ) e a informacao media por observacao e U ((0) ) e a funcao escore normalizada.
Tem-se K((0) ) = O(1) e U ((0) ) = Op (1). A vantagem da notacao acima e expressar todas
as quantidades em termos de outras que sao de ordem O(1) ou de variaveis aleatorias que
sao Op (1). Se as observacoes sao iid, entao K((0) ) e a informacao relativa a uma u
nica
observacao.
Se K() e contnua em = (0) obtem-se, quando n ,
P
n1 J((0) ) K((0) ),
P
n1 J()
K((0) ).
(4.15)
22o Col
oquio Brasileiro de Matem
atica
107
n U () Np (0, K()),
D
n( ) Np (0, K()1 ) .
(4.16)
A distribuicao assintotica das estatsticas escore (4.13) e Wald (4.14) segue de imediato
das convergencias em (4.16). Para demonstrar a distribuicao assintotica da razao de
= 0.
verossimilhanca, expande-se `() em serie de Taylor em torno da solucao de U ()
Assim,
1 ( )
T J()(
)
+ op (1)
`() = `()
2
ou
) + op (1).
w = ( )T J()(
(4.17)
(4.18)
D
108
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
w, SR ou W , com um sinal adequado, com os valores crticos da sua distribuicao
normal N (0, 1) assintotica. As estatsticas sinalizadas abaixo
rw = sinal( (0) )w1/2 ,
q
rSR = U ((0) )/ K( ),
(4.19)
rW = ( (0) ) K()
tem, assintoticamente, segundo H : = (0) , distribuicao normal N (0, 1). Aqui, tambem,
e J((0) ) podem substituir K()
e K((0) ) e a distribuicao normal N (0, 1) assintotica
J()
continua valendo. Na realidade, todas estas estatsticas sinalizadas satisfazem: (i) r =
Z + Op (n1/2 ), onde Z e uma variavel aleatoria que tem assintoticamente distribuicao
normal N (0, 1); (ii) P (r x) = (x) + O(n1/2 ). Assim, elas diferem por quantidades
estocasticas de ordem n1/2 em probabilidade.
Exemplo 4.2 Considere uma amostra aleat
oria de tamanho n da distribuic
ao de Poisson
P (), onde se deseja testar H : = (0) versus A : 6= (0) . De (4.12) (4.14) e
f
acil obter w = 2n((0) y) + 2ny log(y/(0) ), SR = n(y (0) )2 /(0) e W = n(y
(0) )2 /y, sendo y a media amostral. Claramente, o teste de H via SR e equivalente ao
teste baseado na aproximacao normal N (n(0) , n(0) ) da distribuic
ao de ny. Qualquer
uma destas estatsticas tem assintoticamente distribuic
ao 21 .
22o Col
oquio Brasileiro de Matem
atica
109
1 2
Z
3 n
+ Op (n1 ),
0
rW
rSR = rW = Z,
= Z +
2
1 Z
n
+ Op (n1 ),
o que ilustra a equivalencia ate primeira ordem destas estatsticas, isto e, todas elas convergem em distribuicao para a normal N (0, 1) quando n .
As estatsticas em (4.19) sao quantidades pivotais assint
oticas para o parametro
pois convergem para uma distribuicao conhecida que nao envolve este parametro quando
n . Assim, os limites de 100(1 )% de confianca para o escalar podem,
alternativamente, ser obtidos como R() = {; |r()| z }, onde z e tal que (z ) =
1/2 tem a vantagem de englobar conjuntamente
1 /2. A estatstica rW = ( )K()
1/2 , enquanto que a estatstica de Wald alternativa
uma estimativa de e sua precisao K()
1/2 , equivalente assintoticamente a rW , contem uma variavel aleatoria
rW1 = ( )J()
que nao envolve mas pode nao representar uma variancia em pequenas amostras.
J()
Ambas estatsticas sao lineares em . Quando o vies B() de ordem n1 de (vide Secao
e J()
5.3) e apreciavel, deve-se aplicar a rW e rW1 uma correcao de vies (supondo K()
por B(
110
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
4.4
Infer
encia com Par
ametros de Inc
omodo
K=
K
K
K
K
K 1 =
K
K
K
K
Usa-se notacao similar para a matriz de informacao observada J e para sua inversa J 1 .
T
Em geral, as quantidades U , U , K , K = K
e K dependem de ambos vetores
e .
A estatstica escore baseia-se na normalidade assintotica da componente da funcao
escore U = U ( (0) , ) correspondente ao vetor de parametros de interesse, ou seja, no
resultado
D
U Nq (0, K ),
(4.20)
Entao, a estatstica
onde K = K ( (0) , ) e a matriz de covariancia assintotica de .
escore e definida pela forma quadratica
U ,
SR = UT K
(4.21)
eK
A vantagem da estatstica escore e que ela
= K ( (0) , ).
onde U = U ( (0) , )
so depende da EMV segundo a hipotese nula. A distribuicao assintotica de SR segundo
D
22o Col
oquio Brasileiro de Matem
atica
111
assintotica com matriz de covariancia K 1 , entao, tem tambem segundo H, distribuicao normal q-dimensional assintotica com media (0) e matriz de covariancia K ,
D
ou seja, (0) Nq (0, K ). A matriz K pode ser consistentemente estimada
),
K ( (0) , ),
J (,
)
ou J ( (0) , ).
Escolhendo a primeira forma a
por K (,
estatstica de Wald e dada por
1 ( (0) ),
W = ( (0) )T K
(4.22)
).
Usando-se as outras matrizes de peso obtem-se estatsticas que
= K (,
onde K
sao assintoticamente equivalentes a (4.22). Em qualquer caso, W e uma forma quadratica
correspondente `a distribuicao normal assintotica Nq (0, K ) de (0) e, portanto,
D
(4.23)
1
K = K = K K K
e
1
1
K = K
K
K K .
1
1
e
e
Alem disso, K = K
+ K K
K . A relacao entre as estimativas
=
+ K 1 K ( ) + Op (n1 ) .
K
K
K
K
U
U
112
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
W = (K U + K U )T K (K U + K U ).
(4.24)
).
= U K (
= K U + op (n1/2 ), vem
Como
= U K K U .
U ( (0) , )
(4.25)
isto e, dada pela diferenca entre duas estatsticas para testar hipoteses sem parametros
de incomodo. Assim, usando o resultado (4.18) tem-se ate primeira ordem
w = (UT UT )
K
K
K
K
U
U
1
UT K
U .
(4.26)
22o Col
oquio Brasileiro de Matem
atica
113
pode ser pautada no grau de dificuldade de calculo das EMV irrestrita e restrita, notando
ainda que w e SR sao invariantes em relacao `a reparametrizacao da distribuicao dos dados
mas a estatstica de Wald nao e invariante. Estas estatsticas sao quantidades pivotais
assintoticas para o parametro e, portanto, podem ser usadas para construir regioes
assintoticas de 100(1 )% de confianca para . Estas regioes sao definidas por um
conjunto aleatorio R() IRq dependente de y e de tal que P ( R()) = 1 .
Assim, regioes de 100(1 )% de confianca em IRq para sao deduzidas diretamente das
estatsticas escore SR em (4.21), Wald em (4.22) e razao de verossimilhanca em (4.23),
produzindo
U 2q ()},
R1 () = {; UT K
TK
2 ()},
1 ( )
R2 () = {; ( )
q
`(,
)
1 2 ()},
R3 () = {; `(, )
2 q
respectivamente. Claro que R3 () e mais facil de ser construda do que as regioes R1 ()
e R2 (), pois estas u
ltimas dependem de formas quadraticas. Observe-se que R3 () e
e a EMV de
decorrente da razao de verossimilhanca perfilada (vide Secao 4.5), pois
condicional a . As regioes R1 (), R2 () e R3 () sao assintoticamente equivalentes
mas em pequenas amostras sao diferentes e podem ser imprecisas. Elas sao aplicaveis em
qualquer problema regular na construcao de regioes de confianca.
No caso do parametro de interesse ser escalar, pode-se tambem construir intervalos
de confianca aproximados para generalizando as estatsticas sinalizadas em (4.19). Assim, obtem-se quantidades pivotais assintoticas para analogas `aquelas em (4.19) dadas
por
rw = sinal( )w1/2 ,
1/2 ,
rW = ( )/K
1/2 ,
rSR = U K
1/2
rS0 R = U J ,
(4.27)
1/2
0
rW
= ( )/J .
Todas as estatsticas em (4.27) tem distribuicao normal N (0, 1) assintotica. Como rS2 R =
2
SR , r W
= W e rw2 = w, os intervalos obtidos das regioes R1 (), R2 () e R3 () sao
0
identicos `aqueles baseados em rSR , rW e rw , respectivamente. As estatsticas rS0 R e rW
sao
114
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
vetores de parametros e sao ortogonais. Neste caso, a matriz de informacao e blocodiagonal pois as matrizes K e K se anulam e as equacoes de maxima verossimi sao separaveis. Observe-se que as expressoes (4.24) (4.26)
lhanca para determinar e
reduzem-se, sem calculos adicionais, a UT K U . Como conseq
uencia da informacao
sao assintoticamente independentes e a covariancia
ser bloco-diagonal, as EMV e
assintotica de quando e desconhecido e a mesma daquela covariancia quando e con de condicional a especificado
hecido. Um outro aspecto importante e que a EMV
com uma variacao tambem reduzida da EMV de
varia pouco com na vizinhanca de ,
= Op (n1 ).
com especificado. Mais precisamente, se = Op (n1/2 ), entao
= Op (n1/2 ).
Quando nao ha ortogonalidade,
(4.28)
tribuic
oes normal N (, ), gama G(, ) e normal inversa N (, ) podem ser escritas
na forma (4.28). Das condicoes (1.9) e (1.10) verifica-se que E(Y ) = = db()/d e
Var(Y ) = 1 d2 b()/d2 . Representa-se a func
ao de vari
ancia de Y por V = V () =
d2 b()/d2 pois so depende do parametro e, portanto, somente de . Note-se que realmente mede a precisao de Y sendo 1 uma medida de dispers
ao. Sejam n observacoes
iid do modelo (4.28). Apresentam-se agora as estatsticas (4.21) (4.23) para testar a
media H1 : = (0) (versus A1 : 1 6= (0) ) com o par
ametro de precis
ao desconhecido,
e para testar o parametro de precis
ao H2 : = (0) (versus A2 : 6= (0) ) com a media
desconhecida. A log-verossimilhanca como func
ao de e e expressa por
`(, ) = n{yq() b(q())} + c1 (yi ) + nd() + d1 (yi ) .
As componentes da funcao escore com relac
ao a e s
ao U =
n
(y
V
) e U =
obtida de
n{yq() b(q())} + c1 (yi ) + nd (). As EMV irrestritas s
ao:
= y e ,
0
n
1X
c1 (yi ) = 0.
d () + yq(y) b(q(y)) +
n i=1
0
(4.29)
22o Col
oquio Brasileiro de Matem
atica
115
w1 = 2n{v()
onde v() = d0 () d(). As tres estatsticas SR , W1 e w1
1
reduz-se a w2 = 2n{d()
Usando-se ainda (4.29), a funcao
e, portanto, obtem-se a
escore relativa a avaliada em H2 iguala U = n{d0 ((0) ) d0 ()}
2 /d00 ((0) ). A estatstica de Wald e simplesestatstica escore SR = n{d0 ((0) ) d0 ()}
2
As tres estatsticas w2 , SR e W2 s
mente W2 = n( (0) )2 d00 ().
ao assintoticamente
2
equivalentes, quando H2 e verdadeira, `
a distribuic
ao 21 . As formas das tres estatsticas
nos testes de H1 e H2 , relativas `
as distribuic
oes normal, gama e normal inversa, sao
facilmente obtidas destas expressoes gerais a partir das func
oes V e d() (vide exerccio
1 da Secao 4.6).
Exemplo 4.5 Considere a distribuic
ao multinomial Y M (n, ), apresentada no exemplo 4.1, sendo o vetor de probabilidades de dimens
ao p. O interesse reside em testar a
hip
otese que o vetor depende de um vetor desconhecido de dimens
ao q muito menor
que p, i.e., testar H : 6= () versus A : 6= (). Seja y = (y1 , . . . , yp )T o vetor
das freq
uencias observadas. Cox e Hinkley (1979, Sec
ao 9.3) demonstram que as tres
estatsticas classicas para testar H versus A tem as seguintes express
oes:
116
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
w=2
p
X
i=1
yi log
yi
ni ()
e
W =
p
X
, SR =
p
2
X
{yi ni ()}
i=1
ni ()
2 /yi ,
{yi ni ()}
i=1
4.5
Verossimilhanca Perfilada
L()
= L(,
(4.30)
difere de
(EMV usual de
a encontrar o valor de que maximiza `().
Em geral,
) `(,
) `(, ).
supondo que maximiza (4.30) tem-se: `() l() ou `(,
as seguintes propriedades:
sao solucoes das equacoes de maxima verossi1. Se ` = `(, ) e diferenciavel, e
e solucao
milhanca `/|,
= 0, `/|,
22o Col
oquio Brasileiro de Matem
atica
117
`()/|
= 0.
)
`(
(0) )} e igual `a razao de
2. A razao de verossimilhanca perfilada w = 2{`(
verossimilhanca usual para testar a hipotese H : = (0) , i.e.,
)
`(
(0) )} = 2{`(,
)
`( (0) , )}
w = 2{`(
D
R() = {; `(
c}
e uma regiao de confianca aproximada para com o nvel de significancia determi Quando q 5, c = q + 1, q + 3 e q + 5
nado da distribuicao 2q assintotica de w.
produz regioes de 95%, 99% e 99,9% de confianca para .
4.6
Exerccios
118
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
3. Calcule as estatsticas w, SR e W para testar o parametro nas seguintes distribuicoes uniparametricas: Cauchy CA(), serie logaritmica SL() e serie de
potencias SP ().
4. Suponha a distribuicao de Weibull do exemplo 1.5. Obtenha as formas das estatsticas escore, razao de verossimilhanca e Wald para testar ( desconhecido) e
( desconhecido).
5. Deduza a melhor regiao crtica para testar H : = (0) versus A : = (1) supondo
que a funcao modelo e f (y; ) = c()d(y) exp{a()b(y)}.
6. Calcular a MRC para testar uma hipotese simples H : = (0) versus uma alternativa simples A : = (1) nos casos de ser a media da distribuicao de Poisson
P () e ser a probabilidade de sucesso na distribuicao binomial B(m, ).
7. Suponha a famlia de locacao e escala definida por
f (y; , ) = 1 f (
y
),
Captulo 5
Teoria Assint
otica de Segunda
Ordem
5.1
Introduc
ao
5.2
Identidades de Bartlett
Seja L = L() a verossimilhanca total de um problema regular supondo que as observacoes sao independentes mas nao necessariamente identicamente distribudas, onde
e um vetor de IRp . Adota-se a seguinte notacao para as derivadas da log-verossimilhanca
119
120
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
` = `() = log L(), onde todos os ndices variam de 1 a p : Ur = `/r , Urs = 2 `/r s ,
etc. Os momentos conjuntos de derivadas de `() sao r = E(Ur ), rs = E(Urs ), r,s =
E(Ur Us ), r,st = E(Ur Ust ) e assim por diante. Como r = 0, os correspondentes cumulantes conjuntos (0 s) expressos em termos dos momentos sao: r,s = r,s , rs =
rs , rs,t = rs,t , rs,tu = rs,tu rs tu , r,s,t = r,s,t e r,s,t,u = r,s,t,u (3) r,s t,u ,
onde (k) representa o somatorio sobre todas as k combinacoes de ndices, etc. Os momentos e cumulantes acima nao sao independentes, mas satisfazem certas equacoes que
facilitam seus calculos. Estas equacoes, que representam condicoes de regularidade, sao
denominadas de identidades de Bartlett. As mais importantes sao: r = 0 e rs + r,s = 0.
Os cumulantes 0 s referem-se a um total sobre a amostra e, em geral, sao da ordem O(n).
A ideia central na deducao das identidades de Bartlett e a validade em problemas regulares da formula
E{t(Y
)} =
(y;)
t(y) f
dy para qualquer estatstica t(Y ), ou seja,
Ur = Lr /L,
2 rs /t u , rst = rst /u , etc. ZDa definicao da funcao escore tem-se
Z
onde Lr = L/r . Diferenciando Ldy = 1 em relacao a r vem Lr dy = 0 e,
entao, r = E(Ur ) = 0. Diferenciando a u
ltima integral em relacao a s , encontra-se
Z
em relacao a t obtem-se r,s,t + rst + (3) r,st = 0. Outras identidades de Bartlett sao
deduzidas de forma analoga:
(r)
r,st + rst st
(u)
(r)
(r)
(rs)
22o Col
oquio Brasileiro de Matem
atica
121
()
5.3
Correc
ao do Vi
es da EMV
As EMV sao, em geral, viesadas para os valores verdadeiros dos parametros em modelos
nao-lineares quando o tamanho n dos dados e pequeno ou a informacao de Fisher e
reduzida. Muitas vezes o vies e ignorado na pratica, justificando-se que ele e desprezvel
quando comparado ao erro padrao da EMV. De fato, o vies e de ordem n1 enquanto que
o desvio padrao da estimativa e de ordem n1/2 . Entretanto, para alguns modelos naolineares, o vies em pequenas amostras pode ser apreciavel e ter magnitude comparavel ao
erro padrao da EMV. Em modelos uniparametricos, Bartlett (1953) deduziu uma formula
para o vies de ordem n1 da EMV no caso iid. Nos modelos multiparametricos, os vieses
de ordem n1 das EMV, supondo observacoes independentes mas nao necessariamente
identicamente distribudas, foram deduzidos em generalidade por Cox e Snell (1968).
Considere um modelo estatstico f (y; ) com IRp . Seja a EMV de obtida como
122
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
(5.1)
A formula (5.1) (identica a (1.14) mais o erro estocastico) desempenha um papel importante no calculo de momentos e cumulantes da EMV de ordens superiores. Expandindo
Ur ate segunda ordem resulta
Ur +
X
s
1X
Urst (s s )(t t ) + op (1) = 0
Urs (s s ) +
2 s,t
(5.2)
rs E(s s ) +
1X
Cov(Urs , s s ) +
rst (st ) + o(1) = 0,
2 s,t
(5.3)
Cov Urs ,
st
Ut
substituindo a u
ltima expressao em (5.3) obtem-se
X
rs B(s ) =
X
s,t
1
st rs,t + rst + o(1),
2
X
s,t,u
ru st
1
rs,t + rst
2
(5.4)
A formula (5.4), devida a Cox e Snell (1968), e bastante geral para determinar o
vies de ordem O(n1 ) da EMV em modelos multiparametricos. Para calcula-lo basta
conhecer a inversa da matriz de informacao e os cumulantes rs,t e rst em relacao a
todos os parametros. A expressao (rs,t + 12 rst ) na formula (5.4) pode ser substituda
22o Col
oquio Brasileiro de Matem
atica
123
(t)
rst /2, como conseq
uencia da identidade de Bartlett t,rs + rst (t)
por rs
rs = 0.
n1
2 ( 2 )
,
)
n ( n
2
2 / 2 . Com
que e deduzido da distribuic
ao 2n1 de (n 1)
3
4n
+ O(n2 )}. A
3
)
.
4n
2
2
(5.5)
124
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
rs Us +
1 X
2 s,t,i,j,k
rs tu (Ust st )Uu
s,t,u
ri sj tk ijk Us Ut + Op (n3/2 ) .
(5.6)
O primeiro termo do lado direito de (5.6) e de ordem Op (n1/2 ) e os outros dois sao de
ordem Op (n1 ), sendo o erro Op (n3/2 ). Para obter, por exemplo, Var(r ) ate O(n2 )
(rr e o seu termo de ordem n1 ), eleva-se (5.6) ao quadrado e calcula-se seu valor
esperado ate a ordem desejada. O calculo e complicado mesmo no caso uniparametrico.
O leitor podera consultar o livro de Shenton e Bowman (1977), que fornece em toda sua
extensao detalhes destes calculos. Em especial, estes autores apresentam formulas gerais
e Var()
ate ordem n2 no caso multiparametrico, e para os quatro primeiros
para E()
momentos de ate as ordens n2 , n3 , n3 e n4 , respectivamente, no caso uniparametrico.
Neste caso, Ferrari et al. (1996) obtiveram EMV corrigidas ate segunda e terceira ordens e
compararam seus erros padrao. A partir da formula (5.4) para o vies de ordem n1 , podese, alternativamente, calcular o vies da EMV ate ordem n2 no caso multiparametrico
(caso realmente seja necessario) usando a tecnica jacknife (Cox e Hinkley, 1979, Secao
8.4).
Na decada de 90 varios artigos foram publicados apresentando expressoes matriciais
simples para os vieses das EMV em modelos de regressao. Estas expressoes sao faceis
de serem implementadas pois nao dependem do calculo dos cumulantes, sendo funcoes
apenas das caractersticas (de cunho estatstico) do modelo. Cordeiro e McCullagh (1991)
obtiveram uma formula matricial geral para os vieses de ordem n1 das EMV nos modelos
lineares generalizados. Cordeiro (1993) tambem obteve, em notacao matricial, formulas
22o Col
oquio Brasileiro de Matem
atica
125
5.4
Func
ao Densidade da EMV
Seja Y uma variavel aleatoria cuja funcao geratriz de cumulantes K(t) e conhecida. A
aproximacao ponto de sela para a funcao densidade fY (y) de Y e obtida da equacao (3.22)
fazendo n = 1, ou seja:
1
fY (y)=
q
2K 00 ()
y}
,
exp{K()
(5.7)
equacoes K 0 ()
A funcao geratriz de cumulantes aparece naturalmente nos modelos exponenciais uniparametricos dados por
fY (y; ) = exp{y b() + h(y)},
(5.8)
2J()
(5.9)
126
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
(5.10)
|J()|
(5.11)
(5.12)
A formula (5.11) pode incluir uma constante de proporcionalidade c() visando tornar sua
Esta constante e, tambem, invariante segundo
integral igual a um sobre o suporte de .
reparametrizacao. Barndorff-Nielsen (1983) examinou a validade da equacao (5.11) para
distribuicoes multiparametricas fora da famlia exponencial.
f (; y)=(n)
!n1
1 n/
e
,
(5.13)
22o Col
oquio Brasileiro de Matem
atica
127
fY (y; , ) =
3/2
1
e y
exp
2
2
+ y
y
!)
f (; y, ) =
n
1
2
1/2 exp n
n
/2)
2
2
(1 +
(1 +
,
)
y 1 ey/ /() .
= y e log (
) = log(y/
y ), onde y e y s
ao as medias aritmetica e geometrica
dos dados. Com alguma algebra, demonstra-se atraves de (5.11) que a func
ao densidade
f(, ; y) de = (
, )T admite a decomposic
ao
f(, ; y) = f1 (; , y)f2 (; y),
onde
f1 (; , y) =
!n
n1 exp(n
/)
128
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
e
f2 (; y) = {(
)()}n {
0 (
) 1}1/2 exp[n{(
)(
) + log }] .
A decomposicao acima revela que as EMV
e s
ao independentes ate a ordem considerada pela aproximacao (5.11). Adicionalmente, a aproximac
ao f1 (; , y) para a funcao
densidade de
e exata apos renormalizac
ao.
5.5
C
alculo de Probabilidades Baseado na Verossimilhanca
Para uma variavel aleatoria Y com funcao geratriz de cumulantes K(t), a equacao de
Lugannani e Rice (1980) para aproximar sua funcao de distribuicao FY (y) e dada por
1 1
,
FY (y) = P (Y y)=(z)
+ (z)
z v
(5.14)
K()}]
1/2 e v = K
00 ()
1/2 , sendo obtido de K 0 ()
= y. A
onde z = sinal()[2{
y
equacao (5.14) e usada rotineiramente para aproximar in
umeras funcoes de distribuicao
de variaveis aleatorias baseando-se nas suas funcoes geratrizes de cumulantes.
O uso direto das equacoes (5.10) e (5.11) para computar probabilidades requeridas na
inferencia atraves da verossimilhanca envolve integracao numerica. Entretanto, aproximacoes bem mais simples para calcular probabilidades do tipo P ( ; y) sao baseadas
na aproximacao (5.14) redefinindo as quantidades z e v. No caso de ser um escalar,
Barndorff-Nielsen (1990) e Fraser (1990) integraram a equacao (5.10) e deduziram uma
formula geral analoga `a equacao (5.14) para calcular a funcao de distribuicao de dado
22o Col
oquio Brasileiro de Matem
atica
129
{1 + O(n3/2 )} .
(5.15)
u=
com k() =
`(; y)
`(; y)
1 J()
1/2
k()
y
y
(5.16)
2 `(;y)
.
y
Para modelos exponenciais verifica-se de imediato que a quantidade u e igual `a es 1/2 . Uma forma alternativa para (5.16) segue de
tatstica de Wald W = ( )J()
F(; y) = (r ){1 + O(n3/2 )},
(5.17)
onde r = r + r1 log(u/r). A versao (5.17) pode, algumas vezes, ser mais precisa do que
a equacao (5.15) embora a diferenca seja mnima.
Uma das maiores aplicacoes praticas das equacoes (5.15) e (5.17) reside no calculo
de probabilidades associadas `a propria funcao de distribuicao da variavel aleatoria Y
proposta para os dados. Essas probabilidades sao calculadas atraves da aproximacao
FY (y; ) = P (Y y; )=P
( ; y) com P ( ; y) obtido das equacoes (5.15) ou
(5.17) fazendo n = 1. Assim, as probabilidades associadas a variavel aleatoria Y decorrem
A aproximacao (5.15) fornece bons resultados
daquelas probabilidades relativas a EMV .
na pratica, conforme ilustram os exemplos a seguir comparando as aproximacoes (r),
(5.15) e (5.17) com os valores exatos provenientes da funcao de distribuicao de Y .
130
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
y
exata
(r)
(5.15)
(5.17)
30
1,06
0,01
0,94
0,61
5
6,28
0,53
5,58
4,69
1
25,00
11,95
23,22
22,84
exato
0,6065
0,3679
0,0498
0,00674
0,000912
0,000123
(r)
0,7329
0,5000
0,0897
0,0144
0,00220
0,000329
(5.15)
(5.17)
0,6070
0,6043
0,3695
0,3670
0,0505
0,0500
0,00689 0,00681
0,000938 0,000926
0,000127 0,000126
22o Col
oquio Brasileiro de Matem
atica
131
Exemplo 5.10 Considere dois modelos da famlia exponencial definidos pelas funcoes
densidade seguintes:
Modelo
log gama com
parametro de forma
Func
ao densidade
()1 exp(y ey )
exp{(y ) ey }
log-gama
7
0,08
0,03
0,10
Func
ao densidade
1
(p) (y )p1 e(y)
logstico
ey (1 + ey )2
132
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
5.6
ep=3
7
10
2,96 0,28
1,28 0,10
3,06 0,29
=0
2
1
11,92 26,89
9,39 24,41
12,14 27,13
Correc
ao de Bartlett
22o Col
oquio Brasileiro de Matem
atica
133
b
fw (x) = fq (x) 1 +
2
!)
x
1
q
(5.18)
onde, de agora por diante, fq (x) representa a funcao densidade da variavel aleatoria 2q .
Note-se que fw (x) so depende da dimensao de , da funcao densidade fq (x) da distribuicao
2q de referencia e do termo de ordem n1 em E(w). De (5.18) e facil mostrar que a
funcao densidade de w = w/(1 + b/q) ou w(1 b/q), segundo H e ate termos de ordem
O(n1 ), e fw (x) = fq (x), o que comprova que a razao de verossimilhanca modificada
134
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
pela correcao de Bartlett tem distribuicao identica `a distribuicao 2q , exceto por termos
de ordem O(n2 ), como primeiro estabelecido por Lawley. Observa-se que (5.18) e uma
expansao do tipo (3.1) pois a constante b e de ordem O(n1 ). Assim, enquanto P (w
x) = P (2q x) + O(n1 ) tem-se o melhoramento P (w x) = P (2q x) + O(n2 ). O
erro da aproximacao 2q para a distribuicao de w e de ordem n1 , enquanto o erro desta
aproximacao para a distribuicao de w e reduzido para ordem n2 .
Pode-se escrever w na equacao (4.23) do teste de H : = (0) versus A : 6= (0)
como
)
`( (0) , )}
2{`( (0) , )
`( (0) , )},
w = 2{`(,
como antes
onde `( (0) , ) e a log-verossimilhanca avaliada no parametro verdadeiro e
e a EMV de restrita a = (0) . Lawley (1956) demonstrou que
)
`( (0) , )} = p + p ,
2E{`(,
(5.19)
(`rstu `rstuvw ),
(5.20)
(u)
(5.21)
(u)
(v)
(u)
+rtu (svw /4 (v)
sw ) + rt sw + rt sw } ,
onde os cumulantes 0 s sao definidos na Secao 5.2. A matriz de informacao total de Fisher
para tem elementos r,s = rs , sendo r,s = rs os correspondents elementos de sua
inversa. Os `0 s das equacoes em (5.21) sao, em geral, de ordem n1 . O valor esperado
`( (0) , )} segue expressao analoga `aquela de 2{`(,
)
`( (0) , )}, ou
de 2{`( (0) , )
`( (0) , )} = p q + pq + O(n2 ), com pq deduzido da equacao
seja, 2E{`( (0) , )
(5.20) observando, agora, que o somatorio daquela formula se estende apenas sobre as
componentes em , isto e, sobre os p q parametros de perturbacao, uma vez que esta
fixo em (0) .
22o Col
oquio Brasileiro de Matem
atica
135
p pq
.
q
(5.22)
()
()
()
()2
1 = { /4 + } { (5 /12 2 ) + 2 } .
(5.23)
136
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
(0)
e
2
w2 = 2{`(
,
) `(
,
(0)2
(0)
)} = n log
2
"
2 (0)
+
(0)2
respectivamente, onde
=
= y,
2 = (yi y)2 /n e
2 = (yi (0) )2 /n. Os
cumulantes 0 s para o calculo das correc
oes de Bartlett s
ao ent
ao deduzidos como no
exemplo 5.1. Usando as equacoes (5.20) e (5.21) pode-se obter E(w1 ) e E(w2 ) ate O(n1 )
considerando as somas sobre todas as componentes de = (, 2 )T e fazendo todos os
ndices iguais ao parametro 2 e ao par
ametro , respectivamente. Assim,
E(w1 ) = 1 +
, 2
e
E(w2 ) = 1 +
(`rstu `rstuvw ) (` ` ) .
, 2
E(w2 ) = 1 + 11/(6n),
22o Col
oquio Brasileiro de Matem
atica
137
138
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
Attfield (1991) e Cordeiro (1993) mostraram como corrigir os testes da razao de verossimilhanca em modelos heterocedasticos. Cordeiro, Paula e Botter (1994) obtiveram correcoes
de Bartlett para a classe dos modelos de dispersao proposta por Jrgensen (1987), generalizando os resultados de Cordeiro (1983, 1987) e Cordeiro e Paula (1989). Finalmente,
Cordeiro et al. (1995) apresentaram formulas gerais simples para as correcoes de Bartlett
em modelos exponenciais uniparametricos.
5.7
Estatsticas Aperfei
coadas tendo distribui
c
ao 2
Como foi apresentado nas Secoes 4.2 e 4.3, os testes escore e de Wald sao assintoticamente
equivalentes aos testes baseados na razao de verossimilhanca. Cordeiro e Ferrari (1991)
demonstraram que, sob condicoes gerais de regularidade como aquelas descritas na Secao
4.2, qualquer estatstica S cuja distribuicao assintotica e qui-quadrado pode ser aperfeicoada por um fator de correcao multiplicativo expresso como um polin
omio de grau k,
de modo que os momentos da estatstica modificada sejam identicos aos correspondentes
da distribuicao qui-quadrado de referencia, exceto por termos de ordem n2 . A estatstica
corrigida tem a forma S = S(1
Pk
i=1 ci S
i1
de tal maneira que a distribuicao de S sob a hipotese nula seja qui-quadrado (ate esta
ordem). O fator multiplicativo acima e denominado correc
ao tipo-Bartlett, sendo uma
extensao da classica correcao de Bartlett correspondente ao caso de k = 1. Apresenta-se
agora a demonstracao deste resultado.
Seja S uma estatstica arbitraria com a finalidade de testar uma hipotese nula composta cuja distribuicao assintotica, supondo esta hipotese verdadeira, e qui-quadrado com
q graus de liberdade, ou seja, sua funcao de distribuicao FS (x) satisfaz lim FS (x) = Fq (x),
n
k
X
i=0
ai Fq+2i (x),
(5.24)
22o Col
oquio Brasileiro de Matem
atica
139
onde os a0i s sao quantidades de ordem n1 . Na realidade, elas sao funcoes de parametros
desconhecidos. Para que a funcao FS (x) em (5.24) seja uma funcao de distribuicao ate
ordem O(n1 ) e necessario que a condicao
k
X
i=0
e de Wald apresentam expansoes do tipo (5.24) para suas funcoes de distribuicao com
k = 3, enquanto k = 1 para a razao de verossimilhanca.
Sejam as relacoes de recorrencia
Fq+2 (x) = Fq (x)
2x
fq (x)
q
e
fq+2 (x) =
onde fq (x) =
dFq (x)
dx
x
fq (x),
q
k
X
Ci xi ,
i=1
onde Ci = 201
i
k
X
a` para i = 1, . . . , k e
`=i
0i
E{(2q )i }
q
q
=2
+ i /
2
2
i
S =S 1
k
X
ci S
i1
(5.25)
i=1
Os c0i s sao determinados em (5.25) de maneira a satisfazer FS (x) = Fq (x) ate O(n1 ),
i.e., de modo que S tenha sob a hipotese nula distribuicao 2q ate esta ordem. O teorema
de Cox e Reid (Secao 3.7) aplicado `a expressao (5.25) produz a funcao de distribuicao de
S ate ordem n1 como
FS (x) = FS (x) + fS (x)
k
X
ci xi ,
i=1
onde fS (x) =
dFS (x)
.
dx
Uma vez que S tem distribuicao 2q ate O(n1 ), e que os c0i s sao
140
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
k
X
ci xi .
(5.26)
i=1
n
X
(ci Ci )xi .
i=1
A igualdade FS (x) = Fq (x) ate ordem n1 e satisfeita se, e somente se, ci = Ci para
i = 1, . . . , k. Consequentemente, a estatstica aperfeicoada
(
S = S 1 2
k
k
X
X
i=1
!
i1
a` 01
i S
(5.27)
`=i
tem distribuicao 2q ate ordem n1 sob a hipotese nula. O termo entre chaves na formula
(5.27) e denominado correcao tipo-Bartlett e objetiva melhorar a aproximacao da distribuicao da estatstica S pela distribuicao 2q . O melhoramento e no sentido de que
P (S x) = Fq (x) + O(n2 ) enquanto P (S x) = Fq (x) + O(n1 ), ou seja, baseando-se
o teste em S , o erro da aproximacao qui-quadrado e reduzido de O(n1 ) para O(n2 ). A
correcao tipo-Bartlett quando k > 1 nao e uma correcao de Bartlett genuna, pois envolve
a propria estatstica nao-modificada. Claramente, no caso da razao de verossimilhanca,
quando k = 1, a correcao em (5.27) se torna igual a um escalar que e a propria correcao
de Bartlett.
Os coeficientes a1 , . . . , ak necessarios para se obter S podem ser expressos como
funcoes dos termos de ordem O(n1 ) dos k primeiros momentos da estatstica naomodificada S (vide Cordeiro e Ferrari, 1998). Estes coeficientes sao calculados para
cada tipo de estatstica (razao de verossimilhanca, escore, Wald, Wald modificada, etc.)
atraves de formulas especiais como funcoes dos cumulantes conjuntos 0 s (vide Secao 5.2).
Formulas matriciais para os a0i s relativas aos testes escore sao dadas, em generalidade,
por Ferrari e Cordeiro (1994).
22o Col
oquio Brasileiro de Matem
atica
5.8
141
Os testes escore, tambem conhecidos como testes do multiplicador de Lagrange, sao bastante usados em Estatstica e Econometria como uma alternativa para os testes da razao
de verossimilhanca, principalmente quando a estimacao segundo a hipotese alternativa e
mais trabalhosa do que segundo a hipotese nula. Neste caso, os testes escore sao mais
simples pois requerem somente estimacao segundo a hipotese nula. Em tabelas de contingencia para analise de dados sob a forma de contagens, os testes usuais conhecidos como
2 de Pearson sao testes escore. As aplicacoes dos testes escore aparecem em modelos
lineares generalizados (Pregibon, 1982), em modelos de series temporais (Hosking, 1980,
1981 e Poskitt e Tremayne, 1981, 1982), em modelos de sobrevivencia (Lawless, 1982) e
em in
umeros modelos econometricos (Breusch e Pagan, 1980 e Engle, 1984).
Retorna-se aqui ao problema descrito na Secao 4.3 de testar a hipotese nula composta H : = (0) versus a hipotese alternativa composta A : 6= (0) , onde
= ( T , T )T , dim() = q e dim() = p q.
K() =
K
K
K
K
e K()1 =
K
K
A matriz de informacao
K
,
K
T ) e =
onde todas as submatrizes acima sao, em geral, funcoes de e . Sejam = (T ,
T )T as EMV irrestrita e restrita de , respectivamente. As funcoes avaliadas em
( (0)T ,
sao, como antes, denotadas com um til. A estatstica escore SR para testar H : = (0)
).
Como
U , onde U = U (,
versus A : 6= (0) pode ser expressa como SR = UT K
foi estabelecido na Secao 4.3, satisfeitas certas condicoes de regularidade como aquelas
da Secao 4.1.3, a distribuicao de SR converge em grandes amostras para a distribuicao 2q
sob a hipotese nula.
A expansao assintotica da funcao de distribuicao de SR segue a expansao (5.24) com
k = 3 (Harris, 1985). Para apresentar os seus coeficientes a0 , a1 , a2 e a3 , necessita-se
definir as seguintes matrizes particionadas conforme :
A=
0
0
1
0 K
e M = K 1 A,
1
Os elementos tpicos
onde K
representa a estrutura de covariancia assintotica de .
142
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
(i, j) de A e M sao denotados por aij e mij , respectivamente. Harris (1985) demonstrou
que
a0 = (A2 A1 A3 )/24, a1 = (3A3 2A2 + A1 )/24,
a2 = (A2 3A3 )/24 e a3 = A3 /24,
onde as quantidades A1 , A2 e A3 de ordem n1 sao dadas como funcoes dos cumulantes
conjuntos 0 s (Secao 5.2) por
A1 = 3(ijk + 2i,jk )(rst + 2rs,t )aij ast mkr
6(ijk + 2i,jk )r,s,t aij akr mst
+6(i,jk i,j,k )(rst + 2rs,t )ajs akt mir
6(i,j,k,r + i,j,kr )akr mij ,
A2 = 3i,j,k r,s,t akr mij mst
(5.28)
3
X
i0
complicadas para serem analisadas num contexto geral. Para modelos especiais, elas
podem sofrer reducao consideravel.
Determinando-se os A0i s para o modelo em consideracao, a estatstica escore aperfeicoada tem a representacao (5.27), ou seja,
SR = SR {1 (c + bSR + aSR2 )},
(5.29)
onde
a=
A3
,
12q(q + 2)(q + 4)
b=
A2 2A3
,
12q(q + 2)
c=
A1 A 2 + A3
.
12q
(5.30)
22o Col
oquio Brasileiro de Matem
atica
143
A correcao tipo-Bartlett em (5.29) para melhorar o teste de H : = (0) tem os coeficientes determinados pelas equacoes (5.30) e (5.28) como funcoes de cumulantes conjuntos
de derivadas da log-verossimilhanca. O teste escore aperfeicoado de H : = (0) pode
ser conduzido comparando a estatstica escore modificada SR com a distribuicao 2q de
referencia, sendo o erro da aproximacao qui-quadrado de ordem O(n2 ). No caso das
quantidades A1 , A2 e A3 envolverem parametros em , estes devem ser substitudos pelas
mas o erro da aproximacao 2 para a distribuicao nula de S
suas estimativas em
R
A1
,
12
A1 (q + 2) + 2A2
,
6
A1 (q + 2)(q + 4) + 4A2 (q + 4) + 8A3
03 (SR ) = q(q + 2)(q + 4) +
.
4
02 (SR ) = q(q + 2) +
(5.31)
As equacoes (5.31) podem ser usadas para calcular A1 , A2 e A3 quando os momentos 0r (SR ) de SR para r = 1, 2 e 3 forem mais facilmente determinados por primeiros
princpios.
Suponha agora o caso uniparametrico de testar H : = (0) versus A : 6= (0) , onde
a estatstica escore tem expressao SR = [U ()2 /E{U ()2 }]=(0) sendo U () = d`()/d a
funcao escore total para com o quociente em SR avaliado em = (0) . Para melhorar
o teste de H demonstra-se (Cordeiro e Ferrari, 1991) que as quantidades A1 , A2 e A3
em (5.28) sao dadas por A1 = 0, A2 = 34 /22 e A3 = 523 /32 , onde 2 = E{U ()2 }
e a informacao total de Fisher para e 3 = E{U ()3 } e 4 = E{U ()4 } 322 sao os
3/2
SR = SR 1
o
1 n
3(512 32 ) + (32 1012 )SR + 12 SR2 .
36
(5.32)
144
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
Func
ao Densidade
2y 3
N (, )
!1/2
G(, )
(y )2
exp
22 y
(
y 1 ey/ /()
Para estes tres modelos o interesse reside em testar a media H1 : = (0) versus
A1 : 6= (0) quando o parametro de dispers
ao 1 e desconhecido. O c
alculo dos cuoes (5.28) pode ser encontrado em Cordeiro e
mulantes conjuntos 0 s e dos A0i s das equac
Ferrari (1991). Apresentam-se, a seguir, as formas das estatsticas escore tradicional SR
e aperfeicoada SR nestes tres modelos:
Modelo normal N (, 1 ):
n2 (y (0) )2
SR = X
n
SR
1
1 (3 SR ) ;
2n
= SR
(0) 2
(yi )
i=1
n(0)
(0) 2
(yi ) /yi
"
SR = SR
1
5(0)
(0) 2
1
6 2+
SR +
SR
4n
)#
22o Col
oquio Brasileiro de Matem
atica
145
A3 = 20/(n),
Exemplo 5.15 Trabalha-se ainda com os tres modelos descritos no exemplo 5.14, onde
o interesse agora e testar o parametro de precis
ao H2 : = (0) versus A2 : 6= (0)
quando a media e desconhecida. Apresentam-se a seguir as formas das estatsticas SR
e SR nestes modelos:
Modelo normal N (, 1 ):
SR =
SR
n
X
1
{n (0) (yi y)2 }
2n
i=1
1
1
(33 34SR + 4SR2 ) ;
18n
= SR
SR = SR 1
)2
1
(33 34SR + 4SR2 ) ;
18n
146
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
3
,
(0)
n (1 (0) 00 )
A2 =
2
S R = SR 1
(3 11SR + 2SR ) .
18n
Os coeficientes desta estatstica podem, tambem, ser calculados das equac
oes (5.31), pois
neste caso os momentos ordinarios de SR ate O(n1 ) s
ao facilmente obtidos notando
que ny tem distribuicao gama com media n/ e ndice igual a 1, a saber: 01 (SR ) =
1, 02 (SR ) = 3 + 4/n e 03 (SR ) = 15 + 130/n. Substituindo em (5.31) obtem-se os A0i s e a
mesma expressao de SR dada anteriormente.
Recentemente, varios artigos tem sido publicados apresentando as estatsticas escore corrigidas (5.29) em classes amplas de modelos de regressao. Cordeiro, Ferrari e
Paula (1993) e Cribari-Neto e Ferrari (1995a) obtiveram correcoes tipo-Bartlett para
testes escore em modelos lineares generalizados com parametro de dispersao conhecido e
desconhecido, respectivamente. Correcoes similares para testes escore em modelos lineares heterocedasticos e em modelos nao-lineares da famlia exponencial foram obtidos por
Cribari-Neto e Ferrari (1995b) e Ferrari e Cordeiro (1996), respectivamente. No calculo
dessas correcoes tem sido mostrado atraves de estudos de simulacao que as estatsticas
escore modificadas por (5.29) sao melhores aproximadas pela distribuicao 2 de referencia
do que as estatsticas escore usuais. Uma revisao da literatura dos testes escore aperfeicoados e dada por Cribari-Neto e Cordeiro (1996).
22o Col
oquio Brasileiro de Matem
atica
5.9
147
Aplicac
oes `
a Famlia Exponencial
A famlia exponencial uniparametrica, constitui um dos modelos estatsticos mais importantes, incluindo muitas distribuicoes classicas. Alem de um amplo espectro de aplicacoes,
ela tem in
umeras propriedades interessantes (vide, por exemplo, Bickel e Doksum, 1977).
O objetivo desta secao e apresentar o calculo das correcoes de Bartlett para a razao de
verossimilhanca e tipo-Bartlett para a estatstica escore na famlia exponencial especificada por um u
nico parametro.
Considere um conjunto de n variaveis aleatorias iid com funcao densidade, ou no caso
discreto com funcao de probabilidade, definida na famlia exponencial uniparametrica
(y; ) = exp{()d(y) + v(y)}/(),
(5.33)
onde e um parametro escalar, (), (), d() e v() sao funcoes conhecidas e () e
positiva para todo no espaco de parametros. Admite-se que o conjunto suporte de
(5.33) e independente de e que () e () tem derivadas contnuas ate quarta ordem.
Varias distribuicoes importantes em termos de aplicacoes `a Economia, Engenharia, Biologia, Medicina, entre outras areas, sao membros da famlia (5.33), tais como as seguintes
distribuicoes: geometrica, Bernoulli, binomial, binomial negativa, Poisson, Poisson truncada, serie logaritmica, serie de potencias, zeta, hipergeometrica nao-central, Maxwell,
Erlang, exponencial, Rayleigh, Pareto, potencia, valor extremo, valor extremo truncada,
qui-quadrado e McCullagh (1989). Outras distribuicoes de dois parametros como normal,
gama, log-normal, log-gama, Laplace e Weibull podem ser consideradas pertencentes `a
famlia exponencial (5.33) supondo que um de seus parametros e conhecido.
O objetivo aqui e corrigir as estatsticas da razao de verossimilhanca e escore no teste
de H : = (0) versus A : 6= (0) , onde (0) e um valor especificado para . Seja
() = {d()/d}/{()d()/d}.
Verifica-se facilmente da funcao escore que E{d(y)} = (). A estimativa de maxima
148
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
As estatsticas w
verossimilhanca de e obtida iterativamente de n1 d(yi ) = ().
e SR para o teste de H podem ser expressas por
w = 2n(){(
)
e SR = n d()/d (() + d)2 /(d()/d) com = (0) , onde d = n1 d(yi ).
Seja U () = 0 d(y) 0 / a funcao escore relativa a uma u
nica observacao. Derivadas
em relacao a sao representadas por linhas. Observe-se que E{d(y)} = (). Sejam vr =
vr () = E{U (r1) ()} e v(r) = v(r) () = E{U ()r } para r = 1, 2, 3 e 4 e v2(2) = E{U 0 ()2 }.
Os vi0 s estao relacionados com os cumulantes 0 s da Secao 5.2. Usando as identidades de
Bartlett tem-se: v1 = 0, v(2) = v2 , v(3) = 2v3 3v20 e v(4) = 3v4 + 8v30 6v200 + 3v2(2) .
facil verificar atraves da funcao escore U () que v2 = 0 0 , v3 = 200 0 0 00 ,
E
v4 = 3(000 0 + 00 00 ) 0 000 e v2(2) = 002 0 /0 + 02 02 .
Inserindo as equacoes acima na formula (5.23) obtem-se a correcao de Bartlett para
definir a razao de verossimilhanca aperfeicoada w no teste de H : = (0) . Escreve-se
esta correcao como
cB = 1 +
()
,
12n
(5.34)
(5.35)
22o Col
oquio Brasileiro de Matem
atica
149
( 0 00 0 00 )2
3603 03
(5.36)
b=
150
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
(2 1)2
,
36m(1 )
b=
22( 1) + 7
,
36m( 1)
c=
(1 ) 1
.
6m( 1)
(ii) Poisson ( > 0, y = 0, 1, 2, . . .): () = log , () = exp(), d(y) = y, v(y) = log y!:
a = 1/(36), b = 7/(36), c = 1/(6).
(iii) Normal ( > 0, < < , < y < ):
(a) conhecido: () = (2)1 , () = 1/2 , d(y) = (y )2 , v(y) = {log(2)}/2: a = 2/9,
b = 11/9, c = 1/3.
(b) conhecido: () = /, () = exp{2 /(2)}, d(y) = y, v(y) = {y 2 + log(2)}/2:
a = 0, b = 0, c = 0.
(iv) Normal Inversa ( > 0, > 0, y > 0):
(a) conhecido: () = , () = 1/2 , d(y) = (y )2 /(22 y), v(y) = {log(2y 3 )}/2:
a = 2/9, b = 11/9, c = 1/3.
(b) conhecido: () = /(22 ), () = exp(/), d(y) = y,
v(y) = /(2y) + [log{/(2y 3 )}]/2: a = /(4), b = 5/(4), c = 0.
(v) Gama (k > 0, > 0, y > 0):
(a) k conhecido: () = , () = k , d(y) = y, v(y) = (k 1) log y log{(k)}: a = 1/(9k),
b = 11/(18k), c = 1/(6k).
(b) conhecido: (k) = 1 k, (k) = k (k), d(y) = log y, v(y) = y:
a=
00 (k)2
,
36 0 (k)3
b=
c=
22o Col
oquio Brasileiro de Matem
atica
5.10
151
Exerccios
1. Seja Yn uma variavel aleatoria que tende em distribuicao para uma variavel 2q
quando n . Seja fq (y) a funcao densidade de 2q . Demonstre que as expansoes
seguintes para as funcoes densidade fn (y) e geratriz de momentos Mn (t) de Yn sao
equivalentes ate O(n1 ):
(a) fn (y) = fq (y)(1 nc ) + fq+2 (y) nc ;
(b) fn (y) = fq (y){1 + nc ( yq 1)};
(c) Mn (t) = (1 2t)q/2 {1 +
2ct
(1
n
2t)1 }.
2c
)
nq
2c
)
nq
e a correcao de Bartlett de Yn .
00 (k)
,
2n 0 (k)2
onde ()
= /n;
(vii) Pareto: B()
= (1 )/(2n2 ).
(viii) Weibull: B()
152
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
5. Usando (5.10) calcule a aproximacao para a funcao densidade da EMV nas distribuicoes (i) (viii) da famlia exponencial (5.33) descritas na Secao 5.9.
6. A distribuicao de von Mises usada para analise de dados circulares e um membro
da famlia exponencial (5.33) onde ( > 0, 0 < < 2, conhecido, 0 < y < 2):
() = , () = 2I0 (), d(y) = cos(y ), v(y) = 0 e I () e a funcao de Bessel
(b)
de primeira especie e ordem . (a) Determine o vies de ordem n1 da EMV ;
Das equacoes (5.35) (5.36) encontre as correcoes de Bartlett e tipo-Bartlett para
melhorar as estatsticas da razao verossimilhanca e escore no teste de H : = (0)
versus A : 6= (0) ; (b) Deduza de (5.10) a aproximacao para a funcao densidade de
.
7. Para os modelos log-gama, gama e logstico descritos nos exemplos 5.10 e 5.11,
apresente formulas para aproximar P (Y y; ) baseadas em (5.15).
8. Caracterize as seguintes distribuicoes de um parametro: geometrica, binomial negativa, Poisson truncada, serie logaritmica, serie de potencias, Maxwell, Pareto,
Rayleigh, valor extremo, lognormal e potencia, como membros da famlia exponencial (5.33). (a) Deduza das equacoes (5.35) (5.36) as correcoes para melhorar os
testes da razao de verossimilhanca e escore (Cordeiro et al., 1995; Ferrari et al.,
1996). (b) Deduza formulas para os vieses de ordem n1 das EMV do parametro
que caracteriza estas distribuicoes.
9. Sejam n observacoes independentes y1 , . . . , yn de uma distribuicao de Poisson com
a estrutura log linear log i = + xi , i = 1, . . . , n. Suponha o teste de H :
= 0 versus A : 6= 0. Demonstre que a estatstica escore para este teste e
SR = ns2 (y s2 )1 e que A1 , A2 e A3 sao obtidos das equacoes (5.28) como: A1 =
0, A2 = 3(3 s4 /s22 )(n
)2 e A3 = 5s23 /(n
s32 ), onde sa =
n
X
i=1
(xi x)a /n e
= y.
22o Col
oquio Brasileiro de Matem
atica
153
Refer
encias
Attfield, C.L.F. (1991).
154
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
Bickel, P.J. e Doksum, K.A. (1977). Mathematical Statistics: Basic Ideas and Selected
Topics. Oakland: Holden-Day.
Bleistein, N. e Handelsman, R.A. (1975). Asymptotic Expansions of Integrals. Nova
York: Holt, Rinehart and Winston.
Breusch, T.S. e Pagan, A.R. (1980). The Lagrange multiplier test and its applications
to model specification in econometrics. Review of Economic Studies, 47, 239253.
Chandra, T.K. (1985).
22o Col
oquio Brasileiro de Matem
atica
155
Cordeiro, G.M. e Ferrari, S.L.P. (1998). A note on Bartlett-type corrections for the first
few moments of test statistics. J. Statist. Plan. Infer., 71, 261269.
Cordeiro, G.M. e Klein, R. (1994). Bias correction in ARMA models. Statist. Probab.
Lett., 19, 169176.
Cordeiro, G.M. e McCullagh, P. (1991). Bias correction in generalized linear models.
J.R. Statist. Soc. B, 53, 629643.
Cordeiro, G.M. e Paula, G.A. (1989). Improved likelihood ratio statistics for exponential
family nonlinear models. Biometrika, 76, 93100.
Cordeiro, G.M., Paula, G.A. e Botter, D.A. (1994). Improved likelihood ratio tests for
dispersion models. Int. Statist. Rev., 62, 257276.
Cox, D.R. e Hinkley, D.V. (1979). Theoretical Statistics. Nova York: Chapman and
Hall.
Cox, D.R. e Reid, N. (1987). Parameter orthogonality and approximate conditional inference (with discussion). J.R. Statist. Soc. B, 49, 139.
Cox, D.R. e Snell, E.J. (1968). A general definition of residuals (with discussion). J.R.
Statist. Soc. B, 30, 248278.
Cram
er, H. (1937). Random Variables and Probability Distributions. Londres: Cambridge University Press.
Cram
er, H. (1946). Mathematical Methods of Statistics. Princeton: Princeton University Press.
Cribari -Neto, F. e Cordeiro, G.M. (1996). On Bartlett and Bartlett-type corrections.
Econometric Reviews, 15, 339367.
Cribari -Neto, F. e Ferrari, S.L.P. (1995a). Second order asymptotics for score tests in
generalized linear models. Biometrika, 82, 426432.
Cribari -Neto, F. e Ferrari, S.L.P. (1995b). Bartlett-corrected tests for heteroskedastic
linear models. Econometric Letters, 48, 113-118.
156
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
22o Col
oquio Brasileiro de Matem
atica
157
Fisz, M. (1963). Probability Theory and Mathematical Statistics. Nova York: John
Wiley.
Fraser, D.A.S. (1968). The Structure of Inference. Nova York: John Wiley.
Fraser, D.A.S. (1988). Normed likelihood as saddlepoint approximation. J. Mult. Anal.,
27, 181193.
Fraser, D.A.S. (1990). Tail probabilities from observed likelihoods. Biometrika, 77, 65
76.
Harris, P. (1985). An asymptotic expansion for the null distribution of the efficient score
statistic. Biometrika, 72, 653659.
Hayakawa, T. (1977). The likelihood ratio criterion and the asymptotic expansion of its
distribution. Ann. Inst. Statist. Math. A, 29, 359378.
Hinkley, D.V., Reid, N. e Snell, E.J.(eds) (1991). Statistical Theory and Modelling.
Londres: Chapman and Hall.
Hosking, J.R.M. (1980). Lagrange multiplier tests of time-series model. J.R. Statist.
Soc. B, 42, 170181.
Hosking, J.R.M. (1981). Lagrange multiplier tests of multivariate time-series models.
J.R. Statist. Soc. B, 43, 219230.
Ibragimov, I.A. e Linnik, Yu.V. (1971). Independent and Stationary Sequences of Random Variables. Groningen: Wolters-Noordhoff.
Jeffreys, H. (1962). Asymptotic Approximations. Oxford: Oxford University Press.
Jensen, J.L. (1988). Uniform saddlepoint approximations. Adv. Appl. Prob., 20, 622
634.
Jrgensen, B. (1987). Exponential dispersion models (with discussion). J.R. Statist.
Soc. B, 49, 127162.
158
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
Kendall, e Rao, K.S. (1950). On the generalized second limit theorem in the theory of
probabilities. Biometrika, 37, 224.
Kolassa, J. e McCullagh, P. (1990). Edgeworth expansions for discrete distributions.
Ann. Statist., 18, 981985.
Lawley, D.N. (1956). A general method for approximating to the distribution of the
likelihood ratio criteria. Biometrika, 71, 233244.
Lawless, J.F. (1982). Statistical Models and Methods for Lifetime Data. Nova York:
John Wiley.
LeCam, L. (1956). On the asymptotic theory of estimation and testing hypotheses. Proc.
3rd Berkeley Symp., 1, 129156.
LeCam, L. (1970). On the assumptions used to prove asymptotic normality of maximum
likelihood estimates. Ann. Math. Statist., 41, 802828.
Lehmann, E.L. (1959). Testing Statistical Methods. Nova York: John Wiley.
Lehmann, E.L. (1983). Theory of Point Estimation. Nova York: John Wiley.
Lehmann, E.L. e Scheffe, H. (1950). Completeness, similar regions, and unbiased estimation, Part I. Sankhya, 10, 305340.
L
evy, P. (1937). Theorie de laddition des variables aleatoires. Paris: Gauthier-Villars.
Lugannani, R. e Rice, S. (1980). Saddlepoint approximation for the distribution of the
sum of independent random variables. Adv. Appl. Prob., 12, 475490.
McCullagh, P. (1984). Tensor notation and cumulants of polynomials. Biometrika, 71,
461476.
McCullagh, P. (1987). Tensor methods in Statistics. Londres: Chapman and Hall.
McCullagh, P. (1989). Some statistical properties of a family of continuous univariate
distributions. J. Amer. Statist. Assoc., 84, 125141.
22o Col
oquio Brasileiro de Matem
atica
159
McCullagh, P. e Cox, D.R. (1986). Invariants and likelihood ratio statistics. Ann.
Statist., 14, 14191430.
Mller, J. (1986). Bartlett adjustments for structured covariances. Scand. J. Statist.,
13, 115.
Paula, G.A. e Cordeiro, G.M. (1995). Bias correction and improved residuals for nonexponential family nonlinear models. Comm. Statist. Simul. Comput., 24, 1193
1210.
Porteous, B.T. (1985). Improved likelihood ratio statistics for covariance selection models. Biometrika, 72, 97101.
Poskitt, D.S. e Tremayne, A.R. (1981). An approach to testing linear time series models.
Ann. Statist. 9, 974986.
Poskitt, D.S. e Tremayne, A.R. (1982). Diagnostic tests for multiple time series models.
Ann. Statist., 10, 114120.
Pratt, J.W. (1968). A normal approximation for binomial, F, beta and other common
related tail probabilities. J. Amer. Statist. Assoc., 63, 14571483.
Pregibon, D. (1982). Score tests in GLIM with applications. Lecture Notes in Statistics,
14, 8797.
Rao, C.R. (1973). Linear Statistical Inference and Its Applications. Nova York: John
Wiley.
Reid, N. (1988). Saddlepoint methods and statistical inference. Statistical Science, 3,
213238.
Ross, W.H. (1987). The expectation of the likelihood ratio criterion. Int. Statist. Rev.,
55, 315330.
Serfling, R.J. (1980). Approximation Theorems of Mathematical Statistics. Nova York:
John Wiley.
160
Introduc
ao `
a Teoria Assint
otica Gauss M. Cordeiro
Shenton, L.R. e Bowman, K.O. (1977). Maximum likelihood Estimation in Small Samples. Londres: Charles Griffin.
Wilks, S.S. (1938). The large-sample distribution of the likelihood ratio for testing composite hypotheses. Ann. Math. Statist., 9, 6062.
Wilks, S.S. (1962). Mathematical Statistics. Nova York: John Wiley.
Wolfram, S. (1996). The Mathematica Book. New York: Addison-Wesley.