Modelos de Escolha Binaria

MODELOS DE ESCOLHA BINRIA
Introduo

Em muitas aplicaes do modelo de regresso linear, pressupe-se que a
varivel dependente uma varivel aleatria contnua e que tem por domnio o
conjunto dos nmeros reais.

Dois aspectos em que essa perspectiva se manifesta de modo bvio ocorrem na
interpretao dos coeficientes de regresso e nas hipteses quanto distribuio de
probabilidade da varivel explicada. Quando se escreve, a propsito de um coeficiente
de regresso
j
,

j
=
Y
X
j
,

presume-se, implicitamente, ser Y uma funo diferencivel em ordem a X
j
. De modo
anlogo, a hiptese da normalidade das perturbaes, em que assentam os
procedimentos usuais de inferncia, supe que a varivel dependente seja uma
varivel aleatria contnua.

Esses aspectos no so, contudo, essenciais na teoria do modelo de regresso
linear. Se, por exemplo, X
j
for uma varivel binria, caso em que a derivada parcial a
que se aludiu acima no definida, possvel modificar a forma de interpretao de
j

para acomodar essa situao. E, se no for normal a distribuio de probabilidade das
perturbaes, haver que modificar os procedimentos de inferncia, mas os resultados
fundamentais em matria de estimao no so afectados.

Existe, no entanto, uma grande variedade de situaes em que no defensvel
admitir que a varivel dependente tenha natureza contnua ou domnio real.

Em primeiro lugar, h casos em que a varivel dependente uma varivel
discreta: nmero de empresas falidas num ano, nmero de empregos criados ou
destrudos, nmero de balces de uma instituio de crdito, etc. O domnio da
varivel , nestes exemplos, o conjunto dos nmeros inteiros e a hiptese de
normalidade , claramente, inadequada.

Noutros casos, a varivel dependente no , sequer, quantitativa: ter ou no ter
casa prpria, deslocar-se para o trabalho de combio, de autocarro, a p, em viatura
prpria ou de outro modo, votar a favor, contra, ou abster-se numa deliberao, etc.
Conquanto seja habitual fazer-se corresponder nmeros inteiros s diversas categorias
(por exemplo, 1 posse de casa prpria e 0 ao caso contrrio), esses nmeros no

Modelos de Escolha Binria M. Mendes de Oliveira, Maio de 1998
traduzem verdadeiramente uma quantificao, mas constituem, antes, um dispositivo
de codificao essencialmente arbitrrio.

Em terceiro lugar, citem-se casos em que, conquanto a natureza de varivel
contnua seja aceitvel, no vlido admitir-se que Y tenha por domnio. Se a
varivel dependente for uma probabilidade, por exemplo, o domnio dever ser
restringido ao intervalo [0, 1].

Noutros casos, ainda, embora a varivel de interesse possa ser uma varivel
contnua, pode no ser observvel em todo o domnio. Num exerccio de tiro ao alvo,
a distncia a que a bala passa do centro s observada, tipicamente, para os projcteis
que embateram num raio limitado em torno do centro; quanto aos outros, sabe-se
apenas que a distncia excedeu esse raio. As restries observabilidade da varivel
podem ser ainda mais drsticas e limit-la a uma mera informao qualitativa, do tipo
"acertou" ou "no acertou".

Dispe-se, em Econometria, de uma gama muito vasta de modelos para
analisar problemas em que a varivel dependente discreta, qualitativa, limitada,
censurada ou truncada. Constituem objecto deste texto apenas alguns modelos
elementares dessa classe, os chamados modelos de escolha binria. Trata-se de
modelos cuja utilizao mais frequente em Economia teve por objectivo o estudo das
escolhas de um agente e em que a varivel dependente de natureza binria: a escolha
faz-se entre duas alternativas e uma, ou outra, tem de ser escolhida. Alm dos modelos
com varivel dependente discreta ou limitada, fora da anlise ficaro os modelos de
escolha multinomial, em que a escolha se faz entre mais de duas alternativas.

So muito numerosos os exemplos de emprego de modelos de escolha binria:

i) Em estudos da oferta de trabalho, frequente modelizar-se a deciso de
participao ou no na fora de trabalho como funo de uma srie vasta de atributos
individuais (sexo, grau de instruo, idade, etc.) ou familiares (estado civil, nmero e
idade dos filhos, rendimento do agregado, etc.) e, ainda, de atributos dos empregos
disponveis (remuneraes, horas de trabalho, etc.). A varivel dependente
codificada com o valor 1 se o i indivduo participa na fora de trabalho, ou com o
valor 0 em caso contrrio.

ii) Em estudos dos determinantes da aquisio de bens duradouros
(automveis, casas, etc.), tambm frequente relacionar-se a posse, ou no, de um
certo bem com factores explicativos como o rendimento, o preo, a taxa de juro, etc.

iii) Em estudos de comportamentos eleitorais, usam-se, para explicar a
verificao do acontecimento "o i indivduo votou no partido Z", ou da alternativa "o
i indivduo no votou no partido Z", variveis explicativas como o rendimento do
indivduo, o local de residncia, a religio ou outras.

iv) Em estudos da escolha de modos de transporte, a varivel dependente
poderia corresponder ao acontecimento "uso de transporte pblico" ou a "uso de
outros modos de transporte", em funo de variveis como os preos dos transportes,
o rendimento do utente, a distncia a percorrer, etc.


v) Em estudos de comportamentos migratrios, a deciso de emigrar, ou no,
explicada em funo dos salrios na regio de origem e na de destino, de
caractersticas pessoais dos migrantes, etc.

vi) Em estudos da procura de educao e, em particular, de educao superior:
concludo um curso de nvel secundrio, o indivduo escolhe entre o ingresso imediato
no mercado de trabalho ou a continuao dos estudos, em funo das oportunidades de
emprego, dos fluxos de rendimentos esperados numa e noutra alternativa, dos custos
da frequncia de uma universidade, etc.

vii) Em estudos sobre mercados monetrios e financeiros, tm sido analisadas
a probabilidade de recusa ou concesso de crdito pelas instituies financeiras e a
probabilidade de cumprimento ou incumprimento de obrigaes pelos devedores. A
informao disponvel, quanto varivel dependente, limitada s alternativas
"emprstimo concedido" vs. "emprstimo recusado", ou "prestaes cumpridas" vs.
"prestaes no cumpridas".

Modelos lineares de probabilidade

Considere-se a habitual equao de regresso linear

Y
i
=
1
+
2
X
2i
+
3
X
3i
+ ... +
k
X
ki
+ u
i
, [1]

ou, numa notao mais conveniente,

Y
i
= X
i
+ u
i
[2]

(em que X
i
o vector (1k) de componentes 1, X
2i
, X
3i
, ... , X
ki
e o vector (k1)
de coeficientes de regresso), e admita-se que Y
i
designa uma varivel binria
codificada com o valor 1 ou o valor 0. Usualmente, o valor 1 atribudo presena de
um certo atributo na i observao, enquanto o valor 0 atribudo sua ausncia.
Noutra perspectiva, podem ver-se os dois valores possveis como correspondendo
verificao, ou no, de um certo acontecimento pela i observao.

De acordo com o modelo estatstico subjacente s hipteses clssicas, num
processo de amostragem repetida, para uma mesma sequncia ordenada (X
2i
, X
3i
, ... ,
X
ki
) deveria ser possvel obter valores diferentes de Y. Na especificao em anlise,
seriam dois, apenas, os valores possveis: o acontecimento em causa seria observado
para alguns indivduos e ter-se-ia Y
i
= 1 , e no seria observado nos restantes
para os quais, Y
i
= 0.

Seja p
i
a probabilidade de verificao do acontecimento, isto ,
p
i
= Prob(Y
i
=1|X
2i
, X
3i
, ... , X
ki
) e, por conseguinte, seja 1p
i
a probabilidade de no
verificao do acontecimento. Ento, o valor mdio de Y
i
(condicional a X
2i
, X
3i
, ... ,
X
ki
), caso exista, ter de ser igual a p
i
:

E(Y
i
) = 0(1p
i
) + 1 p
i
= p
i
. [3]

Por conseguinte, se for E(u
i
) = 0 na equao [1], dever ter-se

E(Y
i
) =
1
+
2
X
2i
+
3
X
3i
+ ... +
k
X
ki
= p
i
. [4]

Sendo o valor mdio condicional de Y a probabilidade (condicional a X
2
, X
3
, ... , X
k
)
de Y = 1, modelos com esta estrutura so conhecidos por modelos lineares de
probabilidade ou pela sigla inglesa LPM (linear probability models).

De um ponto de vista terico, os modelos LPM apresentam alguns aspectos
insatisfatrios. Se o modelo for linear na varivel X
j
, e as derivadas abaixo existirem,
ento,

E(Y)
X
Prob(Y=1)
X
j j
j
= = ,

ou seja, tudo o resto igual, a probabilidade de verificao do acontecimento em anlise
afectada sempre de modo idntico por uma variao de X
j
, qualquer que seja o nvel
da varivel. Por exemplo, um aumento de 100 para 200 no rendimento de um
indivduo, tudo o mais constante, faria variar a probabilidade de aquisio de casa
prpria pelo mesmo montante em que o faria um aumento de 10000 para 10100.

Uma vez que E(Y) uma medida de probabilidade, ter de ser 0 E(Y) 1.
Mas difcil compatibilizar a restrio 0 E(Y) 1 com a possibilidade de variaes
absolutas constantes em E(Y) induzidas por variaes unitrias de uma varivel
explicativa. Se E(Y) uma funo linear de X
j
, inevitvel que, para alguns valores
de X
j
, E(Y) venha a situar-se fora do intervalo admissvel. Seria mais natural que,
exercendo X
j
um efeito positivo na probabilidade de ser Y = 1, esse efeito fosse
praticamente nulo para valores muito baixos ou muito altos de X
j
e fosse mais sensvel
para algum intervalo de valores intermdios da varivel. Isto , seria de esperar que
fosse

lim Prob(Y =1) =1
X
i
+

e
lim Prob(Y=1) = 0
X
i

.

Por outro lado, a aplicao de algumas das tcnicas de estimao e de anlise
estatstica comummente empregues com o modelo clssico de regresso linear suscita
dificuldades srias em modelos LPM:

Em primeiro lugar, ter de ser, como se viu, 0 E(Y) 1. Mas a estimao
pelo mtodo ordinrio de mnimos quadrados (OLS) dos coeficientes em [4] no
obedecer necessariamente a essa restrio, pelo que possvel que origine valores
estimados de Y negativos ou superiores unidade.

Em segundo lugar, no aceitvel a hiptese da normalidade para a varivel
dependente (que, recorde-se, uma varivel discreta), nem para a perturbao u
i
. Esta
poder assumir apenas dois valores,

1 (
1
+
2
X
2i
+
3
X
3i
+ ... +
k
X
ki
),

com probabilidade p
i
, ou

0 (
1
+
2
X
2i
+
3
X
3i
+ ... +
k
X
ki
),

com probabilidade 1p
i
, pelo que possuir uma distribuio binomial. A consequncia
mais importante de tal facto ser a de invalidar as tcnicas de inferncia estatstica
apresentadas anteriormente, em amostras de dimenso finita. O melhor que se poder
esperar que, em amostras de grande dimenso, os resultados obtidos com essas
tcnicas sejam uma boa aproximao aos verdadeiros.

Em terceiro lugar, no sustentvel a hiptese de homoscedasticidade
relativamente perturbao u. Uma vez que E(u
i
) = 0, ser Var(u
i
) = E(u
i
2
). Ora, u
i
2

poder apenas assumir dois valores,

[1 (
1
+
2
X
2i
+
3
X
3i
+ ... +
k
X
ki
)]
2
,

com probabilidade p
i
, e

[ (
1
+
2
X
2i
+
3
X
3i
+ ... +
k
X
ki
)]
2
,

com probabilidade 1p
i
, pelo que

E(u
i
2
) = [1 (
1
+
2
X
2i
+
3
X
3i
+ ... +
k
X
ki
)]
2
p
i
+

+ (
1
+
2
X
2i
+
3
X
3i
+ ... +
k
X
ki
)
2
(1p
i
).

Notando (da equao [4]) que

p
i
=
1
+
2
X
2i
+
3
X
3i
+ ... +
k
X
ki
,

fcil simplificar a expresso anterior para obter

Var(u
i
) = E(u
i
2
) = p
i
(1p
i
), [5]

com a implicao de heteroscedasticidade.

Conquanto as dificuldades citadas (no normalidade, heteroscedasticidade, no
obrigatoriedade de verificao de 0
Y 1) possam ser contornadas na estimao de

modelos LPM, tm maior voga nas aplicaes empricas outras formulaes que, do
ponto de vista terico, no apresentam inconvenientes como os que acima se
apontaram. Avultam, entre elas, os modelos habitualmente designados pelas
expresses probit e logit.


Modelos probit e logit

Uma abordagem mais satisfatria dos modelos em que a varivel dependente
dicotmica a que pressupe que a varivel Y, com Y = 1 ou Y = 0, apenas a
manifestao observvel de uma varivel no observvel Y* (dita varivel latente) tal
que

Y
i
*
=
1
+
2
X
2i
+
3
X
3i
+ ... +
k
X
ki
+ u
i
= X
i
+ u
i
[6]

e em que especificada uma regra de determinao de Y em funo de Y*. Essa regra
, tipicamente, da forma
1

Y
i
=
1
0
,
,
se Y 0
se Y 0
i
*
i
*
<
. [7]

Note-se que, nesta formulao, quer a varivel dependente latente, quer a perturbao
aleatria, podem ser validamente definidas como variveis aleatrias contnuas e o
carcter discreto reservado apenas para a contrapartida observvel da varivel de
interesse.

Pode conceber-se a varivel latente Y
i
*
como a diferena entre a utilidade, U
1i
,
que para o i indivduo teria a alternativa representada por Y
i
= 1 e a utilidade, U
0i
,
associada com a alternativa Y
i
= 0, isto ,

Y
i
*
= U
1i
U
0i
=
1
+
2
X
2i
+
3
X
3i
+ ... +
k
X
ki
+ u
i
.

O indivduo optaria pela primeira alternativa se U
1i
> U
0i
e pela segunda se U
1i
U
0i
,
ou seja, verificar-se-ia Y
i
= 1 ou Y
i
= 0 conforme fosse, respectivamente, Y
i
*
> 0 ou
Y
i
*
0.

Outra formulao possvel a que v Y
i
*
como um ndice da propenso do i
indivduo para a escolha de uma alternativa. Esse ndice poderia corresponder
diferena entre R
1i
, o rendimento ou benefcio marginal esperado se o indivduo fizer
a escolha da alternativa associada com Y = 1, e C
1i
, custo marginal dessa escolha. De
maneira anloga anterior, ter-se-ia agora

Y
i
*
= R
1i
C
1i
=
1
+
2
X
2i
+
3
X
3i
+ ... +
k
X
ki
+ u
i
,

Y
i
= 1 se R
1i
C
1i
(e, portanto, Y
i
*
0), ou Y
i
= 0 se Y
i
*
< 0.

1
A escolha da constante 0 como limiar de separao entre Y = 0 e Y = 1 , essencialmente,
arbitrria. O assunto discutido mais extensamente noutro ponto do texto.


Na classe de modelos caracterizada pelas relaes [6] e [7],

Prob(Y
i
= 1) = Prob( Y
i
*
> 0) =
= Prob(
1
+
2
X
2i
+
3
X
3i
+ ... +
k
X
ki
+ u
i
> 0) =
= Prob(u
i
> X
i
)

e, por conseguinte,

Prob(Y
i
= 0) = Prob(u
i
X
i
).

Ento, sendo u
i
uma varivel aleatria com funo de distribuio F(.), vem

Prob(Y
i
= 0) = F( X
i
),
[8]
Prob(Y
i
= 1) = 1 F( X
i
).

As duas escolhas mais comuns para a forma funcional de F(.) so as que
correspondem distribuio normal reduzida e distribuio logstica. No modelo
probit, postulado que u
i
tem distribuio normal reduzida e F(.) designa, ento, a
funo de distribuio normal,

(x) =
1
2
1
2
2
e dt
t
x
} ; [9]

a funo de densidade de probabilidade associada dada, como sabido, por

(x) =
d (x)
dx
= e
x 1
2
1
2
2
. [10]

No modelo logit, a escolha de F(.) recai em

(x) =
1
1+ e
-x
, [11]

a funo de distribuio de uma varivel logstica de mdia nula e varincia
2
3
. A
funo de densidade da logstica

(x) =
d (x)
dx
=
e
e
-x
-x
( ) 1
2
+
; [12]

fcil verificar que (x) = (x) [1 (x)].

As duas distribuies consideradas tm caractersticas de simetria de que
resultam algumas propriedades interessantes. Uma delas, por exemplo, a de que


F(x) = 1 F(x),

designe F(.) a funo em [9] ou a funo em [11]. Isso explica por que possvel dar
s expresses em [8] um aspecto diferente:

Prob(Y
i
= 0) = 1 F(X
i
),
[13]
Prob(Y
i
= 1) = F(X
i
).

Do confronto da ltima destas equaes com a equao de regresso dos
modelos LPM fcil concluir que, nestes, se procede, implicitamente, como se fora
F(X
i
) = X
i
. No difcil identificar concretizaes de X
i
e para as quais se
tenha X
i
> 1 ou X
i
< 0, em violao do requerido para uma probabilidade. Ao
invs, a prpria especificao dos modelos probit e logit garante (por ser 0 F(X
i
)
1, quaisquer que sejam X
i
e ) que tal nunca suceder.

Por outro lado, os coeficientes integrados no vector nos modelos probit e
logit no tm a interpretao usual dos modelos de regresso linear. De facto, tem-se,
usando [13],

E(Y
i
) = 0[1 F(X
i
)] + 1 F(X
i
),

ou seja,

E(Y
i
) = F(X
i
). [14]

Portanto,

E(Y

i
)
X '
i
=
d F(
d(
( ) X
X
X
X
i
i
i
i
'

)
)
= f(X
i
) , [15]

em que f(.) designa a funo de densidade correspondente funo de distribuio
F(.).

Na equao [15], o primeiro membro um vector-coluna de derivadas
parciais, de que a componente genrica , supondo que E(Y
i
) uma funo linear de
X
j
,

(
E
X
ji
Y )
i
= f(X
i
)
j
. [16]

Resulta de [16] que, nos modelos probit e logit,
j
no mede necessariamente o efeito
marginal de X
j
sobre E(Y) (ou, o que o mesmo, sobre Prob(Y = 1)). Relembre-se,
contudo, que continua a ser, salvo no linearidade em relao a X
j
,


E(Y
X
i
*
ji
)
=
j

para qualquer i e qualquer j, relativamente varivel no observvel Y*, semelhana
do que ocorria na generalidade dos modelos de regresso estudados anteriormente.

Trs factos merecem realce em [16]:

i) O efeito marginal de X
j
sobre Prob(Y = 1) varivel de indivduo para
indivduo (devido presena de X
2i
, ..., X
j
i
, ..., X
ki
em f(X
i
)).

ii) Esse efeito tambm varivel com X
j
; isto , para o mesmo indivduo, esse
efeito ser diferente de um valor de X
j
i
para outro.

iii) Por ltimo, note-se que, para o i indivduo, os efeitos marginais descritos
em [16] dependem, alm do coeficiente associado, de um factor de proporcionalidade
idntico, f(X
i
), qualquer que seja o regressor (X
2
, ou X
3
, etc., ou X
k
) considerado.
Uma vez que esse factor , geralmente, positivo (recorde-se que f(.) designa uma
funo de densidade), pode concluir-se que uma variao infinitesimal de X
j
i
, tudo o
resto igual, induz uma variao positiva ou negativa na probabilidade de ser Y = 1,
conforme for positivo ou negativo o coeficiente
j
.

Em concluso, enquanto na generalidade dos modelos de regresso linear a
estimativa de um coeficiente fornece indicao sobre o sentido, positivo ou negativo,
da influncia de uma varivel explicativa, X
j
, e sobre a grandeza dessa influncia
(idntica para todos os indivduos e, salvo no linearidade relativamente s variveis
independentes, independente do valor de X
j
), nos modelos probit e logit a estimativa
apenas d, de imediato, informao sobre o sentido da influncia. Informao sobre a
grandeza do efeito requerer clculos adicionais, que conduziro, geralmente, a
resultados diferentes de indivduo para indivduo e dependentes do valor de X
j
.

Embora, de um ponto de vista terico, seja mais fcil justificar a adopo da
especificao normal para a funo F(.), a especificao que conduz anlise logit
tem sido a utilizada com maior frequncia, por razes que se prendem com a
simplicidade da expresso analtica da sua funo de distribuio (por contraste com o
integral requerido em [9]) e com a facilidade de clculo na fase de estimao. As
distribuies normal e logstica tm grande semelhana para argumentos na
vizinhana de 0, e nas abas da distribuio que a diferena mais perceptvel, com a
logstica a apresentar abas "mais espessas". Para amostras em que a proporo de
observaes com Y = 1 e a proporo com Y = 0 sejam equilibradas, no de esperar
grandes diferenas de resultados entre as duas especificaes.

As vantagens calculatrias da opo pelo logit so bvias se se notar que,
sendo


E(Y) = Prob(Y = 1) =
1
1+ e
-x

e, por conseguinte,

Prob(Y = 0) = 1
1
1+ e
-x
=
e
e
-x
-x
1+
,
vem

Prob(Y = 1)
Prob(Y = 0)
= e
x

e
ln
Prob(Y=1)
Prob(Y= 0)
|
\
|
.
| = x.

Tendo presente que o argumento x nas expresses acima , neste contexto, X
i
,
conclui-se que

ln
Prob(Y =1)
Prob(Y = 0)
i
i
|
\
|
.
| = X
i
=
1
+
2
X
2i
+
3
X
3i
+ ... +
k
X
ki
, [17]

com a varivel no primeiro membro da equao a exibir linearidade relativamente aos
coeficientes de interesse. Essa varivel o logaritmo natural da razo de
probabilidades (odds ratio, na expresso em ingls). A razo de probabilidades tem
uma interpretao sugestiva: se as probabilidades dos acontecimentos Y = 1 e Y = 0
fossem, respectivamente, 0,8 e 0,2, dir-se-ia que "as chances so de 4 para 1" em favor
da verificao do acontecimento a que corresponde Y = 1.

Se o logaritmo da razo de probabilidades fosse observado (excepto por uma
perturbao aleatria), a equao em [17] poderia servir de base a uma regresso
linear com as caractersticas habituais. Veja-se que esse logaritmo uma varivel
contnua que assume valores de a +, medida que a probabilidade do
acontecimento varia de 0 a 1. A simplicidade da equao [17] contrasta com

Prob(Y
i
= 1) =
1
1
2
+
+ +
e
-( X ...+ X
1 2 i k ki
)
, [18]

em que patente a no linearidade da varivel do primeiro membro relativamente aos
coeficientes
1
,
2
, ...,
k
. Se o objectivo for a estimao das probabilidades em [18],
uma estratgia a considerar seria a de basear numa equao como [17] a estimao dos
coeficientes e, depois, usar essas estimativas na expresso [18].

Estimao de modelos lineares de probabilidade

Admita-se disponvel uma amostra de observaes (X
2i
, X
3i
, ..., X
ki
), i = 1, 2,
..., n, com a informao, para cada uma das observaes, sobre a verificao do
acontecimento em apreo, codificada pela atribuio dos valores 1 ou 0 a Y
i
. O
modelo pode ser escrito na forma habitual,

Y = X + u,

em que X a matriz (nk) cuja i linha o vector X
i
que se definiu acima,

X =
X
X
. . .
X
1
2
n
(
(
(
(
,

e Y um vector (n1) de componentes Y
1
, Y
2
, ..., Y
n
, iguais, no caso, ou a 0, ou a 1.

Desde que X tenha caracterstica igual ao nmero de colunas, k, possvel
calcular estimativas de por OLS segundo
= (X'X)
-1
X'Y e, a partir delas,
estimativas de Prob(Y
i
= 1) de acordo com

Pr ( ) ob Y
i
=
1 = X
i
.

Como j se afirmou, no est garantido que as estimativas da probabilidade assim
obtidas pertenam, para todo i, ao intervalo [0; 1].

As perturbaes aleatrias em u so heteroscedsticas e, por razes j
conhecidas, o estimador OLS de no eficiente. Sabe-se (de [5]) que Var(u) ser
uma matriz diagonal, em que o i elemento da diagonal principal

Var(u
i
) = p
i
(1p
i
) = X
i
(1 X
i
). [19]

Uma vez que Var(u
i
) depende do vector , desconhecido, o estimador generalizado de
mnimos quadrados (GLS), que seria o estimador linear e cntrico de varincia
mnima, no exequvel. O estimador exequvel (EGLS)

EGLS
= {X' [ Var u ( )
]
-1
X}
-1
X' [ Var u ( )
]
-1
Y, [20]

em que, por Var u ( )
, se designou um estimador da matriz diagonal Var(u).

Esse estimador pode ser construdo substituindo em [19] por

OLS
. O
procedimento equivaleria a, inicialmente, estimar por OLS, utilizar as estimativas
dos coeficientes para formar estimativas das varincias em [19] e, por ltimo, a

reestimar por EGLS. Embora no cntrico em amostras finitas, o estimador assim
definido consistente. Contudo, para as observaes em que seja X
i
0 ou X
i

1, a estimativa da varincia segundo [19] conduzir a valores negativos ou nulos. Na
literatura, dois procedimentos ad hoc que tm sido usados para lidar com o problema
consistem na excluso das observaes em que tal suceda, ou na substituio de X
i

por um nmero prximo de 0 (v.g., 0,01), quando X
i
0, ou por um nmero
prximo de 1 (v.g., 0,99), se X
i
1.

Em amostras de configurao peculiar, possvel recorrer a uma variante,
proposta por Goldberger, do procedimento de estimao que se acaba de descrever. A
configurao em causa requer que, para cada sequncia ordenada (X
2i
, X
3i
, ..., X
ki
)
haja multiplicidade de observaes. Ento, possvel calcular, para cada grupo de
observaes que apresentam exactamente os mesmos valores para todas as variveis
explicativas, a proporo das observaes em que Y = 1, e utiliz-la como estimativa
da probabilidade (condicional a X
2
= X
2i
, X
3
= X
3i
, ..., X
k
= X
ki
) de verificao do
acontecimento em causa. Essa proporo, que se designar por p
i
, poder assumir
valores diferentes de 0 e 1. Pelo contrrio, numa amostra em que no houvesse
nenhum par de observaes "repetidas" (isto , com os mesmos valores para as
variveis explicativas), todas as propores assim calculadas teriam de ser ou 0, ou 1.

Uma ilustrao do tipo de amostra referido ocorre em estudos sobre a escolha
de modos de transporte. Suponha-se que, para cada indivduo, i, e para cada um de n
i

dias teis de certo ms, registado o modo de transporte empregue, pblico ou
privado. As variveis que determinam a escolha (rendimento do indivduo, distncia
da residncia ao trabalho, etc.) assumem valores imutveis para as n
i
observaes
relativas a uma pessoa inquirida, mas o modo de transporte utilizado pode no ser
sempre o mesmo e verificar-se que houve recurso aos transportes pblicos em, por
exemplo, 30% das deslocaes efectuadas.

O expediente que esta configurao da amostra viabiliza o da substituio da
srie de 0's e 1's de valores de Y na amostra original por uma srie de propores p
no intervalo real [0, 1]. Se as n
i
observaes relativas ao i indivduo no dia t (t = 1, 2,
..., n
i
) obedecem a

Y
it
=
1
+
2
X
2it
+
3
X
3it
+ ... +
k
X
kit
+ u
it
,

em que Y
it
= 1 ou Y
it
= 0, X
jit
= X
jit'
, para quaisquer t, t' = 1, 2, ..., n
i
e j = 2, 3, ..., k, e
u
it
uma perturbao aleatria de mdia nula e varincia p
i
(1p
i
), somando essas
observaes e dividindo por n
i
, obtm-se

i
n
1 = t
it
n
Y
i
=
1
+
2
X
2i
+
3
X
3i
+ ... +
k
X
ki
+
i
n
1 = t
it
n
u
i
.

Para n
i
finito, a varivel no primeiro membro desta equao a proporo p
i
e a
perturbao no segundo membro, que se designar por u
i
, tem valor esperado nulo e
varincia dada por p
i
(1p
i
)/n
i
.

Suponha-se que se formaram, a partir das observaes originais e de acordo
com a regra explicada acima, n observaes agrupadas (uma por cada indivduo
inquirido, na ilustrao) e que se calculou p
i
para cada um desses grupos. Seja p o
vector-coluna em que se reuniram essas n propores e u o vector-coluna das
perturbaes correspondentes. Ento,

p = X + u. [21]

O estimador OLS de seria dado por

OLS
= (X' X)
1
X' p ; [22]

como se sabe, conquanto cntrico e consistente, esse estimador no eficiente. Uma
alternativa seria o estimador GLS de dado por

GLS
= {X' [Var( u)]
1
X}
1
X' [Var( u)]
1
p, [23]

com Var( u) a designar uma matriz diagonal em que o elemento genrico da diagonal
principal p
i
(1p
i
)/n
i
,

Var( u) = diag[p
1
(1p
1
)/n
1
, p
2
(1p
2
)/n
2
, ..., p
n
(1p
n
)/n
n
] .

Uma vez que as probabilidades p
i
no so observadas, o estimador GLS exequvel a
empregar seria

EGLS
= {X' [
Var u ( ) ]
1
X}
1
X' [
Var u ( ) ]
1
p , [24]

em que
Var u ( ) designa um estimador de Var( u). Oferecem-se duas vias para a

construo desse estimador: corresponde uma utilizao directa das propores
amostrais,

Var u ( ) = diag[ p
1
(1 p
1
)/n
1
, p
2
(1 p
2
)/n
2
, ..., p
n
(1 p
n
)/n
n
]; [25]

parece prefervel uma segunda via em que essas propores seriam substitudas pelas
estimativas resultantes da estimao da equao [21] por OLS,

p = X

OLS
,
e
Var u ( ) = diag[
p
1
(1
p
1
)/n
1
,
p
2
(1
p
2
)/n
2
, ...,
p
n
(1
p
n
)/n
n
]. [26]


Os estimadores definidos por [24] e [26] sero, geralmente, consistentes e
assimptoticamente eficientes.

Embora o procedimento que se acaba de descrever para amostras com
observaes repetidas permita, ao substituir uma varivel dependente dicotmica por
outra, contnua no intervalo [0, 1], minorar o problema da possvel obteno de
estimativas de probabilidades fora desse intervalo, no o resolve por completo.
Quando isso acontece, no sequer possvel construir a estimativa de Var( u)
segundo [26], devido presena de estimativas (de varincias) negativas. Se certo
que com a frmula em [25] tal no sucede, uma vez que se trata de propores
amostrais, no raro que entre essas propores se incluam algumas que so iguais a
0 ou a 1; nesse caso, haver elementos nulos na diagonal principal da matriz da
equao [25], essa matriz no ser invertvel e, por consequncia, as estimativas GLS
definidas em [24] no so determinadas.

Estimao de modelos probit e logit

Seja o modelo

Y
i
*
=
1
+
2
X
2i
+
3
X
3i
+ ... +
k
X
ki
+ u
i
= X
i
+ u
i
,

em que um vector de parmetros a estimar. Apesar da linearidade de Y
i
*

relativamente a , a equao no pode servir de base estimao, porquanto a varivel
dependente no observvel. Observvel uma varivel dicotmica Y tal que

Y
i
=
1
0
, )
, )
com probabilidade F(
com probabilidade 1 - F(
X
X
i
i

,

conforme se viu atrs (equaes [13]). Seja F(.) uma ou outra das funes de
distribuio que se consideraram atrs, F(X
i
) no funo linear de e a estimao
pelos mtodos habituais no contexto do modelo de regresso linear no possvel.

A estimao de modelos probit ou logit feita, geralmente, pelo mtodo da
mxima verosimilhana. Admita-se disponvel uma amostra aleatria em que h n
0

observaes com Y
i
= 0 e n
1
(= n n
0
) observaes em que Y
i
= 1. A funo de
verosimilhana dada por

L =
0
Prob(Y
i
= 0)
1
Prob(Y
i
= 1),

em que
0
pretende significar o produto iterado das n
0
observaes para as quais
Y
i
= 0, enquanto
1
corresponde ao produto iterado das n
1
observaes restantes.
possvel dar funo de verosimilhana uma expresso com notao mais simples,
fazendo uso do facto de que Y apenas assume os valores 0 e 1:

L =
[ ] [ ]
{ }
Prob(Y Prob(Y
i
1 Y
i
Y
i=1
n
i i
= =

0 1 ) )

ou, substituindo pelas expresses apropriadas,

L =
[ ] [ ]
{ }
1 F( F(
1 Y Y
i=1
n
i i

X X
i i
) ) . [27]
2

Os estimadores de mxima verosimilhana do vector so as funes de
valores amostrais que maximizam L em ordem a . Como se sabe, geralmente mais
fcil determinar o mximo da funo logartmica de verosimilhana,

ln L =
[ ] [ ] { }
( ) ) ) 1 Y ln 1 F( Y ln F(
i i
i=1
n
+ X X
i i
. [28]

Os estimadores de mxima verosimilhana dos parmetros do modelo (probit ou
logit) so os que maximizam a funo L e, por implicao, tambm a funo em [28].

A condio usual para resoluo do problema requer o anulamento das k
derivadas parciais de primeira ordem, ou seja, requer

ln

j
L
= 0, j = 1, 2, ..., k. [29]

A condio de 2 ordem, por sua vez, ser preenchida se, na vizinhana do ptimo, for
negativa definida a matriz das derivadas parciais de 2 ordem de ln L em ordem a .

O sistema de k equaes em [29] no linear em
1
,
2
, ...,
k
, e no
possvel, por isso, definir por uma expresso analtica a soluo do problema, seja F(.)
a funo de distribuio normal dos modelos probit ou a funo logstica dos modelos
logit. Note-se, contudo, que a primeira classe de modelos , do ponto de vista
calculatrio, bastante mais difcil de tratar, por envolver a avaliao de n integrais.
Esse um dos factores que, antes do advento de meios de clculo automtico
poderosos, tornava popular o recurso especificao logit em detrimento do probit.
Hoje em dia, sabe-se que cncava a funo de verosimilhana para ambas as classes
de modelos e que, por consequncia, o mximo da funo nico (se existir um
mximo); e h j software adequado para determinao desse mximo sem grande

2
Embora se tenha usado, nas expresses acima, o smbolo L, simplesmente, para facilitar a
notao, deve ter-se presente que L se refere a uma funo dos parmetros do modelo, dados os valores
amostrais das variveis. Entre os parmetros do modelo incluem-se, de modo bvio, os coeficientes das
variveis explicativas que so as componentes de , e, eventualmente, tambm os parmetros da matriz
de varincias e covarincias das perturbaes. Entenda-se, portanto, que
L L( | X
1
, X
2
, ..., X
n
,Y
1
, Y
2
, ..., Y
n
).

custo. No se entrar aqui, contudo, nos pormenores dos mtodos de optimizao
numrica que permitem a identificao do mximo.

instrutivo, no entanto, e til para um desenvolvimento a apresentar adiante,
analisar neste contexto a formulao mais simples possvel do problema, aquela em
que o vector tem uma nica componente,
1
. Ter-se-, nesse caso,

ln L = [ ] [ ] { }
( ) ) ) 1 Y ln 1 F( Y ln F(
i i
i=1
n
+
1 1
,

e, pela condio de 1 ordem,

d ln
d
1
L
= 0
( )
)
)
)
)
1 Y
f(
1 F(
Y
f(
F(
i i
i=1
n

`
)
1
1
1
1
= 0

(recorde-se que
d F(
d
1
1
)
= f(
1
), por definio de funo de densidade)

f(
F(
Y
f(
1 F(
1 Y
i i
i=1
n
i=1
n
1
1
1
1
)
)
)
)
( )
= 0

n
f(
F(
1
1
1
)
)
= (n n
1
)
f(
1 F(
1
1
)
)

(usando a conveno introduzida anteriormente de simbolizar por n
1
o nmero de
observaes com Y
i
= 1 e por n
0
(n
0
= n n
1
) o nmero de observaes com Y
i
= 0)

F(
1
) =
n
n
1
. [30]

O valor mximo da funo logartmica de verosimilhana, atingido quando
1

satisfizer a condio em [30], ser

ln L
0
= ( ) 1 Y ln 1
n
n
Y ln
n
n
i
1
i
1
i=1
n

(
+

`
)
;

aps simplificao,

ln L
0
= n ln
n
n
n ln
n
n
0
0
1
1
+ . [31]

Note-se que os resultados em [30] e [31] foram obtidos sem que alguma vez se
particularizasse se F(.) se referia a uma distribuio normal reduzida ou funo
logstica, pelo que so vlidos para ambos os casos.

A interpretao de [30] , no entanto, diferente nos dois casos. Num modelo
probit, o estimador de mxima verosimilhana de
1

1
tal que

(

1
) =
1
2
1
2
2 1
e dt
t
=
n
n
1
; [32]

num modelo logit, o estimador de mxima verosimilhana de
1

1
tal que

(

1
) =
1
1
1
+

e

=
n
n
1
,

donde resulta
1
= ln
n
n
1
0
. [33]

Por exemplo, se for de 50% a percentagem de observaes com Y = 1 na amostra, a
estimativa de mxima verosimilhana de
1
ser igual a 0, quer se trate de um modelo
probit ou de um logit.

Prova-se que, sob certas condies, os estimadores de mxima verosimilhana
so consistentes e tm distribuio assimpttica normal, que pode ser aproximada, em
amostras finitas, por uma distribuio normal de mdia e matriz de varincias e
covarincias
Var(
ML
) =

2
1
lnL
'
|
\
|
.
|

, [34]

em que a matriz das derivadas parciais de 2 ordem indicada na expresso deve ser
entendida como avaliada para =

ML
.
3

Embora, com o software modernamente disponvel, a estimao de modelos
probit e logit pelo mtodo da mxima verosimilhana no suscite dificuldades de
maior, possvel, apenas para o logit e para amostras com observaes repetidas
como se descreveu atrs, recorrer tambm estimao por mtodos de mnimos
quadrados. Recordando (ver equao [17]) que

3
H outras aproximaes possveis matriz Var(

ML
); a escolha por uma ou outra
aproximao depende, geralmente, do algoritmo usado na busca do mximo da funo, questo que no
ser discutida neste texto.

ln
p
1 p
i
i
|
\
|
.
| = X
i
=
1
+
2
X
2i
+
3
X
3i
+ ... +
k
X
ki
,

ocorre imediatamente que poderia obter-se estimativas OLS dos coeficientes, por
ajustamento de

ln
p
1 p
i
i
|
\
|
.
| =
1
+
2
X
2i
+
3
X
3i
+ ... +
k
X
ki
+ erro,

desde que nenhuma das propores amostrais p
i
fosse igual a 0 ou a 1. Em amostras
sem observaes repetidas, o uso desse expediente est, evidentemente, excludo.

Avaliao de resultados e anlise estatstica

As classes de modelos LPM, probit e logit tm em comum o facto de, neles, a
varivel dependente ser uma varivel qualitativa com dois estados possveis, a que,
habitualmente, se faz corresponder o smbolo 1 ou o smbolo 0. Dispondo-se de uma
amostra aleatria de observaes (X
2i
, X
3i
, ..., X
ki
), i = 1, 2, ..., n, e ainda, para cada
observao, de informao sobre a qual dos dois grupos possveis pertence, seria
concebvel proceder-se estimao, com os mesmos dados, de um LPM (por OLS),
de um probit, ou de um logit (por mxima verosimilhana). Que comparao se pode
estabelecer entre os resultados segundo as trs especificaes?

No que toca a estimativas dos coeficientes, as comparaes feitas tendem a
sugerir a validade aproximada das relaes seguintes, para as estimativas obtidas num
LPM,
j
,LPM
, e num modelo logit,
j
,L
:

1
,LPM
0,25
1
,L
+ 0,5,

para o termo independente, e

j
,LPM
0,25
j
,L
, j = 2, 3, ..., k,

para os coeficientes das variveis independentes.

Por sua vez, as estimativas obtidas por probit,
j
,P
, e por logit,
j
,L
, tendem a
verificar, aproximadamente,

j
,L
1,6
j
,P
, j = 2, 3, ..., k,

em que o factor 1,6 est associado com a desigualdade da varincia das perturbaes
nos modelos logit (
2
/3) e probit (1).

Um segundo elemento de comparao dos resultados o que respeita s
estimativas das probabilidades. Quanto a esse aspecto, os modelos LPM, de um lado,
e os modelos probit e logit, do outro, podem produzir resultados radicalmente
diferentes. Como j se apontou, pode acontecer, com os primeiros, que as estimativas
se situem fora do intervalo [0, 1]; com os outros, tal nunca sucede. De resto, tem-se
constatado frequentemente que as estimativas de probabilidades obtidas pela
formulao probit e pela formulao logit so muito semelhantes, o que no
surpreende se se atender similitude de comportamento das duas funes de
distribuio. Essa semelhana , geralmente, mais acentuada quando, na amostra, so
prximas as propores de ocorrncia dos dois valores possveis, Y = 1 e Y = 0.

Para a i observao, a probabilidade de ser Y
i
= 1 num LPM estimada
segundo

Y
i
= Pr ( ) ob Y
i
=
1 = X
i
, [35]

em que se designou por
o estimador (OLS ou EGLS) utilizado e se admitiu ser

0 . X
i
1.

Num modelo probit, essa probabilidade seria estimada de acordo com

Pr ( ) ob Y
i
=
1 = (X
i
) =
1
2
1
2
2
e dt
t
}
X
i

[36]

e, num modelo logit, por

Pr ( ) ob Y
i
=
1 = (X
i
) =
1
1+ e
-X
i

. [37]

Quer em [36], quer em [37], designou-se, agora, por
o estimador de mxima
verosimilhana do vector de coeficientes.

Como se viu em seco anterior, ao contrrio do que se passa nos modelos
LPM, no imediata a interpretao das estimativas dos coeficientes dos modelos
probit e logit. Nestes, a nica informao bvia que se deriva das estimativas a do
sinal, positivo ou negativo, da influncia marginal do regressor em causa sobre a
probabilidade de verificao do acontecimento. usual, por isso, que, a par dessas
estimativas, seja fornecida informao sobre a grandeza dessa influncia; e, uma vez
que ela varivel de observao para observao e, tambm, com os valores das
variveis explicativas, a prtica corrente a de calcular estimativas desses efeitos
referidas s mdias amostrais dos regressores. Quando se contarem variveis dummy
entre estes regressores, a abordagem mais correcta ser a de confrontar as estimativas
de probabilidades calculadas para o valor 1 e para o valor 0 dessa varivel explicativa
binria, para um mesmo vector de valores das outras variveis explicativas.

Poder ter algum interesse dispor, para os modelos probit e logit, de um
indicador sinttico da qualidade do "ajustamento", similar ao coeficiente de
determinao R
2
da regresso clssica. Um indicador referido por vezes o chamado
pseudo-R
2
, definido por

ps.R
2
= 1
ln L
ln L
(
ML
0
)
, [38]

em que ln L(

ML
) o valor da funo logartmica de verosimilhana avaliada para

ML
(e, portanto, igual ao mximo dessa funo), enquanto ln L
0
designa o mximo
dessa funo, sob a restrio de serem nulos todos os coeficientes das variveis
independentes (
2
=
3
= ... =
k
= 0). Este mximo foi j calculado anteriormente (ver
equao [31]).

semelhana de R
2
, o pseudo-R
2
assume apenas valores no intervalo [0, 1];
diferentemente de R
2
, o pseudo-R
2
no tem interpretao intuitiva imediata. Ter-se-ia
ps.R
2
= 1 quando ln L(

ML
) = 0 e, portanto, L(

ML
) = 1. Recorde-se que a funo de
verosimilhana um produto de n factores, cada um dos quais dado por

[ ] [ ] Prob(Y Prob(Y
i
1 Y
i
Y
i i
= =
0 1 ) ) ;

logo, so todos no negativos e no superiores a 1 (por corresponderem a
probabilidades). Ento, o produto s seria igual a 1 se esses n factores fossem todos
iguais a 1, o que exigiria que, sendo Y
i
= 1, fosse igual a 1 a probabilidade estimada
de ser Y
i
= 1; e, sendo Y
i
= 0, fosse tambm igual a 1 a estimativa da probabilidade de
ser Y
i
= 0 (ou, por outras palavras, que fosse 0 a estimativa da probabilidade de ser
Y
i
= 1). O modelo estimado seria ento um "previsor perfeito", no sentido de predizer
correctamente, para todas as observaes sem excepo, a qual dos dois grupos
pertencia. Tenha-se em ateno, contudo, que, seja F(.) a funo de distribuio
normal reduzida ou a funo logstica, apenas se aproximaria de 1 (ou 0) se o
argumento tendesse para infinito (ou ). Um valor de ps.R
2
virtualmente igual a 1
seria mais sugestivo de uma m especificao do que de um "perfeito ajustamento".

No outro extremo, ter-se-ia ps.R
2
= 0 quando ln L(

ML
) = ln L
0
e, por
conseguinte, quando fossem nulas todas as componentes do vector

ML
, excepto a
primeira (relativa ao termo independente). Nesse caso, nenhuma das variveis
"explicativas" afectaria a probabilidade de ocorrncia do acontecimento em anlise.
Como se viu na equao [30], a estimativa dessa probabilidade seria, simplesmente,
igual proporo de observaes na amostra com Y = 1.

Outro elemento de apreciao dos resultados de estimao que, por vezes, se
usa uma matriz em que se confrontam as predies do modelo com a repartio
efectiva das observaes da amostra pelos dois grupos em presena. Calculada, para
cada observao, uma estimativa da probabilidade de Y = 1 (usando frmulas j
apresentadas e tendo em conta se se trata de um modelo probit ou de um logit),

costume predizer-se Y
i
= 1 ou Y
i
= 0 conforme essa estimativa exceda ou no 0,5.
Depois, a informao organizada numa tabela da forma:

Y
i
predito = 1 Y
i
predito = 0 Totais
Y
i
observado = 1 A B n
1

Y
i
observado = 0 C D n
0

Totais E F n

Os nmeros representados por A e D correspondem a previses acertadas do modelo,
enquanto B e C quantificam previses erradas. A proporo de observaes
erradamente classificadas, (B+C)/n, a chamada taxa aparente de erro.

A esse respeito, refira-se que, como mtodos de classificao ou de previso,
as anlises probit e logit tm um competidor srio em previsores ad hoc, como aquele
que prev, para toda e qualquer observao, o acontecimento com maior frequncia
relativa na amostra. Por exemplo, se 90% das observaes numa amostra apresentam
Y = 1, o previsor "

Y
i
= 1, i" far predies correctas em 90% das vezes, o que no
deixa grande escopo para melhoria a mtodos mais complexos. No raro que, em
termos de capacidade preditiva, os mtodos probit e logit apenas consigam uma
melhoria modesta sobre a desse previsor ad hoc, ainda quando consigam explicar
razoavelmente os determinantes da probabilidade do acontecimento em estudo. Essa
uma das razes por que, apesar do seu carcter atraente, a valia da informao na
tabela acima , frequentemente, questionada.

A anlise estatstica dos modelos probit e logit , geralmente, conduzida em
termos anlogos aos que se conhecem para o modelo de regresso linear, apenas com
as modificaes requeridas pelo carcter de aproximao assimpttica da matriz de
varincias estimadas em [34]. Assim, testes de hipteses sobre coeficientes
individuais podem ser conduzidos da forma usual. Embora se continue a designar, por
abuso de linguagem, o quociente da estimativa do coeficiente pela estimativa do
desvio-padro do estimador por rcio t, os valores crticos aproximados devem obter-
se nas tabelas da distribuio normal reduzida.

Testes de hipteses sobre restries aos parmetros envolvem uma
comparao entre os mximos da funo logartmica de verosimilhana atingidos
quando as restries so observadas e quando so ignoradas, semelhana do que na
regresso linear clssica se faz com as somas de quadrados dos resduos. A estatstica
de teste (chamada razo de verosimilhana) calculada como

2 (ln L
r
ln L
u
), [39]

em que ln L
r
designa o valor da funo logartmica de verosimilhana quando
maximizada sob as restries fixadas na hiptese nula sob teste e ln L
u
o valor da
funo logartmica de verosimilhana sem restries (para que se usou atrs o smbolo
ln L(

ML
)). O valor crtico aproximado obtido nas tabelas da distribuio do qui-
quadrado, com nmero de graus de liberdade igual ao de restries consideradas na
hiptese nula.

Um caso particular de uso da razo de verosimilhana que tem particular
interesse em modelos estimados pelo mtodo da mxima verosimilhana ocorre no
teste da hiptese nula
2
=
3
= ... =
k
= 0, que tem alcance anlogo ao do teste de
significncia global na regresso clssica. Sob essa hiptese, tem-se,
assimptoticamente,

2 [ln L
0
ln L(

ML
)]
2
(k1)
, [40]

em que o significado dos smbolos o exposto a propsito do pseudo-R
2
. frequente,
no relato dos resultados de estimao destes modelos, dar-se conta do valor amostral
da estatstica em [40] como indicador sumrio da qualidade do "ajustamento", em
papel semelhante ao que, na regresso clssica, se conferiria estatstica F para teste
da mesma hiptese nula.

Refira-se, a terminar, que, ao contrrio do que se passa no modelo clssico de
regresso linear, ou em mais alto grau do que nesse, se tem constatado, em modelos
como o probit ou logit, forte sensibilidade dos resultados e propriedades dos
estimadores a situaes como a no normalidade da distribuio dos erros,
heteroscedasticidade ou erros de especificao. Dado o papel crucial da hiptese da
normalidade em algumas das formulaes expostas, no , talvez, surpreendente essa
sensibilidade. Tal como no modelo linear clssico se enxertaram numerosssimos
desenvolvimentos e extenses, tambm nos modelos com varivel qualitativa ou
dependente h uma vasta literatura que prolonga as potencialidades dos modelos
basilares ora estudados.

Identificao dos parmetros de modelos probit e logit

A possibilidade de identificar os parmetros de uma populao, a partir de uma
amostra dela extrada, no ilimitada. Esse o facto subjacente a um problema
complexo de Econometria, conhecido pela questo da identificao.

Afloramentos dessa questo surgem logo no modelo clssico de regresso
linear. conhecido, por exemplo, que com uma amostra de dimenso inferior ao
nmero de parmetros do modelo no possvel estim-los ou, pelo menos, estim-los
a todos. Embora possibilidade de estimao e identificao no sejam sinnimos, os
dois tipos de problema aparecem, frequentemente, associados.

Um outro exemplo, ainda no domnio da regresso clssica, ocorre a propsito
do termo independente. Considerem-se os modelos Y =
1
+
2
X + u, em que u uma
perturbao aleatria de mdia nula, e Y =
1
*
+
2
X + v, em que v u + 2 e
1
*
=
1

2. Por muito grande que seja a dimenso da amostra de observaes dos pares (X,
Y), no possvel distinguir se foram geradas por um ou outro dos dois modelos, o
primeiro com termo constante
1
e perturbaes de mdia 0, o segundo com termo
constante
1
*
e perturbaes de mdia 2. Se a perturbao aleatria de um modelo
tiver valor esperado , constante, mas no igual a 0, a soma (
1
+ ) identificvel e
pode ser estimada, mas nem
1
, nem , isoladamente, o sero. Essa , de resto, uma

das razes por que, na generalidade das anlises economtricas, no conferido
grande interesse s estimativas de termos constantes.

Para uma terceira ilustrao, seja o modelo no linear Y =
2
X + u. bvio
que o parmetro no pode ser identificado, j que qualquer amostra gerada com um
valor de seria idntica gerada com o valor simtrico. No entanto,
2
identificvel
e, por essa razo, costuma dizer-se que identificvel, excepto pelo sinal.

Mais prementes nos modelos no lineares e nos modelos multiequacionais, os
problemas de identificao colocam-se, tambm, naqueles em que a varivel
dependente qualitativa ou limitada. Duas caractersticas comuns destes so:

1) uma relao estrutural que envolve uma varivel dependente, Y
*
, que no
observvel ou, pelo menos, no observvel para todos os indivduos da populao;

2) uma regra que determina uma varivel observada, Y, em funo da varivel
latente, Y
*
, ou, se Y
*
observvel para apenas alguns indivduos da populao, que
discrimina entre esses e os restantes.

A restrio observabilidade de Y
*
actua como um filtro que distorce a
imagem da relao que se pretende estimar e, em alguns casos, a distorce a ponto de
impedir a identificao de certos parmetros. Por exemplo, num exerccio de tiro em
que a informao disponvel se cinja a "acertou, ou falhou", no possvel identificar
o parmetro associado com a disperso dos tiros em torno do alvo; j o seria, contudo,
se se dispusesse de informao quanto distncia do ponto de impacto relativamente
ao centro do alvo, para os projcteis que embateram numa vizinhana desse centro.

Para discutir a questo da identificao em modelos probit e logit, considere-
se uma populao A, caracterizada pelas relaes

Y
i
A*
=
1
+
2
X
i
+ u
i
, E(u
i
) = 0, Y
i
=
1
0
,
,
se Y 0
se Y 0
i
A*
i
A*
>
.

Em primeiro lugar, confronte-se essa populao com outra, B, caracterizada
por

Y
i
B*
=
1
+
2
X
i
+ v
i
,
1
=
1
, v
i
u
i
+ , E(v
i
) = , Y
i
=
1
0
,
,
se Y 0
se Y 0
i
B*
i
B*
>
.

Para todos os pares (X
i
, u
i
), Y
i
A*
= Y
i
B*
; por conseguinte, tambm a varivel
observada Y
i
ser idntica. No possvel determinar, a partir de qualquer amostra de
observaes (X
i
, Y
i
), se foi gerada pela populao A ou pela populao B e, portanto,
se os parmetros relevantes so
1
,
2
, 0, ou
1
,
2
, .

Em segundo lugar, confronte-se A com a populao C, em que

Y
i
C*
=
1
+
2
X
i
+ u
i
,
1
=
1
+ , E(u
i
) = 0, Y
i
=
1
0
,
,
se Y
se Y
i
C*
i
C*
>
.

Desta vez, so diferentes, para cada par (X
i
, u
i
), as variveis latentes Y
i
C*
e Y
i
A*

( Y
i
C*
= Y
i
A*
+ ), mas a varivel observada, Y
i
, a mesma, tornando impossvel
distinguir se, na populao, o limiar de transio de Y = 0 para Y = 1 0 e o termo
constante
1
, ou se so e
1
, respectivamente.

As comparaes efectuadas permitem concluir que no possvel identificar
trs constantes: o termo independente da relao estrutural, o valor mdio das
perturbaes e o limiar de transio. possvel, no entanto, identificar uma constante
que descreve, em condies que se precisaro abaixo, o efeito conjugado desses trs
factores. Para assegurar comparabilidade de resultados, a conveno de normalizao
usualmente adoptada a de postular serem iguais a 0 as duas ltimas constantes
referidas e deixar, portanto, que seja a estimativa de
1
a reflectir a influncia
conjunta.

Para uma terceira ilustrao, comparem-se A e D, com

Y
i
D*
=
1
+
2
X
i
+ v
i
,
1
=
1
,
2
=
2
, v
i
= u
i
, Y
i
=
1
0
,
,
se Y
se Y
i
D*
i
D*
>
0
0
,

com > 0. Para cada par (X
i
, u
i
), as variveis latentes Y
i
D*
e Y
i
A*
so, novamente,
diferentes (agora, Y
i
D*
= Y
i
A*
), mas bvio que, sempre que for Y
i
A*
> 0, tambm
ser Y
i
D*
> 0. Por conseguinte, a varivel observada, Y
i
, ser a mesma, quer a
populao tenha por parmetros
1
,
2
e Var(u), ou
1
,
2
e
2
Var(u).

Do que acaba de expor-se neste ltimo exemplo, devem reter-se duas
consequncias. A primeira a de que a varincia das perturbaes em modelos probit
ou logit no identificvel: h uma infinidade de populaes, cada uma com o seu
valor para , de que poder ter sido extrada uma certa amostra de pares (X
i
, Y
i
). A
segunda concluso a tirar a de que no possvel distinguir amostras de populaes
com coeficientes
1
,
2
das geradas por populaes com coeficientes
1
,
2
.
Costuma referir-se esta situao dizendo que os coeficientes da relao so
identificados, excepto por um factor de proporcionalidade constante.

Abordada a questo da identificao com recurso a alguns exemplos simples,
passar-se-, na sequncia, a um tratamento mais formal do problema. Analisar-se-,
apenas, o caso dos modelos probit, mas fcil a extenso dos resultados
especificao logit.

Mostrar-se-, em primeiro lugar, que, em condies a explicitar adiante, o
mesmo conjunto de observaes pode ter sido gerado indistintamente por uma de
vrias estruturas, o que impossibilita a identificao de alguns dos parmetros
estruturais. Provar-se-, em segundo lugar, que no possvel obter estimativas para
todos os parmetros requeridos por uma especificao supostamente mais geral.


Com esse objectivo, considerem-se as especificaes

Z
i
*
=
1
+
2
X
2i
+
3
X
3i
+ ... +
k
X
ki
+ v
i
= X
i
+ v
i
[41]

Y
i
=
1
0
,
,
se Z 0
se Z 0
i
*
i
*
>
[42]

v
i
N(0,1) [43]
e

W
i
*
=
1
+
2
X
2i
+
3
X
3i
+ ... +
k
X
ki
+ w
i
= X
i
+ w
i
[44]

Y
i
=
1
0
,
,
se W
se W
i
*
i
*
>
[45]

w
i
N(,
2
) [46]

So parmetros do primeiro modelo as k componentes do vector ,
1
,
2
, ...,
k
; no
segundo, alm dos k coeficientes
1
,
2
, ...,
k
, incluem-se , e
2
como parmetros
adicionais.

As observaes das populaes em causa so, genericamente, do tipo (X
2i
,
X
3i
, ..., X
ki
, Y
i
), em que Y
i
um mero indicador, codificado com os valores 0 e 1, da
pertena da i observao a um de dois grupos possveis. Buscar-se-, na sequncia,
resposta para duas questes. Podem as observaes ser geradas, indistintamente, por
qualquer das estruturas em confronto, apesar da disparidade de especificaes quanto
a aspectos como os parmetros da distribuio das perturbaes aleatrias, ou como a
definio da varivel observada a partir da varivel latente? Em caso afirmativo, em
que condies?

Para verificar que a resposta primeira questo afirmativa, e que os dois
modelos so equivalentes, sob o ponto de vista de poderem gerar amostras
perfeitamente coincidentes, analisem-se as consequncias das trs aces seguintes:

1) Some-se e subtraia-se ao segundo membro da equao [44]; obter-se-

W
i
*
= (
1
+ ) +
2
X
2i
+
3
X
3i
+ ... +
k
X
ki
+ (w
i
)

e, evidentemente, no se altera com isso o valor de W
i
*
, nem a regra em [45] conduz a
observaes de Y diferentes das anteriores.

2) Subtraia-se a ambos os membros da equao anterior; vem

W
i
*
= (
1
+ ) +
2
X
2i
+
3
X
3i
+ ... +
k
X
ki
+ (w
i
).

Se se modificar [45] para

Y
i
=
1
0
,
,
se W
se W
i
*
i
*
>

,
ou seja, se
Y
i
=
1 0
0 0
,
,
se W
se W
i
*
i
*
>

,

as observaes de Y
i
sero as mesmas que anteriormente.

3) Por ltimo, dividam-se ambos os membros da equao acima por > 0; vir

W
i
*

1
+
+
2
X
2i
+
3
X
3i
+ ... +
k
X
ki
+
w
i

. [47]

imediato que a diviso de ( W
i
*
) por uma constante positiva no trar
modificao alguma aos valores observados para Y, que continuaro a ser dados por

Y
i
=
1 0
0 0
,
,
se W
se W
i
*
i
*
>

.

Deve j ser claro que o modelo resultante das transformaes indicadas ,
essencialmente, o postulado em [41]-[43]: a perturbao
w
i

verifica [43] (isto ,

tem distribuio normal de parmetros 0 e 1), a relao entre Y
i
e a varivel latente a
prevista em [42] e, do confronto da equao [47] com a equao [41], depreende-se
que as observaes extradas das duas populaes sero coincidentes se for

1
=

1
+
,
[48]
j
=
j
, para j = 2, 3, ..., k .

De facto, se as condies em [48] se verificarem, ter-se-, para qualquer X
i
,

E( Z
i
*
| X
i
) = E(
W
i
*

| X
i
),
Var( Z
i
*
| X
i
) = Var(
W
i
*

| X
i
),

e, como Z
i
*
e
W
i
*

tm ambas distribuio normal, a identidade da mdia e da

varincia suficiente para garantir a identidade das distribuies.


Do que precede, conclui-se que as observaes geradas pelo modelo descrito
pelas relaes [41]-[43] no so distinguveis das provenientes de qualquer outra
populao normal cujos coeficientes das variveis independentes satisfaam as
condies [48]. Os coeficientes de um modelo probit so identificveis excepto por
um factor de proporcionalidade comum e, no caso do termo independente, a menos de
uma constante.

Analisar-se-, em seguida, a questo da estimao. Como se viu, a funo de
verosimilhana correspondente especificao em [41]-[43]

L( ) = [ ] [ ] { }
1 ( (
1 Y Y
i=1
n
i i

X X
i i
) ) , [49]

em que (.) designa a funo de distribuio normal reduzida. Seguindo um caminho
anlogo, deduzir-se- aqui a funo de verosimilhana, L( , , ,
2
), para o modelo
em [44]-[46].

Tem-se

Prob(Y
i
= 0) = Prob( W
i
*
)

= Prob(X
i
+ w
i
)

= Prob(w
i
X
i
)

= Prob(
w
i

X
i

)

= (

X
i

).

Por consequncia,

Prob(Y
i
= 1) = 1 (

X
i

).

Usando o facto de que, para a distribuio normal reduzida,

(x) = 1 (x) ,

a funo de verosimilhana vem dada por

L( , , ,
2
) = 1 (

(

1 Y Y
i=1
n
i i
(
+
X X
i i

) ) . [50]

Seja o vector (k1) definido por

=
( ) /
/
/
/

...

1
2
3
+
(
(
(
(
(
(
k
.

Ento, a funo de verosimilhana em [50] pode ser escrita como

L( ) =
[ ] [ ]
{ }
1 ( (
1 Y Y
i=1
n
i i

X X
i i
) ) . [51]

Sejam

ML
e

ML
os vectores que maximizam, respectivamente, as funes de
verosimilhana em [50] e em [51]. Alguns momentos de reflexo devem ser os
bastantes para persuadir o leitor de que ter de ser

ML
=

ML

e para extrair desse facto as consequncias seguintes:

i) se a especificao em [44]-[46] for a correcta, no possvel estimar
separadamente dos outros parmetros do modelo, nem estimar
1
, e ,
individualmente;

ii) estimado o modelo [41]-[43], as estimativas obtidas para os coeficientes das
variveis explicativas so, de facto, estimativas de quocientes da forma (coeficiente
"verdadeiro"/), em que designa o desvio-padro da perturbao aleatria.

BIBLIOGRAFIA

DAVIDSON, Russell, e MACKINNON, James G. (1993), Estimation and Inference
in Econometrics, Oxford University Press, New York.

GREENE, William H. (1997), Econometric Analysis, 3rd ed., Prentice-Hall, Upper
Saddle River, New Jersey.

GUJARATI, Damodar N. (1995), Basic Econometrics, 3rd ed., McGraw-Hill, New
York.

JUDGE, George G.; GRIFFITHS, W. E.; HILL, R. Carter; LUTKEPOHL, Helmut, e
LEE, Tsoung-Chao (1985), The Theory and Practice of Econometrics, 2nd ed., John
Wiley and Sons, New York.

MADDALA, G. S. (1983), Limited-Dependent and Qualitative Variables in
Econometrics, Cambridge University Press, Cambridge.

Modelos de Escolha Binaria

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Modelos de Escolha Binaria

Caricato da

Copyright:

Formati disponibili

MODELOS DE ESCOLHA BINRIA

Y 1) possam ser contornadas na estimao de

, se designou um estimador da matriz diagonal Var(u).

Var u ( ) designa um estimador de Var( u). Oferecem-se duas vias para a

o estimador (OLS ou EGLS) utilizado e se admitiu ser

verifica [43] (isto ,

tm ambas distribuio normal, a identidade da mdia e da

Potrebbero piacerti anche