Aula 29 - Dummy

Análise de Regressão Linear Múltipla V
Aula 28
Gujarati – Capítulo 9
Wooldridge, 2011 – Capítulo 7 – tradução da 4ª ed.

ANÁLISE DE REGRESSÃO COM
INFORMAÇÃO QUALITATIVA:
USO DE VARIÁVEL DUMMY
2
Variável Dummy
Uma forma de introduzir informação qualitativa em

modelos econométricos consiste na utilização de
variável dummy (fictícia, postiça), frequentemente
chamada de variável binária ou dicotômica (já que
assume apenas um de dois valores – em geral, 0 ou
1 – para indicar a presença ou ausência de
determinada característica).
3
Variável Dummy
Assim, uma variável dummy, D, pode ser descrita

da seguinte maneira:
0, se a caracterís tica não estiver presente

D
1, se a caracterís tica estiver presente
4
Exemplo 1
Voltando à empresa TEMCO, cujas informações disponíveis dos 46
funcionários, escolhidos ao acaso, são relacionadas a:
id – número cadastral do funcionário;
salario – anual, em dólares;
anosemp – tempo (em anos) na empresa;
expprev – experiência anterior (em anos);
educ – anos de estudo após o segundo grau;
sexo – (feminino = 0, masculino = 1);
dept – departamento no qual atua (Compras = 1, Engenharia = 2,
Propaganda = 3, Vendas = 4);
super – número de empregados sob responsabilidade do
5
empregado.
Exemplo 1 (cont.)
Pergunta-se:
a) Como incluir a variável dept num modelo que já contem

educ como variável explicativa para o salário?
b) Como devem ser as hipóteses de um teste estatístico

que objetiva verificar se o salário depende de dept?
6
Salário (y) vs Educ (x2)
(modelo escrito na forma usual)
salˆário  24581,70 3009,88 educ

( 2129,19 ) ( 367, 63 )
R  60,37%
2
n  46 σˆ  7002,39
7
Exemplo 1 (cont.)
Variável Dept
Dept: departamento do funcionário
• Compras (1)
• Engenharia (2)
• Propaganda (3)
• Vendas (4)
8
Resíduo (modelo contendo apenas Educ) x Dept
20000
10000
RESID
-10000
-20000
0 1 2 3 4 5
9
DE PT
Exemplo 1 (cont.)
Como existem quatro departamentos, poderíamos
estar inclinados a usar uma variável X3, com os
valores 0, 1, 2 e 3 ou 1, 2, 3 e 4 (que é a codificação
que aparece no arquivo TEMCO) ou qualquer outra
coisa parecida.
Assim,
salário  0  1educ   2 dept  

10
Exemplo 1 (cont.)
No entanto, se fizermos isto, estaremos
introduzindo uma ideia de espaçamento (que não
necessariamente se verifica). Ou seja, teríamos, por
exemplo
E(salário|educ, dept  1 )  ( 1   3 )  β2 educ
E ( salário | educ, dept  2)  ( 1  2  3 )   2 educ
E ( salário | educ, dept  3)  ( 1  3 3 )   2 educ
E ( salário | educ, dept  4)  ( 1  4  3 )   2 educ 11

Exemplo 1 (cont.)
Do slide anterior, estamos admitindo, por exemplo,
que
E ( salário | educ, dept  2)  E(salário|educ, dept  1 ) 
 E ( salário | educ, dept  4)  E ( salário | educ, dept  3) 
 3
12
Exemplo 1 (cont.)
Ou seja, a diferença entre os salários esperados

dos funcionários dos departamentos de
Engenharia e Compras é igual à esperada para os
funcionários dos departamentos de Propaganda e
Engenharia, mantendo constante o tempo de
escolaridade.
13
Exemplo 1 (cont.)
Dessa forma, se utilizássemos X3, da forma como
foi construída, estaríamos impondo uma restrição
ao modelo, que não sabemos se é real.
Ainda, se mudássemos a ordem das categorias da

variável departamento, estaríamos propondo um
novo conjunto de restrições ao modelo, o que muito
provavelmente nos levaria a resultados
completamente diferentes do caso anterior.
14
Exemplo 1 (cont.)
Assim, o ideal seria utilizar um grupo de variáveis

que representasse os estados de interesse, que
no nosso caso não apresentam nenhuma
ordenação natural, de tal sorte a nunca alterar o
resultado final, qualquer que seja o critério de
criação adotado para a construção destas
variáveis.
15
Variável Dummy
A solução é, portanto, trabalharmos com algumas

variáveis dummy.
No geral, se temos p estados, devemos trabalhar

com p – 1 variáveis dummy.
16
Variável Dummy
Para o nosso exemplo, poderíamos definir as
variáveis dummy D1, D2 e D3 da seguinte maneira,
para representar os estados da variável
departamento:
dept D1 D2 D3
Compras 1 0 0
Engenharia 0 1 0
Propaganda 0 0 1
Vendas 0 0 0
Variável Dummy
Modelo Irrestrito:
yi = 0 + 1 x2i + 1 D1i + 2 D2i + 3 D3i + i
Compras: yi = (0 + 1) + 1x2i + i

Engenharia: yi = (0 + 2) + 1x2i + i
Propaganda: yi = (0 + 3) + 1x2i + i
Vendas: yi = 0 + 2 x2i + i
18
Variável Dummy
Variáveis binárias como D1, D2 e D3, que são

incorporadas num modelo de regressão para dar
conta de um deslocamento do intercepto como
resultado de algum fator qualitativo, são
chamadas de variáveis binárias de intercepto ou,
simplesmente, dummy de intercepto.
19
Voltando ao Exemplo 1
Pergunta-se:


20
Voltando ao Exemplo 1 (cont.)
Modelo Irrestrito
21
Modelo Irrestrito
salˆario  19235,72 2952,96 educ 

( 2662 , 60 ) ( 341,80 )
 5393,97 D1  8065,52 D2  6664,36 D3

( 3070 , 06 ) ( 2454 ,11) ( 3181,83)
R  68,61%,
2
R  65,54%,
2
a n  46, ˆ  6456,57
22
Modelo Irrestrito
yˆ vendas  19235 ,72  2952 ,96  educ
yˆ compras  24629 ,69  2952 ,96  educ
yˆ engenharia  27301,24  2952 ,96  educ
yˆ propaganda  25900 ,08  2952 ,96  educ
Interprete as estimativas dos parâmetros

23
Voltando ao Exemplo 1
Pergunta-se:


24
Modelo Irrestrito:
yi = 0 + 1 x2i + 1 D1i + 2 D2i + 3 D3i + i
H0: 1 = 2 = 3 = 0
(inclusão da variável dept num modelo que já apresenta a variável educ é irrelevante)
Modelo Restrito:
yi = 0 + 1x2i + i
25
Modelo Irrestrito
26
Modelo Restrito
27
Estimando o Modelo Irrestrito e fazendo o teste de
restrição nos coeficientes, temos que:
28
Variável Dummy
Outros Exemplos de Formulações de Hipóteses
Modelo Irrestrito:
yi = 0 + 1 x2i + 1 D1i + 2 D2i + 3 D3i + i
Exemplo 1
Sob H01: 1 = 1 = 2 = 3 = 0,
E(y|x2, D1, D2, D3) = 0,
ou seja, o salário independe do tempo de escolaridade e do
departamento do funcionário.
29
Variável Dummy
Modelo Irrestrito:
yi = 0 + 1x2i + 1D1i + 2D2i + 3D3i + i
Exemplo 2
Sob H02: 1 = 0,
E(y|x2, D1, D2, D3) = 0 + 1 x2 + 2 D2i + 3 D3i,
ou seja, as retas para os departamentos de vendas e

compras são coincidentes.
30
Variável Dummy
Modelo Irrestrito:
yi = 0 + 1x2i + 1D1i + 2D2i + 3D3i + i
Exemplo 3
Sob H03: 1 = 2 = 0,
E(y|x2, D1, D2, D3) = 0 + 1 x2 + 3 D3i,
ou seja, só há diferença no salário do departamento de

propaganda, quando comparado aos demais
departamentos, que são equivalentes. 31
Variável Dummy
Vale recordar que a escolha dos valores de D1,

D2 e D3 não é única. Entretanto, qualquer que
seja a escolha, os resultados finais da
estimação deverão ser sempre os mesmos.
32
Exercício
Como inserir a variável sexo num modelo

que já acomodou educ como variável
explicativa?
O salário depende da variável sexo (o que

está sendo testado com esta hipótese)?
33
Salário vs (Educ, Sexo)
70000
60000
50000
40000
30000 SEXO
mascul ino
20000 fem inino

-2 0 2 4 6 8 10 12 14
Anos de estudos após o segundo grau

Exercício (cont.)
Sexo D4
Masculino 1
Feminino 0
Modelo Irrestrito:
yi = 0 + 1 educi + 1 Masculinoi + i
Feminino: yi = 0 + 1educi + i
Masculino: yi = (0 + 1) + 1educi + i 35

Exercício (cont.)
45.000
40.000
35.000
Fem
M asc
30.000
25.000
20.000
0 1 2 3 4 5 6 7
Deste modo, estamos admitindo que a reta de regressão

do salário em função da educação para homens é
paralela à reta de regressão para as mulheres.
Exercício (cont.)
Forma usual
salˆário  26040,75 2933,16 educ  2238,26 masculino
( 2529,70 ) ( 374,08 ) ( 2103,15 )
R 2  61,68%, Ra2  59,59%, n  46, ˆ  6991,86
yˆ fem  26040 ,75  2933 ,16  educ
yˆ masc  23802 ,49  2933 ,16  educ

37
Voltando ao Exercício
Como inserir a variável sexo num modelo

que já acomodou educ como variável
explicativa?
O salário depende da variável sexo (o que

está sendo testado com esta hipótese)?
38
Exercício
Teste de Hipóteses (teste F ou teste t)
H0: 1 = 0 (retas coincidentes)

HA: 1  0
39
Exercício (cont.)
Modelo Irrestrito:
yi = 0 + 1 educi + 1 Masculinoi + i
2
R(ir )
40
Exercício (cont.)
Modelo Restrito:
yi = 0 + 1educi + i
R(r2 )
41
Exercício (cont.)
H0: 1 = 0
HA: 1  0
Sob H0:
0,613885  0,603715
Fobs  1  0,01017  1,1325924
1  0,613885 0,0089794
46  3
Conclusão???
42
Variável Dummy
de
Inclinação
43
Variável Dummy de Inclinação
No Exemplo 1, utilizando variáveis dummy de

intercepto, ajustamos quatro retas com a mesma
inclinação e diferentes interceptos. Veremos agora
como podemos ajustar um modelo mais geral, no
qual, por exemplo, também as inclinações podem
ser distintas.
44
Sejam D1, D2 e D3 as variáveis dummy do exemplo

anteriormente citado.
Considere, ainda, o seguinte modelo
y = 0 + 1 educ + D1(0 + 1educ) +
+ D2(2 + 3educ) + D3(4 + 5educ) + 
45
Assim, para cada um dos departamentos, teríamos
os seguintes modelos de regressão
yvendas = 0 + 1educ + 
ycompras = (0 + 0) + (1 + 1)educ + 
yengenharia = (0 + 2) + (1 + 3)educ + 

ypropaganda = (0 + 4) + (1 + 5)educ + 
46
Ou seja, o modelo de regressão
y = 0 + 1 educ + D1(0 + 1educ) +
+ D2(2 + 3educ) + D3(4 + 5educ) + 
faz com que sejam ajustadas quatro retas com

interceptos e inclinações diferentes.
47
Mas o modelo anterior, pode ser reescrito como
y = 0 + 1educ + 0D1 + 2D2 + 4D3 +
+ 1educD1 + 3educD2 + 5educD3 + 
Donde, não é difícil observar que os parâmetros

associados às variáveis dummy D1, D2 e D3,
isoladamente, serão responsáveis pela alteração
dos interceptos.
48
Mas o modelo anterior, pode ser reescrito como
y = 0 + 1educ + 0D1 + 2D2 + 4D3 +
Já os parâmetros associados aos produtos de D1,

D2 e D3 por educ serão responsáveis pela
alteração dos coeficientes angulares.
49
Finalmente, as variáveis educD1, educD2 e educD3
são chamadas de variáveis de interação, pois são
responsáveis por capturar o efeito de interação
entre a escolaridade e departamento sobre o
salário. Traduzindo, o impacto na variação do
salário esperado de indivíduos de setores
diferentes, dada a variação de um ano na
escolaridade desses indivíduos, podem ser
50
diferentes.
Modelo Estimado
51
Modelo estimado com EDUC, DEPT e interações
yˆ vendas  28013 ,06  1197 ,49  educ
yˆ compras  19121,77  4211,91  educ
yˆ engenharia  24114 ,16  3545 ,25  educ
yˆ propaganda  26274 ,73  2878 ,03  educ

52
Modelo Irrestrito:
y = 0 + 1educ + 0D1 + 2D2 + 4D3 +
• H01: 0 = 1 = 2 = 3 = 4 = 5 = 0: hipótese de que

todas as retas são coincidentes.
• H02: 1 = 3 = 5 = 0: hipótese de que todas as retas
são paralelas.
53
Modelo Irrestrito:
y = 0 + 1educ + 0D1 + 2D2 + 4D3 +

• H03: 1 = 0: hipótese das retas para os
departamentos de compras e vendas serem
paralelas.
• H04: 0 = 1 = 0: hipótese de que as retas para os
departamentos de compras e vendas são
coincidentes. 54
Observação
As quatro retas ajustadas simultaneamente,
neste exemplo, são equivalentes às retas que
obteríamos se ajustássemos separadamente um
modelo para cada departamento. No entanto,
este procedimento tem a vantagem de facilitar a
construção dos testes de hipóteses envolvendo
simultaneamente parâmetros das quatro retas.
55
Uso do logaritmo na
forma funcional
(Recordação)
56
Uso do Logaritmo na Forma Funcional
De forma geral, se i for o parâmetro associado a

uma variável dummy, quando log(y) é a variável
dependente, a diferença percentual exata no valor
médio de y, quando a dummy assume o valor 1 em
comparação ao caso quando a dummy assume o
valor 0, é dada por
100exp i   1.
57

Aula 29 - Dummy

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Aula 29 - Dummy

Caricato da

Copyright:

Formati disponibili

Análise de Regressão Linear Múltipla V

Wooldridge, 2011 – Capítulo 7 – tradução da 4ª ed.

Uma forma de introduzir informação qualitativa em

Assim, uma variável dummy, D, pode ser descrita

0, se a caracterís tica não estiver presente

a) Como incluir a variável dept num modelo que já contem

b) Como devem ser as hipóteses de um teste estatístico

salˆário  24581,70 3009,88 educ

salário  0  1educ   2 dept  

E ( salário | educ, dept  2)  ( 1  2  3 )   2 educ

E ( salário | educ, dept  3)  ( 1  3 3 )   2 educ

E ( salário | educ, dept  4)  ( 1  4  3 )   2 educ 11

E ( salário | educ, dept  2)  E(salário|educ, dept  1 ) 

 E ( salário | educ, dept  4)  E ( salário | educ, dept  3) 

Ou seja, a diferença entre os salários esperados

Ainda, se mudássemos a ordem das categorias da

Assim, o ideal seria utilizar um grupo de variáveis

A solução é, portanto, trabalharmos com algumas

No geral, se temos p estados, devemos trabalhar

Compras: yi = (0 + 1) + 1x2i + i

Variáveis binárias como D1, D2 e D3, que são

a) Como incluir a variável dept num modelo que já contem

b) Como devem ser as hipóteses de um teste estatístico

salˆario  19235,72 2952,96 educ 

 5393,97 D1  8065,52 D2  6664,36 D3

yˆ compras  24629 ,69  2952 ,96  educ

yˆ engenharia  27301,24  2952 ,96  educ

yˆ propaganda  25900 ,08  2952 ,96  educ

Interprete as estimativas dos parâmetros

a) Como incluir a variável dept num modelo que já contem

b) Como devem ser as hipóteses de um teste estatístico

E(y|x2, D1, D2, D3) = 0 + 1 x2 + 2 D2i + 3 D3i,

ou seja, as retas para os departamentos de vendas e

E(y|x2, D1, D2, D3) = 0 + 1 x2 + 3 D3i,

ou seja, só há diferença no salário do departamento de

Vale recordar que a escolha dos valores de D1,

Como inserir a variável sexo num modelo

O salário depende da variável sexo (o que

20000 fem inino

Anos de estudos após o segundo grau

Masculino: yi = (0 + 1) + 1educi + i 35

Deste modo, estamos admitindo que a reta de regressão

R 2  61,68%, Ra2  59,59%, n  46, ˆ  6991,86

yˆ fem  26040 ,75  2933 ,16  educ

yˆ masc  23802 ,49  2933 ,16  educ

Interprete as estimativas dos parâmetros

Como inserir a variável sexo num modelo

O salário depende da variável sexo (o que

Teste de Hipóteses (teste F ou teste t)

H0: 1 = 0 (retas coincidentes)

No Exemplo 1, utilizando variáveis dummy de

Sejam D1, D2 e D3 as variáveis dummy do exemplo

Considere, ainda, o seguinte modelo

y = 0 + 1 educ + D1(0 + 1educ) +

+ D2(2 + 3educ) + D3(4 + 5educ) + 

yengenharia = (0 + 2) + (1 + 3)educ + 

Ou seja, o modelo de regressão

y = 0 + 1 educ + D1(0 + 1educ) +

+ D2(2 + 3educ) + D3(4 + 5educ) + 

faz com que sejam ajustadas quatro retas com

y = 0 + 1educ + 0D1 + 2D2 + 4D3 +

+ 1educD1 + 3educD2 + 5educD3 + 

Donde, não é difícil observar que os parâmetros

y = 0 + 1educ + 0D1 + 2D2 + 4D3 +