Sei sulla pagina 1di 57

Análise de Regressão Linear Múltipla V

Aula 28

Gujarati – Capítulo 9

Wooldridge, 2011 – Capítulo 7 – tradução da 4ª ed.


ANÁLISE DE REGRESSÃO COM
INFORMAÇÃO QUALITATIVA:
USO DE VARIÁVEL DUMMY

2
Variável Dummy

Uma forma de introduzir informação qualitativa em


modelos econométricos consiste na utilização de
variável dummy (fictícia, postiça), frequentemente
chamada de variável binária ou dicotômica (já que
assume apenas um de dois valores – em geral, 0 ou
1 – para indicar a presença ou ausência de
determinada característica).
3
Variável Dummy

Assim, uma variável dummy, D, pode ser descrita


da seguinte maneira:

0, se a caracterís tica não estiver presente


D
1, se a caracterís tica estiver presente

4
Exemplo 1
Voltando à empresa TEMCO, cujas informações disponíveis dos 46
funcionários, escolhidos ao acaso, são relacionadas a:
id – número cadastral do funcionário;
salario – anual, em dólares;
anosemp – tempo (em anos) na empresa;
expprev – experiência anterior (em anos);
educ – anos de estudo após o segundo grau;
sexo – (feminino = 0, masculino = 1);
dept – departamento no qual atua (Compras = 1, Engenharia = 2,
Propaganda = 3, Vendas = 4);
super – número de empregados sob responsabilidade do
5
empregado.
Exemplo 1 (cont.)
Pergunta-se:

a) Como incluir a variável dept num modelo que já contem


educ como variável explicativa para o salário?

b) Como devem ser as hipóteses de um teste estatístico


que objetiva verificar se o salário depende de dept?

6
Salário (y) vs Educ (x2)
(modelo escrito na forma usual)

salˆário  24581,70 3009,88 educ


( 2129,19 ) ( 367, 63 )

R  60,37%
2
n  46 σˆ  7002,39

7
Exemplo 1 (cont.)

Variável Dept
Dept: departamento do funcionário

• Compras (1)
• Engenharia (2)
• Propaganda (3)
• Vendas (4)
8
Resíduo (modelo contendo apenas Educ) x Dept

20000

10000
RESID

-10000

-20000
0 1 2 3 4 5

9
DE PT
Exemplo 1 (cont.)
Como existem quatro departamentos, poderíamos
estar inclinados a usar uma variável X3, com os
valores 0, 1, 2 e 3 ou 1, 2, 3 e 4 (que é a codificação
que aparece no arquivo TEMCO) ou qualquer outra
coisa parecida.
Assim,

salário  0  1educ   2 dept  


10
Exemplo 1 (cont.)
No entanto, se fizermos isto, estaremos
introduzindo uma ideia de espaçamento (que não
necessariamente se verifica). Ou seja, teríamos, por
exemplo
E(salário|educ, dept  1 )  ( 1   3 )  β2 educ

E ( salário | educ, dept  2)  ( 1  2  3 )   2 educ

E ( salário | educ, dept  3)  ( 1  3 3 )   2 educ

E ( salário | educ, dept  4)  ( 1  4  3 )   2 educ 11


Exemplo 1 (cont.)
Do slide anterior, estamos admitindo, por exemplo,
que

E ( salário | educ, dept  2)  E(salário|educ, dept  1 ) 

 E ( salário | educ, dept  4)  E ( salário | educ, dept  3) 

 3

12
Exemplo 1 (cont.)

Ou seja, a diferença entre os salários esperados


dos funcionários dos departamentos de
Engenharia e Compras é igual à esperada para os
funcionários dos departamentos de Propaganda e
Engenharia, mantendo constante o tempo de
escolaridade.

13
Exemplo 1 (cont.)
Dessa forma, se utilizássemos X3, da forma como
foi construída, estaríamos impondo uma restrição
ao modelo, que não sabemos se é real.

Ainda, se mudássemos a ordem das categorias da


variável departamento, estaríamos propondo um
novo conjunto de restrições ao modelo, o que muito
provavelmente nos levaria a resultados
completamente diferentes do caso anterior.
14
Exemplo 1 (cont.)

Assim, o ideal seria utilizar um grupo de variáveis


que representasse os estados de interesse, que
no nosso caso não apresentam nenhuma
ordenação natural, de tal sorte a nunca alterar o
resultado final, qualquer que seja o critério de
criação adotado para a construção destas
variáveis.
15
Variável Dummy

A solução é, portanto, trabalharmos com algumas


variáveis dummy.

No geral, se temos p estados, devemos trabalhar


com p – 1 variáveis dummy.

16
Variável Dummy
Para o nosso exemplo, poderíamos definir as
variáveis dummy D1, D2 e D3 da seguinte maneira,
para representar os estados da variável
departamento:

dept D1 D2 D3
Compras 1 0 0
Engenharia 0 1 0
Propaganda 0 0 1
Vendas 0 0 0
Variável Dummy
Modelo Irrestrito:
yi = 0 + 1 x2i + 1 D1i + 2 D2i + 3 D3i + i

Compras: yi = (0 + 1) + 1x2i + i


Engenharia: yi = (0 + 2) + 1x2i + i
Propaganda: yi = (0 + 3) + 1x2i + i
Vendas: yi = 0 + 2 x2i + i

18
Variável Dummy

Variáveis binárias como D1, D2 e D3, que são


incorporadas num modelo de regressão para dar
conta de um deslocamento do intercepto como
resultado de algum fator qualitativo, são
chamadas de variáveis binárias de intercepto ou,
simplesmente, dummy de intercepto.

19
Voltando ao Exemplo 1
Pergunta-se:

a) Como incluir a variável dept num modelo que já contem


educ como variável explicativa para o salário?

b) Como devem ser as hipóteses de um teste estatístico


que objetiva verificar se o salário depende de dept?

20
Voltando ao Exemplo 1 (cont.)
Modelo Irrestrito

21
Voltando ao Exemplo 1 (cont.)
Modelo Irrestrito

salˆario  19235,72 2952,96 educ 


( 2662 , 60 ) ( 341,80 )

 5393,97 D1  8065,52 D2  6664,36 D3


( 3070 , 06 ) ( 2454 ,11) ( 3181,83)

R  68,61%,
2
R  65,54%,
2
a n  46, ˆ  6456,57

22
Voltando ao Exemplo 1 (cont.)
Modelo Irrestrito
yˆ vendas  19235 ,72  2952 ,96  educ

yˆ compras  24629 ,69  2952 ,96  educ

yˆ engenharia  27301,24  2952 ,96  educ

yˆ propaganda  25900 ,08  2952 ,96  educ

Interprete as estimativas dos parâmetros


23
Voltando ao Exemplo 1
Pergunta-se:

a) Como incluir a variável dept num modelo que já contem


educ como variável explicativa para o salário?

b) Como devem ser as hipóteses de um teste estatístico


que objetiva verificar se o salário depende de dept?

24
Voltando ao Exemplo 1 (cont.)
Modelo Irrestrito:
yi = 0 + 1 x2i + 1 D1i + 2 D2i + 3 D3i + i

H0: 1 = 2 = 3 = 0
(inclusão da variável dept num modelo que já apresenta a variável educ é irrelevante)

Modelo Restrito:
yi = 0 + 1x2i + i
25
Voltando ao Exemplo 1 (cont.)
Modelo Irrestrito

26
Voltando ao Exemplo 1 (cont.)
Modelo Restrito

27
Voltando ao Exemplo 1 (cont.)
Estimando o Modelo Irrestrito e fazendo o teste de
restrição nos coeficientes, temos que:

28
Variável Dummy
Outros Exemplos de Formulações de Hipóteses

Modelo Irrestrito:
yi = 0 + 1 x2i + 1 D1i + 2 D2i + 3 D3i + i

Exemplo 1
Sob H01: 1 = 1 = 2 = 3 = 0,
E(y|x2, D1, D2, D3) = 0,
ou seja, o salário independe do tempo de escolaridade e do
departamento do funcionário.
29
Variável Dummy
Outros Exemplos de Formulações de Hipóteses

Modelo Irrestrito:
yi = 0 + 1x2i + 1D1i + 2D2i + 3D3i + i

Exemplo 2

Sob H02: 1 = 0,

E(y|x2, D1, D2, D3) = 0 + 1 x2 + 2 D2i + 3 D3i,

ou seja, as retas para os departamentos de vendas e


compras são coincidentes.
30
Variável Dummy
Outros Exemplos de Formulações de Hipóteses

Modelo Irrestrito:
yi = 0 + 1x2i + 1D1i + 2D2i + 3D3i + i

Exemplo 3

Sob H03: 1 = 2 = 0,

E(y|x2, D1, D2, D3) = 0 + 1 x2 + 3 D3i,

ou seja, só há diferença no salário do departamento de


propaganda, quando comparado aos demais
departamentos, que são equivalentes. 31
Variável Dummy

Vale recordar que a escolha dos valores de D1,


D2 e D3 não é única. Entretanto, qualquer que
seja a escolha, os resultados finais da
estimação deverão ser sempre os mesmos.

32
Exercício

Como inserir a variável sexo num modelo


que já acomodou educ como variável
explicativa?

O salário depende da variável sexo (o que


está sendo testado com esta hipótese)?

33
Salário vs (Educ, Sexo)
70000

60000

50000

40000

30000 SEXO

mascul ino

20000 fem inino


-2 0 2 4 6 8 10 12 14

Anos de estudos após o segundo grau


Exercício (cont.)
Sexo D4
Masculino 1
Feminino 0

Modelo Irrestrito:
yi = 0 + 1 educi + 1 Masculinoi + i

Feminino: yi = 0 + 1educi + i

Masculino: yi = (0 + 1) + 1educi + i 35


Exercício (cont.)
45.000

40.000

35.000

Fem
M asc

30.000

25.000

20.000
0 1 2 3 4 5 6 7

Deste modo, estamos admitindo que a reta de regressão


do salário em função da educação para homens é
paralela à reta de regressão para as mulheres.
Exercício (cont.)
Forma usual
salˆário  26040,75 2933,16 educ  2238,26 masculino
( 2529,70 ) ( 374,08 ) ( 2103,15 )

R 2  61,68%, Ra2  59,59%, n  46, ˆ  6991,86

yˆ fem  26040 ,75  2933 ,16  educ

yˆ masc  23802 ,49  2933 ,16  educ

Interprete as estimativas dos parâmetros


37
Voltando ao Exercício

Como inserir a variável sexo num modelo


que já acomodou educ como variável
explicativa?

O salário depende da variável sexo (o que


está sendo testado com esta hipótese)?

38
Exercício

Teste de Hipóteses (teste F ou teste t)

H0: 1 = 0 (retas coincidentes)


HA: 1  0

39
Exercício (cont.)
Modelo Irrestrito:
yi = 0 + 1 educi + 1 Masculinoi + i

2
R(ir )

40
Exercício (cont.)
Modelo Restrito:
yi = 0 + 1educi + i

R(r2 )

41
Exercício (cont.)
H0: 1 = 0
HA: 1  0

Sob H0:

0,613885  0,603715
Fobs  1  0,01017  1,1325924
1  0,613885 0,0089794
46  3
Conclusão???

42
Variável Dummy
de
Inclinação

43
Variável Dummy de Inclinação

No Exemplo 1, utilizando variáveis dummy de


intercepto, ajustamos quatro retas com a mesma
inclinação e diferentes interceptos. Veremos agora
como podemos ajustar um modelo mais geral, no
qual, por exemplo, também as inclinações podem
ser distintas.

44
Variável Dummy de Inclinação

Sejam D1, D2 e D3 as variáveis dummy do exemplo


anteriormente citado.

Considere, ainda, o seguinte modelo

y = 0 + 1 educ + D1(0 + 1educ) +

+ D2(2 + 3educ) + D3(4 + 5educ) + 

45
Variável Dummy de Inclinação
Assim, para cada um dos departamentos, teríamos
os seguintes modelos de regressão

yvendas = 0 + 1educ + 
ycompras = (0 + 0) + (1 + 1)educ + 

yengenharia = (0 + 2) + (1 + 3)educ + 


ypropaganda = (0 + 4) + (1 + 5)educ + 

46
Variável Dummy de Inclinação

Ou seja, o modelo de regressão

y = 0 + 1 educ + D1(0 + 1educ) +

+ D2(2 + 3educ) + D3(4 + 5educ) + 

faz com que sejam ajustadas quatro retas com


interceptos e inclinações diferentes.

47
Variável Dummy de Inclinação
Mas o modelo anterior, pode ser reescrito como

y = 0 + 1educ + 0D1 + 2D2 + 4D3 +

+ 1educD1 + 3educD2 + 5educD3 + 

Donde, não é difícil observar que os parâmetros


associados às variáveis dummy D1, D2 e D3,
isoladamente, serão responsáveis pela alteração
dos interceptos.
48
Variável Dummy de Inclinação
Mas o modelo anterior, pode ser reescrito como

y = 0 + 1educ + 0D1 + 2D2 + 4D3 +

+ 1educD1 + 3educD2 + 5educD3 + 

Já os parâmetros associados aos produtos de D1,


D2 e D3 por educ serão responsáveis pela
alteração dos coeficientes angulares.
49
Variável Dummy de Inclinação
Finalmente, as variáveis educD1, educD2 e educD3
são chamadas de variáveis de interação, pois são
responsáveis por capturar o efeito de interação
entre a escolaridade e departamento sobre o
salário. Traduzindo, o impacto na variação do
salário esperado de indivíduos de setores
diferentes, dada a variação de um ano na
escolaridade desses indivíduos, podem ser
50
diferentes.
Variável Dummy de Inclinação
Modelo Estimado

51
Variável Dummy de Inclinação
Modelo estimado com EDUC, DEPT e interações

yˆ vendas  28013 ,06  1197 ,49  educ

yˆ compras  19121,77  4211,91  educ

yˆ engenharia  24114 ,16  3545 ,25  educ

yˆ propaganda  26274 ,73  2878 ,03  educ

Interprete as estimativas dos parâmetros


52
Variável Dummy de Inclinação
Outros Exemplos de Formulações de Hipóteses

Modelo Irrestrito:

y = 0 + 1educ + 0D1 + 2D2 + 4D3 +

+ 1educD1 + 3educD2 + 5educD3 + 

• H01: 0 = 1 = 2 = 3 = 4 = 5 = 0: hipótese de que


todas as retas são coincidentes.
• H02: 1 = 3 = 5 = 0: hipótese de que todas as retas
são paralelas.
53
Variável Dummy de Inclinação
Outros Exemplos de Formulações de Hipóteses

Modelo Irrestrito:

y = 0 + 1educ + 0D1 + 2D2 + 4D3 +

+ 1educD1 + 3educD2 + 5educD3 + 


• H03: 1 = 0: hipótese das retas para os
departamentos de compras e vendas serem
paralelas.
• H04: 0 = 1 = 0: hipótese de que as retas para os
departamentos de compras e vendas são
coincidentes. 54
Observação
As quatro retas ajustadas simultaneamente,
neste exemplo, são equivalentes às retas que
obteríamos se ajustássemos separadamente um
modelo para cada departamento. No entanto,
este procedimento tem a vantagem de facilitar a
construção dos testes de hipóteses envolvendo
simultaneamente parâmetros das quatro retas.
55
Uso do logaritmo na
forma funcional
(Recordação)

56
Uso do Logaritmo na Forma Funcional

De forma geral, se i for o parâmetro associado a


uma variável dummy, quando log(y) é a variável
dependente, a diferença percentual exata no valor
médio de y, quando a dummy assume o valor 1 em
comparação ao caso quando a dummy assume o
valor 0, é dada por

100exp i   1.
57

Potrebbero piacerti anche