Sei sulla pagina 1di 11

UNIVERSIDADE FEDERAL DA PARABA

CENTRO DE CINCIAS SOCIAIS APLICADAS


DEPARTAMENTO DE ECONOMIA
Regresso, Correlao e Causalidade
Objetivos
Apresentar alguns conceitos bsicos de regresso de duas variveis, alm de uma
introduo sobre a intensidade de associao entre duas variveis. O conceito de
coeficiente de correlao linear usado para expressar esse grau de associao.
Bibliografia
Livro Texto:
GUJARATI, D. N. Econometria Bsica. So Paulo: MAKRON Books, 2000. Captulo 2.
Complementar:
HILL, C.; GRIFFITHS,W.; JUDGE,G. Econometria. So Paulo: Saraiva, 1999.
HOFFMAN, R. e VIEIRA, S. Anlise de regresso: uma introduo econometria. So
Paulo: Hucitec, 1983 (pg 39).
HOFFMAN, Rodolfo. Estatstica para economistas. So Paulo: Editora Pioneira, 1980.
JOHNSTON, J. Mtodos economtricos. So Paulo: Atlas, 1976.
KMENTA, Jan. Elementos de econometria. So Paulo: Atlas, 1988.
MATOS, O. C. Econometria bsica: teoria e aplicao. So Paulo: Atlas, 1995.
SALVATORE, Dominic. Estatstica e econometria. So Paulo: McGraw-Hill, 1983.
WONNACOTT, R. J. e WONNACOTT, T.H. Econometria. Rio de Janeiro: LTC, 1976.
UFPBDepartamento de Economia Disciplina: 1201110 Econometria 2004.2
Alguns conceitos bsicos de regresso
A anlise de regresso se preocupa largamente em estimar e/ou prever a mdia (da
populao) ou o valor mdio das variveis dependentes a partir dos valores conhecidos ou
fixados de uma ou mais variveis explicativas.
Como se faz isto? Imagine um pas hipottico com uma populao total de 60
famlias. Estamos interessados em prever o nvel mdio de consumo semanal da populao
sabendo da renda semanal da famlia. Para isto dividimos as 60 famlias em 10 grupos de
famlias com aproximadamente a mesma renda e examinaremos o consumo das famlias
em cada um desses nveis.Os dados esto na tabela 1.
Tabela 1 Renda Familiar Semanal (X) e Consumo Familiar Semanal (Y)
X
Y
80 100 120 140 160 180 200 220 240 260
55
(1/5)
65
(1/6)
79
(1/5)
80
(1/7)
102
(1/6)
110
(1/6)
120
(1/5)
135
(1/7)
137
(1/6)
150
(1/7)
60
(1/5)
70
(1/6)
84
(1/5)
93
(1/7)
107
(1/6)
115
(1/6)
136
(1/5)
137
(1/7)
145
(1/6)
152
(1/7)
65
(1/5)
74
(1/6)
90
(1/5)
95
(1/7)
110
(1/6)
120
(1/6)
140
(1/5)
140
(1/7)
155
(1/6)
175
(1/7)
70
(1/5)
80
(1/6)
94
(1/5)
103
(1/7)
116
(1/6)
130
(1/6)
144
(1/5)
152
(1/7)
165
(1/6)
178
(1/7)
75
(1/5)
85
(1/6)
98
(1/5)
108
(1/7)
118
(1/6)
135
(1/6)
145
(1/5)
157
(1/7)
175
(1/6)
180
(1/7)
---- 88
(1/6)
--- 113
(1/7)
125
(1/6)
140
(1/6)
----- 160
(1/7)
189
(1/6)
185
(1/7)
---- ------ --- 115
(1/7)
----- ------ 162
(1/7)
----- 191
(1/7)
Total
(mdia)
325
(65)
462
(77)
445
(89)
707
(101)
678
(113)
750
(125)
685
(137)
1043
(149)
966
(161)
1211
(173)
A tabela deve ser interpretada da seguinte forma. Quando a renda semanal
familiar igual a 80, existem 5 famlias cujo consumo varia de 55 a 75 e o consumo mdio
semanal igual 65. Similarmente para as outras classes de renda. Ou seja, a tabela fornece
a distribuio Y condicionada a X, ou seja, a distribuio condicional de Y.
A partir da distribuio condicional se pode facilmente obter as probabilidades de Y
condicionadas a X, tambm chamada de probabilidades condicionais, cuja forma mais
comum de falar P(Y/X). A partir de P(Y/X) se pode obter as mdias condicionais de Y ou
valores esperados de Y dado X. Denominada de mdia de Y condicional a X e expressa
por E(Y/X=X) ou E(Y/X). (Mostrar os dados em um diagrama de disperso em torno da
mdia).
O diagrama de disperso mostra claramente que o consumo, em mdia, aumenta
quando a renda aumenta. Ou seja, os valores mdios condicionais de Y aumenta quando X
aumenta. O diagrama mostra que essas mdias formam uma linha reta com declividade
Prof. Dr. Sinzio Fernandes Maia
2
2
UFPBDepartamento de Economia Disciplina: 1201110 Econometria 2004.2
positiva. Esta linha conhecida como curva de regresso da populao ou regresso de
Y sobre X. ou seja, a curva de regresso de Y sobre X nada mais do que o lugar
geomtrico das mdias ou expectativas condicionais das variveis dependentes, dadas os
valores fixados da varivel explicativa.
Fica claro que cada mdia condicional E(Y/X
i
) funo de X
i
. ou seja,
E(Y/X
i
) = f(X
i
) (1)
A equao acima tambm conhecida de funo de regresso populacional (FRP)
ou apenas regresso populacional (RP). Ela expressa que a mdia da distribuio de Y se
relaciona funcionalmente com X
i
. Mas qual forma assume?
Esta uma questo importante por que na arrasadora maioria das vezes no temos
dados populacionais. Como primeira aproximao, podemos admitir que a funo tem a
seguinte forma:
E(Y/X
i
) =
0
+
1
X
i
(2)
Onde os
0
e
1
so chamados de coeficiente da regresso e podem ser interpretados
como o coeficiente do intercepto (
0
)e o coeficiente angular (
0
). Esta equao conhecida
como funo de regresso linear da populao ou regresso linear da populao.
Qual o significado para o termo linear?
Existem duas interpretaes para o termo linear. So elas:
a) A primeira interpretao de linearidade implica que a expectativa condicional de Y
uma funo linear de X
i
, como na equao (1). Nesta interpretao, a seguinte funo
E(Y/X
i
) =
0
+
1
X
2
i
no linear.
b) A segunda interpretao de linearidade implica que a expectativa condicional de Y
uma funo linear dos parmetros, . Neste caso, a equao E(Y/X
i
) =
0
+
1
X
2
i
linear,
mas nos parmetros.
A segunda interpretao extremamente relevante para se desenvolver os modelos
de regresso empregados neste curso. Por isso, quando nos referimos ao termo regresso
linear estamos dizendo que expectativa condicional de Y uma funo linear dos
parmetros, , podendo no ser nas variveis.
Especificao estocstica da FRP
A expresso (2) deixa claro que quando aumenta a renda semanal familiar tambm
aumenta, em mdia, o consumo semanal familiar. Mas, qual o comportamento de uma
famlia especfica? Pela tabela 1 se v que o consumo semanal familiar no
necessariamente aumenta com o aumento do nvel de renda semanal familiar. Na classe de
renda familiar 100 existe uma famlia especfica que consome 65, que menor do que o
consumo de duas famlias que tem renda de 80 (70 e 75). Mas, no entanto, o consumo
mdio das famlias com 100 de renda maior do que o consumo mdio das famlias com 80
Prof. Dr. Sinzio Fernandes Maia
3
3
UFPBDepartamento de Economia Disciplina: 1201110 Econometria 2004.2
de renda. Ento, o que se pode dizer sobre a relao entre o consumo de uma famlia
individual e um dado nvel de renda? O que podemos dizer que pode existir um desvio Y
em torno de sua expectativa condicional, como mostra a equao (3):

i
= Y
i
E(Y/X
i
) ou Y
i
= E(Y/X
i
) +
i
(3)

i
o desvio de Y
i
em torno de seu valor esperado condicional E(Y/X
i
) .
i
uma
varivel aleatria que pode assumir valores positivos ou negativos. Ele tambm
conhecido como perturbao estocstica ou erro estocstico. Ento, o consumo semanal
de uma famlia composta de uma parte sistemtica ou determinstica [E(Y/X
i
)] e uma
parte aleatria ou assistemtica ou aleatria.
Y
i
= E(Y/X
i
) +
i
como E(Y/X
i
) =
0
+
1
X
i
ento,
Y
i
=
0
+
1
X
i
+
i
(4)
A hiptese de que a reta de regresso passa pelos valores mdios condicionais de Y
implica que os valores mdios condicionais de
i
so zero, ou seja,
E(
i
/X
i
) = 0 (ver o exemplo para a classe de renda 80 da tabela 1).
Qual o significado de
i
?
O significado de
i
pode ser interpretado como um substituto de todas as variveis
que afetam Y mas que no esto em (4). Por que isto acontece?
1) impreciso da teoria;
2) indisponibilidade dos dados;
3) variveis perifricas;
4) aleatoriedade implcita no comportamento humano;
5) variveis Proxy fracas;
6) princpio da parcimnia regra da navalha de occam. Que as descries sejam
mantidas to simples at que se mostrem inadequadas. Entidades no devem ser
multiplicadas sem necessidade.
E quando no tivermos dados populacionais e, sim, amostras dos dados da
populao? Ou seja, pode-se prever o comportamento mdio de Y dado os valores de X a
partir de uma amostra da populao?
A resposta sim, mas no de forma acurada. Ou seja, o termo
i
ir crescer. Neste
caso teremos uma reta amostral ou funo de regresso amostral. Nos supomos que esta
reta seja uma boa representao, ou aproximao, da reta de regresso populacional. Ento,
Y
i
=
0
+
1
X
i
+
i

Ter como aproximao
Y
*
i
=
0
*
+
1
*
Xi

+
i
*


Prof. Dr. Sinzio Fernandes Maia
4
4
UFPBDepartamento de Economia Disciplina: 1201110 Econometria 2004.2

A questo : existe algum mtodo para que Y
*
i
=
0
*
+ 1
*
Xi

+
i
*
seja a melhor
aproximao de Y
i
=
0
+
1
Xi

+
i
. A resposta que existe e denominado de mtodo dos
mnimos quadrados e ser analisado prximamente.

Coeficiente de Correlao Linear (r)
Correlao e Causalidade
Pai: pra que aquela figura de rato na janela do seu quarto?
Filho: pra espantar os drages.
Pai: mas no h drages por aqui.
Filho: ento a coisa funciona mesmo!...
Quando duas variveis so correlacionadas, possvel predizer valores de uma delas
com base no conhecimento da outra. Isso leva freqentemente concluso errnea de que
uma varivel causa da outra. E isso particularmente verdadeiro quando a varivel
causal precede a outra varivel no tempo. Entretanto, o fato de haver um relacionamento
matemtico entre duas variveis nada nos diz quanto causa e efeito. Logo, h trs
explicaes possveis para a obteno de uma correlao:
i)existe uma relao de causa e efeito;
ii) ambas as variveis se acham relacionadas com uma terceira; ou
iii)a correlao devida ao acaso.
O caso da segunda possibilidade, exemplificado pelas folhas que caem das
rvores pouco antes de comear o inverno. Pode-se concluir que a queda das folhas tenha
causado a queda da temperatura, ou ambas as ocorrncias esto relacionadas com a
mudana de estaes?
Estatsticas tm demonstrado acentuada correlao entre o consumo de lcool e a
elevao dos salrios dos professores. de concluir que os professores estejam consumindo
seus aumentos de salrios para afogar as magoas, ou ser mais lgico admitir que,
medida que aumenta o nvel geral dos salrios (inclusive dos professores), haja tambm um
aumento do consumo de bens em geral, inclusive bebidas?
H muitos exemplos interessantes de relacionamentos esprios, ou sem sentido. Por
exemplo, um estudo recente revelou alta correlao entre o movimento de preos na bolsa
de Nova Iorque e a variao no comprimento de saias das mulheres. Outro estudo revelou
correlao entre os nascimentos na Inglaterra e a produo de ferro gusa nos Estados
Unidos.
que, para estabelecer relaes vlidas, preciso mais que simplesmente
emparelhar qualquer tipo de dados at achar alguma correlao. Em vez disso, usam-se
estudos correlacionais como pesquisas exploratrias iniciais a fim de identificar futuras
reas de pesquisa. Resultados que parecem promissores com base na lgica ou na teoria
devem ser submetidos a maior anlise para determinar se existe uma relao de causa e
efeito.
O verdadeiro perigo na utilizao de relaes para fins preditivos que no tenham
sido validadas em termos de causa e efeito que as relaes podem se modificar, ou que
modificaes deliberadas na varivel causal possam no conduzir s modificaes
esperadas na varivel efeito.
Prof. Dr. Sinzio Fernandes Maia
5
5
UFPBDepartamento de Economia Disciplina: 1201110 Econometria 2004.2
Dessa forma, a regresso e a correlao so tcnicas destinadas a estimar o
relacionamento entre duas ou mais variveis. A correlao sintetiza o grau de
relacionamento, enquanto a regresso equaciona matematicamente o relacionamento. A
equao pode ser usada para predizer valores de uma varivel, dados os valores da outra.
Correlao: o grau de relao entre as variveis e, determina o quanto uma
equao linear descreve, ou explica a relao entre as variveis.
O Coeficiente de Correlao de Pearson (r) ou r(X,Y), estudado por Karl
Pearson (1903), uma medida da relao entre duas variveis. Expressa tanto o sentido
quanto fora da correlao entre as variveis.
Ex: Peso de uma pessoa com sua altura
Quantidade Vendida e Preos
Quantidade Consumida e Renda (salrios)
Ex:

'



+ +
) ( ) (
) ( ) (
) , (
r f I l f y
Y f C k f y
G I C Y L K f Y
Na populao, o coeficiente de correlao ( ) mede a aderncia ou qualidade do
ajustamento verdadeira reta da relao entre X e Y, ou ainda o grau de relao entre elas.
Na amostra, o coeficiente de correlao (r) mede a quantidade de disperso em
torno da equao linear ajustada atravs do mtodo dos mnimos quadrados.O (r) uma
estimativa do parmetro ( ), medindo os desvios em relao reta ajustada.O coeficiente
de correlao (r) ser definido como a razo entre a covarincia e a raiz quadrada do
produto das varincias de X e Y.
[ ] [ ]
r
X X Y Y
X X Y Y


( )( )
( ) ( )
2 2

Levando-se em considerao o tamanho da amostra, pode-se dividir o numerador e o
denominador por (n).
Critrio 1
[ ] [ ]
r
n
X X Y Y
n
X X Y Y



1
1
2 2


( )( )
( ) ( )

ou
Prof. Dr. Sinzio Fernandes Maia
6
6
UFPBDepartamento de Economia Disciplina: 1201110 Econometria 2004.2
Critrio 2
y x
S S
Y X Cov
r
) , (

1
1
]
1



1
1
]
1

n
Y
Y
n
X
X
n
Y X
XY
r
2
2
2
2
) ( ) (
MEMRIA:
Mdia:
n
X
n
X
X
i i

Desvio-Padro:
n
X
n
X X
S
x x

2 2
) (
1
) (

Coeficiente de Variao: 100


X
S
CV
x
> 30: Disperso muito grande em torno da Mdia
< 15: A mdia representativa para uma amostra
Critrio das Variveis Reduzidas
Considerando ) ( ) ( Y Y y e X X x
i i i i
, nota-se que adotar este critrio, elimina-se
qualquer influncia das unidades de medida de X e Y.
2 2
( )( )
xy
r
x y



O intervalo de variao de (r) que expressa tanto o sentido quanto a fora da correlao -
se situa entre -1 < r <1.
Prof. Dr. Sinzio Fernandes Maia
7
7
UFPBDepartamento de Economia Disciplina: 1201110 Econometria 2004.2
Observaes: quanto maior a qualidade de ajuste, mais prximo de 1 ou +1 estar o valor
de (r). Quando no h relao ento r=0.
Como se obtm as equaes de r?
A tcnica mais usada para determinar a equao da reta a tcnica dos mnimos
quadrados; a denominao provm do fato de a reta resultante minimizar a soma dos
quadrados dos desvios dos pontos em relao reta. Assim, pode-se dizer que a anlise de
regresso envolve inferncias quanto ao verdadeiro relacionamento existente na populao.
A inferncia envolve tanto testes de significncia como a construo de intervalos de
confiana. Alm disso, pode-se calcular um valor de coeficiente de correlao (r) que sirva
de medida de quo bem a reta se ajusta ao conjunto dos pontos.
Baseado em mdias e desvios-padro possvel calcular o coeficiente angular de
uma reta ajustada sobre a relao linear de duas variveis.
) )( (
2 2
y x
xy
r

O procedimento, agora, buscar calcular uma reta, a partir da mdia de X e Y.


Equao da Reta
Y = a + bX
Mtodo dos mnimos quadrados para calcular a mdia de Y
o o o

Y

o o o
2
) ( Y Y

S Y Y
2
) (
Minimizar S em torno de uma mdia significa derivar S em relao
Y
,
Prof. Dr. Sinzio Fernandes Maia
8
8
UFPBDepartamento de Economia Disciplina: 1201110 Econometria 2004.2
n
Y
Y
Y n Y
Y Y
Y Y
Y
S




0 ) ( 2
0 ) 1 )( ( 2

Para se calcular a reta da equao a partir das mdias, preciso:


( )
.
a bX
Y
n
na b X
Y
n
na X
Y b
n n
Y a bX
+

+
+
Os pontos das coordenadas X e Y esto definidas pelas seguintes equaes
) ( ) ( ) ( X b a bX a Y Y + +
) ( ) ( X X b Y Y - queremos saber a magnitude de (b)
(Multiplica-se ambos os lados por (X -
X
)
) )( ( ) )( ( X X X X b X X Y Y - Aplicando a propriedade do Somatrio
2
) ( ) )( ( X X b X X Y Y

- Se dividirmos ambos os lados por

2 2
) ( ) ( Y Y X X
[ ] [ ] [ ] [ ]
2 2
2
2 2
) ( ) (
) (
) ( ) (
) )( (
Y Y X X
X X b
Y Y X X
Y Y X X
r


Chamando S
xx
de Varincia de X e S
yy
Varincia de Y
Prof. Dr. Sinzio Fernandes Maia
9
9
UFPBDepartamento de Economia Disciplina: 1201110 Econometria 2004.2
2
2
) (
) (
Y Y S
X X S
yy
xx


yy xx
xx
S S
bS
r
.

- Dividindo-se os Valores por (n)


Chamando Sx
2
= Sx/n e Sy
2
= Sy/n
Sx
Sy
r b
Sy
Sx
b r
Sy Sx
bSx
Sy Sx
bSx
r .
.
.
2
2 2
2
sendo
) (
) (
.
Sx Padro Desvio
Sy Padrao Desvio
r b

Teste de Significncia do Coeficiente de Correlao


O valor de (r) calculado atravs dos n pares de valores das variveis X e Y,
representa apenas uma estimativa do verdadeiro coeficiente de correlao populacional .
Para testar a hiptese de que o coeficiente de correlao igual a zero (H
0
: =0),
necessrio aplicar o teste t:
2
1
2
r
n
r t
cal

O t calculado ser comparado ao t tabelado, a um nvel de significncia, com n-2


graus de liberdade. Se t
cal
t
tab
, rejeita-se H
0
, ou seja, existe uma correlao entre as
variveis avaliadas, dada pelo valor de r.
Prof. Dr. Sinzio Fernandes Maia
10
10
UFPBDepartamento de Economia Disciplina: 1201110 Econometria 2004.2
Exerccio
Exemplo 1:
X Y XY X
2
Y
2
x
i
=(X-
X
) y
i
=(Y-
Y
) x
i
2
y
i
2
x
i
y
i
6 7 42 36 49 0 1 0 1 0
5 6 30 25 36 -1 0 1 0 0
9 10 90 81 100 3 4 9 16 12
10 9 90 100 81 4 3 16 9 12
3 2 6 9 4 -3 -4 9 16 12
4 3 12 16 9 -2 -3 4 9 6
8 9 72 64 81 2 3 4 9 6
7 5 35 49 25 1 -1 1 1 -1
6 6 36 36 36 0 0 0 0 0
2 3 6 4 9 -4 -3 16 9 12
60 60 419 420 430 60 70 59
6 6
Critrio 1:
1
1
]
1



1
1
]
1

n
Y
Y
n
X
X
n
Y X
XY
r
2
2
2
2
) ( ) (
9103 , 0
8074 , 64
59
70 . 60
59
10
) 60 (
430
10
) 60 (
420
10
60 . 60
419
2 2

1
1
]
1

1
1
]
1

r r
Critrio 2:
) )( (
2 2
y x
xy
r

9103 , 0
8074 , 64
59
) 70 )( 60 (
59
r r
Teste de significncia:
t
cal
=
2
1
2
r
n
r t
cal

=
2199 , 6
17135 , 0
8
9103 , 0
) 9103 , 0 ( 1
2 10
9103 , 0
2

Interpretao: Observar o valor tabelado na tabela t-student, com n-2 (g.l.) ao nvel
de 5%, obtendo um t
tab
=2,306. Observa-se que o valor t
cal
>t
tab
, rejeita-se H
0
: =0, ou seja,
existe uma correlao entre as variveis avaliadas.
Prof. Dr. Sinzio Fernandes Maia
11
11

Potrebbero piacerti anche