Sei sulla pagina 1di 21

Disciplina - Estatstica I

Regresso
Actividade de pesquisa

Alunos:
Joo Pedro B. C. Silva 1101485
Ian Downie -1102742
Ano Lectivo 2011/2012

1.
2.
3.
4.
5.
6.
7.
8.

Introduo
Regresso Linear Simples
Modelos de Regresso Polinomiais
Tcnicas de Anlise de Varincia Aplicadas Regresso
Tcnicas de Inferncia Aplicadas Regresso
Softwares de Regresso
Concluso
Referncias

1. Introduo

A anlise de relaes com recurso regresso uma ferramenta poderosa mas de fcil
compreenso e, por estas razes , utiliza-se a regresso em quase todas as reas de investigao
de forma a estudar interaces entre variveis em anlise.
Actividade 3-Regresso

2 | Pgina

O primeiro passo na construo de uma anlise por regresso a especificao do problema. Se


este passo for mal concebido, danificar todo o projecto; portanto, essencial definir
cuidadosamente qual o problema a que se quer dar resposta. Depois, o investigador tem de
identificar os regressores (Xi) que expliquem a varivel de resposta (Y) e recolher os dados. Se
todos os dados so qualitativos, utilizam-se tcnicas de anlise de varincia para os analisar e as
tcnicas de anlise de covarincia se os dados regressors so qualitativos e quantativos.
O modelo que descreve a relao entre os Xi e Y pode ser linear ou no-linear. Este relatrio s
abordar a regresso linear; no entanto, necessrio clarificar que um modelo no-linear quer
dizer que um dos regressores entra no modelo de forma no-linear. Quando a relao entre Xi e
Y no-linear, poder ser definida como Polinomial, Exponencial, Logistica ou Sinusoidal.
tambm importante distinguir entre a regresso mltipla, que contm regressores mltiplas e a
regresso multivariada que contm mais do que uma varivel de resposta. O modelo tem de ser
ajustado para os dados da amostra e existem vrios mtodos para o realizar aqui
consideremos, de forma breve o mtodo dos quadrados mnimos.
O modelo ajustado a finalidade da regresso; os resultados que advm podem ser utilizados
para: 1) avaliar a importncia de regressores individuais; 2) analisar os efeitos de alteraes nos
regressores e 3) prever valores da varivel de resposta. Contudo, antes de podermos tirar
concluses, temos de confirmar que as suposies da regresso no foram violadas.

2. Regresso Linear Simples


Pode-se contemplar a regresso na sua forma simples atravs da seguinte frmula:
[1.1]
Esta uma regresso mlitpla com trs variveis independentes e pode ser simplificada ainda
mais para uma regresso com uma s varivel independente (Xi). Na regresso mltipla, os
coeficientes ( ) das variveis independentes medem a mudana esperada na varivel
dependente quando as outras variveis independentes so constantes. As suposies da
regresso linear so:
1)

o intercepto e os

2)

3) os

descrevem a inclinao da linha de regresso;

que correspondem aos pares

4) a varincia dos erros constante:

so independentes;
(homoscedasticidade).

De forma a simplificar os processos de resoluo, habitual recorrer forma matricial para a


resoluo de problemas. Ento podemos escrever a equao anterior da seguinte forma:

Actividade 3-Regresso

3 | Pgina

y1 1

y 2 1
M M

y n 1

x1

x1

x2 x2 L
M M
xn xn L

x1 0 1

x 2 1 2

M M M

x n n n

Agora, considera-se uma forma de derivar os


coeficientes de regresso.
I.

[1.2]

Linha de regresso ajustada

Ajuste do Modelo

Estimao de Mnimos Quadrados


Ao derivar estes coeficientes, a prioridade tem de
ser a
minimizao dos erros para que o modelo reflita
adequadamente a realidade. Uma vez que os erros
de
estimao pode ser positivos ou negativos, utilizam-se os valores quadrados de modo a que
todos os valores sejam positivos e que a soma dos valores no seja 0.

[1.3]
Chegamos ao mnimo da soma dos erros atravs da derivao de [1.3]. Disto, podemos concluir
^

que, para cada coeficiente :


^

X t X X tY

II.

[1.4]

O Valor de Regresso Mltipla

A regresso mltipla (regresso com mais do que uma varivel independente) importante
porque permite que sejam controlados os efeitos de outras variveis X quando estamos a
investigar os efeitos de uma varivel especfica.

Por exemplo, num estudo de Deloitte 1 sobre a valorao de parques elicos, os investigadores
construram o seguinte modelo:

[1.5]
1

Deloitte (2011), http://www.deloitte.com/assets/Dcom-Denmark/Local


%20Assets/Documents/Udgivelser/Publikationer/CSR_klima_og_cleantech/Valuing_wind_and_solar_developers_January_2011.pdf

Actividade 3-Regresso

4 | Pgina

e com base neste modelo, conseguiram controlar os efeitos individuais que projectos em vrias
fases de desenvolvimento produziram no valor global das iniciativas empresariais.
III.

Aumentar as Capacidades do Modelo

Variveis Dummy e Interaces entre Variveis


Este estudo de Deloitte tambm ajuda na exemplificao de uma outra caracterstica da
regresso mlitpla a utilizao de variveis dummy. As variveis dummy so regressores
binrios que permitem a diferenciao entre subgrupos na amostra. Por exemplo gnero, raa,
possuir uma componente qumica ou no, etc. Pode-se tambm acrescentar mais que dois
subgrupos com dummies adicionais; neste caso usam-se k-1 variveis a varivel omitida a
referncia porque os outros coeficientes das dummies so interpretados atravs da mudana da
mdia esperada em relao sua.
[1.6]

O
modelo
acima
demonstra
como
os
autores
do
estudo
aplicaram uma dummy
para discriminar entre
transaces antes e depois
da data especificada e
estudar se houve um
aumento no valor deste
tipo de ativo. O grfico
direita
demonstra
o
impacto da dummy em
que
a
linha
azul
representa o modelo de
regresso antes da data de
referncia e a linha verde depois da data. Os investigadores acharam que a reduo do valor dos
empreendimentos entre os dois perodos foi significante.
Um outro aspecto interessante neste modelo a interaco do dummy com uma das variveis
contnua; esta interaco reflete uma reduo no valor da transaces maiores e explica o fato
de as linhas no serem paralelas. Interaces entre variveis contnuas tambm podem ser
modeladas; no entanto, o investigador tem sempre de estar atento base terica do fenmeno
que quer estudar e a possibilidade de perder interpretabilidade de modelos com interaces
complexas.
Transformaes No-Lineares
Frequentemente a varivel dependente que est a ser modelado no obedece a distribuio
normal, o que provavelmente ter consequncias como a invalidao das distribuies das
Actividade 3-Regresso

5 | Pgina

amostras que fornecem os erros padro. Nestas situaes, recorrem-se s transformaes


apresentadas no quadro a baixo para normaliz-la.

Transformao

Modelo Novo

Aplicao

Logartmica

Z=Xb

enviesamento direita

Exponencial

Z=Xb

enviesamento esquerda

Potncia

Z=Xb

enviesamento direita e
esquerda (quando p>1)

Logstica

Z=Xb

Sempre que Y uma


proporo

IV.

Nova Varivel Dependente

Valores Aberrantes

Normalmente, quando h um valor que est muito longe da linha de regresso, obrigatrio
examinar a situao e verificar se o valor modifica ou no drasticamente o modelo.
Frequentemente, estes valores surgem de erros na amostragem e, apesar da informao perdida,
costuma ser melhor retir-los da regresso. No entanto, se se encontram vrios destes valores
agrupados, necessrio investigar mais profundamente a razo desta anomalia talvez indique
a omisso de uma varivel importante do modelo. No entanto, valores aberrantes podem conter
informao muito importante; por exemplo, no contexto do desenvolvimento de novos produtos
ou tecnologias, podem apresentar processos mais eficiente ou baratos.

V.

Multicolinearidade

A multicolinearidade um problema que surge quando, dentro da regresso, no possvel


detectar a fonte da variabiliade na varivel dependente Y no se consegue determinar se
ou
o regressor responsvel. Isto costuma ocorrer quando existe mais correlao entre as
variveis X do que entre cada X e Y. Muitas vezes possvel resolver este problema com
observaes adicionais, mas mesmo assim importante estar consciente deste potencial
problema que pode introduzir impreciso na regresso ao nvel das estimativas dos coeficientes
e os erros padro.
Alguns sintomas tpicos da multicolinearidade so:
1) valores significativos de F mas no de t;
2) variaes imprevisveis nos coeficientes ao introduzir uma nova varivel;
3) coeficientes inesperados.
Actividade 3-Regresso

6 | Pgina

A forma mais simples de lidar com a multicolinearidade a eliminao de variveis: se existem


duas que explicam o mesmo fenmeno, uma redundante. Pode-se tambm, se no se consegue
decidir qual varivel deve ser excluda, combinar as variveis correlacionadas. Uma
transformao do tipo considerado na seco III deste captulo pode igualmente ser considerado.
Ott2 (2009) encontrou uma forma de combater a multicolinearidade na regresso realizada para
investigar a disposio de pagar dos passageiros areos por compensao de carbono (quando o
custo do bilhete inclui uma taxa que contribui para compensar pelas emisses do carbono do
voo). Ao selecionar os regressores para o modelo, a investigadora decidiu deixar fora
emprego e idade, tendo em considerao que estes seriam demonstrariam um alto grau de
multicolinearidade com o regressor dummy para estudante.

VI.

Erros No-Normais e Heteroscedsticos

Outra fonte de impreciso em regresses so os erros no-normais e heterscedsticos que


violam a suposio fundamental de no-enviesamento nos erros.
A deteo deste tipo de erros no-normais frequentemente realizada com recurso construo
de um grfico de quantis de forma a comparar a distribuio observada dos erros com a
distribuio terica.
Detecta-se a heterocedasticidade com o auxlio de um grfico que trace a varincia dos erros
contra os valores esperados de Y ou contra cada um dos regressores X. Se os erros no so
distribudos aleatoriamente, mas demonstram uma forma sendo a de um cone a mais clssica
provavelmente isto uma prova suficiente da presena de heterocedasticidade. A sua
consequncia principal que os erros padro dos coeficientes de regresso no so confiveis,
potencialmente provocando enviesamento na inferncia da regresso e resultados errados.

Estas situaes costumam ter trs causas principais. A primeira um modelo mal especificado
que resulta em agrupamentos de erros que no so explicados pelo modelo, por exemplo a
funo postulada linear, mas os dados so polinomiais. A segunda a utilizao de uma forma
inapropriada para medir a varivel dependente. Um exemplo disso aplicar um modelo de
regresso linear quando a varivel Y no contnua mas discreta. A terceira a omisso de uma
varivel, o que poder ser resolvido com a incluso da varivel.

VII.

Generalizaes

Como foi abordado brevemente na ltima seco, muitas vezes a regresso linear no serve para
modelar a realidade com frequncia por causa da no satisfao das suposies deste tipo de
2

Willingness to Pay for Opt-In Offsets in the Voluntary Carbon Market (http://ekoeco.com/Willingness%20to%20Pay
%20for%20OptIn%20Offsets%20in%20the%20Voluntary%20Carbon%20Market.pdf)

Actividade 3-Regresso

Linha de regresso
7 |logstica
Pgina

regresso. Embora fiquem um pouco fora do mbito deste artigo, consideraremos de forma
sucinta agora apenas alguns mtodos de regresso para ultrapassar algumas dessas dificuldades.

Regresso logstica
A regresso logstica um modelo linear generalizado.
Muitas vezes a varivel dependente discreta e no
contnua, como a regresso linear simples pressupe.
Se se pretende um resultado da regresso que binrio
(0 ou 1) por exemplo, se uma pessoa ou um negcio
saudvel ou no a regresso logstica d-nos a
probabilidade de receber um dos dois possveis
resultados. A relao entre a probabilidade e a
varivel independente
pode ser descrita pela frmul:
[1.7]
.

Regresso Multivariada
A maior parte da regresses estudadas so univariadas, que significa que tem apenas uma
varivel dependente. A regresso multivariada uma extenso deste modelo para situaes em
que h mais do que uma varivel dependente.
Uma situao em que pode ser necessria recorrer regresso mulitvariada quando se sabe
que o erro da regresso correlacionado com o erro de uma outra regresso. Se no se
inclussem as variveis na regresso, significaria existir enviesamento por causa das variveis
omitidas e, consequente, uma perda de preciso nos coeficientes.
Nestas situaes, cria-se uma distribuio conjunta para a varivel independente, como
ilustrado na [1.8]:

[1.8]
Srie temporal
A regresso de srie temporal a observao repetida de uma varivel independente ao longo do
tempo. Frequentemente, a tcnica utilizada em disciplinas como a Economia, nas quais um
objectivo estudar as transformaes em relaes com a passagem do tempo. Um exemplo
disso as alteraes observadas no preo de uma mercadoria.

Os dados de srie temporal apresentam uma forma de fazer regresso semelhante da


regresso linear. No entanto, problemas como correlaes entre erros, a ilegitimidade terica da
Actividade 3-Regresso

8 | Pgina

relao entre variveis, poucos dados ou dados ausentes apresentam outros desafios para o
investigador.
Existem vrios outros modelos e adaptaes do modelo de regresso linear simples, mas a base
terica sempre a regresso linear. O factor mais importante, antes de escolher as tcnicas de
regresso mais adequadas, ter em conta o tipo de dados que vo ser analisado e as
consideraes tericas da disciplina na qual a regresso vai ser aplicada. Uma outra adaptao
da regresso linear simples o modelo de regresso polinomial que ser considerado no
prximo captulo.

3. Modelos de Regresso Polinomiais

I. O que um Modelo de Regresso Polinomial?

A regresso polinomial uma tcnica estatstica que nos permite prever e avaliar o valor de uma
varivel com base em expresses polinomiais. Na regresso polinomial, a curva de ajuste dada
por uma funo polinomial.
Graficamente, a regresso polinomial caracteriza-se pela aproximao aos pontos (xi,yi) atravs
de curvas. As curvas podero ter as seguintes formas:

Polinmio de grau 2

Polinmio de grau 3

Actividade 3-Regresso

Polinmio de grau 4

9 | Pgina

Polinmio de grau 5

Os modelos de regresso polinomial so teis quando o investigador conhece a forma como os


dados em anlise se comportam graficamente. Deste modo, o investigador poder modelar com
maior segurana os dados em anlise e as respostas a obter. No entanto, h certos aspectos a ter
em conta. A extrapolao pode ser complicada e levar a erros considerveis. Por vezes no
possvel obter garantias sobre o comportamento de elementos da varivel que esto fora da zona
de dados recolhidos sobre a mesma varivel. Isto , a estimao feita sobre valores que no
foram observados, deve ser feita com extrema cautela. Poder no haver garantia de que o
modelo seja apropriado fora da zona de observao.

Extrapolao

O grau a utilizar dever ser o menor possvel. No entanto, o modelo polinomial poder estar
desadequado para alguns valores de da observao. O aumento do grau, em muitos dos casos,
no ser a soluo adequada. Um procedimento eficaz, ser a partio da zona de dados
observados em subzonas em que se far uma aproximao por um modelo polinomial diferente.

II. Como Construir um Modelo de Regresso Polinomial?


Um modelo de regresso polinomial apresentado na seguinte forma:

Y 0 1 x 2 x 2 ... n x m ,
em que:
i) Y a varivel aleatria dependente (ou de resposta);
ii) xi so as variveis independentes ou preditoras com i=1,,n;
iii) i so os coeficientes de regresso com i=1,,n.
Actividade 3-Regresso

10 | P g i n a

No entanto, de forma a simplificar os processos de resoluo, habitual recorrer forma


matricial para a resoluo de problemas. Ento podemos escrever a equao anterior da seguinte
forma:

1 x1

y1
y
2

0

1

x12 x1m

1

2

x22 x2



xn2 xnm n n

1 x2



y n 1 xn

A complexidade de determinados estudos e pesquisas poder levar complexidade do prprio


modelo polinomial. Por exemplo, podemos ter uma equao como a seguinte:

Y 0 1 x1 2 x 2 11 x12 22 x 22 12 x1 x 2
2
2
Se fizermos x 3 x1 , x 4 x 2 , x 5 x1 x 2 , 3 11 , 4 22 e 5 12 , ento a equao

anterior transforma-se da seguinte forma:

Y 0 1 x1 2 x 2 3 x3 4 x 4 5 x 5 ,
que um exemplo de um modelo de regresso linear mltipla. Ento, podemos abordar a
regresso polinomial como um caso particular da regresso linear mltipla.
A forma matricial de uma equao de um modelo de regresso linear mltipla :

y1 1 x11
y
2 1 x21


y n 1 xn1

x12

x1k

x22 x 2 k

x n 2 x nk

0 1

1 2


n n

Isto ,

Y X
i

em que cada erro aleatrio tem uma distribuio normal e a estimao de considera-se nula.

Actividade 3-Regresso

11 | P g i n a

A estimao dos parmetros j feita atravs do mtodo dos mnimos quadrados e tem da
seguinte forma:

X t X X tY
^

Assim, o modelo de regresso ajustado ser dado pela expresso:


^

yX
E os resduos so obtidos atravs da expresso e Y Y .

III. Como Interpretar um Modelo de Regresso (Polinomial ou Mltipla)?

Aps a construo do modelo de regresso deve verificar-se o ajustamento deste e a


validade estatstica dos parmetros estimados. A forma de o fazer atravs do
coeficiente de Determinao R2. O coeficiente de determinao assenta no seguinte
quociente:

SomaQuadrados Re gresso
SomaQuadradosTotal
Ou

SomaQuadrados Re siduos
SomaQuadradosTotal

em que,

Soma dos Quadrados devido Regresso (SQR) =

Soma dos Quadrados do Total (SQT) =

Y Y

y
i 1

y
i 1

X Y
t

t
t t
Soma dos quadrados dos resduos (SQRE) = Y Y X Y .

As anlises que podemos efectuar sobre o valor do coeficiente de determinao


assentam nos seguintes pressupostos:

Actividade 3-Regresso

12 | P g i n a

i) R2 mede a percentagem da explicao variao da varivel dependente pela


variao das variveis independentes;
ii) R2 assume valores no intervalo [0,1];

iii) Quando o valor de SQRE tende para o valor de SQT, ento, o quociente SQRE/SQT tende
para 1, logo, R tende para zero. Isto indica um modelo estimado no satisfatrio;

iv) Quando SQRE tende para zero, ento, SQRE/SQT tende para zero, logo, R tende
para 1. O que indica um modelo satisfatrio.
No caso da regresso mltipla, o coeficiente de determinao dado pela raiz quadrada de R2,
ou seja R. Na regresso mltipla, R tambm assume valores no intervalo [0,1].
O coeficiente R mede a correlao linear entre Y e Y .

4. Tcnicas de Anlise de Varincia Aplicadas Regresso


I. ANOVA
Para avaliarmos a significncia do modelo como um todo utilizamos a anlise de
varincia (ANOVA). Para isso, consideremos o Modelo de Regresso Linear Simples
com a suposio de que os erros tem distribuio Normal.
A anlise de varincia baseada na decomposio da soma de quadrados e nos graus de
liberdade associados a varivel resposta Y. Isto , o desvio de uma observao em
relao mdia pode ser decomposto como o desvio da observao em relao ao valor
ajustado pela regresso mais o desvio do valor ajustado em relao mdia, isto ,
podemos escrever como:

Yi Y (Yi Y ) (Yi Yi )
Elevando cada componente da expresso anterior ao quadrado e somando para todo o
conjunto de observaes, obtemos:
Actividade 3-Regresso

13 | P g i n a

Y
n

i 1

2
Y (Yi Y ) 2 (Yi Yi ) 2
n

i 1

i 1

A SQT tem n-1 graus de liberdade; um grau de liberdade perdido devido a restrio de
que a soma dos desvios em torno da mdia zero. De outra forma: um grau de liberdade
perdido porque a mdia da amostra usada para estimar a mdia populacional.
A SQE tem n-2 graus de liberdade. Dois graus de liberdade so perdidos pois dois
parmetros so estimados para obter Yi .
A SQR tem 1 grau de liberdade. Dois g.l. esto associados com a regresso (2
parmetros); um deles perdido devido a restrio: (Yi Y ) 0.
A soma de quadrados dividida pelos graus de liberdade chamada de quadrado mdio.
QMR

SQR
1

QME

QMT

SQE
( n 2)

SQT
( n 1)

Tabela da anlise de varincia para regresso linear simples


Causas de Variao

Soma de quadrados

Graus de liberdade

Regresso

SQR

Erro

SQE

n-2

Total

SQT

n-1

Quadrado mdio
SQR/1
SQE/(n-2)

Considerando o Modelo de Regresso Linear Simples, a anlise de regresso estabelece um


teste para avaliar o parmetro 1.As hipteses a testar so:

H 0 : 1 0

H 1 : 1 0
O teste a utilizar F

QuadradosMedios Re gresso QMR

.
QuadradosMdios Re siduos QME

Uma motivao, baseada nas esperanas dos quadrados mdios sugere que valores grandes de F
conduzam a H1 e valores de F prximos de 1 conduzam a H0.
Logo, rejeitamos H0 com um nvel de significncia se F F(1 ,1, n 2 ) .

No caso da regresso linear mltipla podemos apresentar a tabela-resumo sobre a anlise de


varincia da seguinte forma:
Actividade 3-Regresso

14 | P g i n a

Tabela da anlise de varincia para regresso linear mltipla


Causas de Variao

Soma de quadrados

Graus de liberdade

Regresso

SQR

Erro

SQE

n-k-1

Total

SQT

n-1

Quadrado mdio
SQR/k
SQE/(n-k-1)

Para determinar se existe uma relao linear entre Y e X=x1,x2,,xk colocamos as seguintes
hipteses

H 0 : 1 2 ... k 0
O teste F o seguinte F

Vs

H 1 : j 1,..., k : j 0

QMR
e H 0 ser rejeitada se F Fk , n k 1
QMRE

II. ANOVA em Contexto


O estudo da Deloitte produziu o seguinte quadro de ANOVA:
Causas de
Variao

Soma de
quadrados

Graus de
liberdade

Quadrado
mdio

Valor de P

278.363894

5.92982E-41

Regresso

4774717.752

1193679.438

Erro

287309.2526

67

4288.1978

Total

5062027.005

71

O quadrado mdio da regresso (1193679.438) muito maior do que o do erro (4288.1978), o


que quer dizer que provavelmente o impacto da capacidade instalada no empreendimento
significante. Para verificar este resultado, podemos utilizar o quociente F desta regresso e
compar-lo com o valor da cauda superior da distribuio F. Com = 0.05, F0.05,4,67 = 2.352.
Dado que 278.363894 > 2.352, podemos concluir que as mdias dos regressores no so
iguais.
No entanto, esta demonstrao completamente acadmica, uma vez que j sabemos que as
mdias diferentes regressores diferentes so utilizados para tentar explicar os valores dos
empreendimentos. A estatstica F mais relevante quando se pretende investigar as diferenas
nas mdias entre variveis independents que so parecidas, por exemplo, decidir qual tipo de
roda mais resistente ou qual tipo de publicidade mais eficaz.
No entanto, as principais formas de inferncia aplicada regresso tem a sua base nas
estatsticas geradas da ANOVA e so investigadas no capitulo que se segue.
Actividade 3-Regresso

15 | P g i n a

5. Tcnicas de Inferncia Aplicadas Regresso


Desde que sejam satisfeitas as suposies da regresso, pode-se proceder inferncia. A
inferncia tipicamente realizada atravs: da construo de intervalos de confiana e do teste de
hiptese para os parmetros da regresso; a predio da varivel dependente; intervalos de
confiana para a mdia da varivel dependente e intervalos de confiana para observaes no
futuro.

Intervalos de Confiana para os Parmetros de Regresso


Conforme s suposies de regresso, podem-se derivar que os coeficientes tm as seguintes
varincias:
[5.1] e [5.2]
e
Da, podem-se construdos intervalos de confiana para os coeficientes (embora que no se
saiba

, pode ser estimada com s):

[5.3] e [5.4]

t sendo o valor critico da tn-2 distribuio.


Tambm no artigo de Ott (2009), intervalos de confiana so calculados para os parmetros da
regresso. Destaca-se o coeficiente para uma compensao que seja imposto dedutvel; o
intervalo de confiana de 95% foi de $1.27 at $15.94, demonstrando a extenso larga que uma
potencial compensao desta natureza teria.

Teste de Hiptese para os Parmetros de Regresso


Testa-se
para confirmar se uma varivel fornece informao til acerca da varivel
dependente com a seguinte estatstica de teste:
[5.5]

sendo
o erro padro
. A estatstica de teste vem da distribuio t, com
n - k - 1 graus de liberdade. Se a estatstica de teste demasiado grande (positiva ou negativa),
rejeita-se a
e a varivel fica no modelo. Se no pudermos rejeitar
, a varivel ficar no
modelo. No entanto, no que diz respeito a tomada de deciso acerca de qual variveis devero
ficar num modelo, poderia surgir problemas se se escolhesse esta forma de as testar.

Actividade 3-Regresso

16 | P g i n a

Adicionar uma varivel ao modelo de regresso sempre causa um aumento na soma dos
quadrados da regresso e um decrscimo na soma dos quadrados do erro. Entretanto, a adio
de variveis regressoras tambm aumenta a varincia do valor ajustado . Por isso, devemos ter
cuidado para incluir somente variveis regressoras que realmente explicam a varivel resposta.

Este teste pode ser estendido para

sendo um nmero real.

Inferncia de Predio
Pode-se inferir tambm valores que a varivel eventualmente vir a assumir. Por exemplo,
conhecendo os valores das variveis independentes, pode-se inferir o valor mdio da varivel
dependente ou, especificando os valores das variveis independentes, a predio do modelo para
a varivel dependente.

Contudo, os valores que a varivel independente possa vir a assumir nunca so exactamente os
valores que foram previstos. Por esta razo, vantajoso construir intervalos de confiana para
que se possa ter em conta a variao a volta da mdia. No caso de predio de uma observao,
chamam-se intervalos de predio.

Intervalos de Confiana para a Mdia da Varivel de Reposta


Dado um vector x*, e tendo em conta a suposio que
, a mdia :
[5.6]
e o intervalo de confiana :
[5.7]
no qual t* o /2 valor crtico superior da distribuio tn-2 e:
[5.8]

Intervalos de Predio para Observaes no Futuro


Se se pretender prever uma observao y com o vector especfico de valores x=x*, a melhor
aproximao :
[5.9]

Actividade 3-Regresso

17 | P g i n a

No entanto, o erro nesta regresso ser maior do que na [5.6] porque existe o erro de [5.8] e o de
tirar y da distribuio normal; consequentemente, h um 1 adicional em baixo da raiz
quadrado. O intervalo de predio :
[5.10]
e

[5.11]

Katzenstein3 (2008) desenvolveu um modelo para estimar as emisses de geradores de


electricidade que utilizam combustveis fsseis para compensar pela varincia na produo de
electricidade de geradores solares e elicos. Os resultados demonstraram que mais difcil
prever com preciso as emisses de xido de nitrognio do que dixido de carbono, uma vez
que os intervalos de predio so maiores no primeiro do que no ltimo.
Ao predizer o valor de y, necessrio ter cuidado em no extrapolar valores alm da regio dos
dados originais pois o modelo construdo a partir destes dados pode j no ser vlido.

6. Softwares de Regresso

Devido sua popularidade, existem vrios softwares que so capazes de realizar regresses.
Escolhemos considerar alguns programas que so mais comuns e outros mais especializados de
forma a dar uma ideia da diversidade de formatos em que a regresso pode ser realizada. Apesar
de no ser abordado, o SAS o SYSTAT destacam-se como ferramentas importantes de
regresso.

I.

O programa R permite ao utilizador fazer uploads de ficheiros de vrios formatos (incluindos os


de SPSS), desenhar histogramas e outros grficos com facilidade e realizar regresses.
O comando mais bsico para regresso glm(outcome~predictor1+predictor2+
predictor3).O comando summary, quando aplicado um objecto glm fornece o
utilizador com os resultados da regresso. Residuais das regresses podem ser calculados
facilmente com o comando residuals e depois organizados em grficos de forma a detectar
erros que possam contradizer as suposies da regresso.
Uma vantagem do R, quando comparado com os outros programas, que um ambiente para a
programao visto que todos os dados so objectos, pode-se acessar cada um e efectuar
3

Air Emissions Due To Wind And

Solar Power (http://pubs.acs.org/doi/abs/10.1021/es801437t)

Actividade 3-Regresso

18 | P g i n a

qualquer operao necessria nele. Outra vantagem a facildade com qual o utilizador aprende.
Ainda que a aprendizagem demore mais do que outros softwares inicialmente, a similaridade
entre os comandos faz com que seja mais fcil adicionar mais competncias ao mdio prazo.

II.

SPSS

Ao contrrio do R, que utiliza comandos e objectos, o meio para chegar aos comandos no SPSS
atravs de janelas que guiem o utilizador pela construo da regresso. Primeiro, no caso de
uma regresso linear, selecionam-se as variveis e depois as formas de exibir os resultados;
podem-se escolher ver os coeficientes dos regressores, intervalos de confiana, valores
aberrantes, o valor de R2, um quadro ANOVA, e as estatsticas descritivas. Tambm, dentro
deste ambiente, h uma janela que permite a construo de grficos como, por exemplo, dos
erros de forma a verificar a existncia de problemas como no-normalidade. Transformaes
tambm so facilmente efecutadas neste ambiente; a janela compute exibe as opes para as
variveis contnuas e recode para as variveis discretas.
O SPSS um dos programas mais utilizados para a regresso. Apesar de poder faltar um pouco
da flexibilidade que o R tem ao nvel de programao, o SPSS uma boa escolha para quem
quiser comear a fazer regresso sem aprender a programar.

III.

MINITAB

O Minitab um software para a estatstica e a regresso um dos seus componentes


importantes.
Sendo programado para a estatstica, por redefinio produz os coeficientes, um grfico da
regresso e o R2. Pode-se, sem muita dificuldade, produzir o quadro de ANOVA e os valores
aberrantes. Tambm existem comandos intuitivos para a produo de intervalos de confiana,
intervalos de predio, grficos dos erros e transformaes das variveis.
O Minitab permite que, com relativa facilidade, regresses sejam efectuadas medida do
utilizador, por exemplo com variveis de interaco ou polinomiais. No entanto, no tem o
mesmo grau de programabilidade que apresentado pelo R.

IV.

Excel

Trata-se de um programa extremamente flexvel e, embora que no seja programado


especificamente para a estatstica, permite a realizao de regresses.
Antes de poder construir uma regresso, necessrio instalar o Analysis Toolpak. Dentro do
ambiente do Analysis Toolpak, o utilizador pode escolher a opo de regresso. O ambiente
parecido com o do SPSS pois o interface com janelas e escolhem-se as opes acerca dos
regressores, dos grficos e dos resultados.
Actividade 3-Regresso

19 | P g i n a

Apesar de ter benefcios bvios como ser um dos programas mais utilizados, no que diz respeito
regresso, o Excel provavelmente no a melhor escolha. Existem vrias razes por isso: em
primeiro lugar, no produz coeficientes padronizados; segundo, o Excel no calcula estatsticas
de diagnstico nem produz grficos de diagnstico o utilizador teria de fazer isso sozinho;
terceiro, no fcil expandir as suas funes para as que outros programas tm nem construir
regresses que so diferentes da regresso padro do software.
Em resumo, os softwares como o Minitab e o SPSS apresentam-se como boas solues para
regresses mais padronizadas, mas se o utilizador pretende desenvolver projectos altamente
especificados, o R pode ser a escolha mais adequado. Adicionalmente, o facto que o R
disponvel gratuitamente na internet torna-o ainda mais aliciante.

7. Concluso
Devido s limitaes de tempo e espao, este artigo apenas apresenta alguns aspectos-tcnicos
mais fundamentais para poder realizar uma regresso com xito. No entanto, apesar de teremos
percebido a importncia e o poder da anlise por regresso, ficmos conscientes das suas
limitaes e possveis abusos - sobretudo no estudo de fenmenos sociais. As suas descries
podem ser demasiadamente simplificadas; as predies podem no corresponder realidade e as
inferncias podem ser deduzidas de modelos errados.
Mesmo aceitando estas limitaes da regresso, ao nvel da aprendizagem, a oportunidade de
investigar a regresso deu aos autores o desejo de aprofundar os seus conhecimentos ainda mais
devido ao facto que reconhecem o valor da regresso como uma ferramenta potente, entre
outras, para interpretar a realidade.

8. Bibliografia

Regression by Example, S. Chatterjee e A.S. Hadi, John Wiley & Sons Inc, 4th Edition, 2006
Design and Analysis of Experiments, D.C. Montgomery, John Wiley & Sons Inc, 5th Edition,
2001
http://www.princeton.edu/~slynch/soc504/simple_reg.pdf
http://www.princeton.edu/~slynch/soc504/simple_reg2.pdf
http://www.princeton.edu/~slynch/soc504/mult_reg.pdf
http://www.princeton.edu/~slynch/soc504/mult_reg2.pdf
http://www.princeton.edu/~slynch/soc504/expanding_ols.pdf
http://www.princeton.edu/~slynch/soc504/outliers.pdf
http://www.princeton.edu/~slynch/soc504/multicollinearity.pdf
Actividade 3-Regresso

20 | P g i n a

http://www.princeton.edu/~slynch/soc504/nonnormal.pdf
http://www.princeton.edu/~slynch/soc504/altest.pdf
http://www.princeton.edu/~slynch/soc504/generalizations.pdf
(todos consultado no dia 15 de Dezembro)
http://statmaster.sdu.dk/courses/st111/module05/module.pdf (consultado dia 20 de Dezembro)
http://www.stat.berkeley.edu/~thornton/STAT20/lec18slides4.pdf (consultado dia 24 de
Dezembro)
http://www.webpages.uidaho.edu/~chrisw/stat401/cireg1s.pdf (consultado dia 24 de Dezembro)
http://www.jeremymiles.co.uk/regressionbook/extras/appendix2/R/
http://www.jeremymiles.co.uk/regressionbook/extras/appendix2/spss9.0/index.html
http://sites.stat.psu.edu/~lsimon/stat462/fa02/minitab/regression.htm, http://www.scientificcomputing.com/scwjulaug04review_minitab_systat.html

http://www.jeremymiles.co.uk/regressionbook/extras/appendix2/excel/index.html
(todos consultado no dia 5 de Janeiro)
Regression Analysis: A Constructive Critique (prefcio), R.A Berk, 2003
(http://escholarship.org/uc/item/8db1942z) (consultado dia 6 de Janeiro)

http://www.portalaction.com.br (consultado em 5,6,7 e 8 de Janeiro de 2012)


Material de apoio disponibilizado pela prof Teresa

Actividade 3-Regresso

21 | P g i n a