Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Y
por simplicidade, o valor mdio predito
de Y para qualquer valor X = x que esteja na variao observada de X.
No exemplo 2, as estimativas dos parmetros resultaram em a = 80,5 e
b = 0,9. Veja como esses valores foram obtidos:
i
X = 2 150
i
Y = 600 n = 20
i i
X Y = 65 400
X = 30 Y =107, 5
2
i
X =19000
i i
2 2 2
x
i
x. y n.y.x 65400 20.107, 5. 30 900
b = = = = 0, 9
n.x 19000 20. (30) 1 000
a = b. =107, 5 0, 9. 30 = 80, 5 y x
No exemplo 3, as estimativas dos parmetros a e b so:
i
X = 500
i
Y =1100 n = 10
i i
X Y = 61 800
X = 50
Y =110
2
i
X = 28 400
i i
2 2 2
i
x .y n.y.x 61 800 10.110. 50 6800
b = = = = 2
x n. 28400 10. (50) 3400 x
Assim, a equao de regresso linear entre X e Y ser dada por:
Y = 10 + 2.X +
Interpretando o modelo acima, poderemos observar que, aumentando o
tamanho do lote em uma unidade, o nmero de horas gastas na produo
ser aumentado em 2 horas.
Obtendo a reta de regresso com ajuda da planilha Excel, teremos
que selecionar a opo REGRESSO no mdulo de Anlise de dados (em
ferramentas):
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
216
Anlise de Regresso
A sada fornecida pela planilha a seguinte:
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Anlise de Regresso
217
Observe que o Excel fornece, alm dos coefcientes de correlao, a Anova
da regresso para testar a sua signifcncia e os coefcientes estimados com
seus respectivos testes de signifcncia.
Anlise de Varincia da Regresso
Para verifcar a adequao do modelo aos dados, algumas tcnicas podem
ser utilizadas. A anlise de varincia da Regresso uma das tcnicas mais
usadas. Assim, podemos analisar a adequao do modelo pela ANOVA da
regresso a qual geralmente apresentada como na tabela a seguir:
Fonte de Variao g.l. S.Q. Q.M. F p-valor
Regresso p-1 SQreg SQreg/p-1
QMreg/QMres
Resduos n-p SQres SQres/n-p
Total n-1 SQtotal Sqtotal/n-1
Onde:
SQreg = soma dos quadrados devido regresso:
SQreg =
n
2
i
i=1
(Y y)
n
2
i i
i=1
(y Y )
SQtotal = soma dos quadrados totais:
SQtotal =
n
2
i
i=1
(y y)
p = nmero de variveis do modelo
n = numero de observaes.
Caso o p-valor seja inferior ao nvel de signifcncia estabelecido, ento
consideramos a regresso como signifcativa.
Uma maneira auxiliar de medir o ganho relativo introduzido pelo modelo
usar o coefciente de determinao o qual defnido por R
2
que calculado
por SQreg/SQtotal.
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
218
Anlise de Regresso
Para os exemplos 2 e 3, a tabela da Anova seria construda de seguinte
forma:
Exemplo 2:
SQreg =
n
2
i
i=1
(Y y)
n n
2 2
i i
i=1 i=1
(Y y) = (80, 5+0, 9x 107, 5)
= 810
Para obter a soma de quadrados acima, deveremos substituir em X
i
todos
os valores de idade da Tabela 1.
SQtotal =
n n
2 2
i i
i=1 i=1
(y y) = (y 107, 5) = 1 373
Para obter a soma de quadrados acima, deveremos substituir em Y
i
todos
os valores de tempo de reao da Tabela 1.
SQres = 1 373 810 = 563
Fonte de Variao g.l. S.Q. Q.M. F p-valor
Regresso 1 810 810
25,90 < 0,01
Resduos 18 563 31,27
Total 9 1 373 72,26
O que indica que a regresso entre X e Y signifcativa. O modelo
Y = 80,5 +0,9.X pode ser considerado adequado para realizar predies de Y.
O coefciente r
2
de determinao para esse modelo de 0,59 o que represen-
ta um poder apenas razovel de explicao dos valores de tempo de reao
pela idade. Muito provavelmente outras variveis estejam infuenciando o
tempo de reao.
Exemplo 3:
SQreg =
n n
2 2
i i
i=1 i=1
(Y y) = (10 +2x 110)
Y
i
= 13 600
Para obter a soma de quadrados acima, deveremos substituir em X
i
todos os valores do tamanho do lote da Tabela 2.
SQtotal =
n n
2 2
i i
i=1 i=1
(y y) = (y 107, 5) =13 660
Para obter a soma de quadrados acima, deveremos substituir em Y
i
todos os valores de nmeros de horas gastas da Tabela 2.
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Anlise de Regresso
219
SQres = 13 660 13 600 = 60
Fonte de Variao g.l. S.Q. Q.M. F p-valor
Regresso 1 13 600 13 600
1 813,33 < 0,01
Resduos 8 60 7,5
Total 9 13 660 1 517,78
O que indica que a regresso entre X e Y signifcativa. O modelo Y = 10 + 2.X
pode ser considerado de boa qualidade para realizar predies de Y. O coefcien-
te r
2
de determinao para esse modelo de 0,996.
Erro-padro de estimao e intervalos de predio
O erro-padro da estimao um desvio-padro condicional, na medida
em que indica o desvio-padro da varivel dependente Y, dado um valor es-
pecfco da varivel dependente X. O erro-padro baseado em dados amos-
trais dado por:
2
u
(y Y)
=
n 2
Para fns de clculo, mais conveniente uma verso alternativa da
frmula:
( )
2 2
u y
= S . 1 r
onde
( )
2
n
2 i=1
y
y
S =
n
y
O erro-padro pode ser usado para estabelecer um intervalo de pre-
dio para a varivel dependente, dado um valor especfco da varivel
independente.
Uma vez que o erro-padro de estimao est baseado em dados de
amostra, apropriado o uso da distribuio t de Student com n-2 graus de
liberdade. Assim, um intervalo de predio para a varivel dependente Y, em
anlise de regresso simples :
n 2; / 2
Yt .
u
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
220
Anlise de Regresso
Para os dados do exemplo 2, teramos o erro-padro da estimao dado
por:
Dado que
2
y
S =
68,65 e r
2
= 0,59 ento
( ) ( )
2 2
u y
= S . 1 r = 68, 65. 1 0, 59 = 5, 30
E o intervalo de predio, com 95% de confana, para um valor de Y=112
seria:
n 2; /2 u
[ ] = [1122,10 . 5, 30] = [ 100, 87 ; 123,13 ] Y t .
Ou seja, para uma pessoa com 35 anos, o tempo de reao predito estaria
entre 100,87 e 123,13 segundos, com 95% de confana.
Para os dados do exemplo 3 teramos o erro-padro da estimao dado
por:
Dado que
2
y
S =
1 366 e r
2
= 0,996 ento
( ) ( )
2
2 2
y
= S . 1 r = 1366. 1 0, 996 = 2, 34
u
E o intervalo de predio, com 95% de confana, para um valor predito
de Y = 110 seria:
[Y t .
u
] =[110 2, 31.2, 34] = 104, 59; 115, 41
n 2; /2
[ ]
Ou seja, para um lote de tamanho 50, seriam necessrias de 104,59 a
115,41 horas, com 95% de confana.
Anlise de Resduos
Os desvios e
i
= y
i
y
i
^
( i = 1, ..., n) so denominados resduos e so conside-
rados uma amostra aleatria dos erros. Por esse fato, uma anlise grfca dos
resduos , em geral, realizada para verifcar as suposies assumidas para os
erros
i
.
Para verifcao dos pressupostos necessrios para ajuste de um modelo
de regresso necessrio realizar uma Anlise de Resduos. Os trs tipos de
resduos mais comumente utilizados so:
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Anlise de Regresso
221
Resduos brutos;
Resduos padronizados;
Resduos estudentizados.
Ampliando seus conhecimentos
Anlise de Regresso Mltipla
A regresso mltipla envolve trs ou mais variveis, ou seja, uma nica vari-
vel dependente, porm duas ou mais variveis independentes (explicativas).
A fnalidade das variveis independentes adicionais melhorar a capacida-
de de predio em confronto com a regresso linear simples. Mesmo quando
estamos interessados no efeito de apenas uma das variveis, aconselhvel
incluir as outras capazes de afetar Y, efetuando uma anlise de regresso ml-
tipla, por duas razes:
a) Para reduzir os resduos. Reduzindo-se a varincia residual (er-
ro-padro da estimativa), aumenta a fora dos testes de signif-
cncia;
b) Para eliminar a tendenciosidade que poderia resultar se simples-
mente ignorssemos uma varivel que afeta Y substancialmente.
Uma estimativa tendenciosa quando, por exemplo, numa pesquisa em
que se deseja investigar a relao entre a aplicao de fertilizante e o volume
de safra, atribumos erroneamente ao fertilizante os efeitos do fertilizante,
mais a precipitao pluviomtrica.
O ideal obter o mais alto relacionamento explanatrio com o mnimo
de variveis independentes, sobretudo em virtude do custo na obteno de
dados para muitas variveis e tambm pela necessidade de observaes adi-
cionais para compensar a perda de graus de liberdade decorrente da introdu-
o de mais variveis independentes.
A equao da regresso mltipla tem a forma seguinte:
Y = a + b
1
x
1
+ b
2
x
2
++b
k
x
k
+ e
i
, onde:
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
222
Anlise de Regresso
Atividades de aplicao
1. Os encargos dirios com o consumo de gs propano (Y) de uma em-
presa dependem da temperatura ambiente (X). A tabela seguinte apre-
senta o valor desses encargos em funo da temperatura exterior:
Temperatura (C) 5 10 15 20 25
Encargos (dlares) 20 17 13 11 9
Seja Y =
0
+
1
X + o correspondente modelo de regresso linear.
a) Determine, usando o mtodo dos mnimos quadrados, a respecti-
va reta de regresso e represente-a no diagrama de disperso.
b) Quantifque a qualidade do ajuste obtido e interprete.
c) Determine um intervalo de confana a 95% para os encargos m-
dios com gs propano num dia em que a temperatura ambiente
de 17
o
C.
a = intercepto do eixo y;
b
i
= coefciente angular da i-sima varivel;
k = nmero de variveis independentes.
Enquanto uma regresso simples de duas variveis resulta na equao de
uma reta, um problema de trs variveis resulta um plano, e um problema de
k variveis resulta um hiperplano.
Tambm na regresso mltipla, as estimativas dos mnimos quadrados so
obtidas pela escolha dos estimadores que minimizam a soma dos quadrados
dos desvios entre os valores observados Y
i
e os valores ajustados
Y
.
Na regresso simples:
b = aumento em Y, decorrente de um aumento unitrio em X.
Na regresso mltipla:
b
i
= aumento em Y se X
i
for aumentado de 1 unidade, mantendo-se cons-
tantes todas as demais variveis X
j
.
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Anlise de Regresso
223
2. Suponha que um analista toma uma amostra aleatria de 9 carrega-
mentos feitos recentemente por caminhes de uma companhia. Para
cada carregamento, registra-se a distncia percorrida em km (X) e o
respectivo tempo de entrega (Y). Obteve-se:
i i
i i i y
2 2
x = 6.405; y = 23, 5; x = 5.628.075; y = 74, 75; x y = 20.295
a) Estime, usando o modelo de regresso linear, o tempo esperado
de entrega para uma distncia de 1 050km.
b) Comente a afrmao o tempo de entrega explicado em aproxi-
madamente 94% pela distncia percorrida.
3. Seja Y o nmero de chamadas telefnicas atendidas num determinado
servio de atendimento a clientes decorridos X minutos aps as 8h30.
Em determinado dia da semana observaram-se os seguintes pares de
valores:
Tempo aps 8h30(min) 1 3 4 5 6
Nmero de chamadas atendidas 2 5 10 11 12
Seja Y =
0
+
1
X + o correspondente modelo de regresso linear.
a) Estime
0
e
1
usando o mtodo dos mnimos quadrados e re-
presente a correspondente reta de regresso no diagrama de
disperso.
b) Determine o correspondente coefciente de determinao,
bem como o coefciente de correlao; como voc interpreta
os valores obtidos?
c) Estime a varincia do erro.
d) Seja E [Y (2)] = E [Y | x = 2]. Estime E [Y (2)]; determine um inter-
valo de confana para E [Y (2)] com 95% de confana.
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
224
Anlise de Regresso
Gabarito
1.
i i
1
2 2
i
x .y n.y.x
910 5.14.15
= = = 0,56
1375 5. 225 x n.x
0 1
= y .x =14 ( 0,56).15 = 22,4
Ento
^
Y = 22,4 0,56X.
b) Dado que y=
70
5
=14
SQreg = (Y y) = (22,4 0,65x 14) =78,4
i
2
i=1
n
i
2
i=1
n
SQres = (y Y ) = (y 22,4 0,65x )
i i
2
i=1
n
i i
2
i=1
n
= 1,6
SQtotal = 78,4 + 1,6 = 80
Fonte de
Variao
g.l. S.Q. Q.M. F p-valor
Regresso 1 78,4 78,4 147 < 0,001
Resduos 3 1,6 0,53
Total 4 80 20
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Anlise de Regresso
225
A regresso pode ser considerada altamente signifcativa (p < 0,001).
O coefciente de determinao calculado a partir dos dados da Ano-
va, r
2
= 78,4/80 = 0,98. Pode se considerar bastante satisfatria a
qualidade do ajuste.
c) S
y y
n
y
2
= =
80
5
=16
2
i=1
n
( )
^
= S 1 r = 16 1 0,98 =0,565
y
2 2
. .
( )
( )
Y
^
= 22,4 0,56 . 17 = 12,88
2.
a)
( )
i i
1 2
2 2
i
x .y n.y.x
20 295 9. 2,61.711,67 3 577,87
= = = = 0,00334
106 993,4 5 628 075 9. 711,66 x n.x
Ento
^
Y = 0,234 + 0,00334.X = 0,234 + 0,00334 . 1 050 = 3,741 dias
b) Isto signifca que 94% da variao do tempo de entrega est asso-
ciada distncia a ser percorrida e outras variveis como: regio
urbana ou rural, clima durante o percurso, treinamento do moto-
rista etc., so responsveis pelos demais 6%. No entanto, essas va-
riveis no foram observadas nesse estudo.
3.
a)
( )
i i
1 2
2 2
i
x .y n.y.x
184 5. 8. 3,8
32
= = = =2,16
14,8 87 5. 3,8 x n.x
0 1
=y .x=8 2,16. 3,8= 0,21
Ento
^
Y = 0,21 + 2,16.X
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
226
Anlise de Regresso
b) SQreg =
(Y y) = ( 0,21+2,16x 8) =69,05
i
2
i=1
n
i
2
i=1
n
SQres = (y Y ) = (y +0,21 2,16x )
i i
2
i=1
n
i
i
2
i=1
n
= 4,8109
SQtotal = 69,05 + 4,8109 = 73,8609
Assim r
2
=
SQres
SQtotal
=
69,05
73,86
=0,9349 e r = r =0,9668
2
O coefciente de determinao calculado nos indica que bastante
satisfatria a qualidade do ajuste. A relao entre as duas variveis
pode ser considerada bastante forte, pela anlise do coefciente de
correlao.
c)
2
u
(y Y) 4,8109
= = =1,266
n 2 3