Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
INSTITUTO DE MATEMTICA
DEPARTAMENTO DE ESTATSTICA
NOTAS DE AULA
MAT236 MTODOS ESTATSTICOS
3 UNIDADE
14.
Anlise de Regresso
Frequentemente, estamos interessados em estudar como duas ou mais variveis
esto associadas. Algumas vezes o interesse apenas medir o grau de associao e outras
vezes desejam-se obter um modelo matemtico-estatstico que seja capaz de descrever a
relao funcional entre as variveis. Para investigar e modelar a relao entre elas, usa-se a
Anlise de Regresso.
Quando estamos estudando o comportamento de apenas duas variveis x e y que
supostamente se relacionam atravs de uma funo linear, devemos considerar a seguinte
equao:
+ ,
em que 0 o intercepto e 1 a inclinao. O erro aleatrio pode ser pensado como uma
falha da equao linear em se ajustar aos dados exatamente. Este modelo chamado de
Modelo de Regresso Linear Simples. Para estimar os parmetros 0 e 1, uma amostra de
pares (x; y) deve ser coletada e analisada. A varivel x conhecida como varivel preditora
ou independente e y conhecida como varivel resposta ou dependente.
Obtemos um modelo mais geral quando a varivel resposta pode ser relacionada a k
variveis preditoras, x1, x2, ..., xk e, neste caso, o modelo adequado seria:
=
+ +
+ .
14.1.
Como dissemos anteriormente, para estudar a relao entre duas variveis devemos
partir da coleta de uma amostra de pares de observaes. Para isto, necessrio realizar
Disciplina: MAT236 - Mtodos Estatsticos
Pgina 1
Tabela 14.1: Medidas da Tenso na Rede Eltrica (Volts) e Variao no Corte das Gavetas
(mm).
Nmero
Tenso na Rede
da
Eltrica (Volts)
Medida i
1
222,7
2
217,7
3
219,4
4
220,9
5
214,4
6
216,5
7
213,0
8
221,7
9
224,7
10
215,5
11
220,0
12
218,6
13
223,5
14
217,0
15
221,5
16
218,4
17
213,6
18
221,2
19
219,9
Variao no
Corte (mm)
15,7
17,0
16,3
16,1
18,6
17,8
19,5
16,0
15,3
18,3
16,3
16,7
15,7
17,4
16,1
16,8
19,3
16,2
16,2
Nmero
Tenso na Rede Variao no
da
Eltrica (Volts) Corte (mm)
Medida i
20
222,2
15,9
21
213,9
19,1
22
216,0
18,0
23
218,1
17,0
24
222,0
16,0
25
224,1
15,4
26
214,9
18,6
27
214,2
18,7
28
223,3
15,6
29
216,7
17,6
30
215,3
18,5
31
223,8
15,5
32
220,6
16,1
33
215,8
18,2
34
217,3
17,3
35
219,2
16,5
Pgina 2
19.5
Variao no
Corte (mm)
19.0
18.5
18.0
17.5
17.0
16.5
16.0
15.5
15.0
215
220
225
Tenso
(volts)
Pela Figura 14.1 acima, podemos constatar que existe uma tendncia decrescente, j
que maiores valores para a tenso na rede eltrica correspondem a menores valores para a
variao no corte.
Porm, observada esta associao, til quantific-la. Neste caso, podemos utilizar o
coeficiente de correlao para quantificar esta associao. Em geral, a letra r usada para
representar este coeficiente. Valores de r variam de 1,0 a + 1,0. Um r prximo a + 1,0
corresponde a um diagrama de disperso em que os pontos caem em torno de linha reta
com inclinao positiva, e um r prximo a 1,0 corresponde a um diagrama em que os
pontos caem em torno de uma linha reta com inclinao negativa. Um r prximo a 0
corresponde a um conjunto de pontos que no mostram nenhuma tendncia, nem crescente,
nem decrescente. A Figura 14.2, a seguir, mostra cinco diagramas de disperso de Y e X.
Os diagramas das Figuras 14.2(a) e 14.2(b) mostram duas situaes em que os
pontos esto em torno de uma reta imaginria ascendente. Valores pequenos de X esto
associados a valores pequenos de Y, o mesmo acontecendo para valores grandes. Estes
dois casos indicam o que chamamos de correlao linear positiva de Y e X. Porm, os dados
em 14.2(b) apresentam uma correlao linear positiva mais forte que em 14.2(a).
Pgina 3
b) r = 1
10
y
15
5
10
20
15
25
a) r > 0
10
12
10
c) r < 0
d) r = -1
15
10
15
10
20
12
14
25
16
10
12
10
12
14
e)r=0
Pgina 4
Ou
so as mdias de X e Y, respectivamente.
Exemplo 14.2: Calculando o coeficiente de correlao linear para os dados do exemplo 14.1,
r = -0,976 , um valor muito prximo de 1, podemos concluir que existe uma forte correlao
negativa entre a tenso na rede eltrica e a variao no corte das gavetas de legumes do
refrigerador produzido pela indstria.
Pgina 5
Tabela 14.2: Dados para o Clculo do Coeficiente de Correlao para o Exemplo 14.1
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
Total
x
222,70
217,70
219,40
220,90
214,40
216,50
213,00
221,70
224,70
215,50
220,00
218,60
223,50
217,00
221,50
218,40
213,60
221,20
219,90
222,20
213,90
216,00
218,10
222,00
224,10
214,90
214,20
223,30
216,70
215,30
223,80
220,60
215,80
217,30
219,20
7657,60
y
15,70
17,00
16,30
16,10
18,60
17,80
19,50
16,0
15,3
18,3
16,3
16,7
15,7
17,4
16,1
16,8
19,3
16,2
16,2
15,9
19,1
18,0
17,0
16,0
15,4
18,6
18,7
15,6
17,6
18,5
15,5
16,1
18,2
17,3
16,5
595,30
x2
y2
49595,29
246,49
47393,29
289,00
48136,36
265,69
48796,81
259,21
45967,36
345,96
46872,25
316,84
45369,00
380,25
49150,89
256,00
50490,09
234,09
46440,25
334,89
48400,00
265,69
47785,96
278,89
49952,25
246,49
47089,00
302,76
49062,25
259,21
47698,56
282,24
45624,96
372,49
48929,44
262,44
48356,01
262,44
49372,84
252,81
45753,21
364,81
46656,00
324,00
47567,61
289,00
49284,00
256,00
50220,81
237,16
46182,01
345,96
45881,64
349,69
49862,89
243,36
46958,89
309,76
46354,09
342,25
50086,44
240,25
48664,36
259,21
46569,64
331,24
47219,29
299,29
48048,64
272,25
1675792,3 10178,11
8
xy
3496,39
3700,90
3576,22
3556,49
3987,84
3853,70
4153,50
3547,20
3437,91
3943,65
3586,00
3650,62
3508,95
3775,80
3566,15
3669,12
4122,48
3583,44
3562,38
3532,98
4085,49
3888,00
3707,70
3552,00
3451,14
3997,14
4005,54
3483,48
3813,92
3983,05
3468,90
3551,66
3927,56
3759,29
3616,80
130103,39
1
(7657,60 595,30)
35
= 0,976
1
1
[1675792,38
(7657,6 )][10178,11 (595,30 )]
35
35
130103,39
Pgina 6
Exemplo 14.3: Vamos calcular para cada um dos quatro conjuntos de dados abaixo o
coeficiente de correlao.
Conjunto 1
X
Y
10
8,04
8
6,95
13
7,58
9
8,81
11
8,33
14
9,96
6
7,24
4
4,26
12
10,84
7
4,82
5
5,68
Conjunto 2
X
Y
10
9,14
8
8,14
13
8,74
9
8,77
11
9,26
14
8,10
6
6,13
4
3,10
12
9,13
7
7,26
5
4,74
Conjunto 3
X
Y
10
7,46
8
6,77
13
12,74
9
7,11
11
7,81
14
8,84
6
6,08
4
5,39
12
8,15
7
6,42
5
5,73
Conjunto 4
X
Y
8
6,58
8
5,76
8
7,71
8
8,84
8
8,47
8
7,04
8
5,25
19
12,50
8
5,56
8
7,91
8
6,89
Para cada um deles, temos: r =0,82 (Verifique!). Porm, estes conjuntos de dados
apresentam disposies completamente diferentes no diagrama.
Pgina 7
b) Conjunto 2
10
11
a) Conjunto 1
10
12
14
10
c) Conjunto 3
d) Conjunto 4
12
14
9
6
10
10
11
12
12
10
12
14
10
12
14
16
18
Avaliando a Figura 14.3 (a) mostra que existe uma relao linear entre as variveis x e
y. Os dados em 14.3 (b) sugerem uma relao quadrtica entre as variveis. O diagrama da
Figura 14.3 (c) apresentaria um coeficiente de correlao aproximadamente igual a 1, mas
devido a um valor atpico apresentou um valor 0,82. Na Figura 14.3 (d) indica que no existe
uma relao linear entre as variveis, mas o valor 0,82 do coeficiente de correlao devido
observao atpica presente no conjunto de dados.
Pgina 8
De maneira geral, os modelos de regresso podem ser usados para vrios propsitos,
dentre os quais possvel destacar:
a) Descrio dos dados
b) Estimao dos parmetros
c) Predio
d) Controle
Predio
possvel tambm, utilizar regresso para predizer valores para a varivel resposta.
Voltando ao Exemplo 14.1, o fabricante pode estar interessado em conhecer quanto ser a
Pgina 9
variao do corte da gaveta (em mm) para uma determinada tenso na rede eltrica (em
volts).
Controle
A Anlise de Regresso pode ser usada com o objetivo de controlar a varivel
resposta. Considere, como exemplo, um engenheiro qumico que est interessado em
controlar o rendimento de um processo qumico atravs das variveis temperatura e tempo
de reao. Esta equao poder ser utilizada para determinar a natureza dos ajustes a
serem realizados nas variveis temperatura e tempo de reao, para que o rendimento
possa ser mantido num intervalo pr-estabelecido.
importante destacar que, quando o modelo de regresso for empregado com o
objetivo de controle, a relao existente entre a varivel de interesse e as variveis utilizadas
para seu controle sejam do tipo causa-e-efeito.
14.2.
Pgina 10
100
90
80
CONSUMO
70
60
50
40
30
20
10
0
10
12
14
16
AR
J vimos que uma relao linear entre duas variveis pode ser expressa atravs da
equao:
em que,
o intercepto,
+ ,
e ! so estimativas de
=! + ! ,
quando x zero e chamado de intercepto da reta desde que ele o local em que a reta
Pgina 11
fazendo-se tal soma a menor possvel. A soluo deste problema matemtico fornece as
seguintes expresses para ! e ! :
Ou
so as respectivas
"
+ #" , $ = 1 , , 35
Vamos ajustar agora um modelo de regresso linear simples com dados do Exemplo 14.1.
b =
e
! =
Pgina 12
Esta equao de regresso mostra que para cada aumento de um volt na tenso na
rede eltrica a variao no corte das gavetas diminui, em mdia, 0,36 mm. Como o intervalo
dos valores observados de x no contempla o valor zero, o valor 94,96 no tem um
significado particular como termo separado do modelo de regresso.
".
".
".
/( ,) + +(," ,
/( )
+(," ,) = +(,
(14.6).
O termo do lado esquerdo de (14.6) a soma dos quadrados das observaes em relao
ao seu valor mdio e representa uma medida da variabilidade total dos dados de Y. Esta
soma dos quadrados explicada pelo modelo de regresso, sendo denotada por <=>?@A?BB3 =
:)
;9. (Y/C Y
ajustado quanto maior for a variao explicada <=A?@A?BB3 em relao variao total SQ43456 .
Simbolicamente, podemos representar a equao (14.6) por:
SQ23456 = <=>?@A?BB3 + SQDEF"GHIJ .
Anlise de Varincia resumida atravs Tabela 14.3 adiante. Esta tabela pode ser
utilizada para testar as seguintes hipteses:
H : =0
H : 0.
testar estas hipteses de interesse, ser usando a estatstica F=(N=A?@A?BB3 )/( N=OEF"GHIJ ).
Supondo que o erro
pode ser
mostrado que F tem distribuio de Fisher-Snedecor com 1 e n-2 graus de liberdade que
correspondem ao numerador e ao denominador, respectivamente..
Pgina 13
Graus de
liberdade (gl)
Regresso
Residual
n-2
Total
n-1
Soma de
quadrados (SQ)
Quadrados
mdios (MQ)
<=>?@A?BB3
N=>?@A?BB3 =
N=DEF"GHIJ =
SQDEF"GHIJ
SQ STUIJ
<=>?@A?BB3
1
SQ DEF"GHIJ
R2
Q=
N=>?@A?BB3
N=DEF"GHIJ
Para uma amostra n pares (x, y), a soma de quadrados total associada a variabilidade
total de Y tem n-1 graus de liberdade e a soma de quadrados de resduo tem n-2 graus de
liberdade. Os quadrados mdios so obtidos dividindo as somas de quadrados pelos
correspondentes graus de liberdade.
Quando as somas de quadrados forem calculadas manualmente, elas podem ser
obtidas atravs das seguintes expresses dadas adiante.
-
SQ STUIJ = +(
".
"
) = +
-
/( ,) = ! X+(
<=>?@A?BB3 = +(,
e
".
".
"
".
"
)(
"
1
V+
R
".
"W
)Y = ! X+
".
(14.7)
"
"
R Y
(14.8)
(14.9)
H : = 0 (No existe relao linear entre a tenso da rede eltrica e o corte da gaveta)
H : 0 (Existe relao linear entre a tenso da rede eltrica e o corte da gaveta)
SQ STUIJ = +
".
"
1
V+
R
".
"W
= 10178,11
1
(595,3) 52,907
35
Pgina 14
<=>?@A?BB3 = ! X+
".
"
50,397
"
7657,60 595,30
R Y = 0,3563. l130103,39 35 m
nm
no
35
35
<=>?@A?BB3
SQ DEF"GHIJ 2,513
= 50,397 p N=DEF"GHIJ =
=
= 0,0762.
1
R2
33
N=A?@A?BB3
N=rps$tuvw
50,397
0,0762
= 661,377.
Graus de
liberdade (gl)
1
33
34
Soma de
quadrados (SQ)
50,397
2, 513
52,907
Quadrados
mdios (MQ)
50, 397
0, 0762
----
qcalculado
661,377
*x-valor
2,071x10-23
----
; ;~~
, ; ;~~ =
hiptese nula e conclumos que os dados esto indicando a existncia de uma relao linear
entre a tenso na rede eltrica (volts) e a variabilidade no corte das gavetas (mm) produzidas
pela fabrica, ao nvel de significncia de 5%. Chegamos a mesma concluso ao observarmos
o p-valor = 2,071x10-23< =0,05.
<=A?@A?BB3
SQOEF"GHIJ
= 1
.
SQ43456
SQ43456
Pgina 15
O valor de r2 varia no intervalo [0; 1]. Desta forma, quanto maior for o coeficiente de
determinao, maior ser a reduo na variao total de Y pela introduo da varivel
independente X. Entretanto, o coeficiente de determinao dever ser empregado com muita
cautela. Por exemplo, quando temos dados envolvendo sries temporais que tendem a se
mover na mesma direo, refletindo uma forte tendncia, qualquer modelo que detecte essa
tendncia ter um de r2 alto, o que pode ser esprio (no refletir a verdadeira relao linear
entre as variveis envolvidas) (Souza, 1998).
O coeficiente de determinao
,~
,
95,3% da variabilidade no corte das gavetas produzidas pela fabricadas explicada pela
tenso na rede eltrica (atravs do modelo proposto) e que 4,7% so atribudas a outras
causas.
Sada do software Excel
Estatstica de regresso
R mltiplo
R-Quadrado
R-quadrado ajustado
Erro padro
Observaes
0,9760
0,9525
0,9511
0,2760
35
P- valor
A Tabela Anova
ANOVA
Regresso
Resduo
Total
gl
1,00
33,00
34,00
Coeficientes
Interseo
Tenso
94,957
-0,356
Estimativa para
SQ
50,39
2,51
52,91
Erro
padro
3,031
0,014
MQ
50,39
0,08
F
661,60
Estatstica t P- valor
31,330
-25,722
Estimativa para
0,000
0,000
F de significao
2,071x10-23
95%
inferiores
88,791
-0,384
95%
superiores
101,124
-0,328
Intervalos de
confiana para e
apresentada adiante. Para tal, necessrio supor que o erro tem distribuio normal
Disciplina: MAT236 - Mtodos Estatsticos
Pgina 16
com mdia 0 e varincia 2. Na Seo adiante ser estudada a anlise de resduo para a
verificao desta suposio.
em que
ou
Disciplina: MAT236 - Mtodos Estatsticos
Pgina 17
Exemplo 14.5: Suponha que se queira predizer a variao no corte (mm) quando a tenso
200 volts. Neste caso, x* = 200 volts, e, portanto, variao predita = 95,03 (0,36 x 200) =
23,03.
O intervalo de 95% confiana : ( = 0,05
0,276)
; ~~
= 2,035; n = 35 e s = 0,0762 =
Isto significa que voc pode estar confiante com 95% que a variao do corte (mm) quando a
tenso de 200 volts varia entre 22,3 e 23,7.
Observao: Deve-se tomar cuidado quando estender uma reta de regresso
ajustada para se fazer predies fora do intervalo de variao dos valores de x, usados para
ajustar a reta de regresso. No somente o intervalo de predio comea a se tornar mais
largo, tornando as previses de pouca confiana, como o padro da relao entre as
variveis pode mudar drasticamente para valores distantes de x. Os dados coletados no
do nenhuma indicao sobre a natureza desta mudana.
Pgina 18
Os erros so no correlacionados;
Anlise de Resduos
p" =
"
",
$ = 1, 2, 3, , R,
Pgina 19
Pgina 20
Pgina 21
Tabela 14.5: Valores previstos e os resduos do modelo linear simples ajustado para a
variao no corte.
Previsto Resduo
15,62
0,08
17,40
-0,40
16,79
-0,49
16,26
-0,16
18,57
0,03
17,82
-0,02
19,07
0,43
15,97
0,03
14,90
0,40
18,18
0,12
Previsto Resduo
16,58
-0,28
17,08
-0,38
15,33
0,37
17,65
-0,25
16,04
0,06
17,15
-0,35
18,86
0,44
16,15
0,05
16,61
-0,41
15,79
0,11
Previsto Resduo
18,75
0,35
18,00
0,00
17,25
-0,25
15,86
0,14
15,12
0,28
18,39
0,21
18,64
0,06
15,40
0,20
17,75
-0,15
18,25
0,25
Previsto Resduo
15,22
0,28
16,36
-0,26
18,07
0,13
17,54
-0,24
16,86
-0,36
Exemplo 14.6: Vamos agora examinar os resduos para o modelo linear simples ajustado
para a variao no corte.
Anlise de Resduos
Figura 14.7: Grfico de Probabilidade Normal
.999
Probabilidade
.99
.95
.80
.50
.20
.05
.01
.001
-0.5
-0.4
-0.3
-0.2
-0.1
0.0
0.1
0.2
0.3
0.4
Resduos
Pgina 22
Freqncia
10
0
-0.50
-0.25
0.00
0.25
0.50
Resduos
0.5
0.4
0.3
Resduo
0.2
0.1
0.0
-0.1
-0.2
-0.3
-0.4
-0.5
15
16
17
18
19
Valor
Ajustado
0.5
0.4
0.3
Resduo
0.2
0.1
0.0
-0.1
-0.2
-0.3
-0.4
-0.5
0
10
15
20
25
30
35
Ordem
Observada
O primeiro grfico serve para verificar a suposio de normalidade dos resduos. Este
grfico parece indicar que os resduos seguem uma distribuio normal. O segundo grfico
o histograma dos resduos tambm serve para verificar normalidade.
Disciplina: MAT236 - Mtodos Estatsticos
Pgina 23
x2
0,416
0,413
0,420
0,408
0,411
0,420
0,403
0,417
0,417
y2
0,212
0,212
0,203
0,194
0,203
0,221
0,176
0,221
0,203
xy
0,297
0,296
0,292
0,281
0,288
0,305
0,267
0,304
0,291
Pgina 24
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Total
0,643
0,641
0,643
0,637
0,635
0,64
0,646
0,636
0,639
0,634
0,636
0,643
0,647
0,637
0,631
0,633
16,012
0,44
0,40
0,42
0,42
0,42
0,41
0,43
0,41
0,40
0,39
0,38
0,40
0,43
0,42
0,37
0,41
10,62
0,413
0,411
0,413
0,406
0,403
0,410
0,417
0,404
0,408
0,402
0,404
0,413
0,419
0,406
0,398
0,401
10,256
0,194
0,160
0,176
0,176
0,176
0,168
0,185
0,168
0,160
0,152
0,144
0,160
0,185
0,176
0,137
0,168
4,529
0,283
0,256
0,270
0,268
0,267
0,262
0,278
0,261
0,256
0,247
0,242
0,257
0,278
0,268
0,233
0,260
6,804
R= Resp.: r = 0,7321; Teor Na2O (%) = - 2.12 + 3.97 Razo Al2O3 / NaOH
0.635
Na2O
0.640
0.645
10
15
20
25
Al2O3
0.01
0.00
Resduo
-0.03
-0.02
-0.01
0.00
-0.01
-0.03
-0.02
Resduo
0.01
0.02
0.02
10
15
20
25
0.39
0.40
0.41
0.42
0.43
0.44
0.45
Valores ajustados
Pgina 25
3
2
0
Frequncia
-0.04
-0.03
-0.02
-0.01
0.00
0.01
0.02
0.03
Resduo
15.
conhecida
(ou
aproximada).
Entretanto,
pode
acontecer
de
termos
15.1.
Pgina 26
Varivel
Freqncia Observada
...
O1
O2
O3
...
Ok
(" " )
~
"
uma constante tal que P( > (;) ) = . Ou pelo p-valor, rejeitar a hiptese nula se p-
valor < .
Quando o nmero de categorias for igual a dois (k=2) as frequncias esperadas dentro
de cada categoria devem ser iguais ou superiores a 5.
Pgina 27
ii.
Quando k > 2, no deve ter mais de 20% das categorias com frequncias esperadas
menores que 5 e nenhuma frequncia esperada igual a zero.
iii.
Exemplo 15.1: (Adaptado de Magalhes & Lima, 2006) Deseja-se verificar a afirmao de
que a porcentagem de cinzas contidas em carvo, produzido por uma empresa, segue
distribuio Normal. Os dados, apresentados a seguir, representam a quantidade percentual
de cinzas encontradas em 250 amostras de carvo analisadas em laboratrio.
i
1
2
3
4
5
6
7
8
9
10
Cinzas (em %)
09,5| 10,5
10,5| 11,5
11,5| 12,5
12,5| 13,5
13,5| 14,5
14,5| 15,5
15,5| 16,5
16,5| 17,5
17,5| 18,5
18,5| 19,5
Nmero de observaes
2
5
16
42
69
51
32
23
9
1
9. x9 f9
10 2 + 11 5 + 12 16 + + 19 1
=
14,5
". "
250
s =
". (
"
) "
|". " 1
= 2,7
Pgina 28
10,5 14,5
n = 250P(Z < 2,43) = 1,875.
2,7
10,5 14,5
11,5 14,5
= 250P(10,5 < < 11,5) = 250P m
Z<
n
2,7
2,7
= 250P(2,43 < Z < 1,83) = 6,525.
18,5 14,5
n = 250P(Z > 2,43) = 1,875
2,7
Frequncia observada
2
5
16
42
69
51
32
23
9
1
Frequncia esperada
1,875
6,525
19,400
39,925
57,275
57,275
39,925
19,400
6,525
1,875
Pgina 29
IJ = +
".
(" " )
(2 1,875)
(5 6,525)
(1 1,875)
=
+
+ +
= 7,74
"
1,875
6,525
1,875
,%
,%
= 16,01.
logo no rejeitamos a hiptese nula, ou seja, no existem evidncias para rejeitar a hiptese
de que a amostra proveniente de uma varivel aleatria com distribuio normal, ao nvel
de significncia de 2,5%.
Na literatura existem outros procedimentos para realizar o Teste de Aderncia, a
saber: o Teste Kolmogorov- Smirnov, o Teste de Shapiro-Wilk para Normalidade e o Teste de
Lilliefors para Normalidade. Para maiores detalhes sobre estes testes consultar as seguintes
referncias: Siegel & Castellan (2006), Campos (1979), Conover (1999) e Hollander & Wolf
(1999).
Exerccios de fixao
1. O quadro abaixo se refere ao nmero de acidentes sofridos por um grupo de mineiros
durante um trabalho numa mina de carvo. O interesse investigar se a distribuio do
nmero de acidentes segue o modelo Poisson (=1,45). (Use =5%).
Nmero de acidentes
Nmero de mineiros
35
47
39
20
2. Uma indstria registra, em cada semana, o nmero de dias em que ocorrem acidentes de
trabalho. Para uma amostra de 200 semanas, verifique se os dados apresentados a
seguir, aderem ao modelo Binomial com parmetros n=5 e p=0,2. (Use =10%).
Nmero de dias com acidentes
Freqncia
64
56
40
24
16.
Pgina 30
Pgina 31
16.1.
Anlise de Varincia
Pgina 32
anlise de varincia ser apresentada para o caso em que as amostras em cada tratamento
(ou populao) tm o mesmo tamanho, neste caso conhecido como dados balanceados.
Observaes
1
2
Em que
". representa
Total
..
Mdia
..
".
representa a
..
"
..
".
= ++
". .
=
"
".
,
p
$ = 1,2, , .
..
..
= " + #" , $ = 1 , . . . , p = 1 , . . . , R,
(16.1)
A equao (16.1) denominada modelo , porque ele usa as mdias 1, 2,...k como
Pgina 33
" = - + " ,
, $ = 1 , . . . , .
= - + " + #" , $ = 1 , . . . , p = 1 , . . . , R
(16.2)
Pgina 34
A hiptese nula supe que as observaes amostrais dentro de cada tratamento podem
ser vistas como provenientes de populaes com mdias iguais. Reescrevendo " = - + " ,
". -"
.
probabilidade para a varivel resposta (dependente (Y9 )) em cada nvel do fator. Para efeito
varincias
homogneas
( P = P = = P = P ),
propriedade
conhecida
como
Homocedasticidade. Em outras palavras, a varincia deve ser constante para todos nos
nveis de fator.
Decomposio da soma total de quadrado
O termo anlise de varincia pode induzir a um equvoco, uma vez que a finalidade
investigar diferenas entre mdias dos tratamentos, e no diferenas significativas entre as
varincias dos grupos. O nome anlise de varincia atribudo devido a uma decomposio
da variabilidade total das suas componentes.
A soma total de quadrado dada por:
-
+ +(
". .
"
.. )
Pgina 35
uma medida de variabilidade total dos dados. Esta soma pode ser subdividida em duas
partes da seguinte forma:
-
+ +(
". .
"
.. )
= R +(
".
".
.. )
+ + +(
". .
"
". )
. (16.3)
por SS2. O primeiro termo do lado direito de (16.3) a soma dos quadrados das diferenas
entre as mdias de cada tratamento e a mdia global (ou seja, aquela decorrente das
termo do lado direito de (16.3) a soma de quadrados das diferenas de cada observao
dentro dos tratamentos em relao mdia do tratamento (ou seja, aquela decorrente da
variao dentro do grupo), sendo denotado por << . Em outras palavras, <<SOIUIE-UT a
soma de quadrados devido ao tratamento (ou seja, entre tratamentos), e << a soma de
quadrados residual (ou seja, dentro dos tratamentos). Simbolicamente, podemos representar
a equao (16.3) por:
<< = + +(
".
"
". )
(16.4).
Observe que a soma dentro do colchete dividido por (n-1) a varincia amostral do i-simo
tratamento, ou seja,
<" =
-. (
"
R1
". )
$ = 1,2, , .
". (R 1)
Pgina 36
Anlise de Varincia pode ser resumida atravs da Tabela 16.2 adiante. Esta tabela
MSTratamento
MSE
SSTratamento /(k1)
SSE /(Nk)
mostrar que F tem distribuio de Fisher-Snedecor com (k-1) e (N-k) graus de liberdade que
correspondem ao numerador e ao denominador, respectivamente.
Tabela 16.2: Anlise de varincia
Fonte de variao
Graus de
liberdade
Entre tratamentos
Resduo (dentro do
tratamento)
Total
k1
Nk
N1
Soma de
quadrados
Quadrados
mdios
SSTratamento
MSTratamento
SSE
MSE
F calculado
MSTratamento /MSE
SST
Supondo que a hiptese nula verdadeira, tanto N<SOIUIE-UT quanto N< estimam a
espera-se que Qcalculado seja maior que 1. Consequentemente, quando utiliza o procedimento
de ANOVA, rejeita-se a hiptese de nula H0 em favor de H1, a um nvel de significncia , se
),( )] ,
Pgina 37
i.1
n
j.1
y2ij
y2..
,
N
(16.5)
y2
1
= + y2i. ..
n
N
k
SSTratamento
i.1
(16.6)
(16.7)
SSE
(N k)
MSTratamento =
SSTratamento
.
(k 1)
Dados desbalanceados
i.1
ni
j.1
y2ij
SSTratamento = +
k
i.1
y2..
N
y2i.
y2
..
ni
N
Pgina 38
".
1
= ++
1
= +
R"
.
". .
" ,
"
$ = 1,2, , .
Segundo
H0 : i = j ,
H1 : i j ,
para todo i j. O teste proposto por Tukey baseia-se na diferena significante HSD=,
(16.9)
studentizada (valor tabelado, ver Tabela 4 em Anexo) e MSE o quadrado mdio dos
resduos. O valor de q depende do nmero de tratamentos e do nmero de graus de
liberdade associada com a soma de quadrados dos resduos. Tambm, em um teste de
Disciplina: MAT236 - Mtodos Estatsticos
Pgina 39
q (k; f)
2
N<
1
1
+ , $
R" R
Exemplo 16.1: (Montgomery, Goldman e Borror, 2006) Um fabricante de papel usado para a
confeco de sacolas de mercearia est interessado em melhorar a fora de resistncia do
produto. A engenharia de produo acha que a fora de resistncia uma funo da
concentrao de madeira de lei na polpa, e que a amplitude das concentraes da madeira
de lei de interesse prtico est entre 5% e 20%. Uma das engenheiras responsveis pelo
estudo decide investigar quatro nveis de concentrao de madeira de lei: 5%, 10%, 15% e
20%. Ela decide, tambm, fazer seis repeties de teste de cada nvel de concentrao
usando uma usina-piloto. Todos os 24 espcimes so testados em um testador de trao de
laboratrio, em ordem aleatria. Os dados desse experimento constam na Tabela 15.3. Esse
um exemplo de um experimento de fator nico completamente aleatorizado, com quatro
nveis do fator, ou seja, quatro tratamentos. E cada tratamento tem seis observaes ou
repeties.
Tabela 16.3: Fora de resistncia do papel (psi)
Concentrao de
madeira de lei
5%
10%
15%
20%
Total
2
8
17
18
25
3
15
13
19
22
4
11
18
17
23
5
9
19
16
18
6
10
15
18
20
Totais
Mdias
60
94
102
127
383
10,00
15,67
17,00
21,17
15,96
Fonte: Hines, Montgomery, Goldman e Borror (2006). Probabilidade e Estatstica na Engenharia. 4 ed.
importante que se realize uma anlise descritiva nos dados obtidos no experimento
Disciplina: MAT236 - Mtodos Estatsticos
Pgina 40
realizado. Na Tabela 16.3 nota-se que para a concentrao de 5%, a resistncia do papel foi,
em mdia, menor. Conforme mostra a Tabela 16.4, observa-se que a menor e maior
disperso relativa ocorreu nas concentraes de 15% e 5% de madeiras, respectivamente.
Na Figura 16.1, possvel visualizar que a fora de resistncia da sacola aumenta medida
que a concentraes de madeira de lei aumenta, ou seja, suspeita-se de que a mudana na
concentrao de madeira de lei tem um efeito na fora de resistncia da sacola. Tambm
percebe-se um forte indicativo que a concentrao de 5% difere da concentrao de 20% no
que diz respeito resistncia do papel, pois no h sobreposio dos grficos de ambos os
tratamentos. Alm disso, h indicativo que os valores das resistncias dos papeis nos
quatros tratamentos so provenientes de distribuies assimtricas.
Tabela 16.4: Medidas descritivas dos dados da fora de resistncia dos papeis para
cada concentrao de madeira de lei.
Medidas Descritivas
Mediana
Desvio-padro
Coeficiente de variao
Mnimo
Mximo
Figura 16.1: Boxplot dos dados da fora de resistncia dos papeis para cada
20
15
10
25
5%
10%
15%
20%
Pgina 41
em que
"
= - + " + #" , $ = 1 , , 4 p = 1 , . . . ,6
"
H1 : Pelos menos uma das mdias, da fora de resistncia do papel, diferente das demais.
A soma de quadrados para compor a Tabela da Anlise de Varincia calculada
<<S = + +
9.
y9
y..
(383)
(383)
= (7) + (8) + + (20)
= 625
N
24
24
= 512,96
y2
1
1
(383)2
= + y2i. .. =
(60)2 + (94)2 + +(127)2
= 382,79
n
N
6
24
k
SSTratamento
i.1
Graus de
liberdade
Soma de
quadrados
Quadrados
mdios
calculado
Entre tratamentos
382,79
127,60
19,61
Resduo (dentro do
tratamento)
20
130,17
6,51
Total
23
512,96
Sendo MSTratamento =
MSTratamento
MSE
127,60
6,51
SSTratamento
= 19,61
k1
382,79
3
130,17
20
= 6,51
-valor
3,59x10-06
e Fcalculado =
Pgina 42
Concluso: Como Fcalculado = 19,61 > F0,05;3;20 = 3,03 (valor tabelado, ver Tabela 2 em
p-valor = 0,00000359 < 0,05 = . Portanto, pelo menos uma das mdias de tratamento difere
das demais.
Como o teste acima rejeitou a hiptese nula ser aplicado o teste de Tukey para
y1. = 10,00 psi, y2. = 15,67 psi, y3. = 17,00 psi e y4. = 21,17 psi.
encontramos o valor q0,05 (4; 20) = 3,96 (ver Tabela 4 em Anexo). Calculando (equao
(16.9)), temos
MSE
6,51
= q0,05 (4; 20)
= 3,96
= 4,12
n
6
Portanto, conclumos que as duas mdias so significantemente diferentes se
yi. yj. > 4,12.
As diferenas nas mdias dos tratamentos so:
Pgina 43
satisfeitas
certas
suposies.
Especificadamente,
que
as
observaes
sejam
= - + " + #" , $ = 1 , , p = 1 , . . . , R,
em que
"
p" =
"
" ,
, $ = 1 , , p = 1 , . . . , R,
" ,
= - + = ".
De forma geral, violao das suposies bsicas da ANOVA pode ser detectada
"
horizontal centrada em p" = 0, sem nenhum padro definido, uma indicao da validade da
suposio de independncia. Por outro lado, configuraes especiais, tais como a presena
de sequncias de resduos positivos e negativos, ou padres de alternncia de sinais, podem
indicar que as observaes no so independentes.
Disciplina: MAT236 - Mtodos Estatsticos
Pgina 44
) )
Grficos dos Resduos ( ) contra os Valores Preditos (
A validade da suposio homogeneidade das varincias dos erros em todos os nveis do
fator. A suposio de homogeneidade no viola se a disperso dos resduos no depende
dos valores preditos yij (para o modelo de um fator yij = yi. ). Por exemplo, se as varincias
dos resduos crescem quando os valores preditos crescem ou se a varincias dos resduos
decrescem medida que valores preditos decrescem indicativo de violao de
homogeneidade varincias. Adicionalmente, quando o grfico apresenta um padro parecido
com um funil ou megafone tambm um indicativo de varincia no constante.
Exemplo 15.1: Examinar os resduos do modelo ajustado para a fora de resistncia das
sacolas.
Os clculos dos resduos para os dados da Tabela 16.3 esto a seguir:
Tabela 16.6: Resduos dos dados apresentados na Tabela 16.3
Concentrao de madeira de lei
10%
15%
5%
20%
12-15,67=-3,7
14-17=-3,0
19-21,17=-2,2
8-10=-2,0
17-15,67=1,3
18-17=1,0
25-21,17=3,8
15-10=5,0
13-15,67=-2,7
19-17=2,0
22-21,17=0,8
11-10=1,0
18-15,67=2,3
17-17=0,0
23-21,17=1,8
9-10=-1,0
19-15,67=3,3
16-17=-1,0
18-21,17=-3,2
10-10=0,0
15-15,67=-0,7
18-17=1,0
20-21,17=-1,2
0
-4
-2
Resduo
7-10=-3,0
-2
-1
Quantil terico
Pgina 45
0
-4
-2
Resduo
10
12
14
16
18
20
Valor ajustado
Pgina 46
17.
H0 : 21 = 22 = 23 = = 2k = 2
1, , k. O procedimento usado para testar as hipteses acima ser o Teste de Bartlett (ver
1
2
=
+(ni 1)Si
Nk
k
2
SP
i.1
em que:
IJ. = 2,3026 ,
e
= 1+
1
1
1
V+ m
nm
nW.
3( 1)
(n9 1)
(N k)
".
, em que ;(
uma constante
Exemplo 17.1: Use o Exemplo 16.1 para realizar o teste de hipteses, ao nvel de
significncia de 1%, de que as varincias populacionais para o conjunto de dados sobre a
fora de resistncia de papel usado para a confeco de sacolas, com diferentes
concentraes madeira de lei, so iguais.
Soluo: As hipteses estatsticas a serem testadas so:
Disciplina: MAT236 - Mtodos Estatsticos
Pgina 47
H0 : 21 = 22 = 23 = 24 = 2 .
(As varincias das foras de resistncia dos papeis so homogneas nas quatro concentraes de madeira de lei. )
H1 : Pelos menos uma das varincias, da fora de resistncia do papel, diferente das demais.
s21 = 8,00
A varincia combinada
SP =
2
Agora, calcule
s22 = 7,87
s21 = 6,97
= (20)log (6,5083) 5[log (8) + log (7,87) + log (3,2) + log (6,97)] = 0,5321.
= 1 + ~(~)
= 1,0833.
%;(~)
,~
, ~~
= 1,1310.
das varincias, a saber: teste de Cochran e Levene. O teste de Bartlett mais eficiente para
testar a homogeneidade de varincias quando as variveis envolvidas no estudo possuem
distribuio normal (ou aproximadamente normal). Se a hiptese de normalidade for violada,
melhor utilizar o teste proposto por Levene.
Pgina 48
7a Lista de Exerccios
1) Abaixo voc encontra uma lista de situaes de pesquisa. Para cada uma indique se o
apropriado uma anlise de correlao ou uma de regresso.
a) A quantidade procurada da carne gado depende do preo da carne de porco? R:Correlao
b) O objetivo estimar o tempo necessrio para a realizao de certa tarefa usando para
tanto o tempo de treinamento do executor. R:Regresso
c) O preo de uma reforma depende dos valores dos artigos usados no acabamento?
R:Correlao
d) Estime o nmero de milhas que um pneu radial possa rodar antes de ser substitudo.
R:Regresso
e) Deseja-se prever quanto tempo ser necessrio para uma pessoa completar
determinada tarefa, com base no nmero de semanas de treinamento. R:Regresso
f) Decida se o nmero de semanas de treinamento uma varivel importante para avaliar
o tempo necessrio para realizar uma tarefa. R:Regresso
2) Um modelo genrico especifica que os animais de certa populao devam ficar
classificados em quatro categorias, com probabilidades p1=0,656, p2=p3=0,093 e
p4=0,158. Dentre 197 animais, obtivemos as seguintes freqncias observadas: O1=125,
O2=18, O3=20 e O4=34. Teste se esses dados esto de acordo com o modelo genrico
postulado. (Use =1%). R: Os dados esto de acordo com o modelo postulado, Regio Crtica [ 11,34;
) e 56 =0,5635.
36
50
48
240
50
150
70
350
42
100
58
175
91
485
69
335
R.: r = 0,959
i=1,..., 8.
c) Calcule um intervalo com confiana de 5% para o preo quando a distncia 250Km. R.:
[57,10; 62,30]
R.: So Paulo.
Pgina 49
4) Aps ser derrotado por um amigo num jogo de dado, voc suspeita que o dado que ele
deu a voc seja desonesto. Para verificar, voc lana o dado 60 vezes, registrado o
nmero de vezes que cada face aparece. Os resultados esto adiante.
Face
Frequncia
1
11
2
7
3
9
4
15
5
12
6
6
a) Se o dado for honesto, quantas vezes voc esperaria que cada face aparecesse? R:10.
b) Para verificar se o dado honesto, qual teste voc usaria? R:Teste de Aderncia
c) Teste a hiptese de que o dado honesto. (Use =5%).
5) Suponhamos que uma cadeia de supermercados tenha financiado um estudo dos gastos
com mercadoria para famlias de 4 pessoas. A investigao se limitou a famlias com
renda lquida entre R$8.000 e R$20.000. Obteve-se a seguinte equao:
Yi = -200 + 0,10Xi,
em que: Y = despesa anual estimada com mercadorias e X = renda lquida anual. Suponha
que a equao proporcione um ajustamento razoavelmente bom.
a) Estime a despesa de uma famlia de quatro com renda de R$15.000.
R.: 1.300,00
recomendado estender a reta de regresso ajustada para fazer predies fora do intervalo de x.
Banco
2
194,3
227,2
203,4
111,8
275
3
173,7
246,5
289,8
127,4
265,6
%;( )
Pgina 50
Soma de
quadrados
4693,705
47660,38
52354,09
Graus de
liberdade
2
12
14
Quadrados
mdios
2346,853
3971,699
calculado
0,590894
%;( )
= 9,21 .
c) Realize um teste para verificar se o tempo mdio para misturar um lote de materiais
difere em relao aos trs fabricantes, use =0,05.
Fbrica
2
34
28
38
25
26
27
25
27
1
21
14
25
32
31
35
8
21
3
21
17
23
22
28
24
24
20
8) Os dados a seguir do um custo lquido por real de prmio (Y) e o tempo de aplice em
meses (X).
X
Y
8
1,26
29
1,15
47
0,81
24
1,14
57
0,61
45
0,88
39
0,99
14
1,11
70
0,58
40
0,74
66
0,67
55
0,70
0,1136
10
4225,67
; 0,01 + 2,228
0,1136
10
4225,67
Pgina 51
1 (3641,17)2
12
4225,67
9) Os valores do mdulo de elasticidade (MOE, a razo da fora, isto , fora por rea
unitria, para o escoamento, ou seja, deformao por comprimento unitrio, em GPa) e a
resistncia reflexo (uma medida da capacidade de resistncia a falhas decorrentes de
desdobramento, em MPa) foram determinados para um tipo de amostra de vigas de
concreto, gerando os dados a seguir (reproduzidos de um grfico do artigo Effects of
Aggregate and Microfilleres on the Flexural Proprties of Concrete, Magazine of Concrete Research, 1997,
p.81-98):
MOE
Resistncia
29,8
5,9
33,2
7,2
33,7
7,3
35,3
6,3
35,5
8,1
36,1
6,8
36,2
7,0
36,3
7,6
37,5
6,8
MOE
Resistncia
37,7
6,5
38,8
6,3
39,6
7,9
41,0
9,0
42,8
8,2
42,8
8,7
43,5
7,8
45,6
9,7
46,0
7,4
MOE
Resistncia
46,9
7,7
48,0
9,7
49,3
7,8
51,7
7,7
62,6
11,6
69,8
11,3
79,5
11,8
80,0
10,7
Fonte de Variao
Regresso
Resduo
Total
Interseo
MOE
Graus de
Liberdade
1
24
25
Soma de
Quadrado
51,7325
18,5214
70,2539
Quadrado
Mdio
51,7325
0,77172
Estatstica t
5,4200
8,1875
Estatstica F
67,035
P- valor
0,00001442
0,00000002
Pgina 52
10) Nova York, Boston e o Vale do Silcio na Califrnia esto entre as regies que
apresentam os maiores salrios no setor de tecnologia nos Estados Unidos (USA Today,
28 de fevereiro de 2002). Os dados amostrais seguintes apresentam os salrios anuais
individuais expressos em milhares de dlares.
a) Verifique se existe diferena entre a mdia populacional de salrios do setor de
tecnologia correspondente nas trs localidades. Use =5%.
Nova York Boston Vale do Silcio
82
85
82
79
80
91
72
74
94
89
78
88
79
75
85
85
80
81
86
79
90
R: Existe diferena entre as mdias de salrios nas trs localidades, observe a tabela da anova apresentada adiante.
Grupo
Nova York
Boston
Vale do Silcio
Contagem
7
7
7
Soma
572
551
611
Mdia
81,71
78,71
87,29
Soma de
Quadrado
264,86
410,29
675,14
Graus de
Liberdade
2,00
18,00
20,00
Quadrado
Mdio
132,43
22,79
----
Varincia
31,90
13,24
23,24
ANOVA
Fonte da variao
Tratamento
Erro
Total
Estatstica F
valor-P
F crtico
5,81
0,01
3,55
----
----
----
11) Realiza-se um estudo para se determinar o efeito da velocidade de corte sobre a durao
(em horas) de uma mquina particular. Quatro nveis de velocidade de corte so
selecionados para o estudo, com os seguintes resultados:
Durabilidade da ferramenta
Repetio (ou observao)
Velocidade
1
2
3
4
5
6
de corte
1
41
43
33
39
36
40
2
42
36
34
45
40
39
3
34
38
34
34
36
33
4
36
37
36
38
35
35
Fonte: Hines, Montgomery, Goldman e Borror (2006). Probabilidade e
Estatstica na Engenharia. 4 ed.
Pgina 53
b) Voc usaria o Teste de Tukey para fazer comparaes entre os pares de mdias dos
nveis de velocidade de corte?
Graus de
liberdade
3
20
23
Soma de
quadrados
80,17
168,33
248,5
Quadrados
mdios
26,722
8,417
Qcalculado
3,175
-valor
0,0465
Nmero de observaes
3
5
10
6
2
26
R: Modelo
2cal=1,1.
13) Teste se os dados abaixo so observaes de uma distribuio normal com mdia =10 e
varincia 2=25. Os dados esto apresentados na tabela adiante. (Use =5%)
Varivel
01,0 | 6,6
06,6 | 10,0
10,0 | 13,4
13,4 | 22,0
Total
Nmero de observaes
4
11
9
6
30
14) Uma regresso de y=volume de clcio (g/l) em x=material dissolvido (mg/cm2) foi descrita
em um artigo Use of Fly Ash or Silica Feed Acids (Magazine of Concrete Research,
Pgina 54
volume de clcio pode ser atribuda a quantidade dissolvida de material (atravs do modelo proposto), 14% devido a outros fatores.
c) Calcule uma estimativa pontual do volume mdio real de clcio quando a quantidade de
material dissolvido for igual a 50 mg/cm2. R.: 10,88.
15) Oito programas foram monitorados para estudar a demanda por recursos. Neste
trabalho, a varivel resposta (dependente) o tempo de CPU, e a varivel independente
o nmero de acessos ao disco (disk I/O)
Tempo de CPU (Y) Nmero de acessos ao disco (X)
2,0
14
4,6
15
5,7
23
7,3
31
9,8
38
10,9
40
12,6
53
13,2
51
Pgina 55
a) Faa o diagrama de disperso. Conclua se existe uma relao linear entre bytes
transferidos e o tamanho da memria. R: Parece existir uma relao linear entre as variveis.
b) Calcule os coeficientes de regresso do modelo linear simples. Apresente a reta de
regresso ajustada aos dados.
gl
1
10
11
SQ
26,12
150,94
177,07
MQ
26,12
15,09
F
1,73
F de significao
0,22
g) Teste de significncia do modelo. Fazer o teste F para verificar se existe relao linear
entre o nmero de bytes transferidos e o tamanho de memria, use =0,01. Escreva a
concluso do teste.
R: Ao nvel de significncia de 1%, ao existe relao linear entre o nmero de bytes transferidos e o
tamanho de memria.
17) A quantidade de chuva um fator importante na produtividade agrcola. Para medir esse
efeito, foram anotadas, para 8 regies diferentes produtora de soja, o ndice pluviomtrico
e a produo do ltimo ano.
Chuva (mm)
120
140
122
150
115
190
Disciplina: MAT236 - Mtodos Estatsticos
Produo (tonelada)
40
46
45
37
25
54
Pgina 56
130
118
120
155
90
100
116
130
127
160
110
154
180
33
30
37
40
20
24
27
34
43
48
28
39
50
Para analisar os dados descritos acima, considere o modelo de regresso linear simples
dado por:
com
" ~(0;
P ) e
"
," =
" +
",
$ = 1, 2, , R,
no correlacionado com
c) Faa o teste da significncia da regresso via Tabela ANOVA e verifique possvel falta de
ajuste. R.: A anlise da Tabela ANOVA indica evidncias da existncia de uma relao linear entre a quantidade de chuva e a
produo agrcola.
Pgina 57
Estatstica de regresso
R mltiplo
R-Quadrado
R-quadrado ajustado
Erro padro
Observaes
ANOVA
Fonte de
Variao
Regresso
Resduo
Total
Interseo
Chuva (mm)
0,839529615
0,704809974
0,687445855
5,334000957
19
Soma de Quadrado
Quadrado
Mdio
1154,85
1154,85
483,68
28,45
1638,53
Graus de Liberdade
1
17
18
Coeficientes
-3,96
0,31
Erro padro
6,52
0,05
Estatstica t
-0,61
6,37
Estatstica F
40,590
P-valor
-06
6,9710
Pgina 58
18) Quatro tipos de fertilizantes esto sendo comparados para ver qual deles apresenta maior
produo de sementes de milho. Quarenta reas de terra similares foram disponibilizadas
para realizar o experimento. As 40 reas de terra foram divididas aleatoriamente em
quatro grupos, dez reas em cada grupo. Fertilizante 1 foi aplicado em cada uma das dez
reas no grupo 1. Similarmente, os fertilizantes 2, 3 e 4 foram aplicados nas reas do
grupo 2, 3 e 4, respectivamente. Os resultados de produo de milho (y) das 40 reas
foram:
Fertilizante 1 Fertilizante 2 Fertilizante 3 Fertilizante 4
31
27
36
33
34
27
37
27
34
25
37
35
34
34
34
25
43
21
37
29
35
36
28
20
38
34
33
25
36
30
29
40
36
32
36
35
45
33
42
29
a) Verifique se, em mdia, os trs tipos de fertilizantes tem um efeito sobre a produo de
sementes de milho, ao nvel de significncia de 5%. (Fazer a tabela da anlise de
varincia e o teste F).
R: Tem efeito, pois o p-valor=0,005< 0,05.
RESUMO
Grupo
Fertilizante 1
Fertilizante 2
Fertilizante 3
Fertilizante 4
Contagem
10
10
10
10
Soma
366
299
349
298
Mdia
36,6
29,9
34,9
29,8
Varincia
18,71
22,77
16,99
35,51
ANOVA
Fonte da variao
Entre grupos
Dentro dos grupos
Total
SQ
362,6
845,8
1208,4
gl
3
36
39
MQ
120,867
23,494
F
5,144
valor-P
0,005
F crtico
2,866
19) A Butler Trucking Company, uma companhia de transporte do sul da Califrnia tem seus
maiores negcios envolvendo entregas na regio. Para desenvolver um trabalho melhor,
os gerentes supem que o modelo de regresso linear simples poderia ser usado para
descrever a relao entre o tempo total de viagem (Y) e a quilometragem percorrida (X1).
Foi selecionada uma amostra aleatria simples de 10 tarefas de entrega, que forneceu os
dados da tabela abaixo.
Pgina 59
ii.
Correlao
X1: Quilometragem
X2: Nmero de entregas
Y: Tempo de entrega
X1:
Quilometragem
1,000
0,162
0,815
X2:
Y:
Nmero de entregas Tempo de entrega
1,000
0,615
1,000
Estatstica de regresso
R mltiplo
0,815
R-Quadrado
0,664
R-quadrado ajustado
0,622
Erro padro
1,002
Observaes
10
Disciplina: MAT236 - Mtodos Estatsticos
Pgina 60
ANOVA
Regresso
Resduo
Total
gl
SQ
MQ
F de significao
1
8
9
15,871
8,029
23,902
15,871
1,004
15,815
0,004
Coeficientes
Interseo
X1: Quilometragem
1,27
0,07
Erro
padro
1,40
0,02
Estatstica t P-valor
0,91
3,98
0,39
0,00
95%
inferiores
-1,96
0,03
95%
superiores
4,50
0,11
Estatstica de regresso
R mltiplo
0,951
R-Quadrado
0,904
R-quadrado ajustado
0,876
Erro padro
0,573
Observaes
10
ANOVA
Regresso
Resduo
Total
gl
2
7
9
Interseo
X1: Quilometragem
X2: Nmero de
entregas
SQ
21,601
2,299
23,900
MQ
10,800
0,328
Coeficientes
-0,869
0,061
Erro
padro
0,952
0,010
0,923
0,221
F
32,878
Estatstica t P-valor
-0,913
0,392
6,182
0,000
4,176
0,004
F de significao
0,000
95%
inferiores
-3,119
0,038
95%
superiores
1,381
0,085
0,401
1,446
Pgina 61
Referncias Bibliogrficas
1. CONOVER, W. J. (1999). Practical Nonparametric Statistics. 3rd. ed. New York: Chichester:
John Wiley & Sons (Asia).
2. DEAN, A. & VOSS, D. (1999). Desing and Analysis of Experiments. New York: Springer.
3. FERNANDES, Gilnio Borges, (2002). Notas de Aula MAT 229- Anlise de Regresso.
4. HINES, W. William, MONTGOMERY, C. Douglas, GOLDSMAN, M. David e BORROR, M. Cannie
(2006). Probabilidade e Estatstica na Engenharia. 4 ed., Rio de Janeiro: LTC.
5. HOLLANDER, Myles; WOLFE, Douglas A (1999). Nonparametric Statistical Methods. 2nd. ed.
New York: John Wiley & Sons.
6. CAMPOS, Humberto de (1979). Estatstica Experimental Nao-Paramtrica. 3. ed. Piracicaba:
Departamento de Matemtica e Estatstica da Escola Superior de Agricultura 'Luiz de Queiroz.
7. MORAES, Lia Terezinha L. P. (2006). Notas de Aula MAT 187- Mtodos No Paramtricos
8. MAGALHES, Marcos Nascimento e LIMA, Antnio Carlos P. (2007). Noes de Probabilidade
e Estatstica. 6a edio rev. 1a reimpresso, So Paulo, Edusp.
9. MONTGOMERY, Douglas C.; RUNGER, George C.; HUBELE e Norma Faris (2004). Estatstica
Aplicada Engenharia. Rio de Janeiro: LTC.
10. MONTGOMERY, Douglas C. (2005). Design and Analysis of Experiments. 3ed. New York, John
Wiley.
11. MORETTIN, Pedro Alberto e BUSSAB, Wilton de Oliveira (2006). Estatstica Bsica. 5. ed. So
Paulo: Saraiva.
12. NETER, J. e Wasserman, W. (1974). Applied linear statistical models. Richard D. Irwin Inc.
Homewood, Illinois.
13. Peter W. M. John. (1970). Statistical Design and Analysis of Experiments. Macmillan Co., New
York.
14. SIEGEL, Sidney; CASTELLAN, N. John (2006). Estatstica No-paramtrica para Cincias do
Comportamento. 2. ed. Porto Alegre, RS.
15. SOUZA, G. S. (1998). Introduo aos Modelos de Regresso Linear e No-Linear. Braslia:
Embrapa-SPI / Embrapa-SEA.
16. WERKEMA, Maria Cristina Catarino; AGUIAR, Silvio (1996). Analise de Regresso: Como
Entender o Relacionamento Entre as Variveis de um Processo. Belo Horizonte, MG: UFMG.
Escola de Engenharia.
Pgina 62
Graus de
Liberdade 0,995
1
0,00
2
0,01
3
0,07
4
0,21
5
0,41
6
0,68
7
0,99
8
1,34
9
1,73
10
2,16
11
2,60
12
3,07
13
3,57
14
4,07
15
4,60
16
5,14
17
5,70
18
6,26
19
6,84
20
7,43
21
8,03
22
8,64
23
9,26
24
9,89
25
10,52
26
11,16
27
11,81
28
12,46
29
13,12
30
13,79
40
20,71
50
27,99
60
35,53
70
43,28
80
51,17
90
59,20
100
67,33
Valores de
0,99
0,00
0,02
0,11
0,30
0,55
0,87
1,24
1,65
2,09
2,56
3,05
3,57
4,11
4,66
5,23
5,81
6,41
7,01
7,63
8,26
8,90
9,54
10,20
10,86
11,52
12,20
12,88
13,56
14,26
14,95
22,16
29,71
37,48
45,44
53,54
61,75
0,975
0,00
0,05
0,22
0,48
0,83
1,24
1,69
2,18
2,70
3,25
3,82
4,40
5,01
5,63
6,26
6,91
7,56
8,23
8,91
9,59
10,28
10,98
11,69
12,40
13,12
13,84
14,57
15,31
16,05
16,79
24,43
32,36
40,48
48,76
57,15
65,65
0,95
0,00
0,10
0,35
0,71
1,15
1,64
2,17
2,73
3,33
3,94
4,57
5,23
5,89
6,57
7,26
7,96
8,67
9,39
10,12
10,85
11,59
12,34
13,09
13,85
14,61
15,38
16,15
16,93
17,71
18,49
26,51
34,76
43,19
51,74
60,39
69,13
0,50
0,45
1,39
2,37
3,36
4,35
5,35
6,35
7,34
8,34
9,34
10,34
11,34
12,34
13,34
14,34
15,34
16,34
17,34
18,34
19,34
20,34
21,34
22,34
23,34
24,34
25,34
26,34
27,34
28,34
29,34
39,34
49,33
59,33
69,33
79,33
89,33
0,10
2,71
4,61
6,25
7,78
9,24
10,64
12,02
13,36
14,68
15,99
17,28
18,55
19,81
21,06
22,31
23,54
24,77
25,99
27,20
28,41
29,62
30,81
32,01
33,20
34,38
35,56
36,74
37,92
39,09
40,26
51,81
63,17
74,40
85,53
96,58
107,57
0,05
3,84
5,99
7,81
9,49
11,07
12,59
14,07
15,51
16,92
18,31
19,68
21,03
22,36
23,68
25,00
26,30
27,59
28,87
30,14
31,41
32,67
33,92
35,17
36,42
37,65
38,89
40,11
41,34
42,56
43,77
55,76
67,50
79,08
90,53
101,88
113,15
0,025
5,02
7,38
9,35
11,14
12,83
14,45
16,01
17,53
19,02
20,48
21,92
23,34
24,74
26,12
27,49
28,85
30,19
31,53
32,85
34,17
35,48
36,78
38,08
39,36
40,65
41,92
43,19
44,46
45,72
46,98
59,34
71,42
83,30
95,02
106,63
118,14
0,01
0,005
6,63
7,88
9,21
10,60
11,34
12,84
13,28
14,86
15,09
16,75
16,81
18,55
18,48
20,28
20,09
21,95
21,67
23,59
23,21
25,19
24,72
26,76
26,22
28,30
27,69
29,82
29,14
31,32
30,58
32,80
32,00
34,27
33,41
35,72
34,81
37,16
36,19
38,58
37,57
40,00
38,93
41,40
40,29
42,80
41,64
44,18
42,98
45,56
44,31
46,93
45,64
48,29
46,96
49,64
48,28
50,99
49,59
52,34
50,89
53,67
63,69
66,77
76,15
79,49
88,38
91,95
100,43 104,21
112,33 116,32
124,12 128,30
70,06
74,22
77,93
99,33
118,50
124,34
129,56
135,81 140,17
Pgina 63
rea=0,05
gl Numerador
gl
Denominador
1
2
3
4
5
6
7
8
9
10
1
161,45 199,50 215,71 224,58 230,16 233,99 236,77 238,88 240,54 241,88
2
18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40
3
10,13
9,55
9,28
9,12
9,01
8,94
8,89
8,85
8,81
8,79
4
7,71
6,94
6,59
6,39
6,26
6,16
6,09
6,04
6,00
5,96
5
6,61
5,79
5,41
5,19
5,05
4,95
4,88
4,82
4,77
4,74
6
5,99
5,14
4,76
4,53
4,39
4,28
4,21
4,15
4,10
4,06
7
5,59
4,74
4,35
4,12
3,97
3,87
3,79
3,73
3,68
3,64
8
5,32
4,46
4,07
3,84
3,69
3,58
3,50
3,44
3,39
3,35
9
5,12
4,26
3,86
3,63
3,48
3,37
3,29
3,23
3,18
3,14
10
4,96
4,10
3,71
3,48
3,33
3,22
3,14
3,07
3,02
2,98
11
4,84
3,98
3,59
3,36
3,20
3,09
3,01
2,95
2,90
2,85
12
4,75
3,89
3,49
3,26
3,11
3,00
2,91
2,85
2,80
2,75
13
4,67
3,81
3,41
3,18
3,03
2,92
2,83
2,77
2,71
2,67
14
4,60
3,74
3,34
3,11
2,96
2,85
2,76
2,70
2,65
2,60
15
4,54
3,68
3,29
3,06
2,90
2,79
2,71
2,64
2,59
2,54
16
4,49
3,63
3,24
3,01
2,85
2,74
2,66
2,59
2,54
2,49
17
4,45
3,59
3,20
2,96
2,81
2,70
2,61
2,55
2,49
2,45
18
4,41
3,55
3,16
2,93
2,77
2,66
2,58
2,51
2,46
2,41
19
4,38
3,52
3,13
2,90
2,74
2,63
2,54
2,48
2,42
2,38
20
4,35
3,49
3,10
2,87
2,71
2,60
2,51
2,45
2,39
2,35
21
4,32
3,47
3,07
2,84
2,68
2,57
2,49
2,42
2,37
2,32
22
4,30
3,44
3,05
2,82
2,66
2,55
2,46
2,40
2,34
2,30
23
4,28
3,42
3,03
2,80
2,64
2,53
2,44
2,37
2,32
2,27
24
4,26
3,40
3,01
2,78
2,62
2,51
2,42
2,36
2,30
2,25
25
4,24
3,39
2,99
2,76
2,60
2,49
2,40
2,34
2,28
2,24
26
4,23
3,37
2,98
2,74
2,59
2,47
2,39
2,32
2,27
2,22
27
4,21
3,35
2,96
2,73
2,57
2,46
2,37
2,31
2,25
2,20
28
4,20
3,34
2,95
2,71
2,56
2,45
2,36
2,29
2,24
2,19
29
4,18
3,33
2,93
2,70
2,55
2,43
2,35
2,28
2,22
2,18
30
4,17
3,32
2,92
2,69
2,53
2,42
2,33
2,27
2,21
2,16
35
4,12
3,27
2,87
2,64
2,49
2,37
2,29
2,22
2,16
2,11
40
4,08
3,23
2,84
2,61
2,45
2,34
2,25
2,18
2,12
2,08
45
4,06
3,20
2,81
2,58
2,42
2,31
2,22
2,15
2,10
2,05
50
4,03
3,18
2,79
2,56
2,40
2,29
2,20
2,13
2,07
2,03
100
3,94
3,09
2,70
2,46
2,31
2,19
2,10
2,03
1,97
1,93
Tabela gerada no Excel
Pgina 64
rea=0,01
Tabela 3: Distribuio Fisher-Snedecor F com os valores crticos da F tais que a
Tabela 3: Distribuio F de Snedecor.
probabilidade de a varivel F ser maior que Fc vale 0,01, ou seja, Prob(F Fc) = 0,01
=0,01
Fc
gl do Numerador
gl do
Denominador
1
2
3
4
5
6
7
8
9
10
1
4052,18 4999,50 5403,35 5624,58 5763,65 5858,99 5928,36 5981,07 6022,47 6055,85
2
98,50
99,00
99,17
99,25
99,30
99,33
99,36
99,37
99,39
99,40
3
34,12
30,82
29,46
28,71
28,24
27,91
27,67
27,49
27,35
27,23
4
21,20
18,00
16,69
15,98
15,52
15,21
14,98
14,80
14,66
14,55
5
16,26
13,27
12,06
11,39
10,97
10,67
10,46
10,29
10,16
10,05
6
13,75
10,92
9,78
9,15
8,75
8,47
8,26
8,10
7,98
7,87
7
12,25
9,55
8,45
7,85
7,46
7,19
6,99
6,84
6,72
6,62
8
11,26
8,65
7,59
7,01
6,63
6,37
6,18
6,03
5,91
5,81
9
10,56
8,02
6,99
6,42
6,06
5,80
5,61
5,47
5,35
5,26
10
10,04
7,56
6,55
5,99
5,64
5,39
5,20
5,06
4,94
4,85
11
9,65
7,21
6,22
5,67
5,32
5,07
4,89
4,74
4,63
4,54
12
9,33
6,93
5,95
5,41
5,06
4,82
4,64
4,50
4,39
4,30
13
9,07
6,70
5,74
5,21
4,86
4,62
4,44
4,30
4,19
4,10
14
8,86
6,51
5,56
5,04
4,69
4,46
4,28
4,14
4,03
3,94
15
8,68
6,36
5,42
4,89
4,56
4,32
4,14
4,00
3,89
3,80
16
8,53
6,23
5,29
4,77
4,44
4,20
4,03
3,89
3,78
3,69
17
8,40
6,11
5,18
4,67
4,34
4,10
3,93
3,79
3,68
3,59
18
8,29
6,01
5,09
4,58
4,25
4,01
3,84
3,71
3,60
3,51
19
8,18
5,93
5,01
4,50
4,17
3,94
3,77
3,63
3,52
3,43
20
8,10
5,85
4,94
4,43
4,10
3,87
3,70
3,56
3,46
3,37
21
8,02
5,78
4,87
4,37
4,04
3,81
3,64
3,51
3,40
3,31
22
7,95
5,72
4,82
4,31
3,99
3,76
3,59
3,45
3,35
3,26
23
7,88
5,66
4,76
4,26
3,94
3,71
3,54
3,41
3,30
3,21
24
7,82
5,61
4,72
4,22
3,90
3,67
3,50
3,36
3,26
3,17
25
7,77
5,57
4,68
4,18
3,85
3,63
3,46
3,32
3,22
3,13
26
7,72
5,53
4,64
4,14
3,82
3,59
3,42
3,29
3,18
3,09
27
7,68
5,49
4,60
4,11
3,78
3,56
3,39
3,26
3,15
3,06
28
7,64
5,45
4,57
4,07
3,75
3,53
3,36
3,23
3,12
3,03
29
7,60
5,42
4,54
4,04
3,73
3,50
3,33
3,20
3,09
3,00
30
7,56
5,39
4,51
4,02
3,70
3,47
3,30
3,17
3,07
2,98
35
7,42
5,27
4,40
3,91
3,59
3,37
3,20
3,07
2,96
2,88
40
7,31
5,18
4,31
3,83
3,51
3,29
3,12
2,99
2,89
2,80
45
7,23
5,11
4,25
3,77
3,45
3,23
3,07
2,94
2,83
2,74
50
7,17
5,06
4,20
3,72
3,41
3,19
3,02
2,89
2,78
2,70
100
6,90
4,82
3,98
3,51
3,21
2,99
2,82
2,69
2,59
2,50
Tabela gerada no Excel
Pgina 65
gl (f*)
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
24
30
40
60
120
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
2
3,64
5,70
3,46
5,24
3,34
4,95
3,26
4,75
3,20
4,60
3,15
4,48
3,11
4,39
3,08
4,32
3,06
4,26
3,03
4,21
3,01
4,17
3,00
4,13
2,98
4,10
2,97
4,07
2,96
4,05
2,95
4,02
2,92
3,96
2,89
3,89
2,86
3,82
2,83
3,76
2,80
3,70
2,77
3,64
3
4,60
6,98
4,34
6,33
4,16
5,92
4,04
5,64
3,95
5,43
3,88
5,27
3,82
5,15
3,77
5,05
3,73
4,96
3,70
4,89
3,67
4,84
3,65
4,79
3,63
4,74
3,61
4,70
3,59
4,67
3,58
4,64
3,53
4,55
3,49
4,45
3,44
4,37
3,40
4,28
3,36
4,20
3,31
4,12
4
5,22
7,80
4,90
7,03
4,68
6,54
4,53
6,20
4,41
5,96
4,33
5,77
4,26
5,62
4,20
5,50
4,15
5,40
4,11
5,32
4,08
5,25
4,05
5,19
4,02
5,14
4,00
5,09
3,98
5,05
3,96
5,02
3,90
4,91
3,85
4,80
3,79
4,70
3,74
4,59
3,68
4,50
3,63
4,40
5
5,67
8,42
5,30
7,56
5,06
7,01
4,89
6,62
4,76
6,35
4,65
6,14
4,57
5,97
4,51
5,84
4,45
5,73
4,41
5,63
4,37
5,56
4,33
5,49
4,30
5,43
4,28
5,38
4,25
5,33
4,23
5,29
4,17
5,17
4,10
5,05
4,04
4,93
3,98
4,82
3,92
4,71
3,86
4,60
k nveis
6
7
6,03
6,33
8,91
9,32
5,63
5,90
7,97
8,32
5,36
5,61
7,37
7,68
5,17
5,40
6,96
7,24
5,02
5,24
6,66
6,91
4,91
5,12
6,43
6,67
4,82
5,03
6,25
6,48
4,75
4,95
6,10
6,32
4,69
4,88
5,98
6,19
4,64
4,83
5,88
6,08
4,59
4,78
5,80
5,99
4,56
4,74
5,72
5,92
4,52
4,70
5,66
5,85
4,49
4,67
5,6
5,79
4,47
4,65
5,55
5,73
4,45
4,62
5,51
5,69
4,37
4,54
5,37
5,54
4,30
4,46
5,24
5,40
4,23
4,39
5,11
5,26
4,16
4,31
4,99
5,13
4,10
4,24
4,87
5,01
4,03
4,17
4,76
4,88
8
6,58
9,67
6,12
8,61
5,82
7,94
5,60
7,47
5,43
7,13
5,3
6,87
5,20
6,67
5,12
6,51
5,05
6,37
4,99
6,26
4,94
6,16
4,9
6,08
4,86
6,01
4,82
5,94
4,79
5,89
4,77
5,84
4,68
5,69
4,60
5,54
4,52
5,39
4,44
5,25
4,36
5,12
4,29
4,99
9
6,80
9,97
6,32
8,87
6,00
8,17
5,77
7,68
5,59
7,33
5,46
7,05
5,35
6,84
5,27
6,67
5,19
6,53
5,13
6,41
5,08
6,31
5,03
6,22
4,99
6,15
4,96
6,08
4,92
6,02
4,90
5,97
4,81
5,81
4,72
5,65
4,63
5,50
4,55
5,36
4,47
5,21
4,39
5,08
10
6,99
10,24
6,49
9,10
6,16
8,37
5,92
7,86
5,74
7,49
5,60
7,21
5,49
6,99
5,39
6,81
5,32
6,67
5,25
6,54
5,20
6,44
5,15
6,35
5,11
6,27
5,07
6,2
5,04
6,14
5,01
6,09
4,92
5,92
4,82
5,76
4,73
5,6
4,65
5,45
4,56
5,30
4,47
5,16
Pgina 66