Sei sulla pagina 1di 67

UNIVERSIDADE FEDERAL DA BAHIA

INSTITUTO DE MATEMTICA
DEPARTAMENTO DE ESTATSTICA

NOTAS DE AULA
MAT236 MTODOS ESTATSTICOS
3 UNIDADE

Elaborada pelas professoras:


Giovana Silva, Lia Moraes, Rosana Castro e
Rosemeire Fiaccone

Revisada em 2013.1 pelas professoras:


Gecynalda Gomes e Silvia Regina

Revisada em 2014.2 pela professora:


Silvia Regina

UFBA- Instituto de Matemtica Departamento de Estatstica

14.

Anlise de Regresso
Frequentemente, estamos interessados em estudar como duas ou mais variveis

esto associadas. Algumas vezes o interesse apenas medir o grau de associao e outras
vezes desejam-se obter um modelo matemtico-estatstico que seja capaz de descrever a
relao funcional entre as variveis. Para investigar e modelar a relao entre elas, usa-se a
Anlise de Regresso.
Quando estamos estudando o comportamento de apenas duas variveis x e y que
supostamente se relacionam atravs de uma funo linear, devemos considerar a seguinte
equao:

+ ,

em que 0 o intercepto e 1 a inclinao. O erro aleatrio pode ser pensado como uma
falha da equao linear em se ajustar aos dados exatamente. Este modelo chamado de
Modelo de Regresso Linear Simples. Para estimar os parmetros 0 e 1, uma amostra de
pares (x; y) deve ser coletada e analisada. A varivel x conhecida como varivel preditora
ou independente e y conhecida como varivel resposta ou dependente.
Obtemos um modelo mais geral quando a varivel resposta pode ser relacionada a k
variveis preditoras, x1, x2, ..., xk e, neste caso, o modelo adequado seria:
=

+ +

Este modelo chamado Modelo de Regresso Linear Mltipla.

+ .

Nem sempre um modelo de regresso linear o mais adequado para uma


determinada situao. Algumas vezes, devemos modelar a relao entre variveis utilizando
funes no lineares ou mesmo fazendo alguma transformao funcional na(s) varivel(s) de
modo a obter linearidade.
Em todos os casos importante destacar que um modelo de regresso no implica
numa relao de causa-e-efeito. Para estabelecer causalidade, a relao entre as variveis
preditoras e a resposta deve ter uma base alm do conjunto de dados. Por exemplo, o
relacionamento entre variveis pode ser sugerido por consideraes tericas. A Anlise de
Regresso pode apenas ajudar a confirmar esta relao.

14.1.

Diagrama de Disperso e Coeficiente de Correlao

Como dissemos anteriormente, para estudar a relao entre duas variveis devemos
partir da coleta de uma amostra de pares de observaes. Para isto, necessrio realizar
Disciplina: MAT236 - Mtodos Estatsticos

Pgina 1

UFBA- Instituto de Matemtica Departamento de Estatstica

um experimento em que se faz simultaneamente medidas de duas variveis x e y para uma


amplitude de diferentes condies experimentais. Sejam (x1 ;y1), (x2 ;y2), ... , (xn; yn) os n
pares de observaes.
Um procedimento para visualizarmos a forma da relao entre as variveis x e y o
diagrama de disperso, que nada mais do que a representao dos pares de valores num
sistema cartesiano.

Exemplo 14.1: (Werkema, 1996): Uma indstria fabricante de eletrodomsticos da chamada


linha branca, tem como objetivo resolver o problema apresentado pelo elevado ndice de
refugo da gaveta de legumes de um modelo de refrigerador produzido pela empresa. A
observao do problema indicou que a maior parte das gavetas refugadas era considerada
defeituosa por apresentarem corte fora de esquadro. Os tcnicos da empresa suspeitaram
que a ocorrncia do corte de gavetas fora de esquadro pudesse estar relacionada variao
de tenso na rede eltrica, que poderia prejudicar o desempenho do equipamento de corte.
Para a verificao da validade desta hiptese, foram coletados dados sobre a tenso na rede
eltrica (x) e a variao no corte (y), os quais esto apresentados na tabela abaixo.

Tabela 14.1: Medidas da Tenso na Rede Eltrica (Volts) e Variao no Corte das Gavetas

(mm).
Nmero
Tenso na Rede
da
Eltrica (Volts)
Medida i
1
222,7
2
217,7
3
219,4
4
220,9
5
214,4
6
216,5
7
213,0
8
221,7
9
224,7
10
215,5
11
220,0
12
218,6
13
223,5
14
217,0
15
221,5
16
218,4
17
213,6
18
221,2
19
219,9

Variao no
Corte (mm)

Disciplina: MAT236 - Mtodos Estatsticos

15,7
17,0
16,3
16,1
18,6
17,8
19,5
16,0
15,3
18,3
16,3
16,7
15,7
17,4
16,1
16,8
19,3
16,2
16,2

Nmero
Tenso na Rede Variao no
da
Eltrica (Volts) Corte (mm)
Medida i
20
222,2
15,9
21
213,9
19,1
22
216,0
18,0
23
218,1
17,0
24
222,0
16,0
25
224,1
15,4
26
214,9
18,6
27
214,2
18,7
28
223,3
15,6
29
216,7
17,6
30
215,3
18,5
31
223,8
15,5
32
220,6
16,1
33
215,8
18,2
34
217,3
17,3
35
219,2
16,5

Pgina 2

UFBA- Instituto de Matemtica Departamento de Estatstica

19.5

Variao no
Corte (mm)

19.0
18.5
18.0
17.5
17.0
16.5
16.0
15.5
15.0
215

220

225

Tenso
(volts)

Figura 14.1. Diagrama de disperso da Tenso da Rede Eltrica e da Variao no Corte

Pela Figura 14.1 acima, podemos constatar que existe uma tendncia decrescente, j
que maiores valores para a tenso na rede eltrica correspondem a menores valores para a
variao no corte.
Porm, observada esta associao, til quantific-la. Neste caso, podemos utilizar o
coeficiente de correlao para quantificar esta associao. Em geral, a letra r usada para
representar este coeficiente. Valores de r variam de 1,0 a + 1,0. Um r prximo a + 1,0
corresponde a um diagrama de disperso em que os pontos caem em torno de linha reta
com inclinao positiva, e um r prximo a 1,0 corresponde a um diagrama em que os
pontos caem em torno de uma linha reta com inclinao negativa. Um r prximo a 0
corresponde a um conjunto de pontos que no mostram nenhuma tendncia, nem crescente,
nem decrescente. A Figura 14.2, a seguir, mostra cinco diagramas de disperso de Y e X.
Os diagramas das Figuras 14.2(a) e 14.2(b) mostram duas situaes em que os
pontos esto em torno de uma reta imaginria ascendente. Valores pequenos de X esto
associados a valores pequenos de Y, o mesmo acontecendo para valores grandes. Estes
dois casos indicam o que chamamos de correlao linear positiva de Y e X. Porm, os dados
em 14.2(b) apresentam uma correlao linear positiva mais forte que em 14.2(a).

Disciplina: MAT236 - Mtodos Estatsticos

Pgina 3

UFBA- Instituto de Matemtica Departamento de Estatstica

b) r = 1

10
y

15
5

10

20

15

25

a) r > 0

10

12

10

c) r < 0

d) r = -1

15

10

15

10

20

12

14

25

16

10

12

10

12

14

e)r=0

Figura 14.2. Grficos de Disperso


Disciplina: MAT236 - Mtodos Estatsticos

Pgina 4

UFBA- Instituto de Matemtica Departamento de Estatstica

As Figuras 14.2(c) e 14.2(d) mostram que os pontos em X e Y esto em torno de uma


reta imaginria descendente, indicando o que chamamos de correlao linear negativa, ou
seja, valor de r menor que zero. Observe que em 14.2(d) a correlao igual a -1.
Os valores de X e Y na Figura 14.2(e) no sugerem uma associao entre duas
variveis, pois valores pequenos ou grandes de X esto associados tanto a valores
pequenos quanto a valores grandes de Y. Os pontos do diagrama no se posicionam em
torno de uma linha imaginria ascendente ou descendente.
O coeficiente de correlao, tambm chamado de Coeficiente de Correlao de
Pearson, calculado por:

Ou

em que xi e yi so os valores observados de X e Y, respectivamente; i=1,2,...,n e n o


nmero de observaes para cada varivel e

so as mdias de X e Y, respectivamente.

Exemplo 14.2: Calculando o coeficiente de correlao linear para os dados do exemplo 14.1,
r = -0,976 , um valor muito prximo de 1, podemos concluir que existe uma forte correlao
negativa entre a tenso na rede eltrica e a variao no corte das gavetas de legumes do
refrigerador produzido pela indstria.

Disciplina: MAT236 - Mtodos Estatsticos

Pgina 5

UFBA- Instituto de Matemtica Departamento de Estatstica

Tabela 14.2: Dados para o Clculo do Coeficiente de Correlao para o Exemplo 14.1

i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
Total

x
222,70
217,70
219,40
220,90
214,40
216,50
213,00
221,70
224,70
215,50
220,00
218,60
223,50
217,00
221,50
218,40
213,60
221,20
219,90
222,20
213,90
216,00
218,10
222,00
224,10
214,90
214,20
223,30
216,70
215,30
223,80
220,60
215,80
217,30
219,20
7657,60

y
15,70
17,00
16,30
16,10
18,60
17,80
19,50
16,0
15,3
18,3
16,3
16,7
15,7
17,4
16,1
16,8
19,3
16,2
16,2
15,9
19,1
18,0
17,0
16,0
15,4
18,6
18,7
15,6
17,6
18,5
15,5
16,1
18,2
17,3
16,5
595,30

x2
y2
49595,29
246,49
47393,29
289,00
48136,36
265,69
48796,81
259,21
45967,36
345,96
46872,25
316,84
45369,00
380,25
49150,89
256,00
50490,09
234,09
46440,25
334,89
48400,00
265,69
47785,96
278,89
49952,25
246,49
47089,00
302,76
49062,25
259,21
47698,56
282,24
45624,96
372,49
48929,44
262,44
48356,01
262,44
49372,84
252,81
45753,21
364,81
46656,00
324,00
47567,61
289,00
49284,00
256,00
50220,81
237,16
46182,01
345,96
45881,64
349,69
49862,89
243,36
46958,89
309,76
46354,09
342,25
50086,44
240,25
48664,36
259,21
46569,64
331,24
47219,29
299,29
48048,64
272,25
1675792,3 10178,11
8

xy
3496,39
3700,90
3576,22
3556,49
3987,84
3853,70
4153,50
3547,20
3437,91
3943,65
3586,00
3650,62
3508,95
3775,80
3566,15
3669,12
4122,48
3583,44
3562,38
3532,98
4085,49
3888,00
3707,70
3552,00
3451,14
3997,14
4005,54
3483,48
3813,92
3983,05
3468,90
3551,66
3927,56
3759,29
3616,80
130103,39

1
(7657,60 595,30)
35
= 0,976
1
1
[1675792,38
(7657,6 )][10178,11 (595,30 )]
35
35
130103,39

Disciplina: MAT236 - Mtodos Estatsticos

Pgina 6

UFBA- Instituto de Matemtica Departamento de Estatstica

Cuidados com Correlaes


Um dos cuidados que devemos ter quando a correlao interpretada saber que
correlao no o mesmo que causalidade (relao de causa e efeito). Isto , quando duas
variveis so altamente correlacionadas, no significa, necessariamente, que uma causa a
outra. Em alguns casos, podem existir relaes causais, mas no se saber isso pelo
coeficiente de correlao. Provar uma relao de causa e efeito muito mais difcil do que
somente mostrar um coeficiente de correlao alto.
Um outro cuidado que deve ser tomado ao se interpretar correlao associar um
diagrama de disperso ao conjunto de dados. Veja o exemplo abaixo.

Exemplo 14.3: Vamos calcular para cada um dos quatro conjuntos de dados abaixo o
coeficiente de correlao.
Conjunto 1
X
Y
10
8,04
8
6,95
13
7,58
9
8,81
11
8,33
14
9,96
6
7,24
4
4,26
12
10,84
7
4,82
5
5,68

Conjunto 2
X
Y
10
9,14
8
8,14
13
8,74
9
8,77
11
9,26
14
8,10
6
6,13
4
3,10
12
9,13
7
7,26
5
4,74

Conjunto 3
X
Y
10
7,46
8
6,77
13
12,74
9
7,11
11
7,81
14
8,84
6
6,08
4
5,39
12
8,15
7
6,42
5
5,73

Conjunto 4
X
Y
8
6,58
8
5,76
8
7,71
8
8,84
8
8,47
8
7,04
8
5,25
19
12,50
8
5,56
8
7,91
8
6,89

Para cada um deles, temos: r =0,82 (Verifique!). Porm, estes conjuntos de dados
apresentam disposies completamente diferentes no diagrama.

Disciplina: MAT236 - Mtodos Estatsticos

Pgina 7

UFBA- Instituto de Matemtica Departamento de Estatstica

b) Conjunto 2

10

11

a) Conjunto 1

10

12

14

10

c) Conjunto 3

d) Conjunto 4

12

14

9
6

10

10

11

12

12

10

12

14

10

12

14

16

18

Figura 14.3. Diagramas de Disperso.

Avaliando a Figura 14.3 (a) mostra que existe uma relao linear entre as variveis x e
y. Os dados em 14.3 (b) sugerem uma relao quadrtica entre as variveis. O diagrama da
Figura 14.3 (c) apresentaria um coeficiente de correlao aproximadamente igual a 1, mas
devido a um valor atpico apresentou um valor 0,82. Na Figura 14.3 (d) indica que no existe
uma relao linear entre as variveis, mas o valor 0,82 do coeficiente de correlao devido
observao atpica presente no conjunto de dados.

Disciplina: MAT236 - Mtodos Estatsticos

Pgina 8

UFBA- Instituto de Matemtica Departamento de Estatstica

Questes No Respondidas pela Correlao


Ao estudarmos a relao entre variao no corte (mm) e tenso (volts) surgem
algumas questes importantes tais como:
1) Qual a previso de variao no corte (mm) usando uma tenso especificada em volts?
2) Qual a mdia estimada de variao no corte (mm) para uma especificada tenso em
volts?
3) Quais so os limites de confiana para variao no corte (mm) predita?
Questes deste tipo podem ser respondidas com uma anlise de regresso dos
dados, que o assunto das prximas sees.

Principais Objetivos da Anlise de Regresso

De maneira geral, os modelos de regresso podem ser usados para vrios propsitos,
dentre os quais possvel destacar:
a) Descrio dos dados
b) Estimao dos parmetros
c) Predio
d) Controle

Descrio dos dados


muito comum a utilizao da anlise de regresso para descrever um conjunto de
dados. Isto , a construo de um modelo que relacione, por exemplo, o efeito do ar
condicionado no consumo de energia eltrica uma maneira muito mais efetiva de conhecer
o relacionamento entre estas variveis em comparao a uma tabela ou mesmo um grfico.

Estimao dos parmetros


No exemplo sobre o consumo de energia eltrica, podemos utilizar a anlise de
regresso para conhecermos qual o nmero mdio de kilowatt/hora consumido usando o ar
condicionado por uma hora.

Predio
possvel tambm, utilizar regresso para predizer valores para a varivel resposta.
Voltando ao Exemplo 14.1, o fabricante pode estar interessado em conhecer quanto ser a

Disciplina: MAT236 - Mtodos Estatsticos

Pgina 9

UFBA- Instituto de Matemtica Departamento de Estatstica

variao do corte da gaveta (em mm) para uma determinada tenso na rede eltrica (em
volts).

Controle
A Anlise de Regresso pode ser usada com o objetivo de controlar a varivel
resposta. Considere, como exemplo, um engenheiro qumico que est interessado em
controlar o rendimento de um processo qumico atravs das variveis temperatura e tempo
de reao. Esta equao poder ser utilizada para determinar a natureza dos ajustes a
serem realizados nas variveis temperatura e tempo de reao, para que o rendimento
possa ser mantido num intervalo pr-estabelecido.
importante destacar que, quando o modelo de regresso for empregado com o
objetivo de controle, a relao existente entre a varivel de interesse e as variveis utilizadas
para seu controle sejam do tipo causa-e-efeito.

14.2.

Regresso Linear Simples por Mnimos Quadrados

Um coeficiente de correlao descreve a associao linear entre variveis porm, para


investigar e modelar a relao entre elas, usa-se a Anlise de Regresso.
Para se ajustar um modelo de regresso por mnimos quadrados a varivel resposta
deve ser quantitativa.
O que se deseja, freqentemente, com base em dados amostrais, estimar o valor da
varivel y, correspondente ao conhecimento de uma varivel x. Isto pode ser feito mediante a
estimativa da funo linear f(x) = y = 0 + 1x.
Observe, porm, que as linhas que vrias pessoas podem traar para este conjunto de
pontos seriam, provavelmente, similares, desde que o grfico tenha um padro bem definido.
Porm, elas no seriam idnticas, de forma que os valores preditos para varivel resposta
poderiam diferir tambm.
Para um conjunto de dados sem um padro bvio no grfico; diferentes pessoas
poderiam traar diferentes linhas sobre os dados, permitindo grandes diferenas entre os
valores preditos. Usando a Anlise de Regresso, qualquer um obter exatamente a mesma
linha reta. Este processo chamado de ajuste de uma reta de regresso. O mtodo usado
mais freqentemente para ajustar uma reta usa um princpio chamado de Mnimos
Quadrados. Este mtodo ser descrito posteriormente..

Disciplina: MAT236 - Mtodos Estatsticos

Pgina 10

UFBA- Instituto de Matemtica Departamento de Estatstica

Observe a Figura 14. 4 a seguir. O princpio de mnimos quadrados envolve ajustar


uma reta passando por pontos de forma que as diferenas verticais entre todos os pontos e a
reta so calculadas. Ento, estas diferenas so elevadas ao quadrado para dar aos pontos
acima e abaixo da reta a mesma importncia (as diferenas ao quadrado so todas
positivas). As diferenas so ento somadas. A melhor reta aquela que minimiza esta
soma das diferenas ao quadrado, sendo chamada, de mnimos quadrados.

100
90

80

CONSUMO

70
60

Reta dos mnimos


quadrados minimiza os
valores ao quadrado de
todas as diferenas
verticais como estas.

50
40
30
20
10
0

10

12

14

16

AR

Figura 14.4 Processo de Mnimos Quadrados

J vimos que uma relao linear entre duas variveis pode ser expressa atravs da
equao:

em que,

o intercepto,

+ ,

a inclinao e o erro. Esta equao a que se obteria

medindo-se a populao inteira de valores de x e y. Na realidade, apenas uma amostra


medida e usa-se esta amostra para estimar a reta. A reta estimada por meio da amostra pela
regresso de mnimos quadrados ser denotada por:
em que !

e ! so estimativas de

=! + ! ,

, respectivamente. O valor ! o valor predito de

quando x zero e chamado de intercepto da reta desde que ele o local em que a reta

intercepta o eixo vertical. O valor ! o incremento em

resultante do incremento de uma

unidade em x e chamado de inclinao da reta.

O mtodo de Mnimos Quadrados baseado na soma dos quadrados dos resduos, ,


ou seja:
Disciplina: MAT236 - Mtodos Estatsticos

Pgina 11

UFBA- Instituto de Matemtica Departamento de Estatstica

fazendo-se tal soma a menor possvel. A soluo deste problema matemtico fornece as
seguintes expresses para ! e ! :

Ou

em que yi e xi so os valores observados das variveis Y e X e e

so as respectivas

mdias amostrais destas variveis.

O modelo de regresso adotado para o Exemplo 14.1 dado por:


"

"

+ #" , $ = 1 , , 35

Vamos ajustar agora um modelo de regresso linear simples com dados do Exemplo 14.1.
b =
e
! =

1675792,38 595,3 7657,60 130103,39


= 94,96
35 1675792,38 (7657,6 )

35 130103,39 595,3 7657,6


= 0,3563 0,36
35 1675792,38 (7657,6 )

Disciplina: MAT236 - Mtodos Estatsticos

Pgina 12

UFBA- Instituto de Matemtica Departamento de Estatstica

portanto, o modelo de regresso ajustado expresso por:

)( = 94,96 0,36 " , $ = 1, 2, , 35. (14.5)

Esta equao de regresso mostra que para cada aumento de um volt na tenso na
rede eltrica a variao no corte das gavetas diminui, em mdia, 0,36 mm. Como o intervalo
dos valores observados de x no contempla o valor zero, o valor 94,96 no tem um
significado particular como termo separado do modelo de regresso.

Anlise de Varincia no Modelo de Regresso

A Analise de Varincia baseada na partio da variao total da varivel dependente


Y que pode ser decomposta em duas partes: uma explicada pelo modelo de regresso
ajustado e outra no explicada, conforme mostra a equao abaixo.
-

".

".

".

/( ,) + +(," ,
/( )
+(," ,) = +(,

(14.6).

O termo do lado esquerdo de (14.6) a soma dos quadrados das observaes em relao
ao seu valor mdio e representa uma medida da variabilidade total dos dados de Y. Esta

:) . O primeiro termo do lado direito de (14.6) a


soma denotada por SQ23456 = ;9. (Y9 Y

soma dos quadrados explicada pelo modelo de regresso, sendo denotada por <=>?@A?BB3 =

:)
;9. (Y/C Y

;9. (Y9 Y/C )

enquanto o segundo termo a soma de quadrados residual SQDEF"GHIJ =

que no explicada pelo modelo de regresso. O modelo ser melhor

ajustado quanto maior for a variao explicada <=A?@A?BB3 em relao variao total SQ43456 .
Simbolicamente, podemos representar a equao (14.6) por:
SQ23456 = <=>?@A?BB3 + SQDEF"GHIJ .

Anlise de Varincia resumida atravs Tabela 14.3 adiante. Esta tabela pode ser
utilizada para testar as seguintes hipteses:

H : =0

Neste teste, no rejeitar H

H : 0.

significa que no existe relao linear entre x e y. Para

testar estas hipteses de interesse, ser usando a estatstica F=(N=A?@A?BB3 )/( N=OEF"GHIJ ).
Supondo que o erro

tem distribuio Normal com mdia 0 e varincia P ,

pode ser

mostrado que F tem distribuio de Fisher-Snedecor com 1 e n-2 graus de liberdade que
correspondem ao numerador e ao denominador, respectivamente..

Disciplina: MAT236 - Mtodos Estatsticos

Pgina 13

UFBA- Instituto de Matemtica Departamento de Estatstica

O critrio do teste o seguinte: rejeita-se H0, ao nvel de significncia, se F > F(, 1;


n 2), em que F(, 1; n 2) o percentil da distribuio Fisher-Snedecor com 1 e n 2
graus de liberdade, respectivamente. Caso contrrio, a hiptese H0 no deve ser rejeitada.
Tabela 14.3: Tabela de Anlise de Varincia para o Modelo de Regresso Linear Simples.
Fonte de
variao

Graus de
liberdade (gl)

Regresso

Residual

n-2

Total

n-1

Soma de
quadrados (SQ)

Quadrados
mdios (MQ)

<=>?@A?BB3

N=>?@A?BB3 =
N=DEF"GHIJ =

SQDEF"GHIJ
SQ STUIJ

<=>?@A?BB3
1

SQ DEF"GHIJ
R2

Q=

N=>?@A?BB3
N=DEF"GHIJ

Para uma amostra n pares (x, y), a soma de quadrados total associada a variabilidade
total de Y tem n-1 graus de liberdade e a soma de quadrados de resduo tem n-2 graus de
liberdade. Os quadrados mdios so obtidos dividindo as somas de quadrados pelos
correspondentes graus de liberdade.
Quando as somas de quadrados forem calculadas manualmente, elas podem ser
obtidas atravs das seguintes expresses dadas adiante.
-

SQ STUIJ = +(
".

"

) = +
-

/( ,) = ! X+(
<=>?@A?BB3 = +(,
e

".

".

"

".

"

)(

"

1
V+
R
".

"W

)Y = ! X+

SQDEF"GHIJ = SQ STUIJ <=>?@A?BB3

".

(14.7)
"

"

R Y

(14.8)

(14.9)

Para o Exemplo 14.1 ser realizado o seguinte teste de hipteses:

H : = 0 (No existe relao linear entre a tenso da rede eltrica e o corte da gaveta)
H : 0 (Existe relao linear entre a tenso da rede eltrica e o corte da gaveta)

A soma de quadrados para compor a Tabela da Anlise de Varincia calculada

conforme as equaes (14.7) a (14.9),


-

SQ STUIJ = +
".

"

1
V+
R

Disciplina: MAT236 - Mtodos Estatsticos

".

"W

= 10178,11

1
(595,3) 52,907
35

Pgina 14

UFBA- Instituto de Matemtica Departamento de Estatstica


-

<=>?@A?BB3 = ! X+
".

"

50,397

"

7657,60 595,30
R Y = 0,3563. l130103,39 35 m
nm
no
35
35

Uma vez calculadas as duas somas de quadrados, obtemos a terceira soma de


quadrados conforme apresenta adiante:

SQ DEF"GHIJ = SQ STUIJ <=>?@A?BB3 = 52,91 50,397 = 2,513.

Os quadrados mdios (MQ) sos calculados atravs das expresses adiante.


N=>?@A?BB3 =

<=>?@A?BB3
SQ DEF"GHIJ 2,513
= 50,397 p N=DEF"GHIJ =
=
= 0,0762.
1
R2
33

O valor da estatstica de teste.


qcalculado =

N=A?@A?BB3
N=rps$tuvw

50,397

0,0762

= 661,377.

Os resultados esto resumidos na Tabela da Anlise de Varincia a seguir.

Tabela 14.4: A Tabela Anova para o modelo de Regresso Linear Simples


Fonte de
variao
Regresso
Residual
Total

Graus de
liberdade (gl)
1
33
34

Soma de
quadrados (SQ)
50,397
2, 513
52,907

*p-valor = P|Q ;~~ Q56653 = P|Q ;~~ 661,377 2,071 10 ~ .

Quadrados
mdios (MQ)
50, 397
0, 0762
----

qcalculado
661,377

*x-valor
2,071x10-23

----

Concluso: Com auxlio da Tabela da distribuio Fisher-Snedecor, obtemos F


4,139 (ver Tabela 2 em Anexo). Como Q ,

; ;~~

, ; ;~~ =

= 4,139 < Fcalculado = 661,38 rejeitamos a

hiptese nula e conclumos que os dados esto indicando a existncia de uma relao linear
entre a tenso na rede eltrica (volts) e a variabilidade no corte das gavetas (mm) produzidas
pela fabrica, ao nvel de significncia de 5%. Chegamos a mesma concluso ao observarmos
o p-valor = 2,071x10-23< =0,05.

No caso de regresso linear uma forma de medir a proporo da reduo na variao

total em Y associada com o uso da varivel explicativa X o coeficiente de determinao


expresso por:
=
Disciplina: MAT236 - Mtodos Estatsticos

<=A?@A?BB3
SQOEF"GHIJ
= 1
.
SQ43456
SQ43456

Pgina 15

UFBA- Instituto de Matemtica Departamento de Estatstica

O valor de r2 varia no intervalo [0; 1]. Desta forma, quanto maior for o coeficiente de
determinao, maior ser a reduo na variao total de Y pela introduo da varivel
independente X. Entretanto, o coeficiente de determinao dever ser empregado com muita
cautela. Por exemplo, quando temos dados envolvendo sries temporais que tendem a se
mover na mesma direo, refletindo uma forte tendncia, qualquer modelo que detecte essa
tendncia ter um de r2 alto, o que pode ser esprio (no refletir a verdadeira relao linear
entre as variveis envolvidas) (Souza, 1998).
O coeficiente de determinao

,~
,

= 0,953 revela que aproximadamente

95,3% da variabilidade no corte das gavetas produzidas pela fabricadas explicada pela

tenso na rede eltrica (atravs do modelo proposto) e que 4,7% so atribudas a outras
causas.
Sada do software Excel
Estatstica de regresso
R mltiplo
R-Quadrado
R-quadrado ajustado
Erro padro
Observaes

Coeficiente de Determinao para


Regresso Linear Simples

0,9760
0,9525
0,9511
0,2760
35

P- valor
A Tabela Anova

ANOVA

Regresso
Resduo
Total

gl
1,00
33,00
34,00
Coeficientes

Interseo
Tenso

94,957
-0,356

Estimativa para

SQ
50,39
2,51
52,91
Erro
padro
3,031
0,014

MQ
50,39
0,08

F
661,60

Estatstica t P- valor
31,330
-25,722

Estimativa para

0,000
0,000

F de significao
2,071x10-23

95%
inferiores
88,791
-0,384

95%
superiores
101,124
-0,328

Intervalos de
confiana para e

Outra maneira de verificar a adequao do modelo de regresso linear simples

apresentada adiante. Para tal, necessrio supor que o erro tem distribuio normal
Disciplina: MAT236 - Mtodos Estatsticos

Pgina 16

UFBA- Instituto de Matemtica Departamento de Estatstica

com mdia 0 e varincia 2. Na Seo adiante ser estudada a anlise de resduo para a
verificao desta suposio.

O intervalo de confiana para

com (1-)100% de confiana dado por:

Exemplo 14.5: Vamos calcular o intervalo de confiana para

com 95% para o modelo de

regresso linear simples com os dados do Exemplo 14.1.

Baseado neste intervalo pode-se concluir que existe evidncia que


0, com 95% de
confiana e, portanto, h evidncia de que o modelo de regresso linear adequado.

Predio de Novas Observaes

Suponha que se queira predizer uma nova observao y correspondendo a um nvel


especificado da varivel preditora x. Denotando x= x* como sendo este o valor de interesse,
ento,
y* = b 0 + b 1 . x*
uma estimativa pontual para o novo valor da resposta. Considerando que o erro tem
distribuio normal com mdia 0 e varincia 2, o intervalo de predio para y* com (1-)%
de confiana dado por:

em que

ou
Disciplina: MAT236 - Mtodos Estatsticos

Pgina 17

UFBA- Instituto de Matemtica Departamento de Estatstica

s o desvio padro do erro e ;

o ponto que define uma rea de (/2) na cauda

superior da distribuio t com n-2 graus de liberdade.

Exemplo 14.5: Suponha que se queira predizer a variao no corte (mm) quando a tenso
200 volts. Neste caso, x* = 200 volts, e, portanto, variao predita = 95,03 (0,36 x 200) =
23,03.
O intervalo de 95% confiana : ( = 0,05
0,276)

; ~~

= 2,035; n = 35 e s = 0,0762 =

Isto significa que voc pode estar confiante com 95% que a variao do corte (mm) quando a
tenso de 200 volts varia entre 22,3 e 23,7.
Observao: Deve-se tomar cuidado quando estender uma reta de regresso
ajustada para se fazer predies fora do intervalo de variao dos valores de x, usados para
ajustar a reta de regresso. No somente o intervalo de predio comea a se tornar mais
largo, tornando as previses de pouca confiana, como o padro da relao entre as
variveis pode mudar drasticamente para valores distantes de x. Os dados coletados no
do nenhuma indicao sobre a natureza desta mudana.

Diagnsticos Bsicos em Regresso

Como determinar se um modelo representa adequadamente os dados? Como saber


se mais termos devem ser adicionados ao modelo? Como identificar outliers, isto ,
observaes que no so tpicas do restante da massa de dados? Estas so questes que
podem ser respondidas examinando-se os resduos do modelo ajustado, isto , as diferenas
entre os valores observados e preditos pelo modelo.
Para que um modelo de regresso possa ser empregado como base para outros
estudos, necessrio que as suposies feitas durante sua construo sejam vlidas. Se
algumas destas suposies no se confirmarem, o modelo poder ser inadequado para fazer
as inferncias de interesse. Neste caso, deve ser procurado outro modelo mais adequado ou
ser empregada outra abordagem para a anlise do problema.
Disciplina: MAT236 - Mtodos Estatsticos

Pgina 18

UFBA- Instituto de Matemtica Departamento de Estatstica

As suposies que devem ter sua validade verificada so:

O relacionamento entre y e x linear;

O erro tem mdia zero;

O erro tem varincia constante;

Os erros so no correlacionados;

O erro tem distribuio normal.


Diagnsticos bsicos em regresso e ajuste de modelos so interdependentes.

Primeiro um modelo ajustado, e ento se examina o modelo usando diagnsticos. Isso


pode levar ao ajuste de um segundo modelo, o qual deve ser examinado por meio da anlise
dos resduos. O processo continua at que se encontre um modelo que se ajuste bem aos
dados. Note que possvel no se encontrar um modelo que represente adequadamente os
dados.
Nesta seo sero discutidos mtodos teis para o estudo da adequao do modelo
de regresso.

Anlise de Resduos

Um resduo definido por:

p" =

"

",

$ = 1, 2, 3, , R,

em que yi o valor observado e yi o correspondente valor estimado por meio do modelo


de regresso.
conveniente visualizar os resduos como valores observados para o erro que
aparecem no modelo. Portanto, razovel esperar que quaisquer desvios das suposies
feitas sobre o erro podero ser detectados se for realizada uma anlise de resduos.

Grficos dos Resduos (ei) contra os Valores Preditos ( y i )


Se o modelo tem todos os termos que precisa, ento o grfico dos resduos contra os
valores preditos ou contra as variveis independentes deveria parecer como uma distribuio
aleatria de pontos sem tendncia (numa faixa horizontal). Se o modelo precisa de outros
termos, ento o grfico dos resduos tem um padro que sugere que tipo de termo deveria
ser adicionado ao modelo. Alguns padres so mostrados na Figura 14.5(a) seguir.

Disciplina: MAT236 - Mtodos Estatsticos

Pgina 19

UFBA- Instituto de Matemtica Departamento de Estatstica

O padro da Figura 14.5(a) representa a situao satisfatria. Nela os resduos esto


situados, aproximadamente, em uma faixa horizontal centrada em ei = 0. J os padres b, c e
d da Figura 14.5, indicam a presena de inadequaes no modelo.
O padro apresentado na Figura 14.5(b), o qual semelhante forma de um funil,
indica que a varincia do erro no constante. Nesta figura a varincia do erro uma funo
crescente de y . No entanto tambm existem situaes em que a varincia do erro aumenta
com o decrscimo de y .
O padro apresentado na Figura 14.5(c) ocorre quando a varincia dos erros maior
para valores intermedirios de y e, portanto, tambm indica que erros no tm varincia
constante.
A Figura 14.5 (d) indica no linearidade. Este padro pode indicar a necessidade da
incluso no modelo de um termo quadrtico em x.
Quando detectada que a varincia do erro no constante uma soluo para este
problema consiste em realizar transformaes na varincia resposta para estabilizar a
varincia.

Figura 14.5: Grficos de Resduos contra Valores Ajustados.


Disciplina: MAT236 - Mtodos Estatsticos

Pgina 20

UFBA- Instituto de Matemtica Departamento de Estatstica

Grficos de Resduos (ei) Contra Valores da Varivel Preditora (x)

No caso do modelo de regresso linear simples, um grfico dos resduos contra os


valores da varivel preditora fornece o mesmo tipo de informao gerada pelo grfico de
resduos contra os valores ajustados. A configurao dos grficos ei versus xi poder
corresponder a um dos quatro padres gerais j apresentados na Figura 14.5, bastando para
isso que, nesta Figura, yi seja substitudo por xi. A interpretao dos padres representados
na Figura 14.5, aps a substituio de yi por xi , semelhante j apresentada na seo
anterior.

Grfico de Resduos Contra o Tempo

A validade da suposio de que os erros no so correlacionados pode ser verificada


por meio de um grfico de resduos contra o tempo ou ordem de coleta das observaes. A
presena de configuraes especiais neste grfico pode indicar que os erros so
correlacionados. As duas configuraes apresentadas na Figura 17.6 a seguir indicam a
presena de correlao entre os erros, que representam uma sria violao das suposies
associadas ao modelo de regresso.

Figura 14.6: Grficos de Resduos contra o Tempo Indicando a Presena de Autocorrelao.

Grfico de Probabilidade Normal para os Resduos

A validade da suposio de normalidade pode ser verificada por meio do grfico de


probabilidade normal para os resduos. A suposio de normalidade ser considerada vlida
Disciplina: MAT236 - Mtodos Estatsticos

Pgina 21

UFBA- Instituto de Matemtica Departamento de Estatstica

se os pontos do grfico estiverem localizados, aproximadamente, ao longo de uma linha reta.


Como esta avaliao subjetiva, um teste estatstico pode ser utilizado para complementar
esta avaliao.

Tabela 14.5: Valores previstos e os resduos do modelo linear simples ajustado para a
variao no corte.
Previsto Resduo
15,62
0,08
17,40
-0,40
16,79
-0,49
16,26
-0,16
18,57
0,03
17,82
-0,02
19,07
0,43
15,97
0,03
14,90
0,40
18,18
0,12

Previsto Resduo
16,58
-0,28
17,08
-0,38
15,33
0,37
17,65
-0,25
16,04
0,06
17,15
-0,35
18,86
0,44
16,15
0,05
16,61
-0,41
15,79
0,11

Previsto Resduo
18,75
0,35
18,00
0,00
17,25
-0,25
15,86
0,14
15,12
0,28
18,39
0,21
18,64
0,06
15,40
0,20
17,75
-0,15
18,25
0,25

Previsto Resduo
15,22
0,28
16,36
-0,26
18,07
0,13
17,54
-0,24
16,86
-0,36

Exemplo 14.6: Vamos agora examinar os resduos para o modelo linear simples ajustado
para a variao no corte.
Anlise de Resduos
Figura 14.7: Grfico de Probabilidade Normal

.999

Probabilidade

.99
.95
.80
.50
.20
.05
.01
.001
-0.5

-0.4

-0.3

-0.2

-0.1

0.0

0.1

0.2

0.3

0.4

Resduos

Disciplina: MAT236 - Mtodos Estatsticos

Pgina 22

UFBA- Instituto de Matemtica Departamento de Estatstica

Figura 14.8: Histograma dos resduos

Freqncia

10

0
-0.50

-0.25

0.00

0.25

0.50

Resduos

Figura 14.9: Resduos versus valores ajustados

0.5
0.4
0.3

Resduo

0.2
0.1
0.0
-0.1
-0.2
-0.3
-0.4
-0.5
15

16

17

18

19

Valor
Ajustado

Figura 14.20: Resduos versus Ordem dos Dados

0.5
0.4
0.3

Resduo

0.2
0.1
0.0
-0.1
-0.2
-0.3
-0.4
-0.5
0

10

15

20

25

30

35

Ordem
Observada

O primeiro grfico serve para verificar a suposio de normalidade dos resduos. Este
grfico parece indicar que os resduos seguem uma distribuio normal. O segundo grfico
o histograma dos resduos tambm serve para verificar normalidade.
Disciplina: MAT236 - Mtodos Estatsticos

Pgina 23

UFBA- Instituto de Matemtica Departamento de Estatstica

O terceiro grfico apresenta os valores preditos versus resduos. O padro deste


grfico semelhante ao apresentado na Figura 14.5 (d), o que indica a necessidade da
incluso no modelo de um termo quadrtico em X.
O quarto grfico apresenta a ordem em que os valores foram observados versus
resduos (foi considerado que as observaes esto listadas no Exemplo 14.1 na ordem em
que foram observadas). Pode-se notar que a relao entre os valores preditos e a ordem de
observao aleatria.
Exerccios de fixao:
1. Uma indstria produz grandes quantidades de alumina (Al2O3 de elevado teor de pureza)
para a fabricao de alumnio metlico. A matria prima para a fabricao da alumina a
bauxita, um mineral com cerca de 55% de xido de alumnio (Al2O3). No processo de
produo da alumina, o teor da Na2O (xido de sdio) ocludo no produto um fator
importante do ponto de vista da qualidade da alumina fabricada. O Na2O uma impureza,
e, portanto desejvel que o seu teor na alumina seja o mais baixo possvel. Com o
objetivo de minimizar o teor da Na2O ocludo no produto durante a etapa de precipitao,
um dos estgios do processo de produo da alumina, a indstria iniciou trabalhos para
melhoria. Os tcnicos da empresa sabiam que a razo Al2O3 / NaOH era um dos fatores
responsveis pelas variaes no teor de Na2O da alumina. Nesta razo, o smbolo Al2O3
est representando a massa de xido de alumnio proveniente da bauxita que entra no
processo de produo, e o smbolo NaOH se refere massa de hidrxido de sdio, um
dos reagentes do processo, que empregada na fabricao de alumina. Durante a etapa
de observao do problema, para se conhecer melhor a relao entre estas duas
variveis (varivel resposta: Na2O e varivel preditora: Al2O3 / NaOH), os tcnicos da
indstria coletaram os dados apresentados na tabela abaixo. A partir destes dados,
avaliar a relao linear entre essas duas variveis.
Tabela: Teor de Na2O ocludo na Alumina em Funo da Razo Al2O3 / NaOH
ndice Razo Al2O3 / NaOH (x) Teor Na2O (%)(y)
1
0,645
0,46
2
0,643
0,46
3
0,648
0,45
4
0,639
0,44
5
0,641
0,45
6
0,648
0,47
7
0,635
0,42
8
0,646
0,47
9
0,646
0,45
Disciplina: MAT236 - Mtodos Estatsticos

x2
0,416
0,413
0,420
0,408
0,411
0,420
0,403
0,417
0,417

y2
0,212
0,212
0,203
0,194
0,203
0,221
0,176
0,221
0,203

xy
0,297
0,296
0,292
0,281
0,288
0,305
0,267
0,304
0,291
Pgina 24

UFBA- Instituto de Matemtica Departamento de Estatstica

10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Total

0,643
0,641
0,643
0,637
0,635
0,64
0,646
0,636
0,639
0,634
0,636
0,643
0,647
0,637
0,631
0,633
16,012

0,44
0,40
0,42
0,42
0,42
0,41
0,43
0,41
0,40
0,39
0,38
0,40
0,43
0,42
0,37
0,41
10,62

0,413
0,411
0,413
0,406
0,403
0,410
0,417
0,404
0,408
0,402
0,404
0,413
0,419
0,406
0,398
0,401
10,256

0,194
0,160
0,176
0,176
0,176
0,168
0,185
0,168
0,160
0,152
0,144
0,160
0,185
0,176
0,137
0,168
4,529

0,283
0,256
0,270
0,268
0,267
0,262
0,278
0,261
0,256
0,247
0,242
0,257
0,278
0,268
0,233
0,260
6,804

R= Resp.: r = 0,7321; Teor Na2O (%) = - 2.12 + 3.97 Razo Al2O3 / NaOH

0.635

Na2O

0.640

0.645

Figura: Diagrama de Disperso: Teor de Na2O ocludo na Alumina em Funo da Razo


Al2O3 / NaOH

10

15

20

25

Al2O3

0.01
0.00

Resduo

-0.03

-0.02

-0.01

0.00
-0.01
-0.03

-0.02

Resduo

0.01

0.02

Resduos versus valores ajustados

0.02

Resduos versus ordem das observaes

10

15

Ordem das observaes

Disciplina: MAT236 - Mtodos Estatsticos

20

25

0.39

0.40

0.41

0.42

0.43

0.44

0.45

Valores ajustados

Pgina 25

UFBA- Instituto de Matemtica Departamento de Estatstica

3
2
0

Frequncia

Histograma dos resduos

-0.04

-0.03

-0.02

-0.01

0.00

0.01

0.02

0.03

Resduo

15.

Testes de Aderncia (ou Testes de Bondade de Ajustamento)


No contedo apresentado na apostila da segunda unidade foi admitido que a varivel

aleatria de interesse tivesse uma determinada distribuio de probabilidade. O problema era


relacionado a ter um ou mais parmetros desconhecidos, associado a uma distribuio de
probabilidade

conhecida

(ou

aproximada).

Entretanto,

pode

acontecer

de

termos

observaes de uma varivel aleatria e no se ter a menor idia de sua distribuio de


probabilidade.

Neste caso, uma das formas iniciais de anlise construir um grfico

(colunas, histograma ou boxplot, etc.) com os valores da varivel cuja distribuio na


populao desconhecida para tentar entender o comportamento desta varivel. E, em
seguida, sugerir um modelo adequado para os dados. O modelo probabilstico proposto pode
ser testado atravs do Teste de Aderncia.
Os Testes de Aderncia ou Testes de Bondade de Ajustamento uma classe de testes
que permitem verificar se uma amostra de valores X1, X2,..., Xn so provenientes de uma
varivel aleatria com uma determinada distribuio de probabilidade, como por exemplo,
Normal, Exponencial, Poisson ou qualquer outra distribuio.
Na literatura, existem vrias maneiras de realizar os Testes de Aderncia, porm neste
texto ser apresentado apenas pelo Teste Qui-Quadrado (2).

15.1.

Teste de Qui-Quadrado (2) de Aderncia

O teste de Qui-quadrado de Aderncia utilizado para comparar se as freqncias


observadas da varivel de interesse obtida na amostra aleatria diferem muito das
Disciplina: MAT236 - Mtodos Estatsticos

Pgina 26

UFBA- Instituto de Matemtica Departamento de Estatstica

freqncias esperadas. Estas, geralmente, sendo especificadas por uma distribuio de


probabilidade.
Considere n observaes independentes de uma varivel aleatria X com funo de
distribuio no especificada. Cada observao classificada em uma das k categorias, de
forma que a seguinte tabela de contingncia pode ser construda.
Categorias

Varivel
Freqncia Observada

...

O1

O2

O3

...

Ok

Na tabela acima, Oi representa a freqncia observada na clula i, para i= 1, 2, 3,..., k.


As hipteses estatsticas a serem testadas so:
H0: A varivel X segue o modelo proposto;
H1: A varivel X no segue o modelo proposto.
A estatstica de teste dada por:
IJ = +
".

(" " )
~
"

em que 2 tem distribuio aproximadamente Qui-Quadrado com graus de liberdade,


supondo que a hiptese nula seja verdadeira, e:
k: o nmero de categorias;
Oi: frequncia observada na i-sima categoria;
Ei: frequncia esperada na i-sima categoria, dada por Ei=npi;
pi = probabilidade da categoria i, supondo que H0 verdadeira.
= k-1 se as frequncias esperadas puderem ser calculadas sem precisar estimar os
parmetros da distribuio.

Para um dado nvel de significncia , rejeitar a hiptese nula se 56 > ; , em que ;

uma constante tal que P( > (;) ) = . Ou pelo p-valor, rejeitar a hiptese nula se p-

valor < .

Vale mencionar que a estatstica de teste apresentada acima tem distribuio

aproximadamente Qui-Quadrado e esta aproximao torna-se satisfatria quando as


frequncias esperadas so grandes. Para assegurar que esta aproximao seja boa
necessrio levar em considerao as seguintes observaes adiante:
i.

Quando o nmero de categorias for igual a dois (k=2) as frequncias esperadas dentro
de cada categoria devem ser iguais ou superiores a 5.

Disciplina: MAT236 - Mtodos Estatsticos

Pgina 27

UFBA- Instituto de Matemtica Departamento de Estatstica

ii.

Quando k > 2, no deve ter mais de 20% das categorias com frequncias esperadas
menores que 5 e nenhuma frequncia esperada igual a zero.

iii.

Quando as categorias apresentarem pequenas frequncias esperadas elas podem ser


combinadas com outras categorias, de tal forma que o sentido do trabalho seja
conservado.
Quando desejamos testar se uma varivel segue um determinado modelo, mas so

desconhecidos um ou mais parmetros da distribuio, devemos primeiro estim-los de


forma apropriada. Nestes casos, = k-m-1, em que m o nmero de parmetros que
precisam ser estimados.

Exemplo 15.1: (Adaptado de Magalhes & Lima, 2006) Deseja-se verificar a afirmao de
que a porcentagem de cinzas contidas em carvo, produzido por uma empresa, segue
distribuio Normal. Os dados, apresentados a seguir, representam a quantidade percentual
de cinzas encontradas em 250 amostras de carvo analisadas em laboratrio.

i
1
2
3
4
5
6
7
8
9
10

Cinzas (em %)
09,5| 10,5
10,5| 11,5
11,5| 12,5
12,5| 13,5
13,5| 14,5
14,5| 15,5
15,5| 16,5
16,5| 17,5
17,5| 18,5
18,5| 19,5

Nmero de observaes
2
5
16
42
69
51
32
23
9
1

Qual deciso deve-se tomar ao nvel de significncia de 2,5%?


Soluo: A mdia e a varincia, da distribuio Normal que ser testada, so
desconhecidas, precisamos obter suas estimativas a partir da amostra. Os melhores
estimadores para os parmetros e 2 so a mdia amostral ( X ) e a varincia amostral (S2),
respectivamente. Calculando esses valores temos que
=
e

9. x9 f9
10 2 + 11 5 + 12 16 + + 19 1
=
14,5
". "
250
s =

Disciplina: MAT236 - Mtodos Estatsticos

". (

"

) "

|". " 1

= 2,7
Pgina 28

UFBA- Instituto de Matemtica Departamento de Estatstica

Seja a varivel aleatria X: porcentagem de cinzas contidas no carvo produzido pela


empresa. As hipteses a serem testadas so:
H0: A porcentagem de cinzas contidas no carvo segue distribuio Normal.
H1: A porcentagem de cinzas contidas no carvo no segue distribuio Normal.
As diversas faixas que constituem as categorias de valores da varivel X sero enumeradas
de 1 a 10. De modo a varrer os valores do intervalo (-,), correspondentes ao modelo
Normal, acrescentando s categorias 1 e 10 os valores, respectivamente, menores que 9,5 e
maiores que 19,5. Dessa forma, para calcular as frequncias esperadas, procedemos da
seguinte forma, por exemplo, para categoria 1,
= 250P(X < 10,5) = 250P mZ <
Para categoria 2,

10,5 14,5
n = 250P(Z < 2,43) = 1,875.
2,7

10,5 14,5
11,5 14,5
= 250P(10,5 < < 11,5) = 250P m
Z<
n
2,7
2,7
= 250P(2,43 < Z < 1,83) = 6,525.

Para as categorias de 3 a 9, so calculados de forma anloga. A ltima categoria,

= 250P(X > 18,5) = 250P mZ >

18,5 14,5
n = 250P(Z > 2,43) = 1,875
2,7

As probabilidades calculadas anteriormente supem que H0 verdadeira, assim foi


usada a tabela da Normal Padro.
As frequncias esperadas so apresentadas na tabela, a seguir, e devem somar 250,
o que no foi possvel devido aos arredondamentos efetuados.
Categorias
1
2
3
4
5
6
7
8
9
10

Frequncia observada
2
5
16
42
69
51
32
23
9
1

Frequncia esperada
1,875
6,525
19,400
39,925
57,275
57,275
39,925
19,400
6,525
1,875

Observamos que exatamente 20% das categorias apresentaram frequncias inferiores


a 5, as categorias 1 e 10. Efetuando o clculo da estatstica de teste, temos

Disciplina: MAT236 - Mtodos Estatsticos

Pgina 29

UFBA- Instituto de Matemtica Departamento de Estatstica

IJ = +
".

(" " )
(2 1,875)
(5 6,525)
(1 1,875)
=
+
+ +
= 7,74
"
1,875
6,525
1,875

Para determinar a regio crtica, utilizamos a distribuio Qui-Quadrado com 10-1-2=7


graus de liberdade, pois perdemos dois graus de liberdade devido estimao dos
parmetros e 2 . Com auxlio da tabela da Qui-Quadrado, obtemos ;
Concluso: Como 56 = 7,74 < ;

,%

,%

= 16,01.

= 16,01 (valor tabelado, ver Tabela 1 em Anexo),

logo no rejeitamos a hiptese nula, ou seja, no existem evidncias para rejeitar a hiptese
de que a amostra proveniente de uma varivel aleatria com distribuio normal, ao nvel
de significncia de 2,5%.
Na literatura existem outros procedimentos para realizar o Teste de Aderncia, a
saber: o Teste Kolmogorov- Smirnov, o Teste de Shapiro-Wilk para Normalidade e o Teste de
Lilliefors para Normalidade. Para maiores detalhes sobre estes testes consultar as seguintes
referncias: Siegel & Castellan (2006), Campos (1979), Conover (1999) e Hollander & Wolf
(1999).

Exerccios de fixao
1. O quadro abaixo se refere ao nmero de acidentes sofridos por um grupo de mineiros
durante um trabalho numa mina de carvo. O interesse investigar se a distribuio do
nmero de acidentes segue o modelo Poisson (=1,45). (Use =5%).
Nmero de acidentes

Nmero de mineiros

35

47

39

20

R: Modelo no rejeitado, Regio crtica [ 11,07; ) e 56 =1,0833.

2. Uma indstria registra, em cada semana, o nmero de dias em que ocorrem acidentes de
trabalho. Para uma amostra de 200 semanas, verifique se os dados apresentados a
seguir, aderem ao modelo Binomial com parmetros n=5 e p=0,2. (Use =10%).
Nmero de dias com acidentes

Freqncia

64

56

40

24

R: Modelo rejeitado, Regio crtica [7,78; ) e 56 =189,2.

16.

Comparao de Mdias Populacionais


Na apostila da segunda unidade foi apresentado teste de hipteses para apenas uma

nica mdia. No entanto, no raro encontrar situaes em que se deseja verificar se h


diferenas significativas entre as mdias de k populaes distintas.
Disciplina: MAT236 - Mtodos Estatsticos

Pgina 30

UFBA- Instituto de Matemtica Departamento de Estatstica

A anlise usada para comparao de k mdias populacionais ou de tratamentos


comumente realizada por uma Anlise de Varincia (ANOVA). Grande parte da teoria de
Anlise de Varincia foi desenvolvida por um grupo de pesquisadores estatsticos que
trabalhou na Estao Experimental de Agricultura de Rothamstead, na Inglaterra. As anlises
destes experimentos agronmicos desenvolvidos por estes pesquisadores, atualmente, se
aplicam na maioria das reas de conhecimento, a saber: engenharia, medicina, educao,
psicologia, economia, odontologia, dentre outras. De qualquer forma, a origem agrcola das
cincias experimentais que explica o uso de alguns termos tcnicos que sero apresentados
adiante.
Alguns termos tcnicos utilizados em Planejamento de Experimentos e Anlise de
Varincia.
i) Fator e Nvel
Fator uma varivel independente obtida quando realizado um estudo de investigao
e o nvel a forma particular deste fator. Por exemplo, em um estudo sobre os efeitos da
presena de trs tipos de diferentes solues de acar (glicose, sacarose e frutose) no
crescimento de bactrias, o fator o acar e cada tipo de soluo um nvel em estudo.
Neste caso, o fator acar tem trs nveis (glicose, sacarose e frutose). Considere outro
exemplo, um fabricante de papel, usado para a confeco de sacolas de mercearia, realiza
um experimento para investigar se a concentrao de madeira de lei em polpa (5%, 10%,
15% e 20%) tem efeito sobre a resistncia trao das sacolas fabricadas da polpa. A
concentrao de madeira de lei o fator sob estudo e os nveis so as diferentes aplicaes,
diz-se que o fator concentrao de madeira de lei tem quatro nveis (5%, 10%, 15% e 20%).
No primeiro exemplo, o fator de natureza qualitativa, ou seja, um fator em que os nveis
no podem ser arranjados em ordem crescente de magnitude. No segundo exemplo, o fator
de natureza quantitativa, ou seja, um fator em que os nveis podem ser associados a
pontos na escala aritmtica.
ii) Tratamento:
Um tratamento uma condio imposta ou objeto que se deseja medir ou avaliar em
um experimento. Em outras palavras, denomina-se de tratamento, o nvel de um fator sob
anlise ou uma combinao de fatores e nveis em estudo com dois ou mais fatores. Por
exemplo, se o interesse estudar os efeitos de cinco diferentes marcas de gasolina na
eficincia operacional (milhas/galo) de motores de automvel, o fator a marca e cada
marca constitui um tratamento. Em um estudo para comparar duas diferentes marcas de
Disciplina: MAT236 - Mtodos Estatsticos

Pgina 31

UFBA- Instituto de Matemtica Departamento de Estatstica

canetas (A e B) e dois diferentes tipos de lavagem (1 e 2) em relao capacidade de


remover manchas em um determinado tipo de tecido, existem 4 combinaes possveis, a
saber: marca A e lavagem 1, marca A e lavagem 2, marca B e lavagem 1 e, marca B e
lavagem 2. Cada uma destas combinaes chamada de tratamento, de modo que h 4
tratamentos diferentes envolvidos
iii) Unidade experimental
A aplicao do tratamento feita na unidade experimental que fornece os dados para
serem avaliados. Dependendo do experimento, a unidade experimental pode ser um
motor, uma pea do motor, uma poro de algum alimento, um vaso, um animal, um
indivduo, etc.
As unidades experimentais podem ser formadas por grupos ou indivduos, cujo uso
depende do fenmeno que se est estudando, da forma como o experimento conduzido
e dos recursos disponveis. De modo geral, a escolha da unidade experimental deve ser
feita de forma a minimizar o erro experimental e representar satisfatoriamente o processo
de estudo.
iv) Repetio
Repetio o nmero de vezes que um tratamento aparece no experimento. O nmero
de repeties, em um experimento, vai depender tambm dos recursos disponveis, do
delineamento do experimento e, tambm, da variabilidade do experimento ou da varivel
resposta. Existem vrias metodologias para estimar o nmero satisfatrio de repeties
em um experimento. Mas, em funo das possveis limitaes citadas acima, a definio
do nmero de repeties, na maioria vezes, depende da experincia do pesquisador sobre
o fenmeno em estudo. Alm disso, as metodologias empregadas, para esse clculo,
pressupem que uma estimativa do erro experimental seja conhecida. Para calcular o
nmero de repeties (ou tamanho da amostra) que deve ser usado no experimento
consultar a referncia Dean & Voss (1999).

16.1.

Anlise de Varincia

Suponha um procedimento experimental com k tratamentos (populaes) ou diferentes


nveis de um nico fator. A varivel resposta para cada k tratamento uma varivel aleatria.
Na tabela de dados (Tabela 16.1), y9 a observao da j-sima unidade experimental no i-

simo tratamento ou fator. Existem n observaes no i-simo tratamento. Inicialmente, a


Disciplina: MAT236 - Mtodos Estatsticos

Pgina 32

UFBA- Instituto de Matemtica Departamento de Estatstica

anlise de varincia ser apresentada para o caso em que as amostras em cada tratamento
(ou populao) tm o mesmo tamanho, neste caso conhecido como dados balanceados.

Tabela 16.1: Dados para experimento com um nico fator


Tratamento(Nvel)

Observaes

1
2

Em que

". representa

Total

..

Mdia

..

a soma total das observaes do i-simo tratamento,


..

mdia das observaes do i-simo tratamento,

".

representa a

a soma de todas as observaes e

..

representa a mdia de todas as observaes, denominada mdia global amostral.


Simbolicamente expressos por:
". =

"

..

".

= ++
". .

=
"

".

,
p

$ = 1,2, , .
..

..

em = R , nmero total de observaes. Observe que o ponto subscrito na notao


matemtica representa a soma.
Assim, suponha k tratamentos (ou populaes) cada um com n repeties e os valores

numricos das observaes representados por y9 . Um modelo para descrever os dados


"

= " + #" , $ = 1 , . . . , p = 1 , . . . , R,

(16.1)

em que:y9 a observao do i-simo tratamento na j-sima unidade experimental; 9 a


mdia do i-simo nvel do fator ou tratamento, sendo um valor fixo e desconhecido, 9 o
erro aleatrio associado ao i-simo tratamento na j-sima unidade experimental assumido
como: 9 ~N(0; ), independentes e identicamente distribudo. A varincia assumida
como constante para todos nos nveis de fator. Isto implica que y9 ~N(9 ; ). Assim, 9 a
parte sistemtica que representa a mdia da populao i, que fixa, e 9 a parte aleatria,
a informao referente a outros fatores que podem influenciar as observaes, mas no so
incorporadas em 9 .

A equao (16.1) denominada modelo , porque ele usa as mdias 1, 2,...k como

parmetros bsicos na expresso matemtica do modelo. Uma forma alternativa para


Disciplina: MAT236 - Mtodos Estatsticos

Pgina 33

UFBA- Instituto de Matemtica Departamento de Estatstica

escrever o modelo (15.1) para os dados

" = - + " ,

, $ = 1 , . . . , .

E a equao (15.1) acima torna-se


"

= - + " + #" , $ = 1 , . . . , p = 1 , . . . , R

(16.2)

Nesta forma de modelo, o parmetro mdia comum a todos os tratamentos, chamado

de mdia global, e " o parmetro do i-simo tratamento, denominado efeito do tratamento.

Os modelos (16.1) e (16.2) so tambm denominados de Anlise de Varincia de fator nico


(ANOVA) porque apenas um nico fator investigado. Alm disso, ser necessrio que a
alocao do material experimental s diversas condies experimentais seja aleatria e que

o meio em que os tratamentos sejam aplicados (chamado de unidades experimentais) seja


to uniforme quanto possvel. Assim, o planejamento experimental denominado de
completamente aleatorizado. O objetivo ser o de testar hipteses apropriadas sobre as
mdias dos tratamentos.
A anlise dos efeitos dos tratamentos pode ser feita de duas maneiras. Na primeira, os
tratamentos podem ser escolhidos de acordo com o interesse do pesquisador. Nesta
situao, as inferncias extradas sero aplicveis e restritas somente aos nveis de fator
considerados na anlise, no podendo ser estendidos a outros nveis no investigados. Sob
estas condies, o modelo (16.2) denominado de modelo de efeitos fixos. J quando os
tratamentos analisados representam uma amostra aleatria de uma populao de nveis de
fator ou fatores, podem-se estender as concluses da anlise feitas para essa amostra, para
todos os outros tratamentos da populao, nesse caso tem-se anlise de um modelo de
efeitos aleatrios. Considere, por exemplo, que foram selecionadas trs maquina de uma
populao de 75 mquinas distribudas numa fbrica e suas produes foram medidas por
um perodo de 10 dias. As trs mquinas constituem trs nveis do fator em estudo, porm, o
interesse nas concluses no se restringe apenas quelas trs nas quais os dados foram
mensurados, mas a todas as mquinas da fbrica.
A anlise de um modelo de efeitos aleatrios no ser abordado nesta apostila e o leitor
interessado poder consultar as seguintes referncias: Montgomery (2005), Neter (1974) e
Peter & Wasserman (1970).
Anlise de um modelo com efeitos fixos
Considere um experimento completamente aleatorizado e que a anlise de varincia ser
para um nico fator com efeitos fixo. O interesse testar a igualdade mdia dos tratamentos.
Disciplina: MAT236 - Mtodos Estatsticos

Pgina 34

UFBA- Instituto de Matemtica Departamento de Estatstica

Assim, as hipteses apropriadas so:


: - = - = = -

: -" - para algum $ e algum tais que $ .

A hiptese nula supe que as observaes amostrais dentro de cada tratamento podem

ser vistas como provenientes de populaes com mdias iguais. Reescrevendo " = - + " ,

, $ = 1 , . . . , . A mdia a mdia geral calculada da seguinte forma:


=

". -"
.

Implicando que ". " = 0. Consequentemente, possvel reescrever as hipteses acima


em termos dos efeitos dos tratamentos, ou seja,
: = = = = 0
: " 0 para algum $.

Ento, podemos testar a igualdade de mdias de tratamentos ou testar se os efeitos dos


tratamentos (" ) so iguais a zero.

Ao realizar a anlise de varincia, a idia bsica de que existe uma distribuio de

probabilidade para a varivel resposta (dependente (Y9 )) em cada nvel do fator. Para efeito

de inferncias sobre o modelo (16.2) necessrio assumir que:


i.
ii.
iii.

Y9 so variveis aleatrias independentes

Y9 tem distribuio normal com mdia " , $ = 1 , . . . , p = 1 , . . . , R.

V(Y9 ). , $ = 1 , . . . , p = 1 , . . . , R , ou seja, todas as k populaes devem ter

varincias

homogneas

( P = P = = P = P ),

propriedade

conhecida

como

Homocedasticidade. Em outras palavras, a varincia deve ser constante para todos nos
nveis de fator.
Decomposio da soma total de quadrado
O termo anlise de varincia pode induzir a um equvoco, uma vez que a finalidade
investigar diferenas entre mdias dos tratamentos, e no diferenas significativas entre as
varincias dos grupos. O nome anlise de varincia atribudo devido a uma decomposio
da variabilidade total das suas componentes.
A soma total de quadrado dada por:
-

+ +(
". .

Disciplina: MAT236 - Mtodos Estatsticos

"

.. )

Pgina 35

UFBA- Instituto de Matemtica Departamento de Estatstica

uma medida de variabilidade total dos dados. Esta soma pode ser subdividida em duas
partes da seguinte forma:
-

+ +(
". .

"

.. )

= R +(

".

".

.. )

+ + +(
". .

"

". )

. (16.3)

O termo do lado esquerdo de (16.3) a soma dos quadrados das observaes em


relao mdia global e representa uma medida da variabilidade total dos dados, denotada

por SS2. O primeiro termo do lado direito de (16.3) a soma dos quadrados das diferenas
entre as mdias de cada tratamento e a mdia global (ou seja, aquela decorrente das

diferenas entre os grupos de tratamentos), sendo denotada por <<SOIUIE-UT . O segundo

termo do lado direito de (16.3) a soma de quadrados das diferenas de cada observao
dentro dos tratamentos em relao mdia do tratamento (ou seja, aquela decorrente da

variao dentro do grupo), sendo denotado por << . Em outras palavras, <<SOIUIE-UT a

soma de quadrados devido ao tratamento (ou seja, entre tratamentos), e << a soma de

quadrados residual (ou seja, dentro dos tratamentos). Simbolicamente, podemos representar
a equao (16.3) por:

<<S = <<SOIUIE-UT + <<

Considere o segundo termo do lado direito da expresso (16.4)


-

<< = + +(
".

"

". )

(16.4).

Observe que a soma dentro do colchete dividido por (n-1) a varincia amostral do i-simo
tratamento, ou seja,
<" =

-. (

"

R1

". )

$ = 1,2, , .

As varincias amostrais podem ser combinadas para encontrar um estimador da


varincia populacional, P , como se segue
". -. ( " ". )
(R 1)< + (R 1)< + + (R 1)<
<<
=
=
(R 1) + (R 1) + + (R 1)

". (R 1)

em = R . Assim, << /( ) uma mdia ponderada das k varincias individuais


dentro de cada um dos tratamentos. De forma anloga, a expresso
SS2A545?;43
n 9. (y9. y.. )
=
k1
k1

Disciplina: MAT236 - Mtodos Estatsticos

Pgina 36

UFBA- Instituto de Matemtica Departamento de Estatstica

um estimador de P , se no existe diferena entre as k mdias dos tratamentos. Portanto, a

quantidade << /( ) uma estimador de P

e se no existe diferena entre as k mdias

dos tratamentos <<SOIUIE-UT /( 1) tambm um estimador de P .

Anlise de Varincia pode ser resumida atravs da Tabela 16.2 adiante. Esta tabela

pode ser utilizada para testar as seguintes hipteses:


: - = - = = -

: -" - para algum $ e algum tais que $ .

Para testar estas hipteses de interesse, ser usando a estatstica F =

MSTratamento
MSE

SSTratamento /(k1)
SSE /(Nk)

. Supondo que a hiptese nula verdadeira e que o erro ij ~N(0; 2 ), possvel

mostrar que F tem distribuio de Fisher-Snedecor com (k-1) e (N-k) graus de liberdade que
correspondem ao numerador e ao denominador, respectivamente.
Tabela 16.2: Anlise de varincia
Fonte de variao

Graus de
liberdade

Entre tratamentos
Resduo (dentro do
tratamento)
Total

k1

Nk

N1

Soma de
quadrados

Quadrados
mdios

SSTratamento

MSTratamento

SSE

MSE

F calculado
MSTratamento /MSE

SST

em que MSTratamento = SSTratamento /(k 1) e MSE = SSE /(N k).

Supondo que a hiptese nula verdadeira, tanto N<SOIUIE-UT quanto N< estimam a

varincia comum P e espera-se que Qcalculado seja aproximadamente 1. Se h diferena entre


os tratamentos, a varincia entre os tratamentos excede a de dentro dos tratamentos e

espera-se que Qcalculado seja maior que 1. Consequentemente, quando utiliza o procedimento
de ANOVA, rejeita-se a hiptese de nula H0 em favor de H1, a um nvel de significncia , se

Qcalculado > Q[;(

),( )] ,

ou seja, existem evidncias de diferena significativa entre pelo

menos um par de mdias de tratamentos. Caso contrrio, no rejeitamos a hiptese H0 , ou


seja, no h evidncias de diferena significativa entre tratamentos, ao nvel de
significncia escolhido.
Outra maneira de avaliar a significncia da estatstica F utilizando o p-valor. Se o

p-valor < , rejeitamos a hiptese H0 . Caso contrrio, no rejeitamos a hiptese de nulidade


Disciplina: MAT236 - Mtodos Estatsticos

Pgina 37

UFBA- Instituto de Matemtica Departamento de Estatstica

H0 , ou seja, no h evidncias de diferenas significativas entre os tratamentos, ao nvel de


significncia escolhido.
Quando as somas de quadrados forem calculadas manualmente, elas podem ser
obtidas atravs das seguintes expresses dadas adiante.
SST = + +
k

i.1

n
j.1

y2ij

y2..
,
N

(16.5)

y2
1
= + y2i. ..
n
N
k

SSTratamento

i.1

SSE = SST SSTratamento

(16.6)
(16.7)

Os quadrados mdios dos resduos e dos tratamentos so obtidos dividindo as somas


de quadrados pelos correspondentes graus de liberdade, ou seja,
MSE =
e

SSE
(N k)

MSTratamento =

SSTratamento
.
(k 1)

Dados desbalanceados

Em alguns experimentos de um nico fator o nmero de observaes obtidas dentro


de cada tratamento pode ser diferente. Neste caso, mencionado que os dados so
desbalanceados. A anlise de varincia, descrita acima, ainda pode ser usada, mas
pequenas modificaes devem ser realizadas nas frmulas das somas de quadrados.
Considere que ni observaes so realizadas no tratamento i (i = 1, ..., k) e o nmero total de

observaes nos k grupos igual a N = ki.1 ni . As frmulas (16.5) a (16.7) tornam-se:


SST = + +
k

i.1

ni

j.1

y2ij

SSTratamento = +
k

i.1

y2..
N

y2i.
y2
..
ni
N

SSE = SST SSTratamento

Disciplina: MAT236 - Mtodos Estatsticos

Pgina 38

UFBA- Instituto de Matemtica Departamento de Estatstica

As mdias geral e dos grupos so dados por:


..

".

1
= ++

1
= +
R"
.

". .

" ,

"

$ = 1,2, , .

Nenhuma outra alterao necessria para a anlise de varincia.

Segundo

Montgomery (2005) h duas desvantagens na escolha de um experimento com dados


desbalanceado. Primeira desvantagem, a estatstica de teste relativamente sensvel a
pequenos desvios da suposio de homogeneidade varincia quando os tratamentos tm
nmeros de observaes diferentes em cada amostra. Caso contrrio ocorre quando os
tamanhos das amostras so iguais nos tratamentos. Segunda desvantagem, a potncia do
teste diminui se as amostras so de tamanhos desiguais.

16.2. Teste de Tuckey


O procedimento seguinte quando se rejeita a hiptese nula na anlise de varincia o de
comparar as mdias de tratamentos utilizando algum teste de comparao de mdias ou
contrastes para identificar qual(is) tratamento(s) (so) diferente(s). Existem vrios
procedimentos para realizar comparaes mltiplas de mdias, e alguns deles podem ser
vistos em Montgomery (2005). Aqui ser apresentado apenas um deles.
O teste de Tukey permite testar qualquer contraste, sempre, entre duas mdias de
tratamentos. Nesse caso, as hipteses estatsticas so:

H0 : i = j ,

H1 : i j ,

para todo i j. O teste proposto por Tukey baseia-se na diferena significante HSD=,

denominada de Honestly Significant Difference. Esta diferena, para dados balanceados,


dada da seguinte forma:
MSE
= q (k; )
,
n

(16.9)

em que, o nmero de graus de liberdades associado a MSE , q a amplitude total

studentizada (valor tabelado, ver Tabela 4 em Anexo) e MSE o quadrado mdio dos
resduos. O valor de q depende do nmero de tratamentos e do nmero de graus de
liberdade associada com a soma de quadrados dos resduos. Tambm, em um teste de
Disciplina: MAT236 - Mtodos Estatsticos

Pgina 39

UFBA- Instituto de Matemtica Departamento de Estatstica

comparaes de mdias, deve-se determinar um nvel de significncia para o teste.


Normalmente, utiliza-se o nvel de 5% ou 1% de significncia.
Como o teste de Tukey , de certa forma, independente do teste F , possvel que,
mesmo sendo significativo o valor de Fcalculado , no se encontrem diferenas significativas
entre as mdias.

As duas mdias, i e j , (i j), so consideradas significantemente diferentes se

yi. yj. > .


Quando os dados so desbalanceados, o teste de Tukey descrito acima apresenta a
seguinte modificao na equao (16.9)
=

q (k; f)
2

N<

1
1
+ , $
R" R

Exemplo 16.1: (Montgomery, Goldman e Borror, 2006) Um fabricante de papel usado para a
confeco de sacolas de mercearia est interessado em melhorar a fora de resistncia do
produto. A engenharia de produo acha que a fora de resistncia uma funo da
concentrao de madeira de lei na polpa, e que a amplitude das concentraes da madeira
de lei de interesse prtico est entre 5% e 20%. Uma das engenheiras responsveis pelo
estudo decide investigar quatro nveis de concentrao de madeira de lei: 5%, 10%, 15% e
20%. Ela decide, tambm, fazer seis repeties de teste de cada nvel de concentrao
usando uma usina-piloto. Todos os 24 espcimes so testados em um testador de trao de
laboratrio, em ordem aleatria. Os dados desse experimento constam na Tabela 15.3. Esse
um exemplo de um experimento de fator nico completamente aleatorizado, com quatro
nveis do fator, ou seja, quatro tratamentos. E cada tratamento tem seis observaes ou
repeties.
Tabela 16.3: Fora de resistncia do papel (psi)
Concentrao de
madeira de lei
5%
10%
15%
20%
Total

Repetio (ou observao)


1
7
12
14
19

2
8
17
18
25

3
15
13
19
22

4
11
18
17
23

5
9
19
16
18

6
10
15
18
20

Totais

Mdias

60
94
102
127
383

10,00
15,67
17,00
21,17
15,96

Fonte: Hines, Montgomery, Goldman e Borror (2006). Probabilidade e Estatstica na Engenharia. 4 ed.

importante que se realize uma anlise descritiva nos dados obtidos no experimento
Disciplina: MAT236 - Mtodos Estatsticos

Pgina 40

UFBA- Instituto de Matemtica Departamento de Estatstica

realizado. Na Tabela 16.3 nota-se que para a concentrao de 5%, a resistncia do papel foi,
em mdia, menor. Conforme mostra a Tabela 16.4, observa-se que a menor e maior
disperso relativa ocorreu nas concentraes de 15% e 5% de madeiras, respectivamente.
Na Figura 16.1, possvel visualizar que a fora de resistncia da sacola aumenta medida
que a concentraes de madeira de lei aumenta, ou seja, suspeita-se de que a mudana na
concentrao de madeira de lei tem um efeito na fora de resistncia da sacola. Tambm
percebe-se um forte indicativo que a concentrao de 5% difere da concentrao de 20% no
que diz respeito resistncia do papel, pois no h sobreposio dos grficos de ambos os
tratamentos. Alm disso, h indicativo que os valores das resistncias dos papeis nos
quatros tratamentos so provenientes de distribuies assimtricas.
Tabela 16.4: Medidas descritivas dos dados da fora de resistncia dos papeis para
cada concentrao de madeira de lei.

Medidas Descritivas
Mediana
Desvio-padro
Coeficiente de variao
Mnimo
Mximo

Concentrao de madeira de lei


5%
10%
15%
20%
9,5
16,0
17,5
21,0
2,83
2,80
1,79
2,64
0,28
0,18
0,11
0,12
7,0
12,0
14,0
18,0
15,00
19,00
19,00
25,00

Figura 16.1: Boxplot dos dados da fora de resistncia dos papeis para cada

20
15
10

Fora de resistncia (psi)

25

concentrao de madeira de lei.

5%

10%

15%

20%

Concentrao da madeira de lei

O modelo de anlise de varincia adotado dado por:


Disciplina: MAT236 - Mtodos Estatsticos

Pgina 41

UFBA- Instituto de Matemtica Departamento de Estatstica

em que

"

= - + " + #" , $ = 1 , , 4 p = 1 , . . . ,6

"

a fora de resistncia do papel observada na j-sima sacola para a i-sima

concentrao de madeira de lei, a mdia geral, " o efeito da i-sima concentrao de

madeira de lei e #" o efeito do erro experimental suposto normal e independentemente


distribudo com mdia 0 e varincia comum 2

Para comparar se as mdias das foras de resistncias do papel, para fabricao de


sacolas, so diferentes quando usado diferentes tipos de concentraes de madeira de lei,
ser usado a anlise de varincia. As hipteses estatsticas a serem testadas so:

H0 : 1 = 2 = 3 = 4 (A fora de resistncia mdia do papel so as mesmas nas


quatro concentraes de madeira de lei analisadas).

H1 : Pelos menos uma das mdias, da fora de resistncia do papel, diferente das demais.
A soma de quadrados para compor a Tabela da Anlise de Varincia calculada

conforme as equaes (16.6) a (16.7),

<<S = + +
9.

y9

y..
(383)
(383)
= (7) + (8) + + (20)
= 625
N
24
24

= 512,96

y2
1
1
(383)2
= + y2i. .. =
(60)2 + (94)2 + +(127)2
= 382,79
n
N
6
24
k

SSTratamento

i.1

Uma vez calculadas as duas somas de quadrados, obtemos sem dificuldades a


terceira soma de quadrados conforme apresenta adiante:
<< = 512,96 382,79 = 130,17.

Os resultados esto resumidos na Tabela da Anlise de Varincia a seguir.


Tabela 15.5: Anlise de Varincia para a fora de resistncia da sacolas
Fonte de variao

Graus de
liberdade

Soma de
quadrados

Quadrados
mdios

calculado

Entre tratamentos

382,79

127,60

19,61

Resduo (dentro do
tratamento)

20

130,17

6,51

Total

23

512,96

Sendo MSTratamento =
MSTratamento
MSE

127,60
6,51

SSTratamento

= 19,61

k1

Disciplina: MAT236 - Mtodos Estatsticos

382,79
3

= 127,60; MSE = NaE =


SS

130,17
20

= 6,51

-valor

3,59x10-06

e Fcalculado =

Pgina 42

UFBA- Instituto de Matemtica Departamento de Estatstica

Concluso: Como Fcalculado = 19,61 > F0,05;3;20 = 3,03 (valor tabelado, ver Tabela 2 em

Anexo), rejeitamos H0 e conclumos que a concentrao da madeira de lei afeta a resistncia

do papel, ao nvel de significncia de 5%. Chegamos mesma concluso ao observarmos o

p-valor = 0,00000359 < 0,05 = . Portanto, pelo menos uma das mdias de tratamento difere

das demais.

Como o teste acima rejeitou a hiptese nula ser aplicado o teste de Tukey para

realizar as comparaes mltiplas de mdias nos quatro tratamentos. Lembrando que k = 4,

n = 6, MSE = 6,51 e = 20. As mdias amostrais dos tratamentos so:

y1. = 10,00 psi, y2. = 15,67 psi, y3. = 17,00 psi e y4. = 21,17 psi.

Atravs da Tabela da Distribuio de Amplitude Total Studentizada, com = 0,05

encontramos o valor q0,05 (4; 20) = 3,96 (ver Tabela 4 em Anexo). Calculando (equao
(16.9)), temos

MSE
6,51
= q0,05 (4; 20)
= 3,96
= 4,12
n
6
Portanto, conclumos que as duas mdias so significantemente diferentes se
yi. yj. > 4,12.
As diferenas nas mdias dos tratamentos so:

y1. y2. = |10,00 15,67| = 5,67 ,


y1. y3. = |10,00 17,00| = 7,00 ,
y1. y4. = |10,00 21,17| = 11,17 ,
y2. y3. = |15,67 17,00| = 01,33
y2. y4. = |15,67 21,17| = 05,50 ,

y3. y4. = |17,00 21,17| = 4,17 .

Os asteriscos nos valores indicam que os pares de mdias i e j , (i j), so significantes.

Portanto, com base no conjunto de dados analisados, h evidncia de diferenas


significativas entre todos os pares de mdias, exceto entre os tratamentos 2 e 3, ao nvel de
significncia mnimo de 5%.

16.3. Anlise de diagnstico bsico em ANOVA


Ao realizar o teste de hipteses para comparao de mdias necessrios que sejam
Disciplina: MAT236 - Mtodos Estatsticos

Pgina 43

UFBA- Instituto de Matemtica Departamento de Estatstica

satisfeitas

certas

suposies.

Especificadamente,

que

as

observaes

sejam

adequadamente descrita pelo modelo proposto


"

= - + " + #" , $ = 1 , , p = 1 , . . . , R,

em que ij ~N(0; 2 ), independentes e identicamente distribudo. Se estas suposies so

violadas, as inferncias realizadas a partir da ANOVA so seriamente afetadas, ou seja, o


teste F usado para testar as diferenas nas mdias de tratamento pode no ser vlido.
As estimativas dos erros recebem o nome de resduos. Define-se o resduo como:

em que

"

p" =

"

" ,

, $ = 1 , , p = 1 , . . . , R,

o valor ajustado pelo modelo proposto correspondente ao valor observado

obtido como segue

" ,

= - + = ".
De forma geral, violao das suposies bsicas da ANOVA pode ser detectada
"

atravs das seguintes anlises grficas dos resduos apresentadas adiante.

Grfico de Probabilidade Normal


A validade da suposio de normalidade pode ser avaliada por meio do grfico de
probabilidade normal para os resduos. Os resduos so colocados no eixo das abscissas e
os escores de uma distribuio normal no eixo das ordenadas. A suposio de normalidade
ser considerada vlida se os pontos do grfico estiverem localizados, aproximadamente,
ao longo de uma linha reta que passa pela origem e tem coeficiente angular 1 (uma reta de
45). Outros grficos como histograma e boxplot podem ser usados para verificar a
suposio de normalidade. Como a avaliao grfica subjetiva, um teste estatstico pode
ser utilizado para complementar esta verificao. Aplicam-se os chamados Testes de
Aderncia, nesta apostila apresentado o Teste de Qui-Quadrado de Aderncia.

Grfico de Resduos Contra Ordem das Observaes Coletadas


A validade da suposio de que os erros no so correlacionados pode ser verificada
por meio de um grfico de resduos contra a ordem das observaes coletadas. Se os
resduos estiverem aleatoriamente situados, aproximadamente, em torno de uma faixa

horizontal centrada em p" = 0, sem nenhum padro definido, uma indicao da validade da

suposio de independncia. Por outro lado, configuraes especiais, tais como a presena
de sequncias de resduos positivos e negativos, ou padres de alternncia de sinais, podem
indicar que as observaes no so independentes.
Disciplina: MAT236 - Mtodos Estatsticos

Pgina 44

UFBA- Instituto de Matemtica Departamento de Estatstica

) )
Grficos dos Resduos ( ) contra os Valores Preditos (
A validade da suposio homogeneidade das varincias dos erros em todos os nveis do
fator. A suposio de homogeneidade no viola se a disperso dos resduos no depende

dos valores preditos yij (para o modelo de um fator yij = yi. ). Por exemplo, se as varincias

dos resduos crescem quando os valores preditos crescem ou se a varincias dos resduos
decrescem medida que valores preditos decrescem indicativo de violao de
homogeneidade varincias. Adicionalmente, quando o grfico apresenta um padro parecido
com um funil ou megafone tambm um indicativo de varincia no constante.

Exemplo 15.1: Examinar os resduos do modelo ajustado para a fora de resistncia das
sacolas.
Os clculos dos resduos para os dados da Tabela 16.3 esto a seguir:
Tabela 16.6: Resduos dos dados apresentados na Tabela 16.3
Concentrao de madeira de lei
10%
15%

5%

20%

12-15,67=-3,7

14-17=-3,0

19-21,17=-2,2

8-10=-2,0

17-15,67=1,3

18-17=1,0

25-21,17=3,8

15-10=5,0

13-15,67=-2,7

19-17=2,0

22-21,17=0,8

11-10=1,0

18-15,67=2,3

17-17=0,0

23-21,17=1,8

9-10=-1,0

19-15,67=3,3

16-17=-1,0

18-21,17=-3,2

10-10=0,0

15-15,67=-0,7

18-17=1,0

20-21,17=-1,2

0
-4

-2

Resduo

7-10=-3,0

-2

-1

Quantil terico

Figura 16.2: Grfico Q-Q Normal dos Resduos do Exemplo 15.1


Disciplina: MAT236 - Mtodos Estatsticos

Pgina 45

0
-4

-2

Resduo

UFBA- Instituto de Matemtica Departamento de Estatstica

10

12

14

16

18

20

Valor ajustado

Figura 16.3: Resduos versus valores ajustados do Exemplo 15.1


O Grfico 16.2 serve para verificar a suposio de normalidade dos resduos. Neste
grfico, a hiptese de normalidade para os resduos pode ser aceita, pois o grfico revela-se
aproximadamente linear. Para confirmar esta suposio foi realizado o Teste Qui-Quadrado
de Aderncia. As hipteses testadas foram:
H0: Os dados dos resduos se ajustam a uma distribuio normal.
H1: Os dados dos resduos no se ajustam a uma distribuio normal.
O resultado do teste est na caixa adiante, observe que o p-valor=0,6487>=5%.
Portanto, no existem evidncias para rejeitar a suposio de que os resduos se ajustam a
uma distribuio normal, ao nvel de significncia de 5%.
No software R o teste para normalidade pode ser realizado usando a seguinte sintaxe:
> library(nortest)
> pearson.test(Resduo)
Pearson chi-square normality test
data: Resduo
P = 3.3333, p-value = 0.6487

O segundo grfico (Grfico 16.3) apresenta os valores ajustados, atravs do modelo,


versus resduos. O padro deste grfico no indica evidncia de violao da suposio de
que as varincias dos erros so constantes em todos os nveis do fator, pois a variabilidade
dos resduos no parece crescer quando os valores preditos crescem. Para confirmar esta
suposio ser realizado o Teste de Homogeneidade de Varincias na Seo 17.
Disciplina: MAT236 - Mtodos Estatsticos

Pgina 46

UFBA- Instituto de Matemtica Departamento de Estatstica

17.

Homogeneidade das Varincias


Uma importante pressuposio para aplicao da tcnica de Anlise de Varincia a

homogeneidade das varincias da varivel de interesse das populaes envolvidas, ou seja,


que a varincia seja homognea em todos os nveis de fator. Para testar a homogeneidade
das varincias, utilizam-se das seguintes hipteses estatsticas:

H0 : 21 = 22 = 23 = = 2k = 2

H1 : pelo menos uma varincia difere das demais.

em que k o nmero de nveis do fator de interesse e 2i a varincia do i-simo nvel, i =

1, , k. O procedimento usado para testar as hipteses acima ser o Teste de Bartlett (ver

Montegomery, 2005). Considere que S1 , S2 , , Sk so as varincias amostrais de tamanho


2

n1 , n2 , , nk , respectivamente sendo N = ki.1 ni . O estimador da varincia combinada das k

tratamentos (ou populaes) dado por:

1
2
=
+(ni 1)Si
Nk
k

2
SP

i.1

A estatstica de teste dada por:

em que:

IJ. = 2,3026 ,

= ( )log S +(n9 1)log S9 ,


9.

e
= 1+

1
1
1
V+ m
nm
nW.
3( 1)
(n9 1)
(N k)
".

Supondo que a hiptese nula verdadeira, a estatstica de teste possui distribuio


aproximadamente Qui-Quadrado com (k-1) graus de liberdade. Para um dado nvel de
significncia , rejeitar a hiptese nula se IJ. > ;(
tal que ( > (;

, em que ;(

uma constante

) = . Ou pelo p-valor, rejeitar a hiptese nula se p-valor < .

Exemplo 17.1: Use o Exemplo 16.1 para realizar o teste de hipteses, ao nvel de
significncia de 1%, de que as varincias populacionais para o conjunto de dados sobre a
fora de resistncia de papel usado para a confeco de sacolas, com diferentes
concentraes madeira de lei, so iguais.
Soluo: As hipteses estatsticas a serem testadas so:
Disciplina: MAT236 - Mtodos Estatsticos

Pgina 47

UFBA- Instituto de Matemtica Departamento de Estatstica

H0 : 21 = 22 = 23 = 24 = 2 .

(As varincias das foras de resistncia dos papeis so homogneas nas quatro concentraes de madeira de lei. )

H1 : Pelos menos uma das varincias, da fora de resistncia do papel, diferente das demais.

Tem-se que n1 = n2 = n3 = n4 = 6, k=4. As varincias amostrais so:


s23 = 3,20

s21 = 8,00

A varincia combinada
SP =
2

Agora, calcule

s22 = 7,87

s21 = 6,97

5(8,00) + 5(7,87) + 5(3,20) + 5(6,97) 130,17


=
= 6,5083
20
20

= (20)log (6,5083) 5[log (8) + log (7,87) + log (3,2) + log (6,97)] = 0,5321.
= 1 + ~(~)

= 1,0833.

O valor da estatstica de teste IJ. = 2,3026

Concluso: Como IJ. = 1,1310 <

%;(~)

,~

, ~~

= 1,1310.

= 11,34 (valor tabelado, ver Tabela 1 em anexo),

no rejeitamos a hiptese nula e conclumos que no existem evidncia de que as varincias


populacionais para dos conjunto de dados sobre a fora de resistncia de papel usado para a
confeco de sacolas, com diferentes concentraes madeira de lei, so diferentes, ao nvel
de significncia de 1%.
Na literatura existem outros procedimentos para realizar o teste de homogeneidade

das varincias, a saber: teste de Cochran e Levene. O teste de Bartlett mais eficiente para
testar a homogeneidade de varincias quando as variveis envolvidas no estudo possuem
distribuio normal (ou aproximadamente normal). Se a hiptese de normalidade for violada,
melhor utilizar o teste proposto por Levene.

Disciplina: MAT236 - Mtodos Estatsticos

Pgina 48

UFBA- Instituto de Matemtica Departamento de Estatstica

7a Lista de Exerccios
1) Abaixo voc encontra uma lista de situaes de pesquisa. Para cada uma indique se o
apropriado uma anlise de correlao ou uma de regresso.
a) A quantidade procurada da carne gado depende do preo da carne de porco? R:Correlao
b) O objetivo estimar o tempo necessrio para a realizao de certa tarefa usando para
tanto o tempo de treinamento do executor. R:Regresso
c) O preo de uma reforma depende dos valores dos artigos usados no acabamento?
R:Correlao

d) Estime o nmero de milhas que um pneu radial possa rodar antes de ser substitudo.
R:Regresso

e) Deseja-se prever quanto tempo ser necessrio para uma pessoa completar
determinada tarefa, com base no nmero de semanas de treinamento. R:Regresso
f) Decida se o nmero de semanas de treinamento uma varivel importante para avaliar
o tempo necessrio para realizar uma tarefa. R:Regresso
2) Um modelo genrico especifica que os animais de certa populao devam ficar
classificados em quatro categorias, com probabilidades p1=0,656, p2=p3=0,093 e
p4=0,158. Dentre 197 animais, obtivemos as seguintes freqncias observadas: O1=125,
O2=18, O3=20 e O4=34. Teste se esses dados esto de acordo com o modelo genrico
postulado. (Use =1%). R: Os dados esto de acordo com o modelo postulado, Regio Crtica [ 11,34;

) e 56 =0,5635.

3) Uma empresa localizada na cidade de So Paulo, produtora de pneumticos, possui uma


rede distribuidora por todo o interior do Estado. Realizou um estudo para determinar qual
a funo que ligava o preo do produto e a distncia do mercado consumidor da cidade
de So Paulo. Os dados so os seguintes:
Preo
Distncia (Km)

36
50

48
240

50
150

70
350

42
100

a) Calcule o coeficiente de correlao e interprete o resultado.


b) Estimar a reta de regresso; Pi = 30,19 + 0,12Di,

58
175

91
485

69
335

R.: r = 0,959

i=1,..., 8.

c) Calcule um intervalo com confiana de 5% para o preo quando a distncia 250Km. R.:
[57,10; 62,30]

d) A empresa tem uma filial no Rio de Janeiro e o preo de venda do pneumtico l


produzido, na cidade B, de R$160,00. Sabendo-se que a distncia entre So Paulo e
a cidade B de 250 km, pergunta-se qual produto deve ser vendido: o produzido no Rio
de Janeiro ou o fabricado em So Paulo.
Disciplina: MAT236 - Mtodos Estatsticos

R.: So Paulo.

Pgina 49

UFBA- Instituto de Matemtica Departamento de Estatstica

4) Aps ser derrotado por um amigo num jogo de dado, voc suspeita que o dado que ele
deu a voc seja desonesto. Para verificar, voc lana o dado 60 vezes, registrado o
nmero de vezes que cada face aparece. Os resultados esto adiante.
Face
Frequncia

1
11

2
7

3
9

4
15

5
12

6
6

a) Se o dado for honesto, quantas vezes voc esperaria que cada face aparecesse? R:10.
b) Para verificar se o dado honesto, qual teste voc usaria? R:Teste de Aderncia
c) Teste a hiptese de que o dado honesto. (Use =5%).

R: No h evidncias de que o dado seja

desonesto. Regio Crtica [ 11,07; ) e 2cal=0,5635.

5) Suponhamos que uma cadeia de supermercados tenha financiado um estudo dos gastos
com mercadoria para famlias de 4 pessoas. A investigao se limitou a famlias com
renda lquida entre R$8.000 e R$20.000. Obteve-se a seguinte equao:
Yi = -200 + 0,10Xi,
em que: Y = despesa anual estimada com mercadorias e X = renda lquida anual. Suponha
que a equao proporcione um ajustamento razoavelmente bom.
a) Estime a despesa de uma famlia de quatro com renda de R$15.000.

R.: 1.300,00

b) Um dos vice-presidentes da firma ficou intrigado com o fato de a equao


aparentemente sugerir que uma famlia com R$2.000 de renda no gaste nada em
mercadorias. Qual a explicao?

R. Observe que o intervalo de x no contempla o valor R$ 2.000, ento no

recomendado estender a reta de regresso ajustada para fazer predies fora do intervalo de x.

6) Trs diferentes bancos possuem agncias de mesmo porte em uma avenida


movimentada de Salvador, BA. Para testar se essas agncias tm movimento mdio
equivalente, foi escolhida uma semana tpica de trabalho e o desempenho, nesses dias,
foi registrado. Os dados obtidos, em milhares de reais, esto apresentados nas tabelas a
seguir.
1
146,4
199,2
179,5
98,4
263,7

Banco
2
194,3
227,2
203,4
111,8
275

3
173,7
246,5
289,8
127,4
265,6

a) razovel afirmar que as varincias das trs distribuies so homogneas? (Use


=1%).

R. Como IJ. = 0,0679 <

%;( )

= 9,21 (Conclumos que no existem evidncias de que as varincias dos

movimentos financeiros nos trs bancos sejam diferentes.)

Disciplina: MAT236 - Mtodos Estatsticos

Pgina 50

UFBA- Instituto de Matemtica Departamento de Estatstica

b) A partir da anlise de varincia (ANOVA) adiante verifique se as agncias tm


movimentos mdios equivalentes. Use =5%. R. No rejeita H0, ao nvel de 5% de significncia.
Fonte de variao
Entre grupos
Dentro dos grupos
Total

Soma de
quadrados
4693,705
47660,38
52354,09

Graus de
liberdade
2
12
14

Quadrados
mdios
2346,853
3971,699

calculado
0,590894

7) A fim de testar se o tempo mdio necessrio para misturar um lote de materiais o


mesmo para mquinas produzidas por trs diferentes fabricantes, a Jacobs Chemical
Company obteve os seguintes dados sobre o tempo (em minutos) necessrio para
misturar os materiais.
a) razovel afirmar que as varincias das trs distribuies do tempo mdio necessrio
para misturar um lote de materiais so homogneas? (Use =0,01).

pois 56. = 4,074 <

%;( )

= 9,21 .

R.: Sim. No rejeita Ho,

c) Realize um teste para verificar se o tempo mdio para misturar um lote de materiais
difere em relao aos trs fabricantes, use =0,05.

R: O tempo mdio necessrio para misturar um lote

de materiais em cada fbrica diferente, ao nvel de significncia de 5%.

Fbrica
2
34
28
38
25
26
27
25
27

1
21
14
25
32
31
35
8
21

3
21
17
23
22
28
24
24
20

8) Os dados a seguir do um custo lquido por real de prmio (Y) e o tempo de aplice em
meses (X).
X
Y

8
1,26

29
1,15

47
0,81

24
1,14

57
0,61

45
0,88

a) Estimar a reta de regresso. R=Yi=1,35 -0,01Xi,

39
0,99

14
1,11

70
0,58

40
0,74

66
0,67

55
0,70

i=1, 2, 3, ..., 12.

b) Calcule um intervalo de confiana de 95% de confiana para a inclinao 1. Baseado


no intervalo, qual a concluso sobre a relao linear entre x e y.
R.: [0,01 2,228

0,1136

10

4225,67

; 0,01 + 2,228

0,1136

10

4225,67

c) Construir um IC para o valor de um prmio cuja aplice tem 3 anos; = 5%.


Disciplina: MAT236 - Mtodos Estatsticos

Pgina 51

UFBA- Instituto de Matemtica Departamento de Estatstica


R.:0,99 0,1167 1 +

1 (3641,17)2

12

4225,67

9) Os valores do mdulo de elasticidade (MOE, a razo da fora, isto , fora por rea
unitria, para o escoamento, ou seja, deformao por comprimento unitrio, em GPa) e a
resistncia reflexo (uma medida da capacidade de resistncia a falhas decorrentes de
desdobramento, em MPa) foram determinados para um tipo de amostra de vigas de
concreto, gerando os dados a seguir (reproduzidos de um grfico do artigo Effects of
Aggregate and Microfilleres on the Flexural Proprties of Concrete, Magazine of Concrete Research, 1997,
p.81-98):

MOE
Resistncia

29,8
5,9

33,2
7,2

33,7
7,3

35,3
6,3

35,5
8,1

36,1
6,8

36,2
7,0

36,3
7,6

37,5
6,8

MOE
Resistncia

37,7
6,5

38,8
6,3

39,6
7,9

41,0
9,0

42,8
8,2

42,8
8,7

43,5
7,8

45,6
9,7

46,0
7,4

MOE
Resistncia

46,9
7,7

48,0
9,7

49,3
7,8

51,7
7,7

62,6
11,6

69,8
11,3

79,5
11,8

80,0
10,7

a) O valor da resistncia determinado exclusivamente pelo valor do MOE?


R:No, porque h observao com os valores idnticos de MOE com diferentes valores de y.

b) Use os resultados da sada do software Excel a seguir e apresente a equao


ajustada do modelo de regresso. R: yi = 3,34 + 0,107xi , i = 1, 2, 3, , 26
Estatstica de regresso
R mltiplo
0,858
R-quadrado
0,7364
R-quadrado ajustado
0,7253
Erro padro
0,8785
Observaes
26

Fonte de Variao
Regresso
Resduo
Total

Interseo
MOE

Graus de
Liberdade
1
24
25

Soma de
Quadrado
51,7325
18,5214
70,2539

Coeficientes Erro padro


3,3400
0,6163
0,1068
0,0130

Quadrado
Mdio
51,7325
0,77172

Estatstica t
5,4200
8,1875

Estatstica F
67,035

P- valor
0,00001442
0,00000002

c) Calcule o coeficiente de determinao. R: 0,736.

Disciplina: MAT236 - Mtodos Estatsticos

Pgina 52

UFBA- Instituto de Matemtica Departamento de Estatstica

10) Nova York, Boston e o Vale do Silcio na Califrnia esto entre as regies que
apresentam os maiores salrios no setor de tecnologia nos Estados Unidos (USA Today,
28 de fevereiro de 2002). Os dados amostrais seguintes apresentam os salrios anuais
individuais expressos em milhares de dlares.
a) Verifique se existe diferena entre a mdia populacional de salrios do setor de
tecnologia correspondente nas trs localidades. Use =5%.
Nova York Boston Vale do Silcio
82
85
82
79
80
91
72
74
94
89
78
88
79
75
85
85
80
81
86
79
90
R: Existe diferena entre as mdias de salrios nas trs localidades, observe a tabela da anova apresentada adiante.

Grupo
Nova York
Boston
Vale do Silcio

Contagem
7
7
7

Soma
572
551
611

Mdia
81,71
78,71
87,29

Soma de
Quadrado
264,86
410,29
675,14

Graus de
Liberdade
2,00
18,00
20,00

Quadrado
Mdio
132,43
22,79
----

Varincia
31,90
13,24
23,24

ANOVA
Fonte da variao
Tratamento
Erro
Total

Estatstica F

valor-P

F crtico

5,81

0,01

3,55

----

----

----

11) Realiza-se um estudo para se determinar o efeito da velocidade de corte sobre a durao
(em horas) de uma mquina particular. Quatro nveis de velocidade de corte so
selecionados para o estudo, com os seguintes resultados:
Durabilidade da ferramenta
Repetio (ou observao)
Velocidade
1
2
3
4
5
6
de corte
1
41
43
33
39
36
40
2
42
36
34
45
40
39
3
34
38
34
34
36
33
4
36
37
36
38
35
35
Fonte: Hines, Montgomery, Goldman e Borror (2006). Probabilidade e
Estatstica na Engenharia. 4 ed.

a) A velocidade de corte afeta a durabilidade da mquina?. Use = 0,01.

R.:A velocidade mdia de

corte no afeta a durabilidade da mquina, ao nvel de significncia de 1%.

Disciplina: MAT236 - Mtodos Estatsticos

Pgina 53

UFBA- Instituto de Matemtica Departamento de Estatstica

b) Voc usaria o Teste de Tukey para fazer comparaes entre os pares de mdias dos
nveis de velocidade de corte?

R: No usaria o teste, pois no h evidncias de que existam diferenas significativas

entre os pares de mdias.

Tabela da anlise de varincia


Fonte de variao
Tratamentos (Velocidade)
Resduo
Total

Graus de
liberdade
3
20
23

Soma de
quadrados
80,17
168,33
248,5

Quadrados
mdios
26,722
8,417

Qcalculado
3,175

-valor

0,0465

12) O conjunto de dados a seguir consiste de 26 observaes sobre a resistncia fratura do


prato de base do ao temperado com nquel a 18% (de Fracture Testing of Weldments,
ASTM Special Publ. N 381, 1965, p. 328-356). Um indivduo suspeita que estes dados
possam ser ajustados atravs de uma Distribuio Normal.
Resistncia
65| 70
70| 75
75| 80
80| 85
85| 100
Total

Nmero de observaes
3
5
10
6
2
26

a) Construa um histograma para os dados acima e verifique se razovel supor que os


dados segue uma distribuio normal. Justifique sua resposta.
b)

Verifique atravs do teste se os dados seguem a distribuio normal. Use =10%.


normal no rejeitado, Regio Crtica [ 6,251; ) e

R: Modelo

2cal=1,1.

13) Teste se os dados abaixo so observaes de uma distribuio normal com mdia =10 e
varincia 2=25. Os dados esto apresentados na tabela adiante. (Use =5%)
Varivel
01,0 | 6,6
06,6 | 10,0
10,0 | 13,4
13,4 | 22,0
Total

Nmero de observaes
4
11
9
6
30

R: Modelo no rejeitado, Regio Crtica [ 7,81; ) e 2cal =3,7346.

14) Uma regresso de y=volume de clcio (g/l) em x=material dissolvido (mg/cm2) foi descrita
em um artigo Use of Fly Ash or Silica Feed Acids (Magazine of Concrete Research,

Disciplina: MAT236 - Mtodos Estatsticos

Pgina 54

UFBA- Instituto de Matemtica Departamento de Estatstica

1997, p. 337-344). A questo da reta de regresso estimada foi:


1,2,3, , 23. e R2=0,860.

a) Interprete o coeficiente estimado 0,144.

= 3,678 + 0,144 " , $ =

R.: Estima-se que 0,144 a mudana esperada no contedo de clcio

associado com 1mg/cm2 de aumento na quantidade dissolvida de material.

b) Interprete o coeficiente de determinao 0,860.

R.: Aproximadamente, 86% da variabilidade observada no

volume de clcio pode ser atribuda a quantidade dissolvida de material (atravs do modelo proposto), 14% devido a outros fatores.

c) Calcule uma estimativa pontual do volume mdio real de clcio quando a quantidade de
material dissolvido for igual a 50 mg/cm2. R.: 10,88.
15) Oito programas foram monitorados para estudar a demanda por recursos. Neste
trabalho, a varivel resposta (dependente) o tempo de CPU, e a varivel independente
o nmero de acessos ao disco (disk I/O)
Tempo de CPU (Y) Nmero de acessos ao disco (X)
2,0
14
4,6
15
5,7
23
7,3
31
9,8
38
10,9
40
12,6
53
13,2
51

a) Faa o diagrama de disperso. Conclua sobre a correlao entre as duas variveis.R:


as variveis so correlacionadas.

b) Calcule o coeficiente de correlao de Pearson. Conclua sobre a correlao entre as


duas variveis. R: 0,979793, existe uma forte correlao positiva entre o tempo de CPU e o nmero de acessos ao disco.

16) Os 12 pares de valores so relativos s variveis tamanho da memria (mbytes) e bytes


transferidos (mbytes). Observe que para cada tamanho de memria foram realizados trs
experimentos (repeties).
Tamanho de memria em mbytes (X) Bytes transferidos em mbytes (Y)
0,238
39,058
0,238
42,967
0,238
35,118
0,286
37,938
0,286
41,257
0,286
32,921
0,334
36,531
0,334
40,368
0,334
30,563
0,381
35,484
0,381
39,203
0,381
30,823
Disciplina: MAT236 - Mtodos Estatsticos

Pgina 55

UFBA- Instituto de Matemtica Departamento de Estatstica

a) Faa o diagrama de disperso. Conclua se existe uma relao linear entre bytes
transferidos e o tamanho da memria. R: Parece existir uma relao linear entre as variveis.
b) Calcule os coeficientes de regresso do modelo linear simples. Apresente a reta de
regresso ajustada aos dados.

= 45,42 27,67 " , $ =1, ..., 12.

c) D a estimativa pontual do nmero de bytes transferidos para tamanhos de memria


iguais a 0,255 e 0,355. R:38,36 e 35,60.
d) Estime a varincia dos erros do modelo de regresso utilizado. R: 15,09
e) Predio de uma nova observao. Obter o intervalo de predio no nmero de bytes
transferidos para X = 0,255 e X = 0,355, use =5%. R: [29,67; 47,06] e [29,68; 47,05].
f) Fazer a anlise de varincia do modelo de regresso (apresentar a tabela da anlise de
varincia).
R:
ANOVA
Regresso
Resduo
Total

gl
1
10
11

SQ
26,12
150,94
177,07

MQ
26,12
15,09

F
1,73

F de significao
0,22

g) Teste de significncia do modelo. Fazer o teste F para verificar se existe relao linear
entre o nmero de bytes transferidos e o tamanho de memria, use =0,01. Escreva a
concluso do teste.

R: Ao nvel de significncia de 1%, ao existe relao linear entre o nmero de bytes transferidos e o

tamanho de memria.

h) Coeficiente de determinao. Calcular o coeficiente de determinao para os dados de


bytes transferidos e tamanho de memria. R: 0,148
i) Anlise de resduos. Calcular os resduos e fazer os grficos dos resduos versus os
valores preditos pelo modelo de regresso e resduos versus a varivel independente
(X). As suposies do modelo parecem satisfeitas? R: No
j)

vlido construir o intervalo de confiana do nmero mdio de bytes transferidos para


x= 35 mbytes de tamanho de memria, com um grau de confiana de 95%? R: No, pois os
resduos no se ajustam a uma distribuio normal.

17) A quantidade de chuva um fator importante na produtividade agrcola. Para medir esse
efeito, foram anotadas, para 8 regies diferentes produtora de soja, o ndice pluviomtrico
e a produo do ltimo ano.
Chuva (mm)
120
140
122
150
115
190
Disciplina: MAT236 - Mtodos Estatsticos

Produo (tonelada)
40
46
45
37
25
54
Pgina 56

UFBA- Instituto de Matemtica Departamento de Estatstica

130
118
120
155
90
100
116
130
127
160
110
154
180

33
30
37
40
20
24
27
34
43
48
28
39
50

Para analisar os dados descritos acima, considere o modelo de regresso linear simples
dado por:

com

" ~(0;

P ) e

"

," =

" +

",

$ = 1, 2, , R,

no correlacionado com

desconhecido. Siga os passos a seguir:

para i,j = 1,2,..., n e $ , P

a) Esboar o grfico de disperso da chuva versus produo. Verifique se existe uma


relao linear entre as variveis. R: Sim, parece existir uma relao linear entre a chuva e a produo
agrcola.

b) Obtenha o ajuste do modelo de regresso linear simples e apresente as estimativas de


0 , 1 e 2 . Descreva o modelo ajustado matematicamente.

0,27xi , i = 1,2,3, ,8.

R.: 1,55; 0,27 e 298,04. yi = 1,55 +

c) Faa o teste da significncia da regresso via Tabela ANOVA e verifique possvel falta de
ajuste. R.: A anlise da Tabela ANOVA indica evidncias da existncia de uma relao linear entre a quantidade de chuva e a
produo agrcola.

d) Analise os grficos adiante e faa uma anlise de resduos verificando os possveis


padres indesejveis ou presena de observaes com valores extremos. R.: Converse com o
seu professor

Disciplina: MAT236 - Mtodos Estatsticos

Pgina 57

UFBA- Instituto de Matemtica Departamento de Estatstica

e) Calcule os coeficientes de determinao e correlao. R. 0,52; 0,7246.


f) Finalize sua anlise concluindo se o modelo ou no adequado para os dados em
questo. R:Converse com o seu professor.
R:

Estatstica de regresso
R mltiplo
R-Quadrado
R-quadrado ajustado
Erro padro
Observaes

ANOVA
Fonte de
Variao
Regresso
Resduo
Total

Interseo
Chuva (mm)

0,839529615
0,704809974
0,687445855
5,334000957
19

Soma de Quadrado
Quadrado
Mdio
1154,85
1154,85
483,68
28,45
1638,53

Graus de Liberdade
1
17
18
Coeficientes
-3,96
0,31

Erro padro
6,52
0,05

Disciplina: MAT236 - Mtodos Estatsticos

Estatstica t
-0,61
6,37

Estatstica F
40,590

P-valor
-06

6,9710

P-valor 95% inferiores 95% superiores


0,55
-17,72
9,79
0,00
0,21
0,41

Pgina 58

UFBA- Instituto de Matemtica Departamento de Estatstica

18) Quatro tipos de fertilizantes esto sendo comparados para ver qual deles apresenta maior
produo de sementes de milho. Quarenta reas de terra similares foram disponibilizadas
para realizar o experimento. As 40 reas de terra foram divididas aleatoriamente em
quatro grupos, dez reas em cada grupo. Fertilizante 1 foi aplicado em cada uma das dez
reas no grupo 1. Similarmente, os fertilizantes 2, 3 e 4 foram aplicados nas reas do
grupo 2, 3 e 4, respectivamente. Os resultados de produo de milho (y) das 40 reas
foram:
Fertilizante 1 Fertilizante 2 Fertilizante 3 Fertilizante 4
31

27

36

33

34

27

37

27

34

25

37

35

34

34

34

25

43

21

37

29

35

36

28

20

38

34

33

25

36

30

29

40

36

32

36

35

45

33

42

29

a) Verifique se, em mdia, os trs tipos de fertilizantes tem um efeito sobre a produo de
sementes de milho, ao nvel de significncia de 5%. (Fazer a tabela da anlise de
varincia e o teste F).
R: Tem efeito, pois o p-valor=0,005< 0,05.
RESUMO
Grupo
Fertilizante 1
Fertilizante 2
Fertilizante 3
Fertilizante 4

Contagem
10
10
10
10

Soma
366
299
349
298

Mdia
36,6
29,9
34,9
29,8

Varincia
18,71
22,77
16,99
35,51

ANOVA
Fonte da variao
Entre grupos
Dentro dos grupos
Total

SQ
362,6
845,8
1208,4

gl
3
36
39

MQ
120,867
23,494

F
5,144

valor-P
0,005

F crtico
2,866

19) A Butler Trucking Company, uma companhia de transporte do sul da Califrnia tem seus
maiores negcios envolvendo entregas na regio. Para desenvolver um trabalho melhor,
os gerentes supem que o modelo de regresso linear simples poderia ser usado para
descrever a relao entre o tempo total de viagem (Y) e a quilometragem percorrida (X1).
Foi selecionada uma amostra aleatria simples de 10 tarefas de entrega, que forneceu os
dados da tabela abaixo.

Disciplina: MAT236 - Mtodos Estatsticos

Pgina 59

UFBA- Instituto de Matemtica Departamento de Estatstica

Tarefa X1: Quilometragem X2: Nmero de entregas Y: Tempo de entrega


1
100
4
9,3
2
50
3
4,8
3
100
4
8,9
4
100
2
6,5
5
50
2
4,2
6
80
2
6,2
7
75
3
7,4
8
65
4
6,0
9
90
3
7,6
10
90
2
6,1
b) Determine o grau de correlao linear entre Y e X1 . R: 0,815
c) Teste se o tempo de viagem est relacionado linearmente com a quilometragem
percorrida, com um nvel de significncia de 5%. R: Sim, pois p-valor (F de significao )=0,004<0,05.
d) Qual o percentual da variabilidade do tempo de viagem que pode ser explicado pelo efeito
linear da quilometragem percorrida?R: 66,4%
e) Utilize o modelo de regresso linear simples para descrever a relao entre Y e X1.
i.

Determine a equao de regresso linear. yi = 1,27 + 0,07xi , i = 1,2,3, ,10.

ii.

Interprete o coeficiente b1 da reta de regresso estimada. R: Estima-se que 0,07 a quantidade


acrescida ao tempo de entrega para cada aumento de 1 quilmetro percorrido.

f) Os gerentes resolveram acrescentar outra varivel independente para explicar alguma


variabilidade remanescente na varivel dependente. Acharam que o nmero de entregas
tambm poderia contribuir para o tempo de viagem. Considerando o nmero de entregas
como X2, determine a equao de regresso linear. yi = 0,869 + 0,061x 9 + 0,923x i i = 1,2,3, ,10.
g) Interprete os coeficientes da equao obtida no item anterior. R: O valor 0,061 a quantidade acrescida
ao tempo de entrega para cada aumento de 1 quilmetro percorrido permanecendo constante o nmero de entrega. O valor 0,923 a
quantidade acrescida ao tempo de entrega para cada aumento de 1 quantidade de entrega permanecendo constante a quilometragem.

Correlao

X1: Quilometragem
X2: Nmero de entregas
Y: Tempo de entrega

X1:
Quilometragem
1,000
0,162
0,815

X2:
Y:
Nmero de entregas Tempo de entrega
1,000
0,615

1,000

Estatstica de regresso
R mltiplo
0,815
R-Quadrado
0,664
R-quadrado ajustado
0,622
Erro padro
1,002
Observaes
10
Disciplina: MAT236 - Mtodos Estatsticos

Pgina 60

UFBA- Instituto de Matemtica Departamento de Estatstica

ANOVA
Regresso
Resduo
Total

gl

SQ

MQ

F de significao

1
8
9

15,871
8,029
23,902

15,871
1,004

15,815

0,004

Coeficientes
Interseo
X1: Quilometragem

1,27
0,07

Erro
padro
1,40
0,02

Estatstica t P-valor
0,91
3,98

0,39
0,00

95%
inferiores
-1,96
0,03

95%
superiores
4,50
0,11

Estatstica de regresso
R mltiplo
0,951
R-Quadrado
0,904
R-quadrado ajustado
0,876
Erro padro
0,573
Observaes
10

ANOVA
Regresso
Resduo
Total

gl
2
7
9

Interseo
X1: Quilometragem
X2: Nmero de
entregas

SQ
21,601
2,299
23,900

MQ
10,800
0,328

Coeficientes
-0,869
0,061

Erro
padro
0,952
0,010

0,923

0,221

Disciplina: MAT236 - Mtodos Estatsticos

F
32,878

Estatstica t P-valor
-0,913
0,392
6,182
0,000
4,176

0,004

F de significao
0,000

95%
inferiores
-3,119
0,038

95%
superiores
1,381
0,085

0,401

1,446

Pgina 61

UFBA- Instituto de Matemtica Departamento de Estatstica

Referncias Bibliogrficas
1. CONOVER, W. J. (1999). Practical Nonparametric Statistics. 3rd. ed. New York: Chichester:
John Wiley & Sons (Asia).
2. DEAN, A. & VOSS, D. (1999). Desing and Analysis of Experiments. New York: Springer.
3. FERNANDES, Gilnio Borges, (2002). Notas de Aula MAT 229- Anlise de Regresso.
4. HINES, W. William, MONTGOMERY, C. Douglas, GOLDSMAN, M. David e BORROR, M. Cannie
(2006). Probabilidade e Estatstica na Engenharia. 4 ed., Rio de Janeiro: LTC.
5. HOLLANDER, Myles; WOLFE, Douglas A (1999). Nonparametric Statistical Methods. 2nd. ed.
New York: John Wiley & Sons.
6. CAMPOS, Humberto de (1979). Estatstica Experimental Nao-Paramtrica. 3. ed. Piracicaba:
Departamento de Matemtica e Estatstica da Escola Superior de Agricultura 'Luiz de Queiroz.
7. MORAES, Lia Terezinha L. P. (2006). Notas de Aula MAT 187- Mtodos No Paramtricos
8. MAGALHES, Marcos Nascimento e LIMA, Antnio Carlos P. (2007). Noes de Probabilidade
e Estatstica. 6a edio rev. 1a reimpresso, So Paulo, Edusp.
9. MONTGOMERY, Douglas C.; RUNGER, George C.; HUBELE e Norma Faris (2004). Estatstica
Aplicada Engenharia. Rio de Janeiro: LTC.
10. MONTGOMERY, Douglas C. (2005). Design and Analysis of Experiments. 3ed. New York, John
Wiley.
11. MORETTIN, Pedro Alberto e BUSSAB, Wilton de Oliveira (2006). Estatstica Bsica. 5. ed. So
Paulo: Saraiva.
12. NETER, J. e Wasserman, W. (1974). Applied linear statistical models. Richard D. Irwin Inc.
Homewood, Illinois.
13. Peter W. M. John. (1970). Statistical Design and Analysis of Experiments. Macmillan Co., New
York.
14. SIEGEL, Sidney; CASTELLAN, N. John (2006). Estatstica No-paramtrica para Cincias do
Comportamento. 2. ed. Porto Alegre, RS.
15. SOUZA, G. S. (1998). Introduo aos Modelos de Regresso Linear e No-Linear. Braslia:
Embrapa-SPI / Embrapa-SEA.
16. WERKEMA, Maria Cristina Catarino; AGUIAR, Silvio (1996). Analise de Regresso: Como
Entender o Relacionamento Entre as Variveis de um Processo. Belo Horizonte, MG: UFMG.
Escola de Engenharia.

Disciplina: MAT236 - Mtodos Estatsticos

Pgina 62

UFBA- Instituto de Matemtica Departamento de Estatstica

Tabela 1: Distribuio de Qui-Quadradro 2 com os valores crticos de Qui-Quadradro tais que a


probabilidade de a varivel aleatria 2 ser maior do que 2c vale , ou seja, Prob(2 2c) =

Graus de
Liberdade 0,995
1
0,00
2
0,01
3
0,07
4
0,21
5
0,41
6
0,68
7
0,99
8
1,34
9
1,73
10
2,16
11
2,60
12
3,07
13
3,57
14
4,07
15
4,60
16
5,14
17
5,70
18
6,26
19
6,84
20
7,43
21
8,03
22
8,64
23
9,26
24
9,89
25
10,52
26
11,16
27
11,81
28
12,46
29
13,12
30
13,79
40
20,71
50
27,99
60
35,53
70
43,28
80
51,17
90
59,20
100
67,33

Valores de
0,99
0,00
0,02
0,11
0,30
0,55
0,87
1,24
1,65
2,09
2,56
3,05
3,57
4,11
4,66
5,23
5,81
6,41
7,01
7,63
8,26
8,90
9,54
10,20
10,86
11,52
12,20
12,88
13,56
14,26
14,95
22,16
29,71
37,48
45,44
53,54
61,75

0,975
0,00
0,05
0,22
0,48
0,83
1,24
1,69
2,18
2,70
3,25
3,82
4,40
5,01
5,63
6,26
6,91
7,56
8,23
8,91
9,59
10,28
10,98
11,69
12,40
13,12
13,84
14,57
15,31
16,05
16,79
24,43
32,36
40,48
48,76
57,15
65,65

0,95
0,00
0,10
0,35
0,71
1,15
1,64
2,17
2,73
3,33
3,94
4,57
5,23
5,89
6,57
7,26
7,96
8,67
9,39
10,12
10,85
11,59
12,34
13,09
13,85
14,61
15,38
16,15
16,93
17,71
18,49
26,51
34,76
43,19
51,74
60,39
69,13

0,50
0,45
1,39
2,37
3,36
4,35
5,35
6,35
7,34
8,34
9,34
10,34
11,34
12,34
13,34
14,34
15,34
16,34
17,34
18,34
19,34
20,34
21,34
22,34
23,34
24,34
25,34
26,34
27,34
28,34
29,34
39,34
49,33
59,33
69,33
79,33
89,33

0,10
2,71
4,61
6,25
7,78
9,24
10,64
12,02
13,36
14,68
15,99
17,28
18,55
19,81
21,06
22,31
23,54
24,77
25,99
27,20
28,41
29,62
30,81
32,01
33,20
34,38
35,56
36,74
37,92
39,09
40,26
51,81
63,17
74,40
85,53
96,58
107,57

0,05
3,84
5,99
7,81
9,49
11,07
12,59
14,07
15,51
16,92
18,31
19,68
21,03
22,36
23,68
25,00
26,30
27,59
28,87
30,14
31,41
32,67
33,92
35,17
36,42
37,65
38,89
40,11
41,34
42,56
43,77
55,76
67,50
79,08
90,53
101,88
113,15

0,025
5,02
7,38
9,35
11,14
12,83
14,45
16,01
17,53
19,02
20,48
21,92
23,34
24,74
26,12
27,49
28,85
30,19
31,53
32,85
34,17
35,48
36,78
38,08
39,36
40,65
41,92
43,19
44,46
45,72
46,98
59,34
71,42
83,30
95,02
106,63
118,14

0,01
0,005
6,63
7,88
9,21
10,60
11,34
12,84
13,28
14,86
15,09
16,75
16,81
18,55
18,48
20,28
20,09
21,95
21,67
23,59
23,21
25,19
24,72
26,76
26,22
28,30
27,69
29,82
29,14
31,32
30,58
32,80
32,00
34,27
33,41
35,72
34,81
37,16
36,19
38,58
37,57
40,00
38,93
41,40
40,29
42,80
41,64
44,18
42,98
45,56
44,31
46,93
45,64
48,29
46,96
49,64
48,28
50,99
49,59
52,34
50,89
53,67
63,69
66,77
76,15
79,49
88,38
91,95
100,43 104,21
112,33 116,32
124,12 128,30

70,06

74,22

77,93

99,33

118,50

124,34

129,56

135,81 140,17

Disciplina: MAT236 - Mtodos Estatsticos

Pgina 63

UFBA- Instituto de Matemtica Departamento de Estatstica

rea=0,05

Tabela 2: Distribuio Fisher-Snedecor F com os valores crticos da F tais que a


probabilidade de a varivel F ser maior que Fc vale 0,05, ou seja, Prob(F Fc) = 0,05
Fc

gl Numerador
gl
Denominador
1
2
3
4
5
6
7
8
9
10
1
161,45 199,50 215,71 224,58 230,16 233,99 236,77 238,88 240,54 241,88
2
18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40
3
10,13
9,55
9,28
9,12
9,01
8,94
8,89
8,85
8,81
8,79
4
7,71
6,94
6,59
6,39
6,26
6,16
6,09
6,04
6,00
5,96
5
6,61
5,79
5,41
5,19
5,05
4,95
4,88
4,82
4,77
4,74
6
5,99
5,14
4,76
4,53
4,39
4,28
4,21
4,15
4,10
4,06
7
5,59
4,74
4,35
4,12
3,97
3,87
3,79
3,73
3,68
3,64
8
5,32
4,46
4,07
3,84
3,69
3,58
3,50
3,44
3,39
3,35
9
5,12
4,26
3,86
3,63
3,48
3,37
3,29
3,23
3,18
3,14
10
4,96
4,10
3,71
3,48
3,33
3,22
3,14
3,07
3,02
2,98
11
4,84
3,98
3,59
3,36
3,20
3,09
3,01
2,95
2,90
2,85
12
4,75
3,89
3,49
3,26
3,11
3,00
2,91
2,85
2,80
2,75
13
4,67
3,81
3,41
3,18
3,03
2,92
2,83
2,77
2,71
2,67
14
4,60
3,74
3,34
3,11
2,96
2,85
2,76
2,70
2,65
2,60
15
4,54
3,68
3,29
3,06
2,90
2,79
2,71
2,64
2,59
2,54
16
4,49
3,63
3,24
3,01
2,85
2,74
2,66
2,59
2,54
2,49
17
4,45
3,59
3,20
2,96
2,81
2,70
2,61
2,55
2,49
2,45
18
4,41
3,55
3,16
2,93
2,77
2,66
2,58
2,51
2,46
2,41
19
4,38
3,52
3,13
2,90
2,74
2,63
2,54
2,48
2,42
2,38
20
4,35
3,49
3,10
2,87
2,71
2,60
2,51
2,45
2,39
2,35
21
4,32
3,47
3,07
2,84
2,68
2,57
2,49
2,42
2,37
2,32
22
4,30
3,44
3,05
2,82
2,66
2,55
2,46
2,40
2,34
2,30
23
4,28
3,42
3,03
2,80
2,64
2,53
2,44
2,37
2,32
2,27
24
4,26
3,40
3,01
2,78
2,62
2,51
2,42
2,36
2,30
2,25
25
4,24
3,39
2,99
2,76
2,60
2,49
2,40
2,34
2,28
2,24
26
4,23
3,37
2,98
2,74
2,59
2,47
2,39
2,32
2,27
2,22
27
4,21
3,35
2,96
2,73
2,57
2,46
2,37
2,31
2,25
2,20
28
4,20
3,34
2,95
2,71
2,56
2,45
2,36
2,29
2,24
2,19
29
4,18
3,33
2,93
2,70
2,55
2,43
2,35
2,28
2,22
2,18
30
4,17
3,32
2,92
2,69
2,53
2,42
2,33
2,27
2,21
2,16
35
4,12
3,27
2,87
2,64
2,49
2,37
2,29
2,22
2,16
2,11
40
4,08
3,23
2,84
2,61
2,45
2,34
2,25
2,18
2,12
2,08
45
4,06
3,20
2,81
2,58
2,42
2,31
2,22
2,15
2,10
2,05
50
4,03
3,18
2,79
2,56
2,40
2,29
2,20
2,13
2,07
2,03
100
3,94
3,09
2,70
2,46
2,31
2,19
2,10
2,03
1,97
1,93
Tabela gerada no Excel

Disciplina: MAT236 - Mtodos Estatsticos

Pgina 64

UFBA- Instituto de Matemtica Departamento de Estatstica

rea=0,01
Tabela 3: Distribuio Fisher-Snedecor F com os valores crticos da F tais que a
Tabela 3: Distribuio F de Snedecor.
probabilidade de a varivel F ser maior que Fc vale 0,01, ou seja, Prob(F Fc) = 0,01
=0,01

Fc

gl do Numerador
gl do
Denominador
1
2
3
4
5
6
7
8
9
10
1
4052,18 4999,50 5403,35 5624,58 5763,65 5858,99 5928,36 5981,07 6022,47 6055,85
2
98,50
99,00
99,17
99,25
99,30
99,33
99,36
99,37
99,39
99,40
3
34,12
30,82
29,46
28,71
28,24
27,91
27,67
27,49
27,35
27,23
4
21,20
18,00
16,69
15,98
15,52
15,21
14,98
14,80
14,66
14,55
5
16,26
13,27
12,06
11,39
10,97
10,67
10,46
10,29
10,16
10,05
6
13,75
10,92
9,78
9,15
8,75
8,47
8,26
8,10
7,98
7,87
7
12,25
9,55
8,45
7,85
7,46
7,19
6,99
6,84
6,72
6,62
8
11,26
8,65
7,59
7,01
6,63
6,37
6,18
6,03
5,91
5,81
9
10,56
8,02
6,99
6,42
6,06
5,80
5,61
5,47
5,35
5,26
10
10,04
7,56
6,55
5,99
5,64
5,39
5,20
5,06
4,94
4,85
11
9,65
7,21
6,22
5,67
5,32
5,07
4,89
4,74
4,63
4,54
12
9,33
6,93
5,95
5,41
5,06
4,82
4,64
4,50
4,39
4,30
13
9,07
6,70
5,74
5,21
4,86
4,62
4,44
4,30
4,19
4,10
14
8,86
6,51
5,56
5,04
4,69
4,46
4,28
4,14
4,03
3,94
15
8,68
6,36
5,42
4,89
4,56
4,32
4,14
4,00
3,89
3,80
16
8,53
6,23
5,29
4,77
4,44
4,20
4,03
3,89
3,78
3,69
17
8,40
6,11
5,18
4,67
4,34
4,10
3,93
3,79
3,68
3,59
18
8,29
6,01
5,09
4,58
4,25
4,01
3,84
3,71
3,60
3,51
19
8,18
5,93
5,01
4,50
4,17
3,94
3,77
3,63
3,52
3,43
20
8,10
5,85
4,94
4,43
4,10
3,87
3,70
3,56
3,46
3,37
21
8,02
5,78
4,87
4,37
4,04
3,81
3,64
3,51
3,40
3,31
22
7,95
5,72
4,82
4,31
3,99
3,76
3,59
3,45
3,35
3,26
23
7,88
5,66
4,76
4,26
3,94
3,71
3,54
3,41
3,30
3,21
24
7,82
5,61
4,72
4,22
3,90
3,67
3,50
3,36
3,26
3,17
25
7,77
5,57
4,68
4,18
3,85
3,63
3,46
3,32
3,22
3,13
26
7,72
5,53
4,64
4,14
3,82
3,59
3,42
3,29
3,18
3,09
27
7,68
5,49
4,60
4,11
3,78
3,56
3,39
3,26
3,15
3,06
28
7,64
5,45
4,57
4,07
3,75
3,53
3,36
3,23
3,12
3,03
29
7,60
5,42
4,54
4,04
3,73
3,50
3,33
3,20
3,09
3,00
30
7,56
5,39
4,51
4,02
3,70
3,47
3,30
3,17
3,07
2,98
35
7,42
5,27
4,40
3,91
3,59
3,37
3,20
3,07
2,96
2,88
40
7,31
5,18
4,31
3,83
3,51
3,29
3,12
2,99
2,89
2,80
45
7,23
5,11
4,25
3,77
3,45
3,23
3,07
2,94
2,83
2,74
50
7,17
5,06
4,20
3,72
3,41
3,19
3,02
2,89
2,78
2,70
100
6,90
4,82
3,98
3,51
3,21
2,99
2,82
2,69
2,59
2,50
Tabela gerada no Excel

Disciplina: MAT236 - Mtodos Estatsticos

Pgina 65

UFBA- Instituto de Matemtica Departamento de Estatstica

Tabela 4: Amplitude q para os procedimentos de Tukey

gl (f*)
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
24
30
40
60
120

0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01

2
3,64
5,70
3,46
5,24
3,34
4,95
3,26
4,75
3,20
4,60
3,15
4,48
3,11
4,39
3,08
4,32
3,06
4,26
3,03
4,21
3,01
4,17
3,00
4,13
2,98
4,10
2,97
4,07
2,96
4,05
2,95
4,02
2,92
3,96
2,89
3,89
2,86
3,82
2,83
3,76
2,80
3,70
2,77
3,64

3
4,60
6,98
4,34
6,33
4,16
5,92
4,04
5,64
3,95
5,43
3,88
5,27
3,82
5,15
3,77
5,05
3,73
4,96
3,70
4,89
3,67
4,84
3,65
4,79
3,63
4,74
3,61
4,70
3,59
4,67
3,58
4,64
3,53
4,55
3,49
4,45
3,44
4,37
3,40
4,28
3,36
4,20
3,31
4,12

4
5,22
7,80
4,90
7,03
4,68
6,54
4,53
6,20
4,41
5,96
4,33
5,77
4,26
5,62
4,20
5,50
4,15
5,40
4,11
5,32
4,08
5,25
4,05
5,19
4,02
5,14
4,00
5,09
3,98
5,05
3,96
5,02
3,90
4,91
3,85
4,80
3,79
4,70
3,74
4,59
3,68
4,50
3,63
4,40

5
5,67
8,42
5,30
7,56
5,06
7,01
4,89
6,62
4,76
6,35
4,65
6,14
4,57
5,97
4,51
5,84
4,45
5,73
4,41
5,63
4,37
5,56
4,33
5,49
4,30
5,43
4,28
5,38
4,25
5,33
4,23
5,29
4,17
5,17
4,10
5,05
4,04
4,93
3,98
4,82
3,92
4,71
3,86
4,60

k nveis
6
7
6,03
6,33
8,91
9,32
5,63
5,90
7,97
8,32
5,36
5,61
7,37
7,68
5,17
5,40
6,96
7,24
5,02
5,24
6,66
6,91
4,91
5,12
6,43
6,67
4,82
5,03
6,25
6,48
4,75
4,95
6,10
6,32
4,69
4,88
5,98
6,19
4,64
4,83
5,88
6,08
4,59
4,78
5,80
5,99
4,56
4,74
5,72
5,92
4,52
4,70
5,66
5,85
4,49
4,67
5,6
5,79
4,47
4,65
5,55
5,73
4,45
4,62
5,51
5,69
4,37
4,54
5,37
5,54
4,30
4,46
5,24
5,40
4,23
4,39
5,11
5,26
4,16
4,31
4,99
5,13
4,10
4,24
4,87
5,01
4,03
4,17
4,76
4,88

f* graus de liberdade associado ao quadrado mdio dos resduos (MSE ).


Disciplina: MAT236 - Mtodos Estatsticos

8
6,58
9,67
6,12
8,61
5,82
7,94
5,60
7,47
5,43
7,13
5,3
6,87
5,20
6,67
5,12
6,51
5,05
6,37
4,99
6,26
4,94
6,16
4,9
6,08
4,86
6,01
4,82
5,94
4,79
5,89
4,77
5,84
4,68
5,69
4,60
5,54
4,52
5,39
4,44
5,25
4,36
5,12
4,29
4,99

9
6,80
9,97
6,32
8,87
6,00
8,17
5,77
7,68
5,59
7,33
5,46
7,05
5,35
6,84
5,27
6,67
5,19
6,53
5,13
6,41
5,08
6,31
5,03
6,22
4,99
6,15
4,96
6,08
4,92
6,02
4,90
5,97
4,81
5,81
4,72
5,65
4,63
5,50
4,55
5,36
4,47
5,21
4,39
5,08

10
6,99
10,24
6,49
9,10
6,16
8,37
5,92
7,86
5,74
7,49
5,60
7,21
5,49
6,99
5,39
6,81
5,32
6,67
5,25
6,54
5,20
6,44
5,15
6,35
5,11
6,27
5,07
6,2
5,04
6,14
5,01
6,09
4,92
5,92
4,82
5,76
4,73
5,6
4,65
5,45
4,56
5,30
4,47
5,16

Pgina 66