Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
ANÁLISE DE REGRESSÃO
8.1)INTRODUÇÃO
Vimos que dentro da classe dos experimentos fatoriais encontramos aqueles cujos
níveis de um fator ( ou mais ) são quantidades e que por isto , regressão deve ser uma das
técnicas empregada na sua análise; na discussão sobre aditividade dos tratamentos no
capítulo 1, citamos a análise de covariância como uma técnica que pode corrigir em parte
os danos causados pela não aditividade. Como análise de covariância é também uma
aplicação de regressão na análise de experimentos, daremos, nesta seção, uma revisão
geral sobre esta importante técnica e veremos como ela pode ser utilizada na análise de
experimentos.
Para iniciar a revisão vejamos um exemplo discutido por Snedecor(1974).
Pesquisadores estavam interessados em relacionar a quantidade de fósforo no milho com
fósforo no solo; no estudo feito, a concentração de fósforo inorgânico ( X 1 ) e fósforo
orgânico ( X 2 ) no solo foram determinados quimicamente. A quantidade de fósforo nas
plantas que cresceram nestes solos também foi medida e os dados obtidos deste estudo,
em ppm, seguem abaixo.
FOSFORO
NA FOSFORO FÓSFORO
AMOSTRA PLANTA INORGANICO ORGANICO
1 64 0.4 53
2 60 0.4 23
3 71 3.1 19
4 61 0.6 34
5 54 4.7 24
6 77 1.7 65
7 81 9.4 44
8 93 10.1 31
9 93 11.6 29
10 51 12.6 58
11 76 10.9 37
12 96 23.1 46
13 77 23.1 50
14 93 21.6 44
15 95 23.1 56
16 54 1.9 36
17 168 26.8 58
18 99 29.9 51
Antes de aplicar uma técnica, devemos conhecer melhor os dados mediante gráficos
entre Y e X 1 e entre Y e X 2 e correlações e outras estatísticas descritivas.
ESTATÍSTICAS DESCRITIVAS
8.2)INFERÊNCIAS
Na tabela acima , está o erro padrão de cada estimativa; quanto menor o erro padrão mais
estável é a estimativa e portanto, mais confiável. O valor de t é dado pela fórmula
βˆ j
t=
erro padrão de βˆ j
Como o valor de t para β̂1 (3.21) é significativo a 5% e para β̂ 2 (0.21) não é , concluímos
neste primeiro estudo que a variável X1 está influenciando Y e que X 2 não está. O
intervalo de confiança a 95% para cada beta esta na tabela abaixo.
Parâmetro Intervalo a 95%
β1 0.60310 2.97644
β2 -0.79778 0.97108
O intervalo de confiança é dado pela fórmula
β̂j ± (erro padrão) tα
tα é o valor de t da tabela de t de Student, com α =0.05 e 15 graus de liberdade(gl), isto
é, tα =2.131.
Observe que o intervalo de confiança para β 2 contem o valor 0(zero). É evidente que
quanto menor o intervalo , mais confiável ele é e que o erro padrão é decisivo para esta
qualificação.
Mesmo que X1 e X 2 fossem importantes para Y, podemos questionar se esta
explicação foi satisfatória no seguinte sentido: da variabilidade total de Y , quanto foi
2
explicada pelas duas variáveis? Esta informação é dada pelo conhecido R , obtido pela
fórmula
SQ Re g 5975.67
R2 = = = 0.48 ou 48%
SQ Total 12389.61
Dizemos então que 48% da variabilidade total foi explicada por X1 e X 2 . Isto é
aceitável? Ou seja, o modelo é aceitável? Não existe uma outra variável importante? Não
existe outra equação melhor que esta?
Conhecido as estimativas dos betas , pode-se estimar os valores de Y pela equação
de regressão
Ŷi = 56.25 + 1.79X i1 + 0.09X i 2 ;
como conhecemos os valores observados de Y, a diferença ( Ŷi − Yi ) é o erro estimado (ou
resíduo), e assim temos a seguinte tabela:
Obs Yi ˆi
Y Resíduo
1 64 61.56 2.44
2 60 58.96 1.04
3 71 63.45 7.55
4 61 60.27 0.73
5 54 66.74 -12.74
6 77 64.93 12.07
7 81 76.89 4.11
8 93 77.01 15.99
9 93 79.52 13.47
10 51 83.83 -32.83
11 76 78.97 -2.97
12 96 101.58 -5.58
13 77 101.93 -24.93
14 93 98.72 -5.72
15 95 102.45 -7.57
16 54 62.77 -8.77
17 168 109.24 58.75
18 99 114.18 -15.18
8.3)VALIDAÇÃO
Perguntamos se o modelo era bom; pelo exame dos resíduos concluímos que o
modelo não é tão bom pois alguns são elevados (um deles é o da observação 17, igual a
58.75). O que é um erro grande ou não, será discutido mais adiante. Aproveitando esta
2
tabela, vamos completar o significado de R ; mediante desenvolvimento algébrico,
2
sabemos que R = R é o coeficiente de correlação entre o valor observado e o valor
estimado pela equação de regressão ( R = Corr (Y, Ŷ) ). Se o modelo fosse perfeito, os erros
2
estimados seriam zero e a correlação( R ) seria 1, assim como R . Um gráfico entre
Y e Ŷ ajuda a formar nosso julgamento:
O gráfico não contém sintomas de heterogeneidade das variâncias mas ele não é
conclusivo; novamente observamos que a obs 17 não acompanha as outras.
Aproveitando a explicação sobre variância homogênea, vamos tratar de outros dois
tipos de intervalos de confiança. Vimos que para cada conjunto de valores das variáveis
explicativas ( X i1, X i 2 ,..., X ip ), pressupõe-se uma distribuição dos valores de Y, com
média ( β0 + β1X i1 + β 2 X i 2 + ... + β p X ip ) - que depende dos valores dos valores das
2
variáveis explicativas - e variância σ ; num estudo de regressão, na sua maioria, tem-se
apenas um valor de Y de cada distribuição, como no exemplo do fósforo onde temos 18
observações , cada uma representando uma distribuição. Vamos supor que o pesquisador
deseje estimar a quantidade de fósforo na planta quando X1 = 15 e X 2 = 55; certamente
existe uma distribuição de Y para X1 = 15 e X 2 = 55 e duas formas de estimativas
são frequentemente confundidas: o pesquisador deseja estimar a média de Y da
distribuição ou estimar um valor de um individuo da população ? Ocorre que a estimativa
é a mesma em ambos casos: Ŷ(15;55) = βˆ 0 + βˆ 1 (15) + βˆ 2 (55) = 87.86 . Entretanto, há uma
diferença : se a estimativa é de uma média, então a variância é menor assim como também
o intervalo de confiança .Para a média o intervalo é 73.27----102.45, e para um valor
individual é 41.44---134.29. Para o estudo em questão os intervalos são os seguintes:
Obs X1 X2 Y ˆ
Y ERRO L1 L2 M1 M2
FV GL SQ QM F Pr > F
R 2 = 0.53
O estudo nos resultados da análise sem a obs 17, indica que esta observação deve
ser retirada . Quais as diferenças entre as duas análises?
Erro R2
Com a obs 17 427.60 0.48
Sem a obs 17 150.09 0.52
Parâmetro intervalo a 95% (com obs 17) intervalo a 95% (com obs 17)
p +1
2) | DFFITSi | > 2
n
então a observação i é influente para Ŷi .
2
3)| DFBETASij | >
n
então a observação i foi influente para estimar β j .
O que significa a obs i ser influente para, por exemplo, estimar β j ? Com todos os
dados do estudo β̂ j tem um valor mas retirando-a β̂ j tem um valor diferente. A teoria
sobre esse assunto encontra-se em Belsley at al (1980). Vamos exercitá-los no exemplo
onde n=18 , p=2. A análise forneceu os seguintes resultados:
Cov --------DFBETAS--------
Obs Ratio DFFITS Intercept X1 X2
1
Yi1 / 2 = Yi = ou
β 0 + β1X i1 + β 2 X i 2 + ε i
2
1
Yi =
β
0 + β X
1 i1 + β X
2 i2 + ε
FV GL SQ QM F Pr > F
R 2 =0.67
R 2 (ajustado)=0.59
Intervalo de
Parâmetro confiança(95%)
β1 1.56 9.05
β2 -0.29 0.94
Como ainda existe um erro relativamente grande, se retirarmos a obs 10 temos os seguintes
resultados:
FV DF SQ QM F Pr > F
R 2 =0.74
R 2 (ajustado)=0.68
Intervalo de
Parâmetro Estimativa Erro t Pr > |t| confiança(95%)
1 64 67.3 -3.2853
2 60 56.0 3.9772
3 71 63.0 7.9937
4 61 60.6 0.4155
5 54 68.5 -14.5038
6 77 71.9 5.0398
7 81 77.4 3.5419
8 93 81.9 11.1117
9 93 86.1 6.8605
10 . 76.3 .
11 76 81.9 -5.9013
12 96 95.8 0.1352
13 77 91.4 -14.4212
14 93 95.8 -2.8280
15 95 84.7 10.2441
16 54 63.9 -9.9475
17 . 84.7 .
18 99 97.4 1.5674
9.1 INTRODUÇÃO
FV GL
Blocos r-1
Tratamentos v-1
Covariável 1
Erro (v-1(r-1)-1
Total vr-1
9.2 EXEMPLO 1
X=CISTOS ANTES
Y=CISTOS DEPOIS
Y1=DIFERENCA ENTRE DEPOIS E ANTES ;
DADOS DE UM EXPERIMENTO COM NEMATOIDE
]
As médias dos tratamentos para X, Y e Y1=Y-X, estão na tabela abaixo:
TRAT X Y Y1
1 123,43 366,12 242,68
2 142,50 223,00 80,50
3 194,50 280,50 86,00
4 100,50 266,50 166,00
5 97,25 316,25 219,00
6 128,25 357,75 229,50
7 142,00 310,25 168,25
8 104,25 232,00 127,75
9 138,50 219,25 80,75
Source DF SQ QM F Pr > F
CV= 45.20
FV GL SQ QM F Pr > F
CV = 40.21
O teste F não foi significativo em ambas variáveis. Qual o significado da análise da variável
X, população de nematoides antes da aplicação dos tratamentos ? A significância para
tratamentos indicaria que alguns deles teriam sido beneficiados enquanto outros
prejudicados pelas diferentes populações de nematóides, entretanto, a não significância não
implica que isto não ocorreu., isto é, não houve influencia da covariável nos efeitos dos
tratamentos. Por outro lado, o teste F também não foi significativo para a variável resposta
Y, embora as médias dos tratamentos sejam bastante diferentes, sugerindo isto que o erro
experimental esteja acima do esperado. Vamos então ver como fica a análise de
covariância:
FV GL SQ QM F Pr > F
Aqui observamos que o teste F foi significativo para tratamentos e para a covariavel, com
β̂ =1.559; nota-se que o erro experimental de 15130.28, passou para 7131.55, uma redução
de 47%. Se a influência da covariável não fosse significativa, aceitaríamos a hipótese nula
de que β = 0 e não haveria análise de covariância. Para facilitar a comparação entre os
efeitos dos tratamentos, define-se a média ajustada do tratamento i como sendo:
Yaj,i = Yi − ˆ
β(Xi − X),
isto é, se a media de X nas parcelas que receberam o tratamento i( Xi) fosse igual a média
de X( X ) no experimento, então não haveria ajustamento. O desejável seria que todas a
medias Xi fossem iguais a X , situação esta que dispensaria a análise de covariância. O
quadro com as médias de Y , X e as médias ajustadas é o seguinte:
TRAT X Y Yaj Y1
FV GL SQ QM F Pr > F
TRAT X Y Y1
Yaj
1 123,43 366,12 373.95 242,68
2 142,50 223,00 201.10 80,50
3 194,50 280,50 177.54 86,00
4 100,50 266,50 310.08 166,00
5 97,25 316,25 364.90 219,00
6 128,25 357,75 358.07 229,50
7 142,00 310,25 289.13 168,25
8 104,25 232,00 269.74 127,75
9 138,50 219,25 203.59 80,75
Aplicando-se o teste F , a hipótese nula é aceita e o modelo com um beta para todos os
tratamentos é o recomendado.
FV GL SQ QM F Pr > F
9.3 EXEMPLO 2
Obs drug x y
1 a 11 6
2 a 8 0
3 a 5 2
4 a 14 8
5 a 19 11
6 a 6 4
7 a 10 13
8 a 6 1
9 a 11 8
10 a 3 0
11 d 6 0
12 d 6 2
13 d 7 3
14 d 8 1
15 d 18 18
16 d 8 4
17 d 19 14
18 d 8 9
19 d 5 1
20 d 15 9
21 f 16 13
22 f 13 10
23 f 11 18
24 f 9 5
25 f 21 23
26 f 16 12
27 f 12 5
28 f 12 16
29 f 7 1
30 f 12 20
a 9.3 5.3
d 10.0 6.1
f 12.9 12.3
Certamente o placebo foi aplicado nas pessoas que estavam mais atacadas pela doença e há
uma relação linear entre y e x.
Variável Y:
FV GL SQ QM F Pr > F
Covariável X:
FV DF SQ QM F Pr > F
FV GL SQ QM F Pr > F
a 6.7149635
d 6.8239348
f 10.1611017
X y
drug Mean Mean
a 9.3 5.3
d 10.0 6.1
f 12.9 12.3
Pelos resultados as análise da covariância, as conclusões vão mudar.
Existem algumas aplicações para a análise de covariância onde a covariável é de
outra natureza. Suponha que houve uma pequena inundação no experimento e algumas
parcelas foram inundadas ; pode-se definir como X uma covariável que tem valor 1 nas
parcelas inundadas e 0 nas outras e assim, mediante a análise de covariância, retirar
parcialmente o efeito da inundação. Também o modelo de regressão pode ser quadrático,
como por exemplo:
yij = µ + bj + ti + β1(xij − x) + β 2(xij − x)2 + eij