Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
m m
10
9
8
7
6
5
4
3
2
1
0
caso C
caso B
caso A
C = grupo controle
T = grupo tratado
Caso A: duas mdias diferentes (no podemos dizer outra coisa, seno que diferem
numericamente).
O teste t (de Student) para a diferena entre duas mdias um caso especial de anlise de
varincia (ANOVA 1 fator). A frmula para t pode ser expressa para F. Vale a relao: F = t 2.
Caso B: as mesmas duas mdias (de A) com valores bem dispersos (a diferena no
estatisticamente significante). Devido disperso, a diferena no muito convincente.
Caso C: as mesmas mdias (as duas de A e B) com valores concentrados (prximos ao valor
mdio). Nesse caso, h diferena estatisticamente significante.
O problema como decidir quando as mdias so diferentes, em relao
disperso dos valores em cada grupo, a fim de concluir se h diferena estatisticamente
significante entre as mdias.
A anlise de varincia ajuda-nos a responder esta questo.
O que temos a fazer descobrir um modo de avaliar (medir) numericamente o
quo diferentes so as mdias e quanto as observaes se afastam (encontram-se dispersas) ao
redor das respectivas mdias.
Com essas duas medidas (avaliaes) nossa disposio, somos capazes de dizer
se as mdias diferem significantemente ou no.
A idia da Anlise de Varincia
Esta a idia principal para a comparao de mdias: o que importa no o quanto
as mdias amostrais esto distantes , mas o quo distantes esto relativamente variabilidade
de observaes individuais.
A ANOVA compara a variao resultante de fontes especficas com a variao
entre indivduos que deveriam ser semelhantes. Em particular, a ANOVA testa se vrias
populaes tm a mesma mdia, comparando o afastamento entre as mdias amostrais com a
variao existente dentro das amostras.
A ANOVA pressupe que podemos decompor cada valor observado em trs termos
aditivos; ou seja, ns somos capazes de escrever cada observao como uma soma de trs
termos. A decomposio pode ser escrita como:
Valor obtido (x) = mdia geral () + desvio da mdia do grupo em relao mdia geral ( x ) + desvio (ij ) entre o valor observado em relao mdia do grupo ( x - x ) ou
Data = fit + residue (error)
O modelo formal de ANOVA (1 fator ) : xij = + ij + ij
Exemplo resolvido:
Na Tabela 1, mostrada a seguir, temos cinco grupos com cinco observaes em cada
grupo. Queremos saber as diferenas nas mdias amostrais so variaes aleatrias que
ocorrem apenas devido ao acaso (just by chance) ou se existem diferenas sistemticas entre
as mdias.
Tabela 1. Dados obtidos em cinco grupos num experimento inteiramente casualizado com
cinco rplicas.
B
C
D
E
A
6
7
4
5
3
6
8
4
5
4
6
8
5
6
4
8
8
6
6
4
9
9
6
8
5
mdias amostrais ( x )
7
8
5
6
4
mdia geral = 6
Observao:
Primeira regra de anlise de dados: make a picture
Segunda regra de anlise de dados: make a picture
Terceira regra de anlise de dados: make a picture
assim, um dot plot, e/ou um box-plot e/ou ou histograma convm serem apresentados!
Grupos
B
C
D
5
6
Valores
Mean
Mean +- 1 StDev
E
D
C
B
A
Descriptive Statistics: A, B, C, D, E
Grupos
A
B
C
D
E
N
5
5
5
5
5
10
Resoluo:
SQ entre grupos: n( x - )2
Grupo A
Incio
6
6
6
6
6
Efeito
tratamento
+1
+1
+1
+1
+1
Grupo
(-x-)
7
7
7
7
7
Efeito
tratamento
+2
+2
+2
+2
+2
Grupo
(-x-)
8
8
8
8
8
Efeito
tratamento
-1
-1
-1
-1
-1
Grupo
(-x-)
5
5
5
5
5
Efeito
tratamento
0
0
0
0
0
Grupo
(-x-)
6
6
6
6
6
Efeito
tratamento
-2
-2
-2
-2
-2
Grupo
(-x-)
4
4
4
4
4
Resduo (jogo)
Final
-1
-1
-1
+1
+2
6
6
6
8
9
1
1
1
1
4
Resduo (jogo)
Final
-1
0
0
0
+1
7
8
8
8
9
1
0
0
0
1
Resduo (jogo)
Final
-1
-1
0
+1
+1
4
4
5
6
6
1
1
0
1
1
Resduo (jogo)
Final
-1
-1
0
0
+2
5
5
6
6
8
1
1
0
0
4
Resduo (jogo)
Final
-1
0
0
0
+1
3
4
4
4
5
1
0
0
0
1
5 (1)2
Grupo B
Incio
6
6
6
6
6
5(2)2
Grupo C
Incio
6
6
6
6
6
5(-1)2
Grupo D
Incio
6
6
6
6
6
5(0)2
Grupo E
Incio
6
6
6
6
6
5(4-6)2 = 5(-2)2
90
50
10
1
25
1.493
<0.005
2
Residual
Percent
99
1
0
-1
-2
-1
0
1
Residual
6
7
Fitted Value
Frequency
16
12
8
4
0
-1.0
0.5
Residual
2.0
Nesse nosso caso, estamos diante de um mau exemplo, porque os resduos no seguem
uma distribuio Normal com mdia igual a zero.
O que fazer, ento?
Uma soluo seria submeter os dados a uma transformao logartmica. Outra
possibilidade seria efetuar um teste no paramtrico (anova de Kruskal-Wallis).
Para prosseguirmos em nosso exemplo didtico, vamos fazer de conta que os resduos
seguem uma distribuio Normal, pois o teste F da ANOVA um procedimento robusto. E o
que importa a normalidade das mdias amostrais; assim, a ANOVA torna-se mais segura
medida que os tamanhos das amostras aumentam, devido ao efeito do teorema central do
limite. Quando no houver valores atpicos ( esse o nosso caso) e as distribuies forem
aproximadamente simtricas, podemos usar a ANOVA com segurana para tamanhos de
amostras bem pequenos, como 4 ou 5.
A ANOVA considera que a variabilidade das observaes, medida pelo desvio padro,
seja a mesma em todas as populaes. No fcil verificar a suposio de as populaes
Entre grupos:
SQ entre/ gl entre = SQ entre grupos/ g-1
No nosso exemplo g=5 e SQ eg = 50 logo, QM entre grupos = 50/4 = 12,50
A nossa hiptese (Ho) : sendo as mdias nas populaes das quais procedem as
amostras iguais, qual a probabilidade de obtermos valores Fcalculado to extremos?
Ho: A = B = C = D = E.
A rigor, Ho, no um teste para verificar a probabilidade de igualdade das mdias,
mas sim para verificar a probabilidade de ocorrncia da estatstica F tendo como condio
verdadeira o fato de que essas amostras procedem de populaes que apresentam o mesmo
valor mdio (no nosso exemplo, = 6). (Ho: hiptese onde quaisquer diferenas encontradas
so devido ao acaso).
Em nosso exemplo, a hiptese em investigao no coincide com a hiptese
estatstica de nulidade (Ho). Assim, se rejeitarmos Ho, ento se pode inferir com cautela que
h uma diferena sistemtica atuando, o que explica a diferena entre os valores amostrais
melhor do que a ao do acaso.
Os resultados obtidos so apresentados de forma resumida na tabela 2:
Tabela 2. ANOVA (1 fator) para os dados da Tabela 1.
Fonte de variao (ou efeito)
Entre grupos
Dentro (resduo)
Total
*p< 0,05
gl
SQ
QM
4
20
24
50
22
72
12,5
1,1
Razo
F
11,36
p-valor
0,00006*
gl (4:20)
= 2,87 para
5%. A estatstica F razo de varincia foi calculada. Ela ocorre muito ou pouco num
mecanismo de pura chance (diferenas amostrais devido ao acaso)?
Se uma observao rara (improvvel) sob determinada hiptese (Ho), ento
evidncia contra essa hiptese.
No Minitab (comando CTR + L) temos de digitar o comando CDF (cumulative
distribution function) e, a seguir, o valor da estatstica F calculada para indicar que estamos
considerando a distribuio F e, no por exemplo a Normal. Numa outra linha, os nmeros de
graus de liberdade das varincias entre os grupos (numerador) e dentro dos grupos
(denominador). A constante k1 representa a probabilidade de - at F (= 2.87) e o p-valor a
parte da curva que falta para 100% de probabilidade (rea total da curva); por esse motivo,
para se obter o p-valor, rea do que falta, temos de subtrair do total. O programa Minitab vai
armazenar esse resultado como constante k2
Se quisermos testar esses comandos (como garantia):
Edit>> Command Line Editor:
cdf 2.87 k1;
F 4 20.
let k2 = 1 k1
print k2
( X) Submit Commands:
nesse caso temos p-valor = k2 = 0.05 confirmando como verdadeira a Tabela F.
Curva F
gl (numerador) = 4
gl (denominador) = 20
CDF
0.7
0.6
0.5
0.4
0.3
0.2
5%
0.1
0.0
2.87
No rejeitar
Ho
Ho Verdadeira
1.
Erro Tipo
I
______
Ho Falsa
____
Erro Tipo II
Testes Bilaterais:
1.
ETAPAS DO TESTE DE HIPTESES
Resumo das etapas aplicadas a qualquer teste de hipteses:
I. Determinar as hipteses nula e alternativa apropriadas.
II. Selecionar a estatstica de teste que ser utilizada.
III. Especificar o nvel de significncia para o teste.
IV. Usar o nvel de significncia para estabelecer uma regra de deciso que levar rejeio ou
no de H0.
V. Coletar os dados amostrais e calcular a estatstica de teste.
VI. Comparar o valor da estatstica do teste com o(s) valor (es) crtico(s) especificado(s) na
regra de deciso para determinar se H 0 deve ser rejeitado ou no; ou calcular o valor p,
baseado na estatstica de teste. Comparar o valor p com , para determinar se H 0 deve
ser rejeitado ou no.
VII.Concluir, baseado na deciso tomada.
NOTAS E COMENTRIOS
(ii) Muitas aplicaes de teste de hipteses tm um objetivo de tomada de deciso. A concluso rejeitar
H0 fornece o suporte estatstico para concluir que H 1 verdadeiro e tomar a deciso apropriada,
seja ela qual for. A declarao no rejeitar H 0 embora no conclusiva, freqentemente fora os
gerentes a se comportarem como se H0 fosse verdadeiro. Nesse caso, os gerentes precisam estar
cientes do fato de que tal comportamento pode resultar num erro do Tipo II.
(iii) O valor p, o nvel de significncia observado, uma medida da plausibilidade dos resultados da
amostra quando a hiptese nula assumida como verdadeira. Quanto menor o valor p, menos provvel
que os resultados da amostra venham de uma populao onde a hiptese nula verdadeira. A
maioria dos softwares estatsticos fornece o valor p associado a um teste de hipteses. O usurio
pode ento comparar o valor p ao nvel de significncia e tirar concluso do teste de hipteses sem
se referir a uma tabela estatstica.
2. Para 2 desconhecida:
tc
o
S
n
o
(1 )
n
x.y n.X.Y
( x n X )( y
2
nY )
X:var. independente
2. Para uma correlao linear perfeita e inversa entre as variveis (=-1), temos
Y:var.dependente
X:var. independente
X:var. independente
X:var. independente
X:var. independente
H0 : 0
H1 : 0
Estatstica:
tc r.
n 2
1 r2
~ tn 2;
Y X u i
Y: varivel dependente
X: varivel independente
: coeficiente linear
: coeficiente angular
ui: erro aleatrio
Mtodo dos Mnimos Quadrados:
-
X:var. independente
x.y x. y
n x x
2
Ho : 0
H1 : 0
Estatstica:
tc
b 0
Sb
~ tn 2;
Sb
SE
nX
SE
y b x.y
n 2
Predio:
As equaes de regresso podem ser teis quando usadas para predizer o valor de uma
varivel, dado um valor determinado de outra varivel. Se a reta de regresso se ajusta bem
aos dados, ento podemos utilizar sua equao para fazer predies, desde que no
ultrapassem os limites dos valores disponveis. Entretanto, s devemos utilizar a equao da
reta de regresso, se houver uma correlao linear significativa.
Limitaes associadas regresso e correlao:
Se no h correlao linear significativa, a equao de regresso no deve ser utilizada para
fazer predies.
Um coeficiente de correlao significativo no indica causalidade, mas pode indicar uma ligao
comum a outros eventos.
Uma correlao significativa no , necessariamente, uma correlao importante.
A interpretao dos coeficientes de correlao e determinao est baseada na hiptese de uma
distribuio Normal bivariada para a populao e, para cada varivel, varincias condicionais
iguais.
Para as anlises de correlao e regresso pressupe-se um modelo linear. Para relaes no
lineares, pode existir uma transformao que a linearize.
Se a estimao de Y envolve a predio de um resultado que ainda no ocorreu, os dados
utilizados para calcular a equao de regresso podem no ser importantes.
A estimao de Y atravs da regresso deve ser feita para valores de X no intervalo que serviu
de base para a equao de regresso.
A estimao de Y atravs da regresso no deve ser feita para uma populao diferente daquela
de onde provm os dados amostrais.