Sei sulla pagina 1di 5

Comparação de várias médias

A Análise de Variância (ANOVA) trata-se de um método estatístico que permite realizar


comparações simultâneas entre duas ou mais médias, ou seja, permite testar hipóteses
sobre médias de distintas populações.
Em um caso simples, onde temos uma variável categórica X (e.g. variável explicativa do
modelo) que contenha mais de duas categorias (exemplo: estações do ano, k = 4 categorias -
verão, outono, inverno e primavera), as medições de uma dada variável resposta Y de nosso
interesse passa a ser induzida à um particionamento em subpopulações, neste caso 4
subpopulações - estações do ano. E é sobre estas subpopulações que construímos a hipótese a
ser testada.
As diferenças eventuais entre cada das Xi subpopulações (com i = k número de estações do ano)
poderiam ser testadas tomando-as duas a duas e utilizando testes de diferenças entre dois grupos
(exemplo: teste t). No entanto, a combinação destes procedimentos dois à dois acarretaria em
um número elevado de comparações, onde este quantitativo pode ser estimado a priori pela
equação:

k∗(k −1)
C 2k =
2

Mesmo que o problema não esteja fadado ao número de testes a serem realizados, há uma
implicação muito mais complexa que este esforço em realizar testes combinados, relacionada
diretamente ao controle do nível de significância desta combinação. De maneira geral, a
probabilidade de erros do tipo I e tipo II é acumulada a cada combinação, de maneira que,
quando executamos este tipo de combinação a probabilidade de termos um erro do tipo I pode
ser estimada por:

αcombinação = 1 − (1 − α)c

onde α é o nível de significância para cada teste t realizado e c é o número de


testes t independentes. Ou seja, em um caso onde temos quatro subpopulações a serem testadas,
teriamos que realizar 6 testes t independentes, resultantes da combinação entre as 4 estações do
ano (verão x inverno, verão x primavera, verão x outono, inverno x primavera, inverno x
outono, primavera x outono). Considerando um nível de significância para cada teste
independente α = 0.05, a probabilidade real de termos um erro do Tipo I não seria igual a 5%
como esperado inicialmente, mas sim de 26,5% (0,265) estimado pela combinação dos níveis de
significância dos testes independentes.
Neste sentido, a Análise de Variância (ANOVA) se justifica, pois permite testar a diferença
entre os k grupos globalmente, utilizando um único teste estatístico.

ANOVA

Análise de Variância trata-se de um teste sobre a igualdade (ou não) dos valores esperados
(médias) de uma determinada variável de interesse nas k subpopulações de interesse. Assim, o
que se desejar testar é:

Repetiçõe Amostras
s
A1 A2 ... Ak
1 Y11 Y21 ... Yk1
2 Y21 Y22 ... Yk2
... ... ... ... ...
ni Y1n Y2n ... Tkn
T1 T2 Tk

H0 : μ1 = μ2 = ... = μk
H1 :  pelo menos um μ é distinto dos demais.

O teste é construído comparando-se duas estimativas independentes de σ2 a partir


das k subpopulações. A primeira expressa eventuais diferenças entre as subpopulações (ou
grupos), mais precisamente sob os desvios entre as estimativas médias das subpopulações ( μ1, 
μ2, ..., μk) e a estimativa da média populacional (μ) (SQE - Soma dos Quadrados entre os
Grupos). Já a segunda, esta centrada na diferença dentro dos grupos, focada nos desvios entre
as observações e a média amostral de seu respectivo grupo (SQD - Soma dos Quadrados dentro
dos Grupos).
Assim, considerando este particionamento da variabilidade total (SQT - Soma dos Quadrados
Totais) e seus respectivos graus de liberdade, pode-se calcular duas estimativas não viciadas da
variância populacional σ2. Uma baseada na razão entre SQD e seus respectivos graus de
liberdade (n − k) e, outra, dada pela razão entre SQE e seus graus de liberdade (k − 1).
Por fim, o teste se motiva em comparar estas duas medidas da variância populacional não
viciada, onde a razão entre elas segue uma distribuição F com k − 1 e n − k graus de liberdade.
Se pensarmos algebricamente, o que esperaríamos desta razão, caso H0 fosse verdadeira, é que
o valor resultante deste quociente fosse próximo ou igual a 1, assumindo assim que ambas
estimações da variância populacional são iguais.

Modelo Matemático
Yij = µ + ti + eij, com i = 1, 2, ..., ni e j = 1, 2, ..., nk
onde
µ é uma constante (média geral) comum a todas as observações;
ti é o efeito do i-ésimo amostra (ou nível do fator) na variável dependente, que mede o
afastamento da média do tratamento i em relação à média geral, isto é: t i = µi - µ
eij é um erro aleatório atribuído à observação y ij, , não observável, independente, com
distribuição normal de média zero e variância σ 2.
OBS: pelas definições de µ e de t i tem-se que o modelo considerado possui a restrição que a
n
soma dos efeitos dos tratamentos é nula, ou seja, ∑ t i = 0
i=1

O desdobramento das somas de quadrados construiu o quadro da ANOVA. Que é facilmente


calculado usando o Bioestat 5.3 colocando os dados das amostras em colunas, escolhendo a
opção: Análise da Variância – Um critério e também se Rejeitarmos H 0 na análise é permitida
a escolha de um teste de Comparações Múltiplas (Tukey).
Quadro da análise da Variância
Causas de Variação Gl SQ QM F
QME
Entre amostras  k-1 SQE   QME SQD
Resíduo (dentro) n-k   SQD  SQD  
Total n-1   SQT     

Pressupostos ou Suposições do Método

Assim como outros testes de hipóteses, a Análise de Variância também se estrutura sob algumas
suposições ou pressupostos para que seja aplicável, sendo estes:

 Todas as observações devem ser independentes;


 As observações em cada grupo devem possuir uma distribuição,
aproximadamente normal;
 As variâncias em cada grupo devem ser aproximadamente iguais.

A independência entre as observações é sempre importante em uma ANOVA. A condição de


normalidade é muito importante quando se têm pequenas amostras em cada grupo. Já a
condição de constância das variâncias é especialmente importante quando os tamanhos das
amostras que se pretende analisar são diferentes.

Análise de Variância Simples

A base de dados abaixo consiste em amostras de intensidade de vento provenientes de 4 áreas


distintas onde serão instalados parques eólicos. No entanto, a empresa responsável pela
instalação está entrando no mercado nacional agora, e pouco conhece a realidade destas áreas,
tampouco a constância de vento em cada uma delas. E com isso, está um pouco receosa se vale
a pena concorrer nos 4 processos licitatórios de cada uma das áreas.

Para que a empresa não tome uma decisão às escuras, foram disponibilizados dados de
medições de vento em cada uma das regiões. A ideia é avaliar se nas quatro regiões as
intensidades de vento são iguais. Caso contrário, identificar qual ou quais regiões não vale a
pena participar do processo de licitação. Teste ao nível α =5% de significância.

As informações disponibilizadas seguem apresentadas na tabela abaixo. Todos os dados foram


disponibilizados em metros por segundo (m/s).
Tabela 1 - Medições de intensidade de vento nas 4 (quatro) áreas onde serão instalados os
parques eólicos.

ID Área I Área II Área III Área IV


1 3,2 4,2 5,4 4,5
2 3,5 3,7 4,6 3,8
3 2,7 3,4 4 4,1
4 4,1 4,3 5,3 3,1
5 3,1 3,9 4,7 4,2
6 3,7 4,1 4,2 3,4
7 4,2 3,1 4,9 4,2
8 3,6 4,5 4,7 4,5
Comparações Múltiplas
O Teste de Tukey é baseado na amplitude total estudentizada (studentized range) e pode ser
usado para comparar todo contraste entre duas médias de tratamentos. Para efetuarmos o teste
devemos calcular primeiramente o valor da diferença mínima significativa (d.m.s) que servirá
para decidirmos se o contraste entre as médias dos tratamentos i e i', Yi = µi - µi', é nulo ou não.

Se o experimento for balanceado (r repetições/ Grupos), usamos a estatística:

d.m.s. = q(k; n-k; α) √ QMD/k

Vale notar que o valor da amplitude total estudentizada - q - é obtido de tabela própria, e
depende do número de grupos (k) e do número de graus de liberdade para o resíduo (n - k).
Após calcular o d.m.s., calculamos o valor dos contrastes entre os pares de médias (Y i = mi - mi)
e comparamos esses valores com o d.m.s.:
 se | Yi | > d.m.s. rejeitamos H0, ao nível a de significância, e concluímos que as
médias dos tratamentos envolvidos são diferentes;
 Se | Yi | < d.m.s., não rejeitamos H0 e concluímos que as médias dos
tratamentos envolvidos são iguais.

Exercícios

1. Com o objetivo de comparar os resultados dos laboratórios de ensino línguas de uma


cidade, 4 laboratórios foram selecionados aleatoriamente, e 5 alunos foram
sorteados dos quatro laboratórios. Os resultados obtidos pelos quatro laboratórios
estão abaixo, teste a 5% de significância os laboratórios.
Lab A B C D

58,7 65,7 55,9 60,7

61,4 64,5 56,1 60,3

60,9 63,1 57,3 60,9

59,1 59,2 55,2 61,4

58,2 60,3 58,1 62,3

2. Numa experiência didática, trinta alunos de uma classe considerada muito


homogenia receberam aulas de certa disciplina segundo três métodos diferentes (A, B
e C), sendo todas as aulas dadas pelo mesmo professor. Os alunos foram distribuídos
pelas turmas por sorteio, e o método A foi aplicado com uma turma de 10 alunos, o
método B e método C com outros 10 alunos. Teste, ao nível de 5% de significância, se
há diferença entre a entre os métodos. Os dados e as análises seguem:
Método
A 6.4 7 7 6.2 6.9 6.8 7.2 6 7.7 5.3

Método
B 7.5 8 10 6.9 8.4 5.4 8.3 9 7.5 7.7

Método
C 6 6.5 7 7.5 6.3 6.6 6.7 6 7 7.4

Potrebbero piacerti anche