Sei sulla pagina 1di 5

Comparao de duas

mdias amostrais
Tratamento Paramtrico

Diferenas entre testes


paramtricos e no-paramtricos
Testes paramtricos:
Com pressuposies sobre o tipo de distribuio
das observaes e dos parmetros.
Ex: teste t distribuio Normal


Testes no paramtricos:


No h pressuposies sobre a distribuio


(livres de distribuio)
Baseiam-se em postos (ranks) dos dados.
Pouco influenciados por valores extremos

Tratamento Paramtrico
Se o tamanho da amostra grande, a mdia
amostral se distribui de forma
aproximadamente Normal, mesmo que a
varivel no siga uma distribuio Normal
(Teorema do Limite Central).
O teste t considerado um teste robusto, o
que significa que, mesmo se houver uma
pequena discrepncia em relao
Normalidade, o teste pode ser aplicado.

Implicaes do tamanho da
amostra
amostras pequenas (< 6 observaes):
difcil dizer qual a distribuio da varivel;
podem ser pouco representativas da
populao
amostras pequenas (< 30 observaes):
distribuio de t de Student para dados que
se distribuam de modo Normal
amostras grandes: distribuio do teste
Normal (Teorema do Limite Central)
No h um nmero exato a partir do qual se possa dizer que uma amostra
seja grande.

E quando houver uma clara discrepncia dos


dados em relao distribuio Normal?


Duas sadas possveis:


transformar os dados (ex. calculando o logaritmo) em
uma tentativa de obter uma distribuio
aproximadamente Normal;


utilizar um teste no-paramtrico adequado. Os testes


no-paramtricos no fazem suposies sobre a
distribuio dos dados.

Teste t para 2 amostras independentes (e


varincias iguais)

Exemplo (Teste t 2 amostras


independentes)

O teste t para 2 amostras independentes tambm


conhecido como teste t no-pareado
Comparao de mdias de 2 grupos independentes
de observaes usando amostras representativas.
Suposies:


Comparao do peso mdio de um grupo de


24 ovelhas que passou por um processo de
flushing (recebeu nutrio altamente calrica
algumas semanas antes do acasalamento)
com um grupo-controle de 30 ovelhas.

indivduos sorteados aleatoriamente da populao


duas amostras devem ser independentes
a varivel de interesse deve se distribuir de forma Normal
em cada uma das populaes (das quais as amostras
foram colhidas)
as varincias devem ser aproximadamente iguais

Teste t para 2 amostras independentes


(para varincias iguais)

2) Observar grficos referentes a cada uma das


amostras. Verificar visualmente se a suposio
de distribuio Normal adequada.

1) Estabelecer as hipteses do teste


Hiptese nula: os pesos mdios dos dois
grupos so iguais.
Hiptese alternativa: os pesos mdios
so diferentes.

Verifique tambm se as varincias so


aproximadamente iguais.

72

H 0 : 1 = 2
H1 : 1 2

peso corporal (kg)

H 0 : 1 2 = 0

ou

H1 : 1 2 0

70
68
66
64
62
60

controle

grupo

flushing

Descriptive Statistics
Variable: todas

p=0,972

grupo: controle

Interrompendo o exerccio para falar sobre


o teste F para varincias

Anderson-Darling Normality Test


A-Squared:
P-Value:

61

63

65

67

69

Mean
StDev
Variance
Skewness
Kurtosis
N

71

Minimum
1st Quartile
Median
3rd Quartile
Maximum

95% Confidence Interval for Mu

0.139
0.972
65.7733
2.4972
6.23582
0.118183
-5.0E-01
30
61.1000
63.8250
65.6500
67.4250
71.1000

95% Confidence Interval for Mu


64.8409
65

66

67

66.7058

95% Confidence Interval for Sigma


1.9888

3.3570

95% Confidence Interval for Median

95% Confidence Interval for Median

64.8686

66.9543

Descriptive Statistics
Variable: todas
grupo: flushing

p=0,894

Anderson-Darling Normality Test


A-Squared:
P-Value:

61

63

65

67

69

71

95% Confidence Interval for Mu

0.187
0.894

Mean
StDev
Variance
Skewness
Kurtosis
N

67.3667
2.2525
5.07362
-9.5E-02
-3.9E-01
24

Minimum
1st Quartile
Median
3rd Quartile
Maximum

62.7000
66.0250
67.3500
69.4000
71.8000

95% Confidence Interval for Mu


66.4155
66

67

68

1.7507

95% Confidence Interval for Median

68.3178

95% Confidence Interval for Sigma


3.1597

95% Confidence Interval for Median


66.1827

Neste caso, atravs da


observao dos boxplots, pode-se
assumir que os dados sigam a
distribuio Normal (boxplots com
aspecto simtrico).
No entanto, podemos
tambm utilizar um teste de
Normalidade (como o teste de
Anderson-Darling feito pelo
Minitab) para confirmar a hiptese
de Normalidade.
p >> 0,05
podemos
assumir que os dados
sigam a distribuio
Normal


O teste F, tambm
conhecido como teste
da razo de varincias,
pode ser utilizado para
testar se dois conjuntos
de dados apresentam a
mesma varincia.
A estatstica do teste

H 0 : 12 = 22
H1 : 12 22

s12
, s12 > s22 , onde s12 e s22 so as varincia s dos 2 grupos
s22
graus de liberdade do numerador : n1 1
F=

graus de liberdade do denominado r : n2 1

68.4079

Voltando ao nosso exemplo...

Ainda o Teste F


3) Calcular a estatstica (frmula) do teste t.


Nesse caso:

No caso do nosso exemplo, os resultados


obtidos no Minitab so:
Test for Equal Variances
Level1
Level2
ConfLvl

x1 x2

t=

controle
dieta
95,0000

Como p>0,05, no h
evidncia de desigualdade
entre as varincias e a
hiptese de igualdade das
varincias permanece vlida.

F-Test (normal distribution)


Test Statistic: 1,229
P-Value
: 0,617
Levene's Test (any continuous distribution)

t=2,43

1 1
+
n1 n2

s2 =


com n1 + n2 2 graus de liberdade

(n1 1) s12 + ( n2 1) s 22
n1 + n2 2

s: desvio padro conjugado

4) Obter o valor de p: p=0,018


H uma chance de 1,8% de obter uma
diferena entre os pesos mdios de 1,59 kg
ou superior, se a hiptese nula for verdadeira.

Test Statistic: 0,238


P-Value
: 0,628

Two-Sample T-Test and CI: dieta; controle

5) Decidir se rejeita ou no H0:


pouco provvel que a hiptese nula que a hiptese de que
no h diferena entre os pesos seja verdadeira. Assim,
rejeitamos a hiptese nula em favor da hiptese alternativa,
de que h diferena entre os pesos mdios. Alm disso, o
peso das ovelhas que passaram pelo processo de flushing ,
em mdia, 1,59kg superior ao das ovelhas do grupo-controle.

Two-sample T for dieta vs controle


N
dieta
24
controle 30

Mean
67,37
65,77

StDev
2,25
2,50

SE Mean
0,46
0,46

Difference = mu dieta - mu controle


Estimate for difference: 1,593
95% CI for difference: (0,279; 2,908)
T-Test of difference = 0 (vs not =): T-Value = 2,43 P-Value = 0,018
DF = 52
Both use Pooled StDev = 2,39

6) Intervalo de confiana de 95% para a diferena entre as


mdias:
IC 95% para a diferena: (0,279; 2,908)
IC 95% no inclui o valor 0 (zero). Portanto, a diferena entre
as mdias no compatvel com 0, o que confirma a rejeio
da hiptese nula.

Histogramas

Como esse teste no segue


uma distribuio t, o clculo
do valor de p no direto.
No entanto, os pacotes
estatsticos (como o
Minitab) incluem essa
opo de teste, e fazem a
estimativa de p.

t=

x1 x2
s12 s22
+
n1 n2

Freqncia absoluta

Nesse caso, utiliza-se um


teste t modificado, com a
seguinte estatstica:

40

23 oC

30

20

10

0
15

20

25

30

Perodo de pr-muda (dias)

40

Freqncia absoluta

Teste t para 2 amostras independentes


(varincias desiguais)

25 oC

30

20

10

0
15

20

25

Perodo de pr-muda (dias)

30

Perodo de pr-muda
de ninfa de carrapatos
(Dados hipotticos)

Descriptive Statistics

p=0,229

Variable: t23

Exemplo Teste t para amostras


independentes (varincias desiguais)

Anderson-Darling Normality Test


A-Squared:
P-Value:

20

Exemplo: Comparar os tempos mdios


de pr-muda (em dias) de ninfa do
carrapato Amblyomma cajennense, em
laboratrio, nas temperaturas de 23C e
25C.
1) Hipteses: Descriptive Statistics: t25; t23

22

24

26

28

Mean
StDev
Variance
Skewness
Kurtosis
N

30

Minimum
1st Quartile
Median
3rd Quartile
Maximum

95% Confidence Interval for Mu

0,480
0,229
24,9955
2,0161
4,06458
0,333140
0,633287
100
20,3755
23,8634
25,0360
26,2531
30,8911

95% Confidence Interval for Mu


24,5955
24,6

24,8

25,0

25,2

25,4

25,3956

95% Confidenc e Interval for Sigma


1,7701

2,3420

95% Confidence Interval for Median

95% Confidence Interval for Median

24,6352

25,3205

Descriptive Statistics
Variable: t25

p=0,530

Anderson-Darling Normality Test


A-Squared:
P-Value:

Variable
t25
t23

H 0 : 1 = 2
H 1 : 1 2

N
100
100

Mean Median
18,766 18,771
24,996 25,036

TrMean
18,742
24,943

StDev
0,889
2,016

SE Mean
0,089
0,202
17,25

Variable
t25
t23

Minimum
16,912
20,376

Maximum
21,241
30,891

Q1
18,057
23,863

18,00

Q3
19,335
26,253

18,75

19,50

20,25

Mean
StDev
Variance
Skewness
Kurtosis
N

21,00

Minimum
1st Quartile
Median
3rd Quartile
Maximum

95% Confidence Interval for Mu

18,5898
18,65

18,75

18,85

18,95

19,05

2) Verificando se as varincias so iguais (teste F)

t23

N
t23 100
t25 100

2,5

Levene's Test
Test Statistic: 33,050
P-Value
: 0,000

1,0324

19,0322

Two-sample T for t23 vs t25

t25

F-Test

18,5884

Two-Sample T-Test and CI: t23; t25

Factor Levels

Test Statistic: 5,146


P-Value
: 0,000

18,9425

3) Resultados do teste t para 2 mdias amostrais


considerando varincias desiguais

Test for Equal Variances

2,0

16,9122
18,0572
18,7714
19,3347
21,2411

95% Confidence Interval for Sigma


0,7803

1,5

18,7662
0,8887
0,789843
0,262128
4,28E-02
100

95% Confidence Interval for Median

95% Confidence Interval for Median

1,0

0,319
0,530

95% Confidenc e Interval for Mu


18,55

95% Confidence Intervals for Sigmas

Confirmando a
Normalidade dos
dados

Mean
25,00
18,766

StDev
2,02
0,889

SE Mean
0,20
0,089

Difference = mu t23 - mu t25


Estimate for difference: 6,229
95% CI for difference: (5,794; 6,665)
T-Test of difference = 0 (vs not =): T-Value = 28,27 P-Value = 0,000 DF = 136

Boxplots of Raw Data


t23

t25

20

p < 0,001


25

30

varincias desiguais

4) Decidir se rejeita ou no a hiptese nula:


O valor de p muito pequeno (p<0,001), e, portanto,
rejeitamos a hiptese nula de igualdade. Ou seja, os
tempos mdios de pr-muda para as temperaturas de
23C e 25 C so significativamente diferentes, com base
nas informaes dessas amostras.

Teste t pareado
O teste t pareado utilizado quando selecionamos duas
amostras com observaes dependentes ou pareadas.
auto-pareamento: cada animal selecionado da populao seu
prprio controle;
pareamento natural (filhotes da mesma ninhada, gmeos);
pareamento de animais idnticos.


Boxplots of t23 and t25


(means are indicated by solid circles)

30

25

20

baseado na hiptese de que diferenas entre pares de


observaes se distribuem de forma aproximadamente Normal,
embora as observaes originais nos grupos possam no
apresentar distribuio Normal.
Porm, nos casos em que se suspeita que as diferenas no
sigam a Normal, podem ser utilizados: transformao dos dados;
teste no-paramtrico.


t23

t25

Exemplo (teste t pareado)


Um grupo de pesquisadores (Nelson et al., 1998)
fez uma comparao de duas diferentes dietas em
11 ces diabticos, medindo o nvel srico de
glicose como uma varivel indicadora da qualidade
do controle de diabetes. As dietas ou continham
fibra pouco insolvel (LF) ou fibra altamente
insolvel (HF). Os ces foram alocados de modo
aleatrio para receber uma das dietas primeiro.
Esse tipo de delineamento conhecido como
cross-over (randomized cross-over trial).

2) Observar um grfico (por exemplo, diagrama de


pontos) dos dois grupos que esto sendo comparados.

H 0 : 1 = 2

ou

H1 : 1 2

ou

d = 0
d 0

onde o ndice d significa diferena

Boxplot da diferena de nvel de glicose nas


duas dietas

25

10
20

Diferena (LF-HF) de
glicose srica (mmol/l)

Nvel de glicose (mmol/l)

1) Estabelecer as hipteses do teste


Hiptese nula: a diferena mdia do nvel
de glicose (em mmol/l) entre as duas dietas
zero
Hiptese alternativa: a diferena mdia
no zero

15
10
5
0
LF

8
6
4
2
0
-2

HF
Tipo de dieta

Dotplot of Differences

3) Calcular a estatstica do teste:

t=

(with Ho and 95% t-confidence interval for the mean)

t = 4,37

d
sd / n

_
X

Ho

d a mdia das diferenas


sd o desvio padro das diferenas
4) Obter o valor de p:

p = 0,001

Paired T-Test and CI: LF; HF


Paired T for LF - HF
LF
HF
Difference

N
11
11
11

Mean
13,47
9,66
3,808

StDev SE Mean
5,30
1,60
4,13
1,24
2,892 0,872

95% CI for mean difference: (1,866; 5,751)


T-Test of mean difference = 0 (vs not = 0): T-Value = 4,37 P-Value = 0,001

Differences

5) Decidir se rejeita ou no H0:


Se a hiptese nula for verdadeira, h uma chance de apenas
0,1% (p=0,001) de observarmos uma diferena mdia to
grande quanto 3,81 mmol/l. Como a diferena mdia
significativamente diferente de zero, rejeitamos H0. A dieta
com fibra altamente insolvel reduz de modo significativo o
nvel de glicose em relao dieta com fibra pouco insolvel.
6) Intervalo de confiana de 95% para a diferena mdia:
IC 95% para a diferena: (1,866; 5,751)
IC 95% no inclui o 0 (zero), o que confirma a rejeio de H0.

Potrebbero piacerti anche