Sei sulla pagina 1di 51

Material de Apoio para

Anlises Estatsticas

Parte 1: Estatstica e interpretao de dados

Parte 2: Guia para execuo das anlises estatsticas

Goinia GO
Abril/ 2009
PARTE 1

ESTATSTICA E INTERPRETAO DE DADOS

Paulo De Marco Jnior


Departamento de Biologia Geral, Universidade Federal de Gois
Adriano Pereira Paglia
Analista de Biodiversidade- Conservao International do Brasil

INTRODUO

O objetivo deste texto no , nem de longe, ser um manual completo para guiar as suas
atividades na rea da anlise de dados. Antes, deseja-se apresentar algumas idias
interessantes que possam desafiar a vontade de ser mais eficiente no uso destas ferramentas.
A nfase aqui demonstrar que todos os testes estatsticos mantm a mesma estrutura lgica
e, portanto, podem ser facilmente entendidos.

POR QUE USAR ESTATSTICA

Considere o seguinte experimento: um pesquisador est interessado em avaliar o status de


conservao de duas espcies filogeneticamente prximas. Tendo recursos limitados para ser
gasto no manejo destas populaes, ele considera a possibilidade de medir sua variabilidade
populacional natural para escolher com qual delas vai gastar seus recursos. Aquela mais
varivel deve ser, a longo prazo, mais ameaada de extino por estocasticidade demogrfica.
O pesquisador escolhe utilizar estimativas do tamanho destas populaes nos ltimos 5 anos e
encontra que a populao A mais varivel que a B. Existe uma pergunta que gera toda a
necessidade de serem utilizados mtodos estatsticos: se outro pesquisador repetisse o
experimento, qual a probabilidade de encontrar os mesmos resultados, a mesma concluso?
Tratando-se de fenmenos biolgicos, cuja natureza est ligada a mltiplas causas de
variao, possvel que os resultados particulares observados no sejam repetidos. Isto quer
dizer que suas concluses podem ser falsas. Todo e qualquer problema para o qual a pergunta
do final do pargrafo anterior possa ser formulada com significado, um problema que exige
uma soluo estatstica.

FILOSOFIA DE TESTES ESTATSTICOS

Todos os mtodos de inferncia estatstica (testes estatsticos) so iguais no sentido de que se


baseiam em uma mesma srie de argumentos lgicos. Considere ainda o problema anterior e
siga os passos lgicos para um teste:

2
Formulao de uma hiptese

Neste caso, a hiptese bsica que no h diferenas na variabilidade populacional para as


duas populaes estudadas que pertencem a duas espcies. Esta hiptese pode ser considerada
a mais simples hiptese que pode ser formulada sobre o problema. Qualquer outra hiptese (a
espcie A varia mais; a espcie B varia mais) logicamente mais complexa, porque pressupe
a existncia de no mnimo um efeito a mais (h um fator que causa a maior variabilidade da
espcie A ou B). A hiptese mais simples geralmente chamada de Hiptese nula.

Deduo do resultado esperado quando a hiptese nula verdadeira

Este um passo obviamente simples: o esperado que a variao seja igual. Pode-se medir
esta variao por uma grandeza estatstica chamada varincia. Este passo importante para
que se possa operacionalizar o teste, ou seja, definir claramente o que medir na natureza para
testar a hiptese.

Deduo da distribuio esperada dos possveis resultados, se a hiptese nula fosse


verdadeira

Este passo delicado. Como seria possvel demonstrar que h uma alta probabilidade de que
os resultados sustentem ou no a hiptese nula. Considere um exemplo: a espcie A
apresentou uma varincia de 17,6 e a espcie B, uma varincia de 21,3. Ser que isto
suficiente para assumir que a espcie B varia mais? O primeiro passo calcular um nmero
que represente o resultado obtido. Uma possibilidade dividir a maior varincia pela menor.
Chamemos este nmero de F (em honra a Ronald Fisher). Neste exemplo, ele vale 1,21, e
representa que a variao na espcie B 1,21 vezes maior que a A. A ateno deve se voltar
agora para a hiptese nula. Qual seria a distribuio esperada dos possveis valores de F se a
hiptese nula fosse verdadeira? Isto equivale a dizer: como variaria F se na verdade as duas
varincias fossem iguais ? Uma nova coleta de dados na mesma comunidade (ou mesmo
amostragens em dias diferentes do estudo original) mostraria pequenas diferenas. Tais
diferenas no significativas se devem ao acaso. O acaso rene todos os outros fatores da
natureza no medidos e que podem afetar os resultados do experimento, exceto os
mecanismos que esto subjacentes hiptese. Este passo agora feito por um estatstico-
matemtico que desenvolve uma equao que representa a distribuio esperada se o
fenmeno descrito fosse devido somente ao acaso. Esta equao usualmente chamada de
funo de distribuio e descreve a probabilidade de ocorrer cada uma das possibilidades de
resultado, quando o fenmeno apenas dirigido pelo acaso.

A tomada de uma deciso

A deciso a ser tomada a de aceitar ou rejeitar a hiptese nula. Isto equivale a decidir se as
varincias podem ser consideradas iguais e suas diferenas podem ser explicadas pelo acaso
ou se as varincias podem ser consideradas diferentes e preciso invocar um outro
mecanismo, fora o acaso, para explicar as diferenas. O mtodo para testar simples. Se a
variao de F conhecida quando a hiptese nula verdadeira, basta calcular qual a
probabilidade de encontrar um resultado como 1,21 quando a hiptese nula verdadeira,
usando a funo de distribuio de F. Se esta probabilidade for alta, no h nenhuma razo

3
para desconfiar que a hiptese nula seja falsa. Ou seja, se as diferenas encontradas so
passveis de ocorrer mesmo quando as varincias so iguais, deve-se aceitar o acaso para
explicar as variaes observadas. Se a probabilidade baixa, ento muito raro ocorrer um
resultado como o que foi observado quando a hiptese nula verdadeira, o que mostra que ela
no satisfaz como explicao para o fenmeno. Assim, faz-se necessria outra explicao, que
no o acaso, para as diferenas entre as varincias. Elas so estatisticamente diferentes.
Ao decidir pela rejeio ou no da hiptese nula (Ho) o pesquisador corre o risco de estar
tomando uma deciso errada. Existem dois tipos de erros associados deciso em um teste de
hipteses: o primeiro erro, dito Erro Tipo 1, decidir pela rejeio da hiptese nula sendo ela
verdadeira. Voltando ao exemplo, Ho foi rejeitada, ou seja, as populaes A e B tm
varincias diferentes. Faz-se necessrio estimar o grau de incerteza associado essa deciso.
A probabilidade de se cometer o Erro Tipo 1 o chamado nvel de significncia, ou . Adotar
um nvel de significncia de 5% quer dizer probabilisticamente que se a amostragem for
repetida 100 vezes, em 95 delas a deciso tomada estar correta rejeitando-se Ho.
A outra deciso errada aceitar a hiptese nula quando ela falsa. Esse o chamado Erro
Tipo 2, cuja probabilidade definida por . O poder de um teste definido como 1 - , isto ,
quanto menor a probabilidade de cometer o Erro Tipo 2 mais poderoso o teste. Ambos os
erros so indesejveis, porm o pesquisador tem controle mais efetivo sobre o Erro Tipo 1.
Para diminuir a probabilidade de rejeitar uma hiptese nula sendo ela verdadeira, basta
reduzir o nvel de significncia (geralmente de 5% para 1%). A mesma regra no se aplica
para o valor de . Na verdade, quanto mais se reduz o nvel de significncia mais se aumenta
a probabilidade de cometer o Erro Tipo 2. A nica maneira de reduzir simultaneamente
ambos os tipos de erro de deciso aumentar o tamanho da amostra. Assim, para um dado
nvel de significncia, amostras grandes produzem um teste estatstico mais poderoso. Para
concluir, importante ressaltar que no rejeitar a hiptese nula no prova que ela
verdadeira. Pela lgica dos testes de hipteses, quer dizer que no existem evidncias
suficientes para concluir que ela falsa.

TIPOS DE VARIVEIS E ESCOLHA DOS TESTES

Quando procuramos testar uma hiptese, geralmente possvel identificar dois tipos de
variveis: a independente e a dependente. A varivel independente ou preditora aquela
que, em teoria, causa o efeito que procuramos confirmar. A varivel dependente a que mede
o efeito sofrido. No exemplo, o tamanho da populao a varivel dependente e a varivel
independente a espcie. Estamos investigando a possibilidade de que o tamanho
populacional (e a variabilidade desta medida) seja diferente entre as espcies, como resultado
de suas diferenas ecolgicas.
Uma outra maneira de classificar as variveis quanto natureza de suas medidas. Os dois
exemplos extremos das escalas de medidas so as variveis categricas e as quantitativas.
Variveis categricas apenas representam distines de qualidade, enquanto as variveis
quantitativas representam diferenas de quantidades. No exemplo anterior, as espcies so
variveis categricas e o tamanho da populao uma varivel quantitativa. Esta diviso
refere-se forma como os dados foram coletados: uma varivel categrica como a cor (preto,
branco etc.) pode ser medida como quantitativa (o comprimento de onda da luz emitida). A
Tabela 1 apresenta um modelo bastante simplificado para a escolha do teste estatstico
apropriado.

4
Tabela 1. Sugesto de alguns testes estatsticos a empregar de acordo com o tipo de varivel
observada. Entre parnteses alguns testes no-paramtricos.

Varivel Varivel Teste


Dependente Independente
Quantitativa 1 Categrica com 2 nveis Teste t (teste U)
Quantitativa 1 Categrica com + 2 nveis ANOVA 1-fator (Kruskall-Wallys)
Quantitativa 2 Categricas ANOVA 2-fatores (Friedman1)
Quantitativa 1 Quantitativa Regresso simples (correlao Spearman)
Quantitativa 2 ou mais quantitativas Regresso mltipla
Quantitativa 1 categrica e 1 ou mais ANCOVA
quantitativas
Categrica 1 Categrica Qui-quadrado2; Teste G2
Categrica 2 ou mais categricas Log-linear2

(1) No caso de amostras dependentes, (2) Esses testes eventualmente verificam no a relao de dependncia
entre variveis, mas sim a associao entre elas, descaracterizando, portanto a classificao de variveis
dependentes e independentes.

A APRESENTAO DE RESULTADOS

O cientista , em essncia, um escritor. De que realmente vale o conhecimento produzido se


no for exposto com clareza comunidade que poder utilizar este conhecimento? Assim,
deve-se ter a preocupao com apresentar as idias dando sempre nfase ao problema
biolgico e ao tamanho do efeito atingido, e resguardando o resultado dos testes estatsticos
ao bem delimitado espao interno dos parnteses. Por exemplo, no se deve dizer: As
populaes tiveram diferenas de variabilidade populacional estatisticamente diferentes pelo
teste F. Melhor dizer: A populao A variou 2 vezes mais que a populao B (F = 2,31;
P<0.05). No se esquea que mais facilmente compreensvel o que nos for apresentado por
figuras, do que por longas Tabelas.

UM BREVE APANHADO DE PRESSUPOSTOS E TRANSFORMAES

Sero apresentados aqui alguns testes estatsticos mais empregados, tentando demonstrar que
todos eles seguem a mesma lgica de tomada de deciso. O que um teste estatstico faz
fornecer uma medida de incerteza ou as chances de se tomar uma deciso errada. Para que tal
rotina funcione, alguns pressupostos devem ser cumpridos.
Um primeiro cuidado envolve o desenho amostral. preciso garantir que as amostras sejam
tomadas ao acaso e, a menos que seja interesse explcito, que elas sejam independentes.
Muitos dos problemas na anlise dos dados vm da no observncia desses pontos.
Alguns testes estatsticos dependem da distribuio dos dados ou, mais precisamente, da
distribuio da mdia amostral. Tais testes so classificados como "paramtricos" e, para
empreg-los, deve-se garantir que alm da distribuio ser normal as varincias entre grupos
(no caso de teste t e ANOVA) devem ser iguais. De maneira geral, os dois pressupostos:
normalidade e homogeneidade de varincias no so requisitados para os testes no-
paramtricos. O problema que nem sempre existe uma alternativa no-paramtrica para cada
teste paramtrico.
As transformaes dos dados geralmente so empregadas para tentar corrigir a no-
normalidade ou a heterocedasticidade das varincias. Como exemplo de transformaes
temos a logartmica (para corrigir distribuies assimtricas e para remover a dependncia

5
entre mdia e varincia, alm de homogeneizar varincias entre grupos), a raiz-quadrada (para
dados de contagens, por exemplo, nmero de filhotes por gestao) e a transformao arco-
seno da raiz-quadrada ou angular (para dados em proporo). Independente da transformao
escolhida, um problema comum que os dados transformados perdem seu significado
biolgico, o que pode levar a interpretaes equivocadas das possveis relaes entre as
variveis.

UMA BREVE RESENHA DOS TESTES ESTATSTICOS

Sero apresentados aqui alguns dos principais testes estatsticos tentando mostrar como so
percorridos os passos lgicos definidos em nosso exemplo.

Comparando categorias: O teste do qui-quadrado

A Tabela 1 mostra que no estudo da dependncia entre duas variveis categricas utiliza-se o
teste de Q-quadrado. Considere a seguinte questo: existe associao entre uma determinada
espcie de ave frugvora e uma determinada famlia de plantas? Para dar nome ao
experimento considere que a ave seja Thraupis sayaca (o sanhao) e a famlia de plantas as
Melastomatceas. Seguindo-se os passos pr-definidos observa-se:

Hiptese. A hiptese nula seria a de que no h associao entre o sanhao e as


Melastomatceas. Como coletar dados para testar esta hiptese? Toda vez que se observar um
ato de frugivoria por uma ave no campo deve-se classificar a espcie de rvore em uma das
categorias: se ou no uma Melastomatacea. Da mesma forma deve-se classificar a ave como
sendo ou no um sanhao. Existem agora duas variveis categricas binrias. A Tabela 2
rene os resultados deste experimento em observaes de campo no campus da Universidade
Federal de Viosa:

Tabela 2. Tabela de contingncia de 99 observaes de pssaros em rvores.

um Sanhao?
Sim No Total
uma Sim 13 34 47
Melastomatcea?
No 12 40 52

Total 25 74 99

A proporo de sanhaos encontrados em Melastomatceas foi de 13/47=0,276 enquanto nas


no Melastomatceas esta proporo foi de 12/52=0,231.

Deduo do resultado esperado se a hiptese nula for verdadeira


Qual o valor esperado para cada clula da Tabela acima sob a hiptese de que no h
associao? O esperado que a proporo de que se encontre sanhao em Melastomataceae
igual proporo desta espcie quando no Melastomataceae. Isto tambm quer dizer que

6
as diferenas encontradas nos nmeros observados nas clulas internas da Tabela seriam
explicadas apenas por diferenas no nmero de amostras (a coluna e a linha denominadas
total na Tabela). Assim, a proporo 25 sanhaos no total de 99 aves observadas deveria se
manter tanto para as 47 aves encontradas em Melastomatceas quanto para as 52 encontradas
em no Melastomatceas. Isto o equivalente a predizer que o resultado esperado para o
nmero de sanhaos observados em Melastomatceas seria obtido pela regra de trs simples:
25 est para 99 como x est para 47. A Tabela 3 mostra os valores esperados.
Tabela 3. Valores esperados da Tabela 2 se Ho for verdadeira.

um Sanhao?
Sim No Total
uma Sim 11,9 35,1 47
Melastomatcea?
No 13,1 38,9 52

Total 25 74 99

A pergunta agora passa a ser: quo diferentes so os resultados observados em relao ao


esperado pelo acaso? Para definir a estatstica deste teste usamos o Q-quadrado cujo smbolo
2. Ele seria estimado simplesmente pela diferena entre observado e esperado, elevada ao
quadrado, dividida pelo esperado. Este nmero pode ser calculado para cada uma das clulas
e o somatrio destes nmeros utilizado como teste estatstico. Voc pode olhar em uma
Tabela de Q-quadrado com 1 grau de liberdade, calculado como: g.l. = (n linhas-1) x (n
colunas-1), a um nvel de significncia de 5% e avaliar se este valor grande comparado com
o da Tabela. No entanto, mais usualmente, os programas atuais de estatstica j indicam qual
foi o nvel de significncia atingido. Neste caso, 2 =0,271 e o nvel de significncia atingido
foi p=0,602

Tomada de Deciso. O que representa o valor de p acima? Ele a probabilidade de encontrar


resultados como o que se obteve quando a hiptese nula verdadeira. Se em um
experimento delineado como o que voc acaba de executar h 60,2% de chances de
encontrar resultados como os que voc encontrou quando a hiptese nula verdadeira,
ento h fortes razes para aceit-la. No texto da comunicao do resultado deste estudo
deve, em alguma parte, estar escrito algo como: em torno de 27% das aves observadas em
Melastomatceas eram sanhaos e esta proporo em no Melastomatceas foi de 23%. Tais
diferenas foram consideradas como devidas ao acaso (2=0,271; gl=1; p=0,602).

7
O EFEITO DE UMA VARIVEL CATEGRICA COM DOIS NVEIS SOBRE UMA
VARIVEL QUANTITATIVA: O TESTE T DE STUDENT

Um pesquisador quer avaliar o sucesso de duas tcnicas de reintroduo de indivduos de uma


espcie de macaco em uma rea. A pergunta : ser que deix-los em um local de pr-
adaptao com fornecimento apenas de complemento alimentar aumenta as chances de
sobrevivncia do indivduo? Neste ponto, sero discutidos aspectos puramente estatsticos
deste problema, mas ao final deste captulo ser apresentada uma anlise mais completa deste
problema como exemplo de questes mais amplas sobre Biologia da Conservao.
Considerando-se este como um experimento modelo, com recursos financeiros
suficientemente grandes para permitir o acompanhamento deste indivduo reintroduzido at
sua morte, pouco provvel que existam muitos indivduos que possam servir de amostra.
Outro fator complicante que, para as comparaes aceitveis, necessrio que todos os
indivduos sejam de mesmo sexo, mesma idade e sejam aceitos por grupos sociais
semelhantes (mesma estrutura social com mesmo nmero de machos, fmeas e filhotes).
Assumindo todas estas variaes, acompanhou-se a vida de indivduos que foram
reintroduzidos a partir de dois grupos, os que passaram e que no passaram pela pr-
adaptao. Esta ser a varivel independente categrica binria. A varivel resposta a idade
em que o indivduo morreu. A Tabela 4 resume os resultados encontrados:
Tabela 4. Longevidade do primata sob duas condies experimentais.

Indivduo Pr-adaptao Longevidade


(anos)
1 Sim 2
2 Sim 3
3 Sim 3
4 Sim 2.5
5 No 3
6 No 2
7 No 2
8 No 1
9 No 0.5

A hiptese nula reza que no h diferenas de longevidade dos primatas com ou sem pr-
adaptao. Propositalmente foi apresentado um conjunto de dados que apresenta dois dos
principais problemas que usualmente assustam quem comea a usar os testes estatsticos. Os
dados parecem muito regulares para estarem apresentando distribuio normal e a
longevidade na ausncia do perodo de pr-adaptao parece variar mais que com a pr-
adaptao.
Para entender melhor o significado destes dados, h necessidade de aprofundar um pouco
mais a fase da construo do teste referente deduo da distribuio esperada caso a
hiptese nula seja verdadeira. Este passo exige uma deduo baseada em alguns pressupostos
bsicos que podem variar entre os testes, mas so muito semelhantes para o conjunto de testes
classificados como modelos lineares gerais, do qual fazem parte o teste de t, a anlise de
varincia e a anlise de regresso.
Na deduo, parte-se do princpio de que os dados provm de uma distribuio normal e de
que a variao dos dados, em cada tratamento (a varincia com e sem a fase de pr-

8
adaptao), igual. Importante ressaltar que quando os pressupostos no so cumpridos, nada
assegura que os resultados dos testes estejam corretos. No entanto, os estatsticos consideram
que um teste robusto quando apesar de alguns pressupostos no serem cumpridos ele
permanece correto. O teste de t, por exemplo, bastante robusto a desvios da normalidade.
Quanto a diferenas de variao, h um teste de t para varincias iguais (homogneas) e outro
para varincias diferentes, que pode ser facilmente encontrados em qualquer dos software
dedicados anlises estatsticas. Sendo assim, o teste t uma ferramenta muito til e muito
robusta, podendo ser utilizado mesmo em situaes como as do exemplo.
A partir dos dados da Tabela 4, observa-se que, em mdia, os indivduos que receberam o
tratamento de uma fase de pr-adaptao viveram 2,625 anos, enquanto os que no receberam
sobreviveram 1,700 anos. Isto representa uma sobrevivncia de 0,975 anos a mais com a fase
de pre-adaptao, mas a pergunta persiste, qual a probabilidade disto ter ocorrido pelo acaso?
Um aspecto interessante que diferenas como estas podem ser devidas ao acaso,
principalmente com poucas amostras (4 indivduos sob a fase de pr-adaptao). Conduzindo
o teste, encontra-se um valor de t=1,722, que com 7 graus de liberdade (g.l.=n-1), leva a um
valor de p=0,129. A um nvel de significncia de 5% aceitamos a hiptese nula de que a fase
de pr-adaptao no alterou a sobrevivncia dos macacos.
Este pode parecer um resultado incoerente que ser discutido em detalhes mais adiante neste
captulo.

O EFEITO DE UMA VARIVEL CATEGRICA COM VRIOS NVEIS SOBRE


UMA VARIVEL QUANTITATIVA: A ANLISE DE VARINCIA

Em algumas situaes o pesquisador quer comparar no as mdias de dois grupos, mas de 3


ou mais. A alternativa de comparar as mdias duas a duas de cada grupo pouco eficiente,
uma vez que pode ser produzido um grande nmero de pares. Se existirem 6 grupos, o
pesquisador necessitaria de 15 testes t para comparar as mdias de todos os grupos. Para
resolver essa situao, Ronald Fisher desenvolveu, na dcada de 20, a tcnica da Anlise de
Varincia, ou ANOVA.
Imagine uma situao na qual o pesquisador deseja comparar a densidade populacional de
uma espcie de planta ao longo de um gradiente altitudinal. Para tal, ele definiu quatro cotas
de altitude e em cada uma coletou em oito pontos, perfazendo um total de 32 amostras.
Estimou, ento, os parmetros mdia e varincia da densidade de plantas em cada uma das
quatro cotas. A partir da ele formulou as seguintes hipteses:

Ho: 1 = 2 = 3 = 4
Ha: Existe diferena na densidade mdia entre as cotas de altitude.
Observe que a hiptese nula (Ho) tambm quer dizer que no h efeito da altitude sobre a
densidade da espcie, com conseqncia lgica da igualdade das mdias em altitudes
diferentes. Para se rejeitar a hiptese nula, basta que pelo menos, um par apresente valores
mdios diferentes, para um nvel de significncia de 5% ( = 0,05). Os valores obtidos pelo
pesquisador esto listados na Tabela 5.

9
Tabela 5. Nmero de indivduos coletados em cada uma das 4 cotas de altitude.

ALTITUDE PONTOS DE COLETA


P1 P2 P3 P4 P4 P6 P7 P8
Cota 1 19 15 17 21 22 23 22 19
Cota 2 21 22 17 20 17 21 21 24
Cota 3 16 17 19 18 14 20 15 17
Cota 4 18 18 14 16 19 15 13 18

A partir dos dados coletados possvel estimar os parmetros mdia e varincia da densidade
populacional para cada uma das quatro cotas de altitude. A varincia em particular pode ser
dividida em dois componentes: varincia entre os grupos (ou varincia devido ao tratamento)
e varincia dentro dos grupos (varincia devido ao erro). Um quadro de ANOVA
caracterstico, resultante do conjunto de dados apresentados no exemplo est ilustrado na
Tabela 6.

Tabela 6. Anlise de varincia testando o efeito da altitude sobre a abundncia da planta.

Fonte de variao Soma de Graus de Quadrado F Valor p


Quadrados Liberdade mdio
Efeito (Altitude) 94,25 3 31,42 5,66 0,004
Erro amostral 155,25 28 5,54
Total 249,5 31

Uma das maneiras de se estimar quanto um conjunto de dados varia em relao ao valor
mdio, somar todas as diferenas entre cada valor e a mdia, tomando o cuidado de elevar a
diferena ao quadrado para evitar que a soma iguale a zero. Essa a chamada soma dos
quadrados (SQ). Ao dividir esse valor pelo nmero de graus de liberdade temos o quadrado
mdio (QM), ou varincia. A estatstica F calculada ao se dividir o QM do efeito (varincia
entre os grupos) pelo QM do erro (varincia dentro dos grupos). Voc deve lembrar o que foi
dito no incio desse texto: o valor F uma razo entre varincias. Compara-se o valor F
calculado com o valor esperado sendo a hiptese nula verdadeira, e decide-se pela sua
rejeio ou no. A maioria dos programas estatsticos calcula a probabilidade associada ao
valor F calculado. No exemplo acima, o valor F calculado foi de 5,66, com um nvel de
significncia atingido (ou valor-p estimado) de 0,004. Como o valor-p est bem abaixo do
nvel de significncia adotado de 0,05 rejeitamos a hiptese nula, ou seja, existe efeito
significativo da altitude sobre a densidade da planta. Uma boa maneira para ilustrar o
resultado sem apresentar o quadro completo fornecer o valor F com seus graus de liberdade
e o valor-p. No exemplo acima, diramos: Existe diferena na densidade ente as cotas de
altitude (F3,28=5,66; p=0,004). Alm disso, a apresentao grfica dos valores mdios por
grupo, com suas respectivas medidas de variao facilita a visualizao dos resultados.
Grficos do tipo box-plot como o da figura 1 so bem ilustrativos.

10
Figura 1. Representao das mdias, erros-padro e desvios-padro do nmero de plantas nas
quatro altitudes amostradas.

O teste ANOVA indica se existe diferena, mas no informa onde esta se encontra. Para tal,
tendo rejeitado a hiptese nula pela ANOVA faz-se necessrio um teste a posteriori. De uma
maneira geral, existem dois grupos de testes a posteriori. Os primeiros, denominados testes de
comparao mltipla, nos quais no se estabelece uma hiptese a priori, e os testes de
comparao planejada, empregando a tcnica de contrastes. Este ltimo, mais "elegante",
deve ser utilizado sempre quando o pesquisador j possuir, antes de iniciar o experimento,
uma hiptese de como seus grupos devem se diferenciar.

Existem muitos testes de comparao mltipla, sendo os mais conhecidos, Tukey, Duncan e
Scheff. Aplicando o teste de comparao mltipla de Tukey no exemplo, observa-se que as
diferenas se encontram entre as cotas 1 e 4; 2 e 3; 2 e 4.

A DEPENDNCIA ENTRE DUAS OU MAIS VARIVEIS QUANTITATIVAS:


REGRESSO LINEAR
Todos os modelos estatsticos lineares apresentam a mesma formulao. Podemos escrever o
modelo do exemplo acima da ANOVA como: N de indivduos = + (altitude) + Erro, ou
seja, o nmero de indivduos da planta funo da altitude. O que determina a associao
entre a varivel dependente (n de indivduos) com a varivel independente (altitude) o
coeficiente . Devido ao fato de que a varivel independente ser, no exemplo, categrica
(quatro cotas de altitude), empregamos a tcnica de ANOVA (veja a Tabela 1).
Agora imagine que o pesquisador, ao invs de coletar oito amostras em cada uma das quatro
cotas de altitude, fez coletas ao longo de todo o gradiente altitudinal. Alm disso, o

11
pesquisador estimou tambm a riqueza de insetos polinizadores em cada ponto de coleta e
obteve os seguintes resultados:

Tabela 7. Abundncia da planta e riqueza de espcies de polinizadores por altitude.

Altitude N de espcies de Nmero de


(metros) polinizadores indivdos da planta
500 27 31
550 15 32
610 12 28
680 45 29
720 20 30
770 40 20
810 10 15
890 27 15
930 29 13
990 12 12
1030 25 10
1080 8 8
1140 12 7
1200 9 9
Em primeiro lugar, cabe testar se existe associao entre a abundncia de plantas e a altitude.
O modelo linear seria ento:
N de indivduos = + (altitude) + ,
onde e so constantes, sendo o intercepto, isto o ponto onde a reta de regresso corta
o eixo Y e o coeficiente da regresso, que indica o grau de associao entre as duas
variveis. O erro amostral indicado por . O valor estimado do coeficiente da regresso
indica a intensidade e a direo da regresso. A figura 2 ilustra as retas originadas a partir de
diferentes valores de inclinao. O que a regresso linear faz estimar, atravs do mtodo
chamado "quadrados mnimos", os coeficientes do modelo. Associada a essa estimativa, testa-
se as seguintes hipteses:

Ho: = 0 (no existe associao entre as duas variveis)


Ha: 0, (existe associao entre as duas variveis)

12
positivo igual a zero negativo

Figura 2. Retas produzidas por diferentes coeficientes de regresso. > 0 indica associao
positiva; < 0 associao negativa e igual a zero indica ausncia de associao entre as
duas variveis.

Voltando ao modelo do exemplo, o mtodo de quadrados mnimos estimou a seguinte


equao: N de indivduos = 52,9 - 0,04 (altitude) + erro. Isso significa que a diminuio de
0,04 unidades da varivel independente leva a um aumento de uma unidade na varivel
dependente. Com essa equao, possvel predizer quantos indivduos deve ter uma
populao dessa planta numa determinada altitude. Ainda no testamos se o coeficiente de
inclinao estatisticamente diferente de zero. Note que o valor -0,04 , indicado na equao
acima, no o valor de . O coeficiente da regresso calculado de tal forma que varie entre
-1 (alta correlao negativa) a 1 (alta correlao positiva), passando por zero (ausncia de
correlao). O resultado de uma regresso pode ser visualizado na Tabela abaixo:
Tabela 8. Efeito da altitude sobre a abundncia de plantas.
Coeficientes Estatstica
B g.l. t Valor-p
Intercepto 52,928 12 15,316 < 0,001
Altitude -0,947 -0,0405 12 -10,275 < 0,001

O coeficiente de correlao estimado foi de -0,947, indicando uma alta correlao negativa.
medida que aumenta a altitude, diminui a abundncia da planta. Essa diminuio se d na
"velocidade" de menos 1 indivduo a cada 0,04 metros de altitude. Na Tabela 8 tambm est
indicado o teste t utilizado para testar a hiptese nula de que o coeficiente de inclinao
igual a zero. Com o valor calculado de -10,275 para 12 graus de liberdade rejeita-se Ho. Uma
outra maneira de testar a significncia da regresso utilizar uma anlise de varincia. A
Tabela 9 demonstra a sada tpica da maioria dos programas estatsticos para o procedimento.

Tabela 9. Anlise de varincia para a regresso entre altitude e abundncia da planta.

Fonte de variao Soma de Graus de Quadrado F Valor p


Quadrados Liberdade mdio
Regresso 1055,5 1 1055,5 105,57 < 0,001
Resduo 119,9 12 9,99

Total 1175,5

13
Como foi dito no tpico sobre ANOVA, a soma dos quadrados (SQ) uma estimativa da
varincia particionada entre a regresso e o resduo, ou erro. A proporo entre a SQreg e a
1055,5
SQtot indica quanto da variao explicada pela regresso. Nesse caso = 0,898 . A
1175,5
regresso explica 89,8% da variao dos dados. Esse valor o chamado R2 da regresso, e
pode tambm ser calculado simplesmente elevando-se ao quadrado o valor do coeficiente de
correlao (R = -0,947 R2 = 0,898). O teste segue a mesma lgica de uma ANOVA
comum. Calcula-se o valor da estatstica F pela diviso dos quadrados mdios.
(QMReg/QMRes). Compara-se o valor calculado com o esperado sendo verdadeira a hiptese
nula e toma-se a deciso. No exemplo, o elevado valor de F indica que a regresso
altamente significativa (Figura 3).

Figura 3. Regresso entre a altitude amostrada e abundncia de plantas.

O pesquisador pretende testar se a altitude, assim como, tambm, a riqueza de espcies de


polinizadores, determinam a abundncia da planta. O modelo agora :
N de indivduos = + 1(altitude) + 2(riqueza) + ,
Foram incorporados ao modelo o efeito da riqueza de espcies polinizadoras sobre a
abundncia de indivduos. A regresso linear agora dita regresso mltipla. Em tese,
podemos tornar um modelo cada vez mais explicativo pela incluso de novas variveis,
porm, dois pontos devem ser observados. Primeiro, o tamanho da amostra deve ser grande o
suficiente para o nmero de variveis. Regresses com poucos pontos em relao ao nmero
de variveis so altamente explicativas (apresentam altos valores de R2), mas no so
confiveis. O outro problema com muitas variveis independentes que se elas estiverem
correlacionadas, ento a interpretao dos coeficientes de correlao de cada uma fica
prejudicada.

14
Voltando ao modelo, a regresso mltipla testa, por meio de ANOVA, a significncia do
ajuste, e testa tambm atravs do teste t, os coeficientes estimados para cada termo da
regresso. A sada usual de uma anlise de regresso mltipla similar da regresso
simples, apenas incluindo-se as variveis adicionais (Tabela 10).

Tabela 10. Efeito da altitude e da riqueza sobre a abundncia de plantas.

Coeficientes Estatstica
B g.l. t Valor-p
Intercepto 52,495 11 10,984 < 0,001
Altitude -0,942 -0,040 11 -9,092 < 0,001
Riqueza 0,014 0,011 11 0,138 0,892

Estima-se o coeficiente de correlao de cada varivel do modelo. Nesse caso, a densidade


negativamente influenciada pela altitude e no sofre efeito da riqueza de espcies de
polinizadores. Alm dos coeficientes parciais de correlao, calcula-se tambm o coeficiente
de correlao mltipla R, nesse caso de 0,947, muito prximo do coeficiente de correlao da
varivel altitude. A regresso explica cerca de 89,8% da variao total (R2 = 0,898). A analise
de varincia da regresso mltipla tambm similar da regresso simples (Tabela 11).

Tabela 11. Anlise de varincia para a regresso mltipla entre altitude e riqueza com a
abundncia das plantas.

Fonte de variao Soma de Graus de Quadrado F Valor p


Quadrados Liberdade mdio
Regresso 1055,7 2 527,86 48,48 <0,001
Resduo 119,8 11 10,88
Total 1175,5

QUANDO A VARIVEL DEPENDENTE BINRIA: A REGRESSO LOGSTICA

Em algumas situaes prticas de campo difcil ter boas estimativas da abundncia de uma
espcie. Isso principalmente verdadeiro quando se trata de espcies raras, ou de difcil coleta
e/ou visualizao. A questo que muitas vezes so essas espcies nosso foco de interesse.
Imagine, ento, que voc est interessado em discutir a influncia de fatores antrpicos sobre
uma espcie rara. Imagine que tais fatores so mensurveis como, por exemplo, rea perdida
ou concentrao de metais pesados na gua. Podemos imaginar um modelo preditivo (atravs
da regresso linear, por exemplo) que nos fornea uma idia de qual seria a "velocidade" com
que a populao perde indivduos medida que aumenta o nvel de poluio.
Por se tratar de espcie rara, ou pelo menos inconspcua, as chances de voc conseguir boas
estimativas dos tamanhos populacionais pequena. O mximo que se consegue afirmar se a
espcie est ou no presente numa determinada amostra, se no se est preocupado com a
abundncia, mas sim com a ocorrncia da espcie. Assim, a varivel resposta (dependente)
categrica, e s pode assumir dois valores (presena ou ausncia). Para essa e outras situaes
semelhantes (morreu/sobreviveu; tem filhotes/no tem filhotes, etc...) a anlise indicada a
regresso logstica (veja a Tabela 1).

15
Uma situao mais real: algumas espcies de macro-invertebrados de gua doce da famlia
Chironomidae (Diptera) podem ser indicadoras de qualidade ambiental. Certas espcies s
ocorrem em ambientes preservados, enquanto que outras esto presentes em sistemas
aquticos bastante eutrofizados. Os dados apresentados abaixo so de Marques et al. (1999).
Os autores coletaram em 20 pontos da bacia do Rio Doce, no estado de Minas Gerais. Em
cada ponto, foram medidas diversas variveis fsico-qumicas da gua, entre elas, a
concentrao de nitrognio total, que indicador de grau de eutrofizao. Diversas espcies
de Chironomidae foram coletadas. Abaixo apresentamos os dados de ocorrncia de duas
espcies. Observe que nos dados originais a presena das espcies est categorizada em 3
classes de abundncia.

Tabela 12. Presena (1) e ausncia (0) de duas espcies de Chironomidae concentrao de
nitrognio total em 20 pontos da bacia do Rio Doce.

Ponto Tanitarsus sp Cryptochironomus Nitrognio total


(g/l)
1 1 0 262,4
2 1 1 420,6
3 0 1 1889
4 1 1 718,5
5 1 1 471,3
6 0 0 1219,3
7 0 1 1587
8 1 1 482,6
9 0 1 2132
10 0 0 3112
11 0 0 5257
12 1 1 454,3
13 0 0 1221
14 0 1 837,8
15 0 0 538,9
16 1 1 136,2
17 0 0 574,5
18 0 0 775,6
19 0 0 7283
20 1 0 308,8

Podemos elaborar as seguintes hipteses referentes Tanitarsus sp.:

Ho: A ocorrncia de Tanitarsus na bacia do Rio Doce no depende da concentrao de


nitrognio total na gua;
Ha: Tanitarsus um organismo sensvel eutrofizao, e ocorre preferencialmente em
ambientes menos poludos.
O modelo seria: Ocorrncia de Tanitarsus + 1(N-tot) + , (o smbolo indica funo
de). O modelo logstico :

16
1
Y=
1 + e ( + 1X1 + 2 X 2 +...+ i X i )

onde Y a probabilidade de ocorrncia da espcie; anlogo ao intercepto na regresso


linear, e i representa o coeficiente da i-sima varivel. e os coeficientes representam os
parmetros que sero estimados atravs do mtodo conhecido como Mxima Verossimilhana
("Maximum Likelihood", em ingls). A interpretao anloga regresso linear. O modelo
indica a relao entre a ocorrncia de Tanitarsus e a concentrao de nitrognio total na gua.
Existem duas formas para se testar essa relao em uma regresso logstica: 1) O teste LR
("Likelihood Ratio", ou Razo de Verossimilhana) e 2) O teste de Wald.
O teste de razo de verossimilhana baseia-se na estatstica LR. Essa estatstica calculada a
partir dos valores L = -2 Ln(Likelihood) tanto para o modelo com a varivel (chamemos de
LC) e quanto para o modelo simples, sem a varivel (LS). No exemplo de Tanitarsus (com
valores de N-total log-transformados) temos: valor de verossimilhana para o modelo simples
= -2ln(LS) = 26,970, e valor de verossimilhana para o modelo com a varivel N-tot = -
2ln(LC) = 8,695
Se fizermos LS - LC:
-2 Ln(LS) - {-2 Ln(LC)}, ou, pela propriedade de subtrao de logaritmos:
-2 Ln(LS/LC) = LR, por isso uma Razo de Verossimilhanas, ou LR.
A maioria dos programas fornece o valor de verossimilhana para o modelo simples e para o
modelo completo e calcula o valor de LR diminuindo um do outro. LR tem uma distribuio
de Qui-quadrado, com o nmero de graus de liberdade definido como a diferena no nmero
de parmetros entre o modelo completo (ou o nmero de variveis + ) e o modelo simples
(apenas o parmetro ). Com o valor da estatstica LR e o nmero de graus de liberdade
calcula-se o valor-p associado ao LR.
Seguindo nosso exemplo: LR = 26,920 - 8,695 = 18,225; N de parmetros do modelo
completo = 2 ( e 1); N de parmetros do modelo simples = 1 (); Graus de liberdade = 1; e
Valor-p < 0,001. Assim, rejeita-se H0: A ocorrncia de Tanitarsus sp. depende da
concentrao de nitrognio total na gua. Os parmetros estimados foram = 44,26 e = -
15,97. Sendo negativo, a relao entre ocorrncia da espcie e concentrao de N-tot
inversa. A figura 4A ilustra essa relao.
A contribuio da varivel N-tot indicada pelo valor de LR. Se a varivel tem pouco peso
para explicar a ocorrncia da espcie, ento o valor de verossimilhana para o modelo com
essa varivel grande, prximo ao valor de verossimilhana para o modelo simples. Ao
subtrair um pelo outro, o valor de LR fica pequeno. Assim, quanto mais prximo de zero for a
estatstica LR, menor o peso que a varivel tm para explicar a varivel dependente. Isso
pode ser visto no exemplo abaixo, a anlise para a relao entre N-total e a ocorrncia de
Cryptochironomus sp.:

Ho: A ocorrncia de Cryptochironomus sp. na bacia do Rio Doce no depende da


concentrao de nitrognio total na gua;
Ha: Cryptochironomus sp. um organismo sensvel eutrofizao, e ocorre
preferencialmente em ambientes menos poludos.
Valor de verossimilhana para o modelo simples = -2ln(LS) = 27,72; Valor de

17
verossimilhana para o modelo com a varivel N-tot= -2ln(LC) = 26,39; LR = 27,72 - 26,39 =
1,33; n de parmetros do modelo completo = 2 ( e 1); n de parmetros do modelo simples
= 1 (); Graus de liberdade = 1; Valor-p = 0,247. Deste modo, aceita-se a hiptese nula, ou
seja, a ocorrncia de Cryptochironomus sp. no depende da concentrao de nitrognio total
na gua (Figura 4B).

18
A)

B)

Figura 4. Relao entre a concentrao de nitrognio total e a probabilidade de


ocorrncia de A) Tanitarsus sp. e B) Cryptochyronomus sp. em 20 pontos da bacia do Rio
Doce.
O outro teste para a relao entre as variveis na regresso logstica, o teste de Wald,
geralmente fornece resultados semelhantes ao teste de LR. A lgica do teste de Wald similar
a do teste t na regresso linear usado para testar se o coeficiente de correlao R diferente de

19
zero. Quando o tamanho amostral grande os resultados de ambos os testes so iguais. Mas,
se o tamanho amostral pequeno, recomenda-se utilizar o teste LR. Um outro problema do
teste de Wald que sua interpretao para a situao de duas ou mais variveis mais
complicada, e envolve a aplicao de lgebra matricial. Diversos estatsticos recomendam que
se utilize preferencialmente o teste de LR para inferncias estatsticas associadas regresso
logstica.
De maneira geral, vale lembrar que os mesmos princpios lgicos e interpretativos da
regresso linear podem ser aplicados aos modelos de regresso logstica, incluindo as
situaes de mltiplas variveis. Nessas situaes, aplica-se rotina de avaliao do valor de
LR a medida que se adicionam variveis no modelo.

RISCOS ASSIMTRICOS, PENSAMENTO DESEJOSO E A IMPORTNCIA DA


ESTATSTICA NA BIOLOGIA DA CONSERVAO

Voltemos ao exemplo da longevidade de macacos reintroduzidos com ou sem uma fase de


pr-adaptao, discutido na seo sobre o teste de t. H muitas questes importantes a serem
analisadas ali.
Em primeiro lugar vem o problema do nmero de amostras. muito comum ouvir as escusas
de pesquisadores na rea da Ecologia e da Biologia da Conservao de que no possvel um
nmero maior de amostras e que, portanto, deve-se trabalhar com o que se tm. Na maioria
das vezes, esta observao no aceitvel e pode gerar prejuzos maiores que os custos de se
aumentar o nmero de rplicas ou de pelo menos desenvolver um experimento bem
planejado. Naquele caso, rejeitou-se uma hiptese (de que a pr-adaptao aumenta a
longevidade dos animais) que pode ser verdadeira principalmente porque, para conseguir
demonstrar um efeito com um nmero pequeno de rplicas, o tamanho deste efeito precisa ser
muito grande.
Isto nos leva tambm ao problema dos riscos assimtricos, discutido de forma muito
interessante, se bem que ligeiramente diferente, em Caughley & Gunn (1996). Considere os
dois tipos de erros estatsticos que podem ocorrer neste teste. Ns poderamos rejeitar a
hiptese nula sendo ela verdadeira (Erro tipo 1) ou aceit-la sendo ela falsa (Erro tipo 2).
Ao aceitar H0 quando ela falsa, est se desconsiderando uma prtica de manejo que pode
aumentar a sobrevivncia do macaco no campo e contribuir para sua preservao. Ao rejeit-
la, sendo ela verdadeira, custos adicionais desnecessrios esto sendo introduzidos, onerando
o projeto. Este procedimento pode resultar em um menor nmero de indivduos
reintroduzidos, em razo resultado dos gastos adicionais. Isto mostra dificuldade na tomada
de deciso.
interessante notar certa assimetria entre os erros: em um caso diminui-se diretamente o
sucesso do projeto por desconsiderar uma prtica til, no outro, onera-se o projeto e apenas
indiretamente diminui-se o sucesso da reintroduo. Muitos conservacionistas no hesitariam
em correr o primeiro risco e alguns outros fatores sustentariam esta deciso. Em uma
comunidade cientfica eficiente, em que projetos desta natureza esto sendo continuamente
avaliados, um possvel erro do tipo I ser facilmente detectado medida que outros
experimentos vo sendo desenvolvidos e novos dados sejam adicionados.
H, no entanto, um problema srio no procedimento anterior. Considerar significativo a um
valor-p de 0,10, aceitando um maior erro tipo I, em funo de uma escolha de riscos dentro do
panorama da assimetria descrita acima, s faz sentido se for uma deciso tomada antes do

20
experimento ser executado. Com uma freqncia muito maior que o esperado em uma
comunidade cientfica madura, estas decises so tomadas aps os dados serem coletados,
fruto do que os ingleses chamaram de whishful thinking -- aqui traduzido, pelo Dr Miguel
Petrere Jr., como pensamento desejoso. O desejo de que nossa hiptese alternativa esteja
correta o caminho mais curto para afastar a Biologia da Conservao do vacilante, mas
honesto, caminho das Cincias e traz-la para o caminho do dogmatismo. Afinal, se uma
hiptese considerada correta mesmo que os dados digam o contrrio, para que, ento, se
coletaram os dados?

21
BIBLIOGRAFIA RECOMENDADA

Caughley, G. & Gunn, A. 1996. Conservation Biology in Theory and Practice. Blackwell
Science, Inc., Cambridge, Massachusetts. 459p.

Hosmer, D. W. & lemeshow, S. 1989. Applied Logistic Regression. John Wiley & Sons,
New York. 307 p.

Kleinbaum, D. G. 1994. Logistic Regression: A self-learning text. Springer-Verlag, New


York. 282p.

Krebs, C. J. 1989. Ecological Methodology. Harper & Row, Publishers, New York. 654p.

Magurran, A. E. 1988. Ecological Diversity and its Measurement. Cambridge University


Press, London. 179p.

Neto, P. R. P.; Valentin, J. L. & Fernandez, F. (eds.). 1995. Tpicos em tratamento de dados
biolgicos. Volume 2. 1 Edio. Oecologia Brasiliensis, Rio de Janeiro. 161p.

Manly, B. F. J. 1991. Randomization and Monte Carlo Methods in Biology. Chapman and
Hall, London. 281p.

Martin, P. & Bateson, P. 1986. Measuring Behaviour. Cambridge University Press,


Cambridge. 200p.

Marques, M. M. G. S. M.; Barbosa, F. A. R. & Callisto, M. 1999. Distribution and abundance


of Chironomidae (Diptera, Insecta) in an impacted watershed in south-east Brazil. Ver.
Brasil. Biol. 59(4):553-561.

Sokal, R. R. & Rohlf, 1995. Biometry. W. H. Freeman and Company, New York, USA.
887p.

Tonhasca, A., Jr. 1991. The three "capital sins" of statistics used in biology. Cincia e
Cultura, 43(6):417-422.

Young, L. J. & Young, J. H. 1998. Statistical Ecology: a population perspective.

Zar, J. H. 1984. Biostatistical analysis. Prentice-Hall, Englewood Cliffs, N.J. 218p.

22
PARTE 2

GUIA PARA EXECUO DAS ANLISES ESTATSTICAS

Flvia Pereira Lima; Leandro Juen; Paulo De Marco Jnior


Laboratrio de Ecologia Terica e Sntese, ICB, Universidade Federal de Gois

A PROPOSTA DO GUIA

freqente encontrramos pessoas que esto muito preocupadas com as anlises de


dados. Foi muito esforo para coletar, geralmente o prazo para apresentao dos resultados
est apertado, mas ainda faltam aquelas anlises estatticas tanto cobradas... Sentar e chorar,
que nada! A estatstica uma ferramenta muitas vezes indispensvel para os estudos
cientficos e no um bicho de sete cabeas.
Vale a pena se dedicar s matrias e aos cursos de estatticas e compreender as bases
tericas dos testes. Alm disso, percebemos que muitas vezes as pessoas sabem escolher o
teste estatstico mas tem muita dificuldade na organizao das planilhas de dados e na
execuo. Por isso, ns elaboramos esse guia prtico, com os passos das anlises mais
importantes que vocs podem precisar. Ele deve ser utilizado como um caderno de notas, para
facilitar o uso do programa e agilizar o seu trabalho.

BANCO DE DADOS

A correta organizao do banco de dados essencial para a realizao das anlises


estatsticas. Algumas regras auxiliam nesse processo:

1. Utilize o Excel para colocar seus dados (ou outro programa semelhante). Quando
so muitos dados mais adequado utilizar a plataforma Access.

2. Nunca utilize muitos documentos ou muitas planilhas dentro de um documento.


Faa o necessrio para que voc tenha no mximo trs planilhas: uma de dados
brutos, uma de metadados (explicao do que representa cada coluna da sua
tabela) e uma de resultados.

3. Planilha de dados brutos (DADOS): essencial que voc determine a unidade


amostral da sua pesquisa. importante perceber que possvel que voc tenha,

23
dentro da mesma pesquisa, mais de uma unidade amostral. Quando for montar a
planilha DADOS coloque sempre as amostras independentes em linhas
diferentes e as variveis (as informaes da mesma amostra) em colunas. Por
exemplo: Pretende-se testar se h diferena de riqueza de drosofildeos em frutos
pequenos e frutos grandes (tamanho do fruto = varivel categrica/ riqueza =
varivel quantitativa). Se:

a. Forem observados frutos numa mata, cada um deles ser uma amostra:

Tabela 1: Riqueza de drosofildeos em frutos grandes (G) e pequenos (P).

Tamanho do fruto S
G 10
P 4
P 6
G 12
G 9
G 8
b. Se os frutos grandes forem colocados experimentalmente ao lado de frutos
pequenos, as amostras se tornam dependentes e o ponto passa a ser a amostra,
tratando-se de um experimento pareado:

Tabela 2: Riqueza de drosofildeos em frutos grandes (G) e pequenos (P).

Local S do fruto pequeno S do fruto grande


G
P
P
G

4. Planilha METADADOS: nessa planilha voc deve colocar os significados dos


cdigos utilizados na planilha DADOS. Pode parecer desnecessrio ou perda de
tempo, mas esse cuidado lhe ser til caso sua planilha tenha muitos cdigos, se
no futuro voc precisar utiliz-la (pode ser que a memria falhe) ou se uma outra
pessoa necessitar.

5. Planilha RESULTADOS: nela voc colocar os resultados de suas anlises


estatsticas.

24
IMPORTAR DADOS PARA O STATISTICA

Siga os seguintes passos para importar seus dados do EXCEL para o STATISTICA.
No menu:

1. FILE  OPEN

2. Na janela OPEN selecione Data files em Files of type  Abrir

3. Selecionar a planilha:

 Import all sheets to a workbook (iro todas as planilhas do documento)

 Import selected sheets to a Spreadsheet (voc seleciona apenas a planilha de dados)

1. Janela Open Excel File: nela aparecer o nmero de colunas e o de linhas da sua planilha.
Selecione Get variable names from first row, para que os nomes que voc deu s variveis
(a primeira linha do Excel) no entre como um dado. Preste ateno se o nmero de linhas e
colunas confere com os da planilha do Excel.

Pronto. A planilha estar importada. Agora s analisar!

LEMBRETES

Varivel dependente: a varivel resposta


Varivel independente: a que causa o efeito

Varivel categrica: qualidade entre os diferentes dados


Varivel quantitativa: varivel contnua

Teste no paramtrico: no segue a distribuio normal.


Teste paramtrico: segue a distribuio normal.

Casas decimais: apresentar os resultados dos testes com trs


casas decimais.

25
PROCEDIMENTOS PARA AS ANLISES ESTATSTICAS

1. QUI- QUADRADO

1. Statistics  Basic Statistics/Tables  Tables and


banners

2. Specify tables (select variables)  OK

3. Testar os pressupostos: i) nenhuma das freqncias


esperadas pode ser menor que 1 ii) apenas 25% delas pode
ser menor que 5.

 Options  marcar Expected frequencies  Summary

4. Se os pressupostos no forem feridos:

- Marcar em Options  Statistics for two-way tables 


Pearson & M-L Chi-square

- ir em Advanced  Detailed two-way tables  verificar o


valor de p, o 2 e os graus de liberdade.

5. Soluo do Fisher: quando a tabela de contingncia for


do tipo 2 X 2, pode-se utilizar o teste exato de Fisher, que
no possui os pressupostos acima apresentados.

Marcar em Options  Statistics for two-way tables 


Fisher exact, Yates, McNemar (2X2)

 ir em Advanced  Detailed two-way tables  verificar


o valor de p.

6. Volta em Options  marcar percentages of row counts


 Summary (apresentar uma tabela com as porcentagens).

7. Apresentao dos resultados: 2.......; gl......; p.......


2. TESTE T PARA AMOSTRAS INDEPENDENTES

1. Statistics  Basic Statistics

2. t-test , independent, by groups (Test t para amostras


independentes) OK

3. Variables: selecionar a varivel dependente (dependent


variables) e a varivel independente (independent variables)

 Pressupostos do teste t: i) os dados


IMPORTANTE
devem possuir distribuio normal; ii) a varincia deve ser
homognea.

4. Para testar se as varincias so homogneas: depois de


selecionar as variveis, retornar janela anterior. Escolher a
aba:

4.1  Options  Levenes test  Summary (se p>0,05


no rejeita a H0 e, portanto, as varincias sero
homogneas).

OBS: na janela do resultado do Levene j sai o resultado do


teste t.

Mas se as varincias forem heterogneas existe


uma sada: o teste t com varincias separadas:

4.2 Options  Test/w separate variance estimates 


Summary

5. Copiar para a planilha RESULTADOS: selecionar toda a


planilha (clicar no espao branco mais esquerda) ir ao
menu em Edit  Copy with headers. Colar na planilha
RESULTADOS.

6. Apresentao ao leitor: ao apresentar qualquer dado de


uma anlise estatstica ao leitor lembre-se que o mais
importante o resultado biolgico por detrs dos nmeros.
No teste t voc dever apresentar o resultado do teste, os
graus de liberdade e o valor de p. Analise o tamanho do
efeito para apresent-lo ao leitor. Exemplo: Um fruto
grande pode ter, em mdia, 2,6 espcies a mais de
drosofildeos do que os frutos pequenos. Essa diferena no
pode ser explicada pelo acaso (t= ; gl= ; p= ). Se
as varincias forem separadas (t para varincias separadas=
; gl= ; p= ).

3. TESTE T PARA AMOSTRAS DEPENDENTES

1. Statistics  Basic Statistics

2. t-test , dependent samples (Test t para amostras


dependents) OK

3. Variables First variable list/ Second variable list

4. Summary

5. Copiar para a planilha RESULTADOS: selecionar toda a


planilha (clicar no espao branco mais esquerda) ir ao
menu em Edit  Copy with headers. Colar na planilha
RESULTADOS.

OBS: Como o teste para amostras dependentes, as


diferenas para cada amostra esto sendo controladas,
por isso no h o pressuposto da homogeneidade de
varincia.

28
4. ANLISE DE VARINCIA ANOVA

1. Statistics  ANOVA

2. One-way ANOVA  OK

3. Variables: selecionar a varivel dependente e a varivel


independente

4. Factor codes  all  zoom (conferir as variveis) 


OK

5. More results  Assumptions (Nesse passo verificar se os


pressupostos esto sendo assumidos):

a. Varincias homogneas: feito o teste de Levene para


verifica se as varincias so homogneas (H0= varincias
so homogneas e Ha= varincias so heterogneas).

Clicar em Levenes test (ANOVA) e conferir o valor de p


(se p>0,05 as varincias so homogneas).

b. Testar a normalidade: em Distribution of within-cell


residuals  Normal p-p

Conferir o grfico. Se a distribuio normal os resduos


seguem uma reta. Em casos de distribuio no normal
comum aparecer uma curva, principalmente em S.

6. Se no houver problemas com os pressupostos clicar na


aba Summary  Univariate Results. Conferir o valor de p.

7. ATENO: Se o teste for significativo est indicando


que h diferenas entre os grupos comparados. Para isso, h
necessidade de se realizar comparaes que podem ser:

a. Comparao a posteriori: Anova Results  Post Hoc


 Test Tukey HSD (dessa forma testa tudo contra tudo
para detectar a diferena).
Para fazer o grfico, voltar em All Effects/graphs. Colocar
letras iguais para as mdias iguais de acordo com o teste de
Tukey.

b. Comparao planejada: Anova Results  Planned


comps  Specify contrasts for LS means.

OBS: Como escolher o contraste?

A comparao planejada exige fundamentao terica, pois


se testa hipteses pr-estabelecidas. Deve-se, portanto,
recorrer teoria para tomar a deciso antes de fazer o
teste. Observe a figura:

* Deseja-se fazer um contraste entre Fazenda e Empresa


X Reserva. Para isso selecionar em Quick Fill -1 para
Fazenda; -1 para Empresa e 2 para Reserva (a soma dos
contrastes dever ser 0)  OK. Se a comparao for
estatisticamente significativa (p 0,05) rejeita-se a
hiptese nula logo h diferena entre Fazenda e Reserva
contra Empresa. Continua a anlise para verificar se h
diferena entre Fazenda (-1) e Reserva (+1).

3.1- Se as varincias forem heterogneas

Se ao testar a homogeneidade de varincias no teste de


Levene o p 0,05, voc dever recorrer a algumas
transformaes na tentativa de homogeneizar as varincias.

Para isso voc pode transformar os dados testados em log,


raiz quadrada ou arcoseno da raiz quadrada.

a. Para transformar em log:

1. Na planilha importada clique duas vezes na linha de


cabealho do nome da varivel (X, por exemplo).

2. Abaixo da janela escrever no espao Long name (labelo r


formula with Functions): = log(Varivel).

b. Para transformar em raiz quadrada:

30
1. Na planilha importada clique duas vezes na linha de
cabealho do nome da varivel (X, por exemplo).

2. Abaixo da janela escrever no espao Long name (labelo r


formula with Functions): = Sqrt(Varivel)

c. Para transformar em arco-seno da raiz quadrada:

1. Na planilha importada clique duas vezes na linha de


cabealho do nome da varivel (X, por exemplo).

2. Abaixo da janela escrever no espao Long name (labelo r


formula with Functions): = Arcsin(Sqrt(Varivel)).

Depois de realizadas as transformaes, repetir o teste de


Levene e verificar se as varincias se tornaram homogneas.
Caso isso no ocorra voc dever buscar outra alternativa:
os testes no paramtricos.

8. Fazer o grfico: Summary  All Effects  Graphs

9. Apresentao do resultado: F; gl tratamento; gl do erro; p

31
5. KRUSKAL-WALLIS

O Kruskal-Wallis um teste de ordenamento que faz um


ranking dos dados, para testar diferenas no somatrio do ranking
entre amostras: se a soma do ranking de cada tratamento parecida
entre si, os tratamentos so estatisticamente semelhantes.

H0= a soma do ranking estatisticamente semelhante entre os


tratamentos

Ha= a soma do ranking estatisticamente diferente entre os tratamentos

Passos:

1. Statistics  Nonparametrics

2. Escolher o grupo de acordo com a natureza das variveis. Por


exemplo: Comparing multiple independ. samples (groups) para variveis
com mais de duas categorias  OK

3. Variables: clicar na varivel dependente e na varivel independente 


OK

4. Summary: Kruskal-Wallis ANOVA and Median test. Aparecem duas


janelas. Em uma h a soma dos ranking e o valor do teste H (gl tratamento;

N)=.........; p=......... Exemplo: Kruskal-Wallis test: H ( 2, N= 13) =0,231


p =0,891.

5. Fazer a comparao mltipla: Multiple comparisons of mean ranks for


all group.

6. Para fazer o grfico: voltar janela Kruskal-Wallis  Box & whisker


 seleciona a varivel  seleciona o tipo Median/Quart./Range  OK.

7. Copiar o grfico para a planilha de resultados ou para o seu documento


no Word e edite-o.

8. Quando os resultados so significativos voc precisa usar uma


comparao a posteriori do tipo do teste de Tukey. Esse teste o teste de
Nemenyi que explicado no Zar (1999), mas que precisar ser executado
no Excel.
6. ANOVA TWO-WAY

1. Stattistics  ANOVA  Factorial ANOVA  OK

2. Variables: depedent/ independent (duas ou mais)  OK


OK

3. Testar os pressupostos:

* homogeneidade das varincias: More Results 


Assumptions  Levenes Test (ANOVA)

* normalidade do resduo: Normal p-p (analisar o grfico)

4. Voltar em All Effects: aparece uma tabela e em cada


linha h um valor, como no exemplo:

SS Degr. Of MS F p
Freedom
of
Intercept 3110,400 1 3110,400 137,8995 0,000023
"Var1" 60,000 1 60,000 2,6601 0,154016
"Var2" 26,667 1 26,667 1,1823 0,318633
"Var1"*"Var2" 13,067 1 13,067 0,5793 0,475423
Error 135,333 6 22,556

H0 1: a varivel 1 no afeta a germinao.

H0 2: a varivel 2 no afeta a germinao.

H03: a interao dos efeitos no afeta a germinao.

OBS: se o p da interao for significativo no precisar


analisar o p dos efeitos separadamente.

5. Clicar duas vezes sobre os resultados da tabela para gerar


o grfico, aparecera uma caixa da ANOVA, clique em All
effects/Graphs  OK.

OBS1: As linhas do grfico se cruzam quando a interao


for significativa.

OBS2: Realizar transformaes dos dados se as varincias


sejam heterogneas (logaritmo ou raiz quadrada).
OBS3: A ANOVA two-way no tem correspondente no
paramtrico.

6. Apresentao dos resultados: A melhor maneira de


apresentar os resultados da ANOVA fatorial ser um grfico
com mdia e intervalo de confiana para o efeito testado. Se
a interao for significativa, apenas a interao deve ser
apresentada e discutida, os efeitos individuais no podero
ser compreendidos exceto luz do resultado da interao.

7- REGRESSO LINEAR

1. Statistics

2. Multiple Regression

3. Variables: dependent/independente  OK

4. Pressupostos (a distribuio dos resduos normal e a varincia dos resduos homognea)

4.1. Se a distribuio dos resduos normal:

 Residuals/assumptions/prediction  Perform residuals analysis  Quick  Normal plot


of residuals (anlise visual)

4.2. Se a varincia dos resduos homognea

Residuals Residuals vs. independent var.  seleciona a varivel independente  OK


(anlise visual)

OBS: se os resduos estiverem dispostos aleatoriamente o pressuposto no foi ferido

5. Apresentao dos resultados

Graphs  Scatterplots Variables (X=independente e Y=dependente)  Advanced 


seleciona R-square e Regression equation (seleciona as variveis X e Y)

8. REGRESSO MLTIPLA

1. Statistics

2. Multiple regression

34
3. Variables: dependent variable list e predictor variables (as variveis independentes
testadas)  OK  OK

4. Para a anlise dos pressupostos:

Probability plots  normal plot of residuals.

Scatteplots  predited x residual.

5. Summary  Coefficients

5.1. Verificar o valor de p das variveis (quando for significativo observar o tamanho do
efeito de acordo com os parmetros).

5.2. Observar tambm o intervalo de confiana (a 95%) ao redor dos parmetros (a inclinao
da reta).

5.3. o valor de o R2

OBS: As variveis correlacionadas no podem entrar juntas na regresso mltipla

6. All effects (pegar o F e os graus de liberdade)

7. Grfico: importante verificar se havia co-relao entre as variveis. Fazer o grfico com
a(s) varivel(is) que for(em) significativa(s).

-Graphs  Scatterplots  Quick  selecionar as variveis  em Graph typemarcar Multiple

- Advanced  marcar R-square e Regression equation

8. Apresentao dos resultados

9- REGRESSO LOGSTICA

1. Statistics Advanced Linear/ Nonlinear models  Nonlinear Estimation  Quick Logit


regression  OK

2. Variables: dependent variable/ independent variable

3. Codes for dep. var: 0

and: 1 (Sempre colocar o 0 em cima e o 1 em baixo)  OK

4. Advanced  Estimation method: Quase-Newton  marcar Asymptotic standard errors 


OK

35
5. Aparece na janela o valor de 2 e p.

6. Para fazer o grfico:  Fitted 2D function & observed vals.

7. Para calcular a estimativa dos parmetros:  Summary: Parameters & standard errors

10- REGRESSO LOGSTICA MULTIPLA

1. Statistics Advanced Linear/ Nonlinear models  Nonlinear Estimation  Quick Logit


regression  OK

2. Variables: dependent variable/ independent variable

3. Advanced  Estimation method: Quase-Newton  marcar Asymptotic standard errors 


OK

4. Marcar Difference from previous models

5. Grfico  Graphs  Mean w/ error plots

6. Quick  seleciona variveis  Advanced+ tudo certo ok  fazer grficos.

7. Inserir a equao. Pegar a equao do grfico 2D feito primeiramente  All options


Custom function Add new function Y=(colar a equao) ok

10- ANCOVA ANLISE DE COVARINCIA

1. Statistics Advanced Linear/ Nonlinear models  General Linear Models OK

2. General Linear Models  OK

3. Variables: dependent variable/ independent variable categorical predit. e continuos predit.


 OK  OK

4. More results  Assumptions (Nesse passo verificar se os pressupostos esto sendo


assumidos):

a. Varincias homogneas: feito o teste de Levene para verifica se as varincias so


homogneas (H0= varincias so homogneas e Ha= varincias so heterogneas).

Clicar em Levenes test (ANOVA) e conferir o valor de p (se p>0,05 as varincias so


homogneas).

36
b. Testar a normalidade: em Distribution of within-cell residuals  Normal p-p

Conferir o grfico. Se a distribuio normal os resduos seguem uma reta. Em casos de


distribuio no normal comum aparecer uma curva, principalmente em S.

5. Se no houver problemas com os pressupostos clicar na aba Summary  Univariate


Results. Conferir o valor de p.

OK

Homogeneity of slopes model ok

37
TUTORIAL PARA PREPARAO E IMPORTAO DE DADOS PARA
ESTIMATIVAS DE RIQUEZA DE ESPCIES

Softwares utilizados: Excel, EstimateS e Statistica.

PREPARAO DOS DADOS

Os dados de suas coletas devem ser organizados em uma planilha eletrnica, pois as
anlises subseqentes podem ser feitas de modo simples por meio de pequenas modificaes
na estrutura das mesmas. Neste caso utilizamos as planilhas do Microsoft Excel para
demonstrar como importar os dados para o programa EstimateSWin 750.

Como estaremos trabalhando com estimativas sobre espcies, devemos organizar a


planilha da seguinte forma:
Espcies nas
colunas

Amostras nas
linhas

O programa EstimateS precisa que formatemos a planilha de um modo bastante


especfico, com a criao de um cabealho que o programa ler durante a importao. Antes
de criar o cabealho, devemos remover todo e qualquer tipo de recurso complexo do Excel,
tais como comentrios, acentos e os chamados caracteres diacrticos: ( ? / > < @ ! ~ ` ;
& % # $ * { } [ ] ( ) - +).

38
Obs: a presena desses caracteres a causa mais freqente de erros de importao e
anlise de dados nos mais diversos programas estatsticos. Eles no devem ser utilizados nas
planilhas e nem em nome de arquivos.

Removidas tais caractersticas das planilhas, devemos tambm remover as colunas


que identificam as amostras e a linha que identifica o nome de cada espcie. Isso necessrio,
pois o programa ir aleatorizar indivduos nas amostras, numa tentativa de remover ou
diminuir o vcio de coleta presente nas mesmas antes de calcular as estimativas de riqueza ou
quaisquer ndices. Como trabalhamos com riqueza, a identidade de cada espcie tambm no
necessria. A planilha assumir o aspecto abaixo:

Agora devemos inserir duas linhas acima dos dados. Elas serviro para o cabealho
de legenda para o EstimateS:

Insira duas linhas


acima dos dados.

39
Na primeira clula (A1) devemos inserir o nome que daremos para a planilha, deve
ser um nome curto, com menos de seis dgitos e que no contenha diacrticos.

Na clula (A2) devemos inserir o nmero de espcies (que o nmero de colunas) e


na clula (B2)o nmero de amostras (linhas) respectivamente. A planilha apresentar o
seguinte aspecto:

A planilha est quase pronta. necessrio salv-la como somente texto separado por
tabulaes, indo em: Arquivo  Salvar como  Texto separado por tabulaes.

O Excel apresentar algumas mensagens de alerta antes de permitir que voc salve o
documento. Ignore-as e continue o processo.

Pronto: agora podemos fechar o Excel e abrir o EstimateS.

Logo que o programa aberto, uma tela de apresentao exibida. s dar OK e


comear a usar.

40
IMPORTANTE: Se o programa no abrir pode ser devido a uma configurao de seu
computador. O EstimateS esta configurado no sistema Britnico cujo separador decimal o
. (ponto), e no nosso sistema a vrgula. Para resolver este problema, basta ir: Iniciar 
Configuraes Painel de controle  Opes regionais e de idioma  Personalizar 
Smbolo decimal trocar vrgula por ponto  OK  OK e fecha a janela aberta. Agora s
abrir o EstimateS novamente e comear a trabalhar.

Para importar os dados que preparamos, basta ir em File  Load Input File

Uma janela do Explorer ir abrir e s selecionarmos o arquivo de texto que


preparamos antes. Ao fazer isso o programa exibir a seguinte tela:

D OK. A seguinte tela aparecer:

41
Marque a caixa com a opo Formato 2 (linhas nas amostras e espcies nas colunas)
e d OK. O programa dever carregar a planilha na memria. Se tudo der certo no haver
nenhuma mensagem de erro.

Prossiga ento clicando no menu DIVERSITY  DIVERSITY SETTINGS...

Aparecer a seguinte tela:

42
O padro para o nmero de runs (aleatorizaes) 50. Normalmente marcamos
como 100 ou mais vezes, depende do tamanho do conjunto de dados que voc possui. Como a
re-amostragem do principal estimador de riqueza de espcies sem reposio, devemos
manter selecionada essa opo na caixa de Protocolo de Aleatorizao. Clique em Compute.

Ao fim desse tempo, voc ver uma planilha com os resultados calculados. Essa
planilha no prtica e prefervel trabalhar com os dados no Excel. Clique em Export
aparecer uma tela do Explorer, d um nome para seu arquivo (sugerimos que seja dado o
mesmo nome do arquivo original, adicionado com a denominao res de resultado, isso evita
problemas de mistura de resultados, no nosso exemplo demos o nome de teste.txt, agora
passar a ser testeres.txt e feche o Estimates. hora de abrir o Excel.

Com o Excel, abra o arquivo de texto que foi a sada do programa Estimates. O Excel
apresentar uma tela sobre definies sobre a importao de dados no formato texto.

O padro do programa est correto, bastando clicar em concluir.

Exclua as trs primeiras linhas da planilha, so apenas propaganda do programa


EstimateS. Aps isso, s salvar como uma planilha do Excel e fechar. Agora vamos
importar essa planilha para o programa Statistica 6.0 ou outra verso mais atualizada (voc j
deve estar craque nessa parte!).

43
44
Aps importar a planilha para o Statistica, devemos escolher o estimador de riqueza
de espcies desejado. Verifique que h um valor estimado para cada uma de suas amostras, o
que permite a voc a criao de uma curva do coletor. Note tambm que para cada estimativa
h tambm um desvio padro. De posse desse dado, possvel construir um intervalo de
confiana associado estimativa, o que ir permitir a apresentao dos dados em um grfico
mais informativo que poder inclusive ser utilizado na comparao de riqueza de espcies
entre locais. Como construir esse intervalo e como fazer esse grfico? Basta seguir os passos
adiante.

Para esse exemplo, utilizaremos o estimador no paramtrico Jackknife de primeira


ordem. Esse estimador bem interessante. Recomendamos a leitura dos artigos e livros que o
discutem. Dentre os vrios livros, o Ecological Methodology do Krebs um bom incio.

Para criar o intervalo de confiana precisamos primeiro inserir mais uma coluna na
planilha dentro do Statistica, para isso selecione a coluna imediatamente posterior direita da
coluna do desvio padro, no caso a coluna 30. Localize no lado direito da tela do Statistica o
menu VARS, clique em adicionar.

Ser aberta a seguinte tela, onde podemos configurar o contedo da Coluna (que o
Statistica sabidamente chama de varivel). Ele indica que a varivel ser adicionada aps a
coluna Jack1_SD. O nome da varivel fica a seu critrio. Mas IC j diz tudo.

Agora vem o importante: Vamos inserir uma frmula no campo maior dessa tela, que
ser utilizada para criar o intervalo de confiana.

45
Como no Excel, toda a formula deve comear com o sinal de igual (=) e o que
digitaremos o seguinte =-vstudent(0,025;v1-1)*Vn

Onde vstudent diz para utilizar a distribuio de Student (a mesma distribuio do


teste t) 0,025 o nosso alfa, j que o teste bicaudal (0,025 + 0,025 = = 0,05)

v1-1 o nmero de amostras menos 1, ou seja, o grau de liberdade.

Vn deve ser substitudo pelo nome da varivel que contm o desvio padro (no caso
V24).

NOTA: A frmula para clculo do intervalo de confiana deveria ser =-


vstudent(0,025;v1-1)*Vn/sqrt(v1), ou seja, deveramos dividir o desvio padro pela raiz
quadrada de n (v1) para obter o erro padro e a sim multiplicar pelo resto da frmula para
conseguirmos o intervalo desejado. Mas o programa EstimateS fornece o erro padro e o
chama de desvio padro.

Com a nova coluna podemos criar o nosso grfico. s ir em GRAPHS  2D


Graphs  Range plots.

46
Devemos marcar a opo relativo a um ponto central

E clicar em Variables para defini-las.

Devemos selecionar a estimativa Jackknife como ponto central e o limite inferior e


superior como o intervalo de confiana que criamos.

47
Quando clicamos em OK veremos o nosso grfico de acumulao de espcies com o
IC de 95% associado estimativa.

H diversas maneiras de personalizar esse grfico para import-lo para o Word ou


qualquer outro editor de texto. Vale a pena a cada um aprender qual opo se ajusta melhor s
suas necessidades ou de acordo com a regra de uma revista cientfica.

O mesmo grfico j trabalhado pode ficar assim, por exemplo:

48
30

25

Estimativa da riqueza de espcies - Jackknife


20

15

10

-5

1 6 11 16 21 26 31 36 41 46 51 56

Nmero de segmentos

Com poucas modificaes nas planilhas voc pode criar um grfico que apresente no
eixo X os locais e no eixo Y as estimativas de riqueza de espcies. Com a presena do
intervalo de confiana teremos um teste estatstico visual para comparao entre reas
distintas. Duas reas sero iguais se o limite do intervalo de confiana de uma alcanar o
valor central da estimativa do outro.

Para criar um grfico que mescle as estimativas de riqueza (com IC associado) de


duas ou mais reas, s realizar os procedimentos acima descritos para cada uma delas e
reunir a ltima linha (ltimo valor estimado) de trs colunas na planilha j importada do
Statistica.

Primeiro vamos criar uma nova planilha:

O nmero de variveis 3 (s pela facilidade de copiar e colar entre planilhas,


pegamos a varivel com o desvio padro). O nmero de cases ou amostras o nmero de
locais que voc quer comparar.

49
Renomeamos as variveis:

Vamos na planilha do primeiro local e copiamos a ltima linha das 3 colunas que
precisamos:

Vamos agora para a planilha que criamos e mandamos colar na linha desejada:

Clicando duas vezes sobre a coluna externa que normalmente contm o nmero das
linhas, podemos modific-las e inserir o nome dos locais que desejamos comparar.
Realizamos o copiar e colar para cada local sucessivamente at completar a planilha.

50
Depois dessa planilha estar pronta, s criar o grfico de range plot como
explicado anteriormente para criao da curva do coletor e efetivamente comparar os locais.

Estudo de Caso:

Para exemplificar todos os passos do procedimento Jackknife, vamos usar a tabela


planilha teste original. Conforme pode ser verificado, existem trs rios onde foram coletadas
espcies da Ordem Odonata na Amaznia, dois rios de primeira ordem Ac12 e Ac14, e um de
segunda ordem Ac22.

Calculem a riqueza estimada de cada rio, e construa o grfico comparando a riqueza


das trs reas, para ver qual a mais diversa. Ao final compare seus resultados com a planilha
e com o grfico abaixo.

Local Jackknife jack_SD IC


AC12 17.7 2.43 5.086048
AC14 18.7 3.11 6.509305
AC22 25.55 3.23 6.760468
34

32

30
Riqueza de espcies estimadas (Jackknife)

28

26

24

22

20

18

16

14

12

10
AC12 AC14 AC15

51

Potrebbero piacerti anche