Sei sulla pagina 1di 58

CINCIAS BIOLGICAS

6 PERODO

Anlise de Dados Biolgicos

Luiz Alberto Dolabela Falco Luiz Eduardo Macedo Reis Magnel Lima de Oliveira Rodrigo Oliveira Pessoa

Luiz Alberto Dolabela Falco Luiz Eduardo Macedo Reis Magnel Lima de Oliveira Rodrigo Oliveira Pessoa

Anlise de Dados Biolgicos

Montes Claros/MG - 2011

Copyright : Universidade Estadual de Montes Claros UNIVERSIDADE ESTADUAL DE MONTES CLAROS - UNIMONTES

REITOR Joo dos Reis Canela VICE-REITORA Maria Ivete Soares de Almeida DIRETOR DE DOCUMENTAO E INFORMAES Huagner Cardoso da Silva CONSELHO EDITORIAL Maria Cleonice Souto de Freitas Rosivaldo Antnio Gonalves Slvio Fernando Guimares de Carvalho Wanderlino Arruda REVISO DE LNGUA PORTUGUESA ngela Heloiza Buxton Arlete Ribeiro Nepomuceno Aurinete Barbosa Tiago Carla Roselma Athayde Moraes Luci Kikuchi Veloso Maria Cristina Ruas de Abreu Maia Maria Lda Clementino Marques Ubiratan da Silva Meireles

REVISO TCNICA Admilson Eustquio Prates Cludia de Jesus Maia Josiane Santos Brant Karen Trres Corra Lafet de Almeida Kthia Silva Gomes Marcos Henrique de Oliveira DESIGN EDITORIAL E CONTROLE DE PRODUO DE CONTEDO Andria Santos Dias Camilla Maria Silva Rodrigues Clsio Robert Almeida Caldeira Fernando Guilherme Veloso Queiroz Francielly Sousa e Silva Hugo Daniel Duarte Silva Marcos Aurlio de Almeida e Maia Patrcia Fernanda Heliodoro dos Santos Sanzio Mendona Henriques Tatiane Fernandes Pinheiro Ttylla Ap. Pimenta Faria Vincius Antnio Alencar Batista Wendell Brito Mineiro Zilmar Santos Cardoso

Catalogao: Biblioteca Central Professor Antnio Jorge - Unimontes Ficha Catalogrfica:

2011 Proibida a reproduo total ou parcial. Os infratores sero processados na forma da lei. EDITORA UNIMONTES Campus Universitrio Professor Darcy Ribeiro s/n - Vila Mauricia - Montes Claros (MG) Caixa Postal: 126 - CEP: 39.401-089 Correio eletrnico: editora@unimontes.br - Telefone: (38) 3229-8214

Ministro da Educao Fernando Haddad Presidente Geral da CAPES Jorge Almeida Guimares Diretor de Educao a Distncia da CAPES Joo Carlos Teatini de Souza Clmaco Governador do Estado de Minas Gerais Antnio Augusto Junho Anastasia Vice-Governador do Estado de Minas Gerais Alberto Pinto Coelho Jnior Secretrio de Estado de Cincia, Tecnologia e Ensino Superior Nrcio Rodrigues Reitor da Universidade Estadual de Montes Claros - Unimontes Joo dos Reis Canela Vice-Reitora da Unimontes Maria Ivete Soares de Almeida Pr-Reitora de Ensino Anete Marlia Pereira Diretor do Centro de Educao a Distncia Jnio Marques Dias Coordenadora da UAB/Unimontes Maria ngela Lopes Dumont Macedo Coordenadora Adjunta da UAB/Unimontes Betnia Maria Arajo Passos Diretor do Centro de Cincias Humanas - CCH Antnio Wagner Veloso Rocha Diretora do Centro de Cincias Biolgicas da Sade - CCBS Maria das Mercs Borem Correa Machado Diretor do Centro de Cincias Sociais Aplicadas - CCSA Paulo Cesar Mendes Barbosa Chefe do Departamento de Artes Maristela Cardoso Freitas

Chefe do Departamento de Cincias Biolgicas Guilherme Victor Nippes Pereira Chefe do Departamento de Cincias Sociais Maria da Luz Alves Ferreira Chefe do Departamento de Geocincias Guilherme Augusto Guimares Oliveira Chefe do Departamento de Histria Donizette Lima do Nascimento Chefe do Departamento de Comunicao e Letras Ana Cristina Santos Peixoto Chefe do Departamento de Educao Andra Lafet de Melo Franco Coordenadora do Curso a Distncia de Artes Visuais Maria Elvira Curty Romero Christoff Coordenador do Curso a Distncia de Cincias Biolgicas Afrnio Farias de Melo Junior Coordenadora do Curso a Distncia de Cincias Sociais Cludia Regina Santos de Almeida Coordenadora do Curso a Distncia de Geografia Janete Aparecida Gomes Zuba Coordenadora do Curso a Distncia de Histria Jonice dos Reis Procpio Coordenadora do Curso a Distncia de Letras/Espanhol Orlanda Miranda Santos Coordenadora do Curso a Distncia de Letras/Ingls Hejaine de Oliveira Fonseca Coordenadora do Curso a Distncia de Letras/Portugus Ana Cristina Santos Peixoto Coordenadora do Curso a Distncia de Pedagogia Maria Narduce da Silva

Autores
Bacharel em Cincias Biolgicas pela Universidade Estadual de Montes Claros Unimontes e mestre em Cincias Biolgicas pela mesma instituio. Atualmente professor pesquisador da Universidade Aberta do Brasil UAB Bacharel em Cincias Biolgicas pelo Centro Universitrio do Leste de Minas Gerais UNILESTE-MG mestre em Cincias Biolgicas pela Universidade Estadual de Montes Claros Unimontes. Atualmente coordena um subprojeto do PIBID/UNIMONTES Licenciado em Cincias Biolgicas pela Universidade Estadual de Montes Claros Unimontes e mestre em Cincias Biolgicas pela mesma instituio Doutor em Biologia Gentica pela Universidade de So Paulo (USP), mestrado em Zoologia pela Universidade Federal da Paraba, graduado em biologia licenciatura e bacharelado com nfase em Zoologia pela Universidade Federal de Minas Gerais (UFMG). Atualmente professor da Universidade Estadual de Montes Claros (Unimontes).

Luiz Alberto Dolabela Falco

Luiz Eduardo Macedo Reis

Magnel Lima de Oliveira

Rodrigo Oliveira Pessoa

Sumrio
Apresentao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .9

Unidade 1
Delineamento experimental 1.1 Por que delinear? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .11 1.2 Custos de um desenho mal elaborado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .12 1.3 Como delinear? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .12 1.4 Pseudo-repetio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .15 1.5 Como selecionar um nmero apropriado de rplicas. . . . . . . . . . . . . . . . . . . . . . . . . .17 Referncias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .19

Unidade 2
Probabilidade e variabilidade 2.1 Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 2.2 Probabilidade e amostragens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 2.3 Variabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 Referncias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .24

Unidade 3
Hipteses Biolgicas 3.1 Mtodos cientficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.2 Deduo e induo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.3 Mtodo hipottico-dedutivo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .26 3.4 Testando hipteses estatsticas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .27 3.5 Hiptese nula x Hiptese alternativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .27 Referncias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

UAB/Unimontes - 6 Perodo

Unidade 4
Regresso linear e ANOVA 4.1 Regresso linear simples: Um fator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.2 Regresso mltipla: mltiplos fatores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .33 4.3 Anlise de varincia (ANOVA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .35 Referncias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

Unidade 5
Modelos lineares generalizados 5.1 A anlise dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .39 5.2 Modelos paramtricos e no paramtricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .39 5.3 A construo dos modelos de anlise de modo paramtrico . . . . . . . . . . . . . . . . . 40 5.4 A escolha e o uso de uma curva terica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 5.5 As curvas tericas encontradas na famlia GLM, de maior interesse para bilogos . .41 5.6 Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .41 5.7 Ajustamento no processo de padronizao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .41 5.8 Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .42 5.9 Como construir modelos de regresso coerentes com as predies testadas . . .42 5.10 Mtodo de construo e simplificao dos modelos construdos . . . . . . . . . . . . .43 5.11 Mtodo Backward de construo e/ou simplificao de modelos de regresso . .43 5.12 Mtodo Forward de construo e/ou simplificao de modelos de regresso . . . .45 5.13 Mtodo Stepwise de construo e/ou simplificao de modelos de regresso . . 46 5.14 Mtodos de crtica ao modelo construdo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .47 Referncias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .51 Referncias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .53 Atividades de Aprendizagem AA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .55

Cincias Biolgicas - Anlise de Dados Biolgicos

Apresentao
Caro(a) acadmico(a), Iniciamos agora a disciplina Anlise de Dados Biolgicos. De maneira geral, ns, bilogos, temos certa averso a nmeros e modelos matemticos. Entretanto, a estatstica nos fornece a possibilidade de resumir aspectos gerais da natureza em padres cientficos atravs da mensurao e anlise de dados. Sem esta ferramenta, estaramos todos desenvolvendo teorias e mais teorias sem nenhum sentido cientfico. A anlise de dados biolgicos engloba um nmero infinito de possibilidades. Podemos analisar os dados amostrados utilizando desde uma simples comparao entre mdias at complexos modelos multivariados de explorao. Entretanto, nesta disciplina, focamos em aspectos mais bsicos da estatstica que nos permitiro entender a linguagem cientfica de uma maneira geral. Sendo assim, comeamos agora nossa disciplina. Recomendamos a utilizao de outros livros-textos e outras fontes de informao parra compreenso mais aprofundada de alguns assuntos. Ento, vamos nessa?! Mos obra e bons estudos a todos! Os autores.

Cincias Biolgicas - Anlise de Dados Biolgicos

Delineamento experimental
O delineamento experimental o passo crucial durante a elaborao de trabalhos cientficos para alcanar o objetivo da cincia de responder as perguntas formuladas normalmente atravs das hipteses. Portanto, um desenho amostral mal formulado ter consequncias diretas nos resultados, culminando em respostas equivocadas que nenhum teste estatstico ser capaz de corrigir. O delineamento experimental definido por Magnunsson e Mouro (2003) como uma maneira de coletar os dados de forma que voc tenha uma boa chance de tomar uma boa deciso. Todavia os passos para alcanar esta boa deciso, durante a escrita de seu projeto, seguem as premissas de um mtodo cientfico, em que primeiramente se deve pensar, formular perguntas e hipteses que sero a base para tal delineamento, alm de desenhar o experimento e realizar as anlises estatsticas quando necessrias. Desta forma a estatstica apenas uma ferramenta de anlise de dados que permite a comunicao entre pesquisadores.

UNIDADE 1

1.1 Por que delinear?


Delinear a arte do pesquisador (Magnunsson e Mouro 2005) e uma tima analogia a ser utilizada. Vamos citar como exemplo um bom compositor que, para deixar suas canes belas, agradveis de ouvir, com os melhores arranjos nos instrumentos e vocal, dedica tempo e dinheiro, fazendo com que sua mensagem seja enviada de forma plena aos ouvidos de quem escuta. Este o mesmo trabalho de um pesquisador ao elaborar uma pergunta e desenhar um experimento, gastando tempo, preocupando-se com as peculiaridades de cada pergunta para montar um esquema com o melhor aproveitamento do recurso, apresentando, assim, resultados claros e robustos ao escrever seus artigos cientficos. Sendo capaz de repassar as descobertas para quem as v. Pode parecer uma tarefa difcil ou quase uma misso impossvel, mas no ! Basicamente, conhecer o sistema a ser observado, que o objeto do seu estudo, o mais importante. Pois, na biologia nada to exato quanto parece ser, e normalmente diversos fatores influenciam no seu objeto de estudo. Comecem seu experimento com uma pergunta que seja respondvel, pois ela dar origem a boas hipteses, que so fatores importantssimos no processo do delineamento experimental. Fujam de perguntas difceis de serem respondidas como Existe vida aps a morte?, com certeza a resposta seria interessantssima, mas desafia a mente humana a derivar hipteses refutveis (Magnunsson e Mouro 2005). Iniciar perguntas com por que, normalmente constitui um bom incio para o desenrolar de um trabalho cientfico. Por exemplo, assistindo ao noticirio da sua cidade, voc percebe que os casos de dengue aumentaram consideravelmente nos ltimos meses, apenas nos bairros da zona leste da cidade. Voc se interessa em saber por que existem mais casos de dengue nesta regio. Como conhece bem sua cidade e, sabe das prin cipais diferenas entre as regies (norte, sul, leste e oeste), voc ser capaz, com algum conhecimento prvio, de formular novas perguntas que daro origens as suas hipteses. Vamos citar algumas possibilidades:

PARA REFLETIR
Somos compositores de um bom conhecimento cientfico.

DICAS
Turkey (1980) enfatizou que Encontrar a pergunta certa frequentemente mais importante do que encontrar a resposta certa.

Ser que o rio situado ao leste da cidade, funciona como um reservatrio para o mosquito transmissor? O grande nmero de terrenos abandonados nesta regio pode conter gua e facilitar o processo de reproduo do mosquito? Casas com grandes quintais, como caracterstica desta regio, so reservatrios efetivos do mosquito transmissor?

11

UAB/Unimontes - 6 Perodo Veja que todas as perguntas partiram do conhecimento prvio da regio a ser estudada, entretanto muitas vezes o recurso financeiro que possui no permite que responda a todas elas.

1.2 Custos de um desenho mal elaborado


PARA REFLETIR
somente atravs do conhecimento prvio do objeto de estudo que se chega a um desenho bem estruturado, organizado e eficaz.

DICAS
Um delineamento experimental mal formulado ser penalizado com perda de tempo e recursos materiais.

Os trabalhos que no apresentam um desenho experimental bem elaborado sero capazes, na melhor das hipteses, de apresentar resultados limitados e, na pior das hipteses, de no apresentarem resultado algum (RUXTON; COLEGRAVE, 2006). Pois, as anlises sero feitas atravs de recursos estatsticos complexos a fim de corrigirem possveis erros amostrais, incapazes, na maioria dos casos, de responderem alguma questo. neste momento que se percebe a perda de tempo e/ou dinheiro. Ainda que o experimento consiga contemplar as questes propostas, existem outras formas de um experimento mal delineado ser menos eficiente. Um erro comum assumir que todo experimento deve ser feito com o maior nmero possvel de coletas. Mas, se voc coleta mais dados do que sua pergunta realmente necessita voc perdeu tempo e dinheiro. Por outro lado, caso seu experimento

trabalhe em uma escala maior e necessite de muitas coletas ou muitos materiais no laboratrio, h a tentao de torn-lo o menor possvel. Assim caso seu experimento seja muito pequeno, sem chance alguma de detectar os efeitos de interesse, haver novamente perda de tempo e dinheiro, e provavelmente voc ter que refazer suas coletas. Alm disso, existem casos em que se coleta dados demasiadamente, sem que se pense no que est sendo feito, e no fim do processo vem a pergunta: Afinal, qual destes dados realmente importante para minha pesquisa? Esta uma tima maneira de gastar seu precioso tempo: Coletando coisas desnecessrias, e correr o risco de no coletar os dados que realmente tenham sentido para sua pesquisa. Para evitar tais problemas, basta usar mais do seu tempo planejando o delineamento de sua pesquisa.

1.3 Como delinear?


Comearemos nossa discusso diferenciando estatisticamente os termos populao e amostra. Populao um conjunto de elementos que tem em comum determinada caracterstica. Em uma populao de peixes de um lago, os elementos seriam os peixes que a compe. Assim uma amostra seria um subconjunto dessa populao. As populaes podem ser finitas como um conjunto de alunos de uma escola em determinado ano ou infinitas como o nmero de vezes que se pode jogar um dado. Entretanto, a maioria das pesquisas biolgicas apresenta populaes com muitos elementos, inviabilizando o levantamento completo e efetivo de suas unidades, chamado recenseamento (Censo). Por esta razo os pesquisadores trabalham com amostras (parte da populao). Por exemplo, o nmero de tucanos existentes no mundo matematicamente finito, mas as pesquisas realizadas com essas aves s podem ser feitas com amostras, porque nenhum pesquisador dispe de meios para coleta de todos os tucanos existentes no globo. Alm disso, para alguns estudos especficos, o uso de amostras tem maior valor cientfico do que o estudo sumrio de toda populao. Por exemplo, para estudar o efeito de uma toxina no controle de insetos-praga de Eucalipto, melhor submeter amostras destes insetos a exames minuciosos em laboratrio, e determinar a viabilidade do uso para seu controle, do que utilizar esta toxina nas plantaes, correndo o risco de causar danos ao ambiente sem comprovao cientfica de sua atuao eficaz. Ento, como devemos delinear um experimento? a pergunta que no quer calar! Independentemente do campo de pesquisa, a melhor forma de delinear um experimento, ser bem diferente da melhor maneira de delinear outro. Assim, o conhecimento biolgico parte crucial do delineamento experimental.

12

Cincias Biolgicas - Anlise de Dados Biolgicos Na Biologia, mais do que qualquer outra cincia, seja ela fsica ou matemtica, a variao regra e as causas destas variaes so complexas e diversas. Existe variao em qualquer lugar ou estema de estudo, mesmo que sejam clones ou populaes naturais. Assim, indivduos de uma populao de peixes variam em tamanho corporal ou bactrias em um tubo de ensaio variam em taxas de crescimento. Esta complexidade de variaes faz com que os experimentos biolgicos necessitem de amostragens que sejam capazes de revelar as situaes reais daquele sistema. Vamos supor que um Bilogo tenha sido contratado por
Figura 1: Modelo representando a porcentagem de parasitismo de um peixe por tanque de criao de tilpias.
Fonte: Acervo autores
60 100

um piscicultor para verificar que fatores causam mortalidade em tilpias (peixes) criadas em sua piscicultura comercial. O dono do estabelecimento reclama de perdas na produo em um dos seus trs tanques de criao. O proprietrio revela que no existe distino de tratamento dos peixes entre os tanques. Sabendo-se que a mortalidade causada por parasitas um dos principais fatores responsveis pela morte de peixes em pisciculturas, o Bilogo vai ao estabelecimento e coleta um peixe em cada tanque aleatoriamente e, em laboratrio, determina a taxa de parasitismo de cada um deles. Encontrando o seguinte resultado (Fig. 1)

PRA REFLETIR
Na Biologia, VARIAO regra!

GLOSSRIO:
Aleatrio: Adj. Que repousa sobre um acontecimento incerto, fortuito. Seriam dados sorteados.

80

40

Veja, parece que o peixe coletado no terceiro tanque possui uma carga parasitria um pouco maior do que os peixes dos tanques um e dois. Entretanto, o Bilogo no ficou convencido desse resultado, pois um peixe com 10% de parasitas a mais do que outros no o suficiente para concluir que o parasitismo a causa das mortes de todos os peixes nesse
Figura 2: Modelo representando a porcentagem de parasitismo em 20 peixes por tanque de criao de tilpias.
Fonte: Acervo autores
60 100

% de parasitismo

20

Tanque 1

Tanque 2

Tanque 3

tanque. Outros fatores podem influenciar com maior fora nas taxas de mortalidade do que o parasitismo. Para solucionar este problema, o Bilogo retorna ao estabelecimento e realiza mais uma coleta aleatria e, desta vez, coleta 20 peixes por tanque, encontrando o seguinte resultado (Fig. 2).

80

40

% de parasitismo

20

Tanque 1

Tanque 2

Tanque 3

13

UAB/Unimontes - 6 Perodo

PARA REFLETIR
Replicao uma maneira de lidar com as variaes entre indivduos devido s variaes aleatrias que estaro presentes em qualquer experincia de cincias da vida. Quanto maior o nmero de rplicas maior ser a confiana que teremos em dizer que qualquer diferena encontrada entre os grupos de seu experimento devida aos fatores em que estamos interessados e no ao acaso.

H um aumento na confiana do Bilogo ao dizer que o tanque 3 apresenta maiores taxas de mortalidade devido presena de parasitas. A razo desta maior confiana no obscura. Atravs da amostra de um nico peixe bastante possvel que as diferenas das taxas de parasitismo entre os tanques sejam mera obra do acaso, e improvvel que o mesmo acaso ocorra durante a seleo aleatria de 20 peixes por tanque. O que o Bilogo fez foi replicar sua observao. Se as diferenas foram casuais no primeiro momento, no esperado que o mesmo ocorra em uma amostra maior da populao. Todas as anlises estatsticas so baseadas em rplicas, que so realmente uma maneira de formalizar a ideia de que quanto mais vezes observamos um fenmeno, menores sero as chances dos resultados serem casuais. Observem que o Bilogo possui 20 amostras de peixes por tanque, como so trs tanques, logo o seu nmero amostral (N) igual a 60. Estes 60 peixes foram coletados de forma aleatria, que uma das formas de se amos1.6

trar uma populao, entretanto este tipo de amostragem permite apenas uma viso geral da realidade daquele sistema. Onde todo o elemento da populao tem igual probabilidade de ser escolhido para a amostra. Assim, apesar de estar certo de que a elevada taxa de mortalidade dos peixes do tanque trs causada por parasitas, nosso amigo Bilogo incapaz de responder a seguinte pergunta atravs de seus resultados; por que os peixes do tanque trs so mais parasitados? Para responder a esta questo o Bilogo, com conhecimento prvio do sistema de parasitismo em peixes, sabe que peixes mais velhos e pesados geralmente apresentam maiores taxas de parasitismo, devido depresso do seu sistema imune a partir de determinada idade. Com carter investigativo, o pesquisador utiliza o mesmo desenho com os 20 peixes coletados aleatoriamente em cada tanque para estabelecer uma comparao do peso entre os tanques. E revela o seguinte resultado (Fig. 3):

1.4

Figura 3: Modelo representando o peso de 20 peixes por tanque de criao de tilpias.


Fonte: Acervo autores

1.2

1.0

0.8

Agora nosso Bilogo est convencido de que o tanque trs possui peixes mais velhos e pesados quando comparado aos outros tanques. Ser que a hiptese de que peixes mais velhos so mais susceptveis ao ataque de parasitas est correta? Para sanar esta dvida, o pesquisador retorna ao estabelecimento e realiza a coleta de outros 60 peixes apenas no tanque trs, mas desta vez os separa em trs categorias de idade durante a coleta: Peixes com idade entre

Peso (kg)

0.6

0.4

0.2

T anque 1

T anque 2

T anque 3

oito a dez meses, peixes de 12 a 14 meses e peixes com mais de 16 meses. Repare que desta vez a coleta no mais aleatria! Desta forma nosso pesquisador possui uma amostra estratificada, com 20 peixes por estrado, onde os estrados so representados pela idade dos peixes. Aps a coleta o Bilogo vai ao laboratrio e determina as taxas de parasitismo em cada um deles, revelando o seguinte resultado (Fig. 4).

14

Cincias Biolgicas - Anlise de Dados Biolgicos

Figura 4: Modelo representando uma amostra estratificada de peixes por idade, em relao porcentagem de parasitismo, em um tanque de criao de tilpias.
Fonte: Acervo autores

90 80 70 60 50 40

De fato o pesquisador atravs de sua estratificao por idade evidenciou que os peixes mais velhos so aqueles mais parasitados e, por conta da presena destes peixes com baixo sistema imune nesse tanque, h uma taxa de mortalidade maior no local. Assim, aps sua pesquisa, o Bilogo capaz de programar um sistema eficaz de manejo da piscicultura de tilpias para o empre-

1.4 Pseudo-repetio
Toda replicao deve conter amostras independentes entre si. Vejamos o exemplo anterior! Cada peixe uma unidade amostral independente, devido taxa de parasitismo depender das caractersticas fisiolgicas de cada um. Assim, caso o pesquisador dividisse os peixes pela metade e determinasse o parasitismo em cada parte, ele estaria aumentando sua amostra em 100%. Mas, seria um erro consider-las independentes, pois o sistema fisiolgico funciona no peixe inteiro e no de forma independente entre suas metades, isso no o real. Portanto, o que chamamos de pseudo-rplicas nada mais do que rplicas de um experimento sem que haja independncia entre amostras, ou seja, h uma elevao do nmero de amostras sem descrio da realidade. Espera-se que a quantidade de informao disponvel aumente o nmero de observaes, mas nem sempre assim. Quando uma nova observao fornece apenas a mesma informao que tnhamos de observaes anteriores no aumentou a quantidade total de conhecimento disponvel para ns, podendo confundir-nos, fazendo-nos acreditar que dispomos de mais informaes do que as que realmente temos. Assim, por esta observao no ser uma real repetio, Hurlbert denominou-a pseudo-repetio, que significa falsa repetio (MAGNUNSSON; MOURO, 2005). As pseudo-repeties podem ser espaciais, temporais, filogenticas ou tcnicas. As mais comuns em trabalhos cientficos e mais difceis de serem evitadas so as falsas repeties espaciais e temporais. As pseudo-repeties filogenticas e tcnicas normalmente ocorrem em estudos especficos ou que contenham problemas tcnicos durante o experimento. A pseudo-repetio filogentica ocorre onde as espcies so as unidades amostrais e os organismos usados no experimento tm estreito parentesco. Por exemplo, girinos de uma mesma desova podem apresentar respostas ecolgicas muito similares, devido ao mate-

% de parasitismo

30 20

10 0

8 a 10 meses

12 a 14 meses

> 16 meses

endedor, retirando aqueles peixes com idade entre 12 a 14 meses de vida. Aprendemos, portanto, que uma amostra parte de uma populao de elementos, e as rplicas so repeties independentes feitas a fim de descrever as variaes dos elementos contidos nessa populao. Veremos, a seguir, um dos principais problemas da estatstica atualmente, a chamada pseudo-repetio.

DICAS
Replicaes devem ser independentes; caso contrrio, ser uma pseudo-replicao Em uma pseudo-rplica as unidades amostrais possuem dependncia entre si. Ou seja, uma modificao em uma unidade amostral no pode afetar a outra.

15

UAB/Unimontes - 6 Perodo rial gentico semelhante entre os elementos e normalmente no representam a situao real exibida por populaes maiores. Na pseudo-repetio tcnica, a falsa rplica ocorre quando diferentes observaes ou instrumentos so utilizados no experimento. Isso normalmente no ocorre em experimentos bem planejados, mas eventualmente existem falhas nos equipamentos utilizados ou mudana da pessoa que est coletando os dados, o que pode alterar os resultados em decorrncia da particularidade de cada um ao realizar sua tarefa. Para compreendermos o erro contido em uma pseudo-repetio espacial, vejamos o seguinte exemplo: Nosso amigo Bilogo foi contratado novamente, mas desta vez, por uma empresa que cultiva eucaliptos, interessada em saber a influncia das regies de mata sobre a densidade de mariposas que consome os plantios. Portanto, a questo biolgica determinar se a complexidade deste ambiente prximo ao plantio influencia na densidade de mariposas que devora os plantios. O que aconteceria se nosso Bilogo amostrasse cinco sees de um plantio com uma floresta nativa adjacente e outras cinco sees de outro plantio sem floresta adjacente? Como demonstrado na Fig. 5, todas as sees do primeiro plantio poderiam ter menos mariposas porque a floresta adjacente foi queimada em um passado recente ou pouco produtiva ou qualquer um de um grande nmero de fatores possveis que afetam as mariposas. Para esta questo, uma amostra da densidade de mariposas em um plantio obviamente no independente de outras amostras do mesmo plantio. Portanto, as cinco amostragens no carregam mais informaes do que uma nica amostra.
Figura 5: Esquema demonstrando as sees de coleta do pesquisador contratado pela empresa de eucalipto. Os pontos amarelos representam a disposio da amostra em um plantio coberto por rea de mata em A e sem a presena de mata em B.
Fonte: Acervo autores

De fato este erro simples muito complicado de ser observado e, por isso, ns pesquisadores devemos preocupar-nos com a independncia entre amostras. Isto uma tarefa difcil porque nenhuma observao completamente vlida ou invlida. Uma pseudo-repetio espacial para uma questo pode ser uma repetio vlida para outra. Por exemplo, se nosso amigo Bilogo estivesse interessado em diferenas nas densidades de mariposas entre plantios (sem levar em considerao a presena de florestas adjacentes) as cinco observaes seriam rplicas perfeitamente vlidas, cada uma trazendo mais informao a respeito das densidades de cada plantio. As pseudo-repeties temporais so ainda mais difceis de serem detectadas. Ocorrem por exemplo quando os pesquisadores tm o interesse de descrever os efeitos da sazonalidade sobre os padres de diversidade em um

determinado sistema. Entretanto, o estado de um sistema natural no se altera instantaneamente. Assim, coletas mensais em um mesmo ponto no so independentes, porque as condies climticas da primeira coleta possuem influncia nos padres de diversidade encontrados na segunda e, da mesma forma, as condies climticas da segunda tero influncia na terceira coleta, e assim sucessivamente nos prximos meses. Problemas similares ocorrero em qualquer experimento que contenha mltiplas observaes ao longo do tempo (RUXTON ;COLEGRAVE, 2006). Saber se estas observaes so ou no independentes variar de acordo com as particularidades biolgicas de cada sistema. Muitas vezes, como o caso da sazonalidade citada acima, no possvel fugir da pseudo-repetio temporal, o jeito conviver com isso, analisando seus dados, incluindo o

16

Cincias Biolgicas - Anlise de Dados Biolgicos erro contido na amostragem (existem alguns pacotes estatsticos especializados neste tipo de erro) ou realizar coletas em um longo perodo de tempo, talvez dcadas. Mas se quiser um bom conselho, fuja, como a caa foge do caador, de experimentos que contenham qualquer tipo de pseudo-repetio. Isto complicar seus estudos.

1.5 Como selecionar um nmero apropriado de rplicas


Como vimos at aqui, um delineamento adequado com rplicas verdadeiras a base para realizao de anlises estatsticas corretas e robustas. Assim, durante a elaborao do delineamento experimental normalmente surge a pergunta: Quantas replicaes so necessrias? Como foi discutido anteriormente, quanto maior o nmero de repeties, maior ser a confiana ao dizer que as diferenas entre grupos so reais e no simplesmente obra do acaso. Entretanto, o aumento no nmero de repeties significa aumento de custo para a realizao do estudo. Este custo pode ser financeiro; se o experimento envolve a compra de reagentes caros, multiplicar o nmero de rplicas implica no aumento considervel desses custos ou, como normalmente o caso, experimentos custam muito TEMPO. Portanto, temos que tentar equilibrar o ideal ao real, fazendo a pergunta: Quantas replicaes meu experimento deve ter? A melhor resposta seria, O suficiente para ter CONFIANA ao dizer que qualquer efeito biolgico encontrado existe sem a coleta de observaes desnecessrias. Vamos com calma, decidir qual o tamanho adequado de amostras no to complicado assim! Existem vrias formas de auxlio nesta questo. Uma delas seria utilizar o material existente na literatura, buscando experimentos que contenham caractersticas similares ao seu. Uma questo relativamente simples, mas este mtodo somado experincia que seu professor orientador possui uma tcnica muito til para determinar o tamanho da amostra. Outra maneira seria fazer exatamente o que est descrito no item Como delinear descrito pelas figuras 1 e 2. V aumentando o nmero de pontos no grfico at que o padro parea convincente. Este processo descrito por Dytham (1999) como collecting dummy data ou em portugus coleta de dados substitutivos (MAGNUNSSON; MOURO, 2005). Em um experimento simples como, por exemplo, saber quanto tempo de coleta necessrio para determinar a riqueza de lagartos de um determinado local basta fazer uma curva de acumulao de espcies, apesar de no se adequar a todos os casos ( SCHILLING; BATISTA, 2008). Este mtodo pode ser bastante til se o objetivo for determinar o tempo adequado e o nmero de armadilhas no local a ser estudado. Basta realizar um estudo piloto, colocando suas armadilhas e coletar seus dados diariamente ou de hora em hora, mas isso vai depender da escala. Com seus resultados, v acumulando o nmero de espcies encontrado na primeira coleta, com o encontrado na segunda e assim, sucessivamente, at que a linha do seu grfico estabilize-se. Por exemplo, na primeira coleta encontramos as espcies A, B e C, portanto temos uma riqueza igual a trs, na segunda coletamos as espcies D, E e F, portanto minha riqueza na segunda coleta igualmente trs. Logo, ao acumularmos as riquezas das duas coletas, partiremos de trs espcies novas na primeira para seis espcies novas na segunda coleta. Continuando o experimento encontramos na terceira coleta as espcies A e G, portanto, a riqueza igual a dois, mas nesta coleta possumos apenas uma nova espcie, a espcie G, assim, ao acumularmos a riqueza, teremos sete espcies coletadas no terceiro dia ou hora de coleta (vejam a Fig. 6 a seguir para maiores detalhes).

PARA REFLETIR
Nunca se convena de que no existem, na literatura mundial, experimentos que sejam similares ao seu. Sempre existem estudos capazes de auxiliar na construo do seu!

17

UAB/Unimontes - 6 Perodo

Figura 6: Demonstrao do acumulo de espcies de lagartos em relao ao nmero de coletas. Vejam que apenas as espcies novas so levadas em considerao para a construo de uma curva do coletor.
Fonte: Acervo autores

Analisando visualmente o grfico acima, somos levados a crer que a partir de oito coletas no iremos acrescentar uma nova espcie em meus dados, portanto oito coletas o nmero ideal para realizao deste trabalho. Entretanto, na biologia, as coisas no so to simples assim. Vejamos o exemplo prtico a seguir.
Figura 7: Curva do coletor calculada com o nmero de espcies de anfbios entre visitas ao campo. Cada ponto expressa a mdia de 50 pontos gerados pelo simulador EstimateS verso 6.0b1 e as barras indicam o desvio padro calculado para cada ponto.
FONTE: Toledo et al., (2003), disponvel em: http://www.ib.unicamp. br/museu_zoologia/files/ lab_museu_zoologia/Toledo_et_al_2003_Comunidade_FEENA.pdf

GLOSSRIO
Poder do teste: a probabilidade que um experimento possui para detectar alguma diferena entre os tratamentos, assumindo que esta diferena existe para ser detectada. Ou em outras palavras, Se repetir o experimento vrias vezes, quanto maior o nmero de vezes para que o seu teste descubra diferenas, mais adequado ser o tamanho da amostra.

18

A curva do coletor deste artigo demonstra que seus dados apontam para um crescente nmero de espcies encontrado ao longo das visitas. Demonstrando insuficincia amostral para a realizao de um inventrio completo de anfbios (Toledo et al., 2003). Os autores realizam anlises contendo ndices como jackknife e bootstrapping por serem tcnicas de reamostragem que fornecem um valor de riqueza de espcies e uma estimativa do intervalo de confiana, permitindo comparaes estatsticas entre dois ou mais tratamentos. No iremos ater-nos aos detalhes desta anlise, mas preciso que compreendam suas funes vlidas e para tanto recomendamos a leitura de Trust (1974) para maiores detalhes.

Alm destas tcnicas, que so boas dicas, existem inmeros clculos matemticos elegantes para decidir quantas observaes so necessrias para se detectar um efeito de boa magnitude (KREBS 1989), entretanto todos eles requerem amostras preliminares (KRAMER; THIEMAN, 1987) e a maioria limitada por situaes triviais e simples (MAGNUNSSON; MOURO 2005). Na prtica ns no precisamos recorrer a longos processos de simulaes em computador para calcular o poder do teste, voc precisa saber que eles existem. Decidir qual o tamanho ideal das amostras uma tarefa que requer conhecimento e, mais importante, pacincia.

Cincias Biolgicas - Anlise de Dados Biolgicos

Referncias
Kraemer, H. C.; Thiemann, S. How Many subjects? Statistical power analysis in reseach. The international Professional publishers, London, 1987. Krebs, C. J. Ecological Methodology. New York: Harper & Row,1989. Magnusson, W.E. & Mouro, G. Estatstica sem matemtica. Londrina: Editora Planta, 2005. Ruxton, G.D. & Colegrave, N. Experimental design for the life sciences. 2ed. Oxford, 2006. Schilling, A. N., & Ferreira, L. Curva de acumulao de espcies e suficincia amostral em florestas tropicais. Acta Amazonica, 179-187, 2008. Toledo, L. F., Zina, J. & Haddad, C. F. Distribuio Espacial e Temporal de uma Comunidade de Anfbios Anuros do Municpio de Rio Claro, So Paulo, Brasil. Holos Environment, 136-149, 2003.

19

Cincias Biolgicas - Anlise de Dados Biolgicos

Probabilidade e variabilidade
Nesta unidade estudaremos dois conceitos bsicos para o entendimento da estatstica: Probabilidade e variabilidade. O primeiro, de uma maneira geral, mais claramente utilizado no nosso cotidiano, ao passo que o segundo a base da maioria dos testes estatsticos de comparao de mdias.

UNIDADE 2

2.1 Probabilidade
Um exemplo clssico de probabilidade a previso do tempo. Quando lemos no jornal que existe 90% de chance de chover intuitivamente sabemos o que isto significa, ou seja, que a chance de chover extremamente alta. Sendo assim, prudente sair com um guarda-chuva. Mas por que no podemos afirmar com certeza se ir ou no chover? Isto acontece porque existe variao nas condies, e esta nem sempre possvel de ser prevista. Entretanto, entraremos nesta questo um pouco adiante. Vamos tomar um exemplo bem simples para entender como calculamos a probabilidade de um evento real. Imaginemos um grupo de lees que se alimenta de antlopes. Para calcularmos a probabilidade de um leo capturar um antlope, basta que observemos criteriosamente o nmero de ataques de lees a antlopes e quantos destes so bem sucedidos. O ataque , ento, o evento que estamos observando com dois resultados possveis: Captura ou fuga. Um evento, estatisticamente falando, deve ser um processo simples com incio e fim bem definidos. Suponhamos que observamos, em um dia, 100 ataques de lees a antlopes. Destes, 98 resultaram em captura, ao passo que nos outros dois ataques, os antlopes conseguiram escapar. Para calcularmos a probabilidade de que nosso evento ocorra (neste caso nosso evento a captura) basta dividirmos o nmero de capturas pelo nmero de observaes. Neste caso temos:

Onde P: probabilidade; C quantidade de capturas observadas; O nmero total de observaes. Analisando a frmula, podemos chegar a uma concluso bvia: Nunca pode haver mais resultados do que observao. Sendo assim, nossa probabilidade sempre estar entre 0 e 1. Uma probabilidade (P), prxima a 1, indica que nosso evento tem grandes chances de acontecer. Por outro lado, um valor de P baixo indica que as chances de que nosso evento ocorra so raras. Entretanto, mesmo o clculo simples, como o de lees e antlopes, pode ser problemtico. Poderamos ter observado nosso evento, por exemplo, em um dia muito quente, o que poderia ser uma vantagem para os lees, causando uma maior probabilidade de captura do que o habitual. Ento, como definir o quanto de observaes necessrio para estimarmos a probabilidade?

2.2 Probabilidade e amostragens


Em nosso exemplo, observamos os lees e antlopes durante um dia e calculamos nossa probabilidade de captura P=0,98. Se tomarmos este valor como real, observamos que quase certa (98% de chance) a captura de um antlope pelos lees. Entretanto, conforme j dito, vrios outros fatores poderiam estar atuando neste nosso dia de estudo em parti-

21

UAB/Unimontes - 6 Perodo cular. Uma maneira de resolver isso seria realizar o experimento em todos os dias durante um ano. Entretanto, esta seria uma maneira extremamente custosa de solucionar o problema. Ento como resolver esta questo? Uma maneira eficaz de se estimar a probabilidade atravs do uso de amostras (GOTTELI; ELLISON, 2011). Uma amostra, nada mais , do que uma parcela considervel do nosso objeto de estudo. No caso poderamos observar durante cinco dias por ms nosso evento (captura de antlopes por lees), em diferentes partes da rea de estudo. Assim, assumiramos que a maior parte das condies ambientais em que nosso evento est inserido foi englobada. Aps a realizao desta nova metodologia, o pesquisador chegou aos seguintes nmeros:
Capturas 65 Fugas 35

Total 100

Note que, neste caso, nosso resultado foi bastante diferente do encontrado no primeiro momento. Esta probabilidade de P=0,65 provavelmente aproxima-se mais da realidade, uma vez que o experimento foi conduzido sob diferentes condies ambientais. Sendo assim, em

nosso exemplo, a chance de um leo capturar um antlope em condies naturais de 65%. Estimativas de probabilidades tambm so possveis com experimentos em laboratrio. Um pesquisador interessado em estudar a germinao de sementes de uma dada espcie vegetal pode, por exemplo, controlar algumas variveis e realizar testes de germinao com estas sementes para estimar a probabilidade de que as sementes germinem sobre determinada condio. Imaginemos um pesquisador interessado em estudar os efeitos da seca sobre a germinao de pequizeiro (Caryocar brasiliense) uma rvore tpica do cerrado. O pesquisador coleta sementes desta planta e, em laboratrio, acompanha sua germinao durante um perodo de 30 dias com umidade controlada de 20% (estes nmeros ficam a critrio do pesquisador, dependem de seu objetivo). Ao fim do experimento, ele pode calcular a probabilidade de germinao das sementes de pequizeiro em um ambiente de baixa umidade. Notem que experimentos laboratoriais permitem o controle de outras variveis. Se o mesmo experimento fosse conduzido no campo, alm de ser quase impossvel o controle da varivel principal (umidade) outros fatores como luminosidade, temperatura, etc., poderiam atuar em conjunto, mascarando os resultados.

A utilizao de amostras em biologia algo natural. Na maioria dos casos, impossvel, ou pelo menos invivel, a realizao de um experimento ou observao de um evento com todos os indivduos de uma populao. Sendo assim, a utilizao de amostras importante ferramenta no desenvolvimento de trabalhos cientficos.

2.3 Variabilidade
A variabilidade algo comum na biologia. (Magnusson; Mouro, 2003) Alis, a variao entre indivduos a base de uma das teorias mais revolucionrias na biologia: A teoria da seleo natural. A variabilidade se refere a diferenas encontradas em um padro especfico. Por exemplo, em indivduos de uma mesma espcie, encontramos diferenas genotpicas, o que chamamos de variabilidade gentica. De fato, biologicamente falando, no existem amostras retiradas de uma populao (neste caso designando a totalidade) que no apresente variaes, mesmo que diminutas. Vamos a mais um exemplo simples. Um pesquisador est interessado em associar o ganho de peso ao tipo de dieta oferecida a uma espcie de peixes comercial, a tilpia. Em dois tanques, ele coloca dez tilpias em cada e oferece dois tipos de rao: Uma rica em gordura e a outra em protena. Aps dois meses de experimento, os peixes foram pesados e encontrados os seguintes resultados:

22

Cincias Biolgicas - Anlise de Dados Biolgicos


Tabela 1: Peso de peixes em dois tanques de criao alimentados com diferentes raes (tratamentos) Indivduo Tanque I Gordura (peso em kg) 3 2,7 4,5 1,9 2,0 2,4 2,8 2,3 2,0 2,1 Tanque II Protena (peso em kg) 1,5 2,0 2,1 1,7 1,8 2,0 2,,3 1,6 2,0

1 2 3 4 5 6 7 8 9 10

1,8

Note nos resultados que, mesmo em peixes com a mesma dieta, foi observada diferena no ganho de peso. Ou seja, existe uma variabilidade no seu parmetro observado. Isto possivelmente pode estar relacionado a caractersticas fisiolgicas de cada indivduo. Sendo assim, indivduos com a mesma dieta, submetido s mesmas condies, apresentam diferenas no peso. Qual

a importncia desta variabilidade para o experimento do pesquisador? O interesse inicial do pesquisador relacionar o tipo de dieta ao ganho de peso. De acordo com nossos dados, observamos uma tendncia no aumento de peso nos peixes submetidos a uma dieta rica em gordura, entretanto diferenas foram observadas mesmo em peixes com a mesma dieta. Se fizermos a mdia, observaremos que peixes com dieta gordurosa, pesam, em mdia, 2,57 kg. Enquanto peixes com dieta protica pesam, em mdia 1,88 kg. Uma simples anlise destes dois nmeros no nos permite chegar a uma concluso. Na verdade, o pesquisador dever utilizar testes estatsticos que comparam a variabilidade entre indivduos do mesmo grupo e a variabilidade entre grupos. Esta diferena ser vlida desde que a variabilidade entre grupos seja maior do que a variabilidade entre indivduos do mesmo grupo. Caso isto seja verdade, o pesquisador poder concluir que uma dieta rica em gordura causa um ganho de peso maior em tilpias do que uma dieta protica. Vamos novamente a um exemplo de experimento laboratorial. Um pesquisador est interessado em determinar a eficcia de diferentes concentraes de inseticidas no controle de besouros. Ele monta um experimento de acordo com o esquema a seguir:

Concentrao 100gr/L
Figura 8: Esquema demonstrando o desenho experimental criado por um pesquisador a fim de testar o efeito da concentrao de inseticidas sobre a mortalidade de besouros.
Fonte: Acervo autores

Concentrao 500gr/L
O pesquisador criou seis grupos com dez besouros da mesma espcie e aplicou, em cada um dos grupos, concentraes diferentes de um determinado inseticida. Aps 30 dias, o pesquisador contou e comparou a quantidade de besouros mortos entre as diferentes amostras. Provavelmente ele tenha observado uma variao na quantidade de indivduos entre os grupos devido a uma maior susceptibilidade morte de alguns indivduos. A inteno do pesquisador verificar se existe diferena entre os tratamentos (concentrao de inseticida). Para isto ele utilizar um teste estatstico novamente baseado na mdia e variabilidade de indivduos mortos entre suas amostras. Caso seja observada uma diferena significativa, ele poder atribuir uma

23

UAB/Unimontes - 6 Perodo maior eficcia a uma concentrao especfica de inseticida. Caso no verifique esta diferena, ele assumir que as duas concentraes testadas tm a mesma eficcia no controle desta espcie de besouro. No entraremos, neste momento, nos testes estatsticos citados. A ideia desta unidade apresentar os conceitos de probabilidade e variabilidade. Entendendo-os plenamente poderemos ento partir para as prximas unidades. Caso ainda tenha dvida, reveja estes conceitos, pois so conceitos-chave no desenvolvimento de toda a disciplina.

Referncias
Magnusson, W.: Mouro, G. Estatstica sem Matemtica: A Ligao Entre as Questes e a Anlise. Editora Planta, 2003. Gotelli, N. J. & Ellison, A. M. Princpios de Estatstica em Ecologia, Editora Artmed, 2011.

24

Cincias Biolgicas - Anlise de Dados Biolgicos

Hipteses Biolgicas
Inicialmente podemos dizer que hipteses so explicaes potenciais sobre um evento que estamos observando. No experimento da unidade anterior o evento o ganho de peso das tilpias. Uma hiptese para explicar este evento o tipo de dieta dos peixes. Outro exemplo a quantidade de frutas produzidas por plantas cultivadas em solos sem adubao e com adubao. Meu evento a produo diferencial de frutos. Minha hiptese a quantidade de nutrientes disponveis no solo. Sendo assim, a relao evento/hiptese pode ser definida como uma relao de causa (hiptese) e efeito (observao). Observaes so os nossos dados, ou seja, os eventos que observamos no mundo real conhecidos como fatos. Se as observaes so o qu da cincia, as hipteses so o como. Portanto, as observaes so coletadas do nosso cotidiano, de eventos naturais, enfim, do mundo real. J as hipteses no necessariamente o so. As hipteses podem vir da literatura j existente, de modelos tericos e muitas vezes da intuio e conhecimento prvio do pesquisador. Entretanto, uma premissa bsica deve ser obedecida no desenvolvimento de hipteses cientficas: Ela deve ser testvel. Assim, deve haver a possibilidade de desenvolvermos experimentos que nos permitam aceitar, modificar ou rejeitar nossa hiptese desenvolvida. Por que o cu azul? Porque Deus quis assim. Este um exemplo de uma hiptese no cientfica. No h meios de testarmos esta explicao para nosso evento. Hipteses baseadas na f, em deuses onipresentes ou qualquer outra explicao no testvel no devem fazer parte do arsenal de um cientista. Vale aqui relembrar o antagonismo entre cincia e religio j discutido na disciplina evoluo.

UNIDADE 3

3.1 Mtodos cientficos


O mtodo cientfico a maneira que utilizamos para escolher entre hipteses com base em nossas observaes. Os cientistas utilizam vrios mtodos em seus trabalhos e, alguns destes, sero abordados daqui para frente.

3.2 Deduo e induo


Deduo e induo so dois importantes modos de raciocnio cientfico e ambos propem inferncias baseadas nos dados coletados. A diferena bsica que enquanto a deduo vai do geral para o especfico, a induo faz exatamente o contrrio. Vamos utilizar exemplos simples para entender esta questo. 1. Todos os homens tm corao; 2. Fernando homem; 3. Fernando tem corao. Este exemplo, embora bastante simples, demonstra um caso de deduo clssica. Partimos do geral para o mais especfico. Vamos agora a um exemplo um pouco mais elaborado: 1. Todos os morcegos do Parque Estadual da Mata Seca (PEMS) pertencem famlia Phyllostomidae; 2. Eu coletei este morcego no Parque Estadual da Mata Seca; 3. Este morcego da famlia Phyllostomidae. Notem que novamente partimos de um caso geral (todos os morcegos) para um caso especfico (o morcego em particular que foi coletado). A ltima afirmao uma concluso: Se todos os morcegos do PEMS so filostomdeos (1) e eu coletei este morcego no PEMS (2), logo este morcego um filostomdeo (3). Esta sequncia de pensamentos tambm chamada de silogismo.

GLOSSRIO:
Inferncia uma concluso tirada pelo pesquisador com base nos seus dados.

25

UAB/Unimontes - 6 Perodo

DICAS:
A internet est cheia de silogismos interessantes como alguns do site http://interessante. Rangesite.Com/index. Php?Option=com_con tent&view=article&id= 143:silogismo&catid=3 8:geral&itemid=54 procure mais a respeito.

Em contraste com o pensamento dedutivo, temos o indutivo: 1. Fernando tem corao; 2. Fernando homem; 3. Todos os homens tm corao. O modelo indutivo ento o oposto do dedutivo: Parte do especfico para o geral. Vamos utilizar novamente um exemplo biolgico para uma explicao mais detalhada: 1. Todos estes 20 morcegos so da famlia Phyllostomidae; 2. Todos estes 20 morcegos foram coletados no Parque Estadual da Mata Seca; 3. Todos os morcegos do Parque Estadual da Mata Seca pertencem famlia Phyllostomidae. Os cientistas definem o modelo dedutivo como uma inferncia certa e o indutivo como uma inferncia provvel. (GOTELLI; ELLISON, 2011). De fato isto o que ocorre. Se as duas premissas esto certas no primeiro exemplo (dedutivo) a concluso obrigatoriamente tambm ser verdadeira. J no modelo indutivo, embora a concluso provavelmente seja verdadeira, ela tambm pode ser falsa mesmo sendo as duas primeiras premissas verdadeiras. Como? Pense em um trabalho com duas coletas no PEMS. Em cada uma foram capturados dez morcegos. Do total, todos eram filostomdeos, o que fez o pesquisador tirar a concluso de que todos os morcegos do PEMS so filostomdeos. Entretanto, nada impede que em uma
Figura 9: Esquema ilustrando o mtodo indutivo.
Fonte: Adaptado de Gotteli e Elisson, 2011.
Observao Inicial Predio

terceira coleta indivduos de outras famlias sejam amostrados no Parque. Caso isto ocorra, nossa concluso deixa de ser verdadeira. A cincia, de uma maneira geral, indutiva. Isto verdade principalmente porque a estatstica , por natureza, indutiva. Frequentemente tentamos tirar concluses gerais com base em amostras especficas e limitadas. Isto comum na cincia, pois muitas vezes, como no exemplo citado, torna-se impossvel a coleta de todo nosso campo de estudos. improvvel, e praticamente impossvel, que eu amostre todos os morcegos do PEMS. Sendo assim, sempre haver margem para que minha concluso seja rejeitada. Quanto mais prximo da totalidade de morcegos eu amostrar (maior conjunto de dados coletados) mais forte torna-se minha concluso. Podemos citar duas vantagens principais do mtodo indutivo: Enfatiza a ligao entre dados e teoria; constri e modifica hipteses com base em conhecimento prvio. Sendo assim, o mtodo indutivo baseia-se na coleta de dados que suportem ou que modifiquem a hiptese inicial. Seguindo este raciocnio, podemos apontar uma desvantagem no mtodo indutivo clssico: Ele considera somente uma hiptese inicial. Sendo assim, outras hipteses somente sero desenvolvidas em resposta a observaes adicionais. Caso o pesquisador comece seu trabalho com uma hiptese equivocada, o caminho para chegar a uma resposta correta poder tornar-se bastante longo. Alm do mais, este mtodo encoraja o pesquisador a confirmar sua hiptese inicial, mesmo que seus dados no a confirmem claramente.

Hiptese

Novas Observaes

As novas observaes comprovam a hiptese?

Sim

Hiptese confirmada

3.3 Mtodo hipottico-dedutivo


26
Outro mtodo utilizado na cincia o hipottico-dedutivo. Ele se inicia atravs de uma observao que tentamos explicar, como no mtodo indutivo. A diferena que, neste caso, o pesquisador prope mltiplas hipteses explicativas. Assim, o objetivo do pesquisador no confirmar, e sim falsear (rejeitar) hipteses. A rejeio elimina algumas explica-

Cincias Biolgicas - Anlise de Dados Biolgicos es e a lista reduzida a um nmero menor de hipteses competidoras. Sendo assim, uma explicao permanece vlida at que novas observaes sejam feitas e rejeitem aquela hiptese estabelecida anteriormente e uma nova seja aceita. Nenhum mtodo cientfico mais correto que outro. Entretanto os mtodos hipottico-dedutivo e indutivo caracterizam muito a cincia no mundo real. Entender estes mtodos importante para nosso prximo passo, que testar hipteses.

3.4 Testando hipteses estatsticas


A utilizao da estatstica para testar hipteses uma parte do mtodo cientfico, e muitas vezes nos toma bastante tempo. De fato uma das explicaes a nossa averso inicial a nmeros. Entretanto, superando este trauma inicial, a estatstica se torna uma ferramenta simples e bastante til no desenvolvimento da cincia. Entender o conceito por trs da matemtica a melhor forma de entender a estatstica.

3.5 Hiptese nula x Hiptese alternativa


Conforme j discutido, uma hiptese desenvolvida para explicar uma observao. Estatisticamente falando, devemos testar esta hiptese a fim de descobrir se o resultado observado no est relacionado meramente ao acaso. Entra a o nosso conceito de hiptese nula (tambm chamada de H0). A hiptese nula, nada mais do que uma explicao mais simplificada possvel do padro observado. Na maioria das vezes atribui-se o resultado a uma aleatoriedade da variao ou ao erro de medidas. Vamos simplificar com exemplos. Voltemos aos nossos exemplos da unidade I. O objetivo do pesquisador avaliar se dietas diferentes afetam o ganho de peso entre as tilpias. Para tanto, o pesquisador selecionou 20 peixes e os dividiu em dois grupos com dez indivduos cada. Cada grupo foi submetido s mesmas condies, com exceo da dieta. Sua hiptese nula (H0), neste caso, a de que o aumento de peso devido ao acaso. Ou seja, a dieta (que o foco de seu estudo) no tem influencia sobre o ganho de peso dos peixes. Sua hiptese alternativa que o aumento de peso maior no grupo que recebe rao rica em gordura (a dieta tem influncia no ganho de peso). Caso o pesquisador encontre diferena estatstica no peso dos peixes entre os grupos, ele aceitar sua hiptese alternativa e prosseguir com seu estudo para explicar o porqu desta variao. Por outro lado, a ausncia de diferena entre os grupos indicaria que sua hiptese nula verdadeira, ou seja, a diferena de peso observada entre os grupos devida, meramente, ao acaso. Vamos utilizar agora o exemplo das baratas. A hiptese alternativa do pesquisador poderia ser a de que uma maior concentrao de inseticida tem uma maior eficincia no controle de besouros. J sua hiptese nula (H0) a de que no existe relao entre concentrao do inseticida e a mortalidade dos insetos. O pesquisador aceitaria sua hiptese alternativa, caso o grupo dos besouros submetidos ao tratamento de 500mg/L apresentasse uma mortalidade significativamente maior do que a do outro grupo. Sua hiptese nula seria aceita caso isto no fosse observado. A nossa hiptese nula aceita geralmente quando existe uma maior variabilidade entre indivduos do mesmo grupo do que entre grupos. Existem diversas formas de calcular a variabilidade, todas baseadas na distncia dos pontos em relao mdia, tambm chamada de desvio. Quanto maior o desvio, maior ser a variabilidade dos dados. Vamos novamente utilizar o exemplo dos peixes para entender este conceito.

27

UAB/Unimontes - 6 Perodo

Tanque I
5 4.5 4 3.5 3 2.5 2 1.5 1 0.5 0 1 2 3
+1,93

Figura 10: Grfico demonstrando o peso de cada indivduo do Tanque I.


Fonte: Adaptado de Gotteli e Elisson, 2011.

Peso (kg)

-0.67

10

DICAS:
Faa uma tabela semelhante para os peixes do tanque dois. isso ajudar a fixar o que foi explicado.

O grfico acima relativo ao tanque I, no eixo X temos os indivduos e em Y seu respectivo peso. Cada ponto azul no grfico representa um indivduo e a linha tracejada vermelha a mdia de peso para o tanque I. Assumiremos aqui que voc j sabe como calcular um valor de mdia. Caso ainda tenha dvidas nesta questo, recorra a sua apostila de matemtica. A distncia entre cada ponto para mdia (representada no grfico pelos colchetes) o desvio, como j dito, uma medida de variabilidade. Note que caso o desvio esteja acima da mdia ele ter um valor positivo. Por outro lado, pontos abaixo da mdia apresentaro um desvio negativo. Um dos meios mais simples para calcular a variabilidade utilizar o desvio mdio absoluto, ou seja, a mdia das distncias de cada ponto at a mdia. Para calcular este parmetro, somamos os desvios mdios absolutos (ou seja, o mdulo dos desvios) e dividimos pela quantidade total de pontos. Utiliza-se o mdulo do desvio, pois o somatrio dos desvios sempre zero quando o sinal conservado. O desvio mdio nos permite dizer que no tanque um, os peixes pesam 2,57 0,54 kg. Note que, neste caso, adicionamos a margem de erro relacionada variabilidade. Isto significa dizer que a maioria dos dados se encontra neste intervalo. O desvio absoluto mdio apenas uma das vrias medidas da variabilidade existentes. Embora bastante simples e intuitiva esta no a medida mais utilizada em trabalhos cientficos. (MAGNUSSON; MOURO, 2003). Na maioria das vezes, utiliza-se o desvio padro ou alguma derivao dele, que em alguns ca-

Indivduos

sos, torna-se um parmetro mais refinado. Entretanto, no abordaremos as frmulas para calcular o desvio padro, j que a ideia por trs dos nmeros a mesma do desvio absoluto mdio: Medir a variabilidade. Aps o entendimento destes clculos simples, podemos passar para o estudo de alguns testes estatsticos. Observem a tabela a seguir com os clculos dos parmetros discutidos:
Tabela 2: Peso de peixes em um tanques de criao bem como os valores de desvio e o mdulo de desvio para o peso de cada indivduo. Indivduo Tanque I (kg) 3 2.7 4.5 1.9 2 2.4 2.8 2.3 2 2.1 2.57 Desvio 0.43 0.13 1.93 -0.67 -0.57 -0.17 0.23 -0.27 -0.57 -0.47 Mdulo do desvio 0.43 0.13 1.93 0.67 0.57 0.17 0.23 0.27 0.57

1 2 3 4 5 6 7 8 9 10
Mdia |Desvios| Desvio mdio

0.47
5.44

0.544

Referncias
Magnusson, W.: Mouro, G. Estatstica sem Matemtica: A Ligao Entre as Questes e a Anlise. Editora Planta, 2003.

28

Gotelli, N. J. & Ellison, A. M. Princpios de Estatstica em Ecologia, Editora Artmed, 2011.

Cincias Biolgicas - Anlise de Dados Biolgicos

Regresso linear e ANOVA


Antes de comearmos a estudar as anlises estatsticas, vale lembrar que, conforme visto na Unidade I, p a probabilidade de que meu evento de estudo acontea. Na estatstica, o valor de p indica a significncia do meu teste. Ou seja, na estatstica, meu valor de p mede a probabilidade de que a diferena observada poderia ser encontrada caso minha hiptese nula H0 seja verdadeira. Vamos recorrer ao nosso exemplo base (ganho de peso em tilpias). Suponha que aps utilizar um teste estatstico adequado, o pesquisador tenha encontrado um p=0,54. Isto quer dizer que existem 54% de chances de que a diferena de peso encontrada entre peixes submetidos a diferentes dietas esteja relacionada meramente ao acaso, e no diferena da dieta. Sendo assim, quanto mais prximo o valor de p for de zero, menor ser a probabilidade de que a variao seja explicada pelo acaso. Neste caso, o pesquisador aceitaria sua hiptese alternativa. Entretanto, quando considerar que um valor de p seja suficientemente baixo para que se rejeite a H0? Em biologia, rejeitamos nossa hiptese nula quando p<0,05. Ou seja, existem menos de 5% de chances de meus dados estarem relacionados ao acaso. Podemos considerar este nmero bastante rigoroso. Em uma comparao simples, isto significa dizer que somente sairamos de casa com guarda chuva quando a previso do tempo apostasse 95% de chances de chover. Caso adotssemos este costume, com certeza seramos pegos de surpresa diversas vezes. Entretanto, em biologia, a observao dos padres cientficos deve ser forte. Diversos autores trabalham baseados em teorias e hipteses formuladas em outros trabalhos. Sendo assim, um ponto de corte mais alto (valor de p alto) significaria que muitos trabalhos seriam inferncias fracas sobre a realidade. Estudos realizados na rea da sade, como testes de frmacos, desenvolvimento de vacinas, etc., geralmente consideram significativos valores de p<0,01. Ou seja, estes trabalhos so ainda mais rigorosos quanto a aceitar sua hiptese testada, o que bastante recomendvel. Aceitar ou rejeitar hipteses est intimamente relacionado a dois erros em testes de hipteses: Erro do tipo I e erro do tipo II. Erros do tipo I consistem em rejeitar uma hiptese nula quando esta verdadeira. Ou seja, teremos uma explicao falsa para nosso evento. J no erro do tipo II, o contrrio observado, aceitamos nossa hiptese nula, mesmo esta sendo falsa. Ou seja, o pesquisador falha em detectar a diferena entre os grupos. Vamos a um exemplo: Um pesquisador encontra-se interessado em verificar se o rendimento escolar de um aluno est relacionado indisciplina. Neste caso, ele utiliza um teste comparando alunos indisciplinados com alunos sem problemas neste quesito. Caso o pesquisador tenha falhado no delineamento de seu experimento (veja Unidade I) ele poder erroneamente atribuir um baixo rendimento indisciplina (erro do tipo I) ou assumir que a indisciplina no tem relao com o rendimento do aluno (erro do tipo II). Notem ento que a anlise, ou mesmo a interpretao errada dos seus dados, pode gerar tanto erros do tipo I quanto do tipo II em um mesmo desenho experimental. De maneira geral o erro do tipo I pode ser considerado mais grave, j que atribui a um mecanismo mais complexo uma explicao que simplesmente obra do acaso. Outros pesquisadores podem se basear na sua pesquisa e desenvolver trabalhos naquela alegao falsa. J o erro do tipo II possivelmente ser rapidamente visualizado, j que outros pesquisadores com dados mais completos ou experimentos mais organizados podero rejeitar aquela hiptese nula e a cincia prosseguir daquele ponto. Sabendo-se ento o significado de p em um teste estatstico, vamos enfim aos nossos testes.

UNIDADE 4

29

UAB/Unimontes - 6 Perodo

DICAS
A regresso uma anlise que visa basicamente estimar estes parmetros e verificar se so estatisticamente significativos.

4.1 Regresso linear simples: Um fator


As regresses so usadas na comparao de dados numricos onde uma varivel colocada em funo da outra. Dizemos, portanto, que a varivel Y dependente da varivel X. Em outras palavras, X explica as variaes de Y. Por este motivo comum encontrar nos livros de estatstica a varivel Y chamada de varivel resposta e a varivel X de varivel explicativa. Podemos traduzir a influncia desta varivel na varivel resposta (Y) em uma equao matemtica como: Nesta equao a a elevao ou o valor da varivel resposta (Y) quando a varivel explicativa zero, este parmetro chamado de intercepto. O parmetro b a inclinao ou a quantidade que a resposta aumenta para cada unidade de aumento da varivel explicativa. Viu?! Por isso que, em uma regresso, dissemos que uma varivel varia em funo da outra. At o momento vimos dados categricos, em que os nveis so comparados entre si. Agora iremos relacionar duas variveis quantitativas e verificar se existe relao entre elas. Veja a figura 11.

Figura 11: Relao entre o nmero de participaes dos alunos em aula, e o nmero de alunos presentes em sala.
Fonte: Acervo autores

PARA REFLETIR
A habilidade para interpretar as estatsticas no to importante quanto habilidade de interpretar grficos

Neste grfico parece existir uma relao positiva entre o nmero de participaes em sala de aula (Eixo y, varivel resposta), em funo do aumento da frequncia de alunos presentes em sala de aula (Eixo X, varivel explicativa). Ou seja, medida que existam mais alunos em sala de aula, as aulas obtero um maior nmero de participao a respeito da matria. Este grfico nada mais do que a representao de uma tabela. Veja que se cruzarmos os dados da tabela no grfico, como o jogo batalha naval, encontraremos cada um daqueles pontos no grfico.

Tabela 3. Dados quantitativos demonstrando os valores da relao entre o nmero de participaes e a quantidade de alunos em sala de aula. Eixo x 27

Eixo y
15 10 11 11 21 9 1 8 6 3 2 1 1

31 20 26 26 23 13 22 18 18 17 16

30

15

Cincias Biolgicas - Anlise de Dados Biolgicos Sabendo-se o conceito de inferncia, agora podemos montar as hipteses: H0: As participaes no aumentam com o aumento no nmero de alunos na sala de aula. H1: As participaes aumentam com o nmero de alunos na sala de aula. Nossa equao, colocando * para representar a multiplicao, fica: y (Participao em sala de aula) = a + b * x (Frequncia de alunos) Para sabermos se existe uma relao entre estas duas variveis necessrio estimar os parmetros a e b. Mas antes iremos verificar se o modelo construdo vlido estatisticamente. Para isso devemos calcular a Soma dos quadrados totais, criando o modelo de anlise de varincia geral. Se a relao for linear, a probabilidade de se detectar uma relao aumenta com o aumento da amplitude do intervalo (valores do eixo X). Observe as figuras abaixo contendo as variaes em torno das Hipteses.

DICAS
Quando ns, outras pessoas, ou programas de estatstica colocam linhas retas em grficos, fazem isto minimizando a distncia mdia da linha aos pontos (Magnusson e Mouro, 2005).

Figura 12: Representao da varincia em torno da H0.


Fonte: Acervo autores

Figura 13: Representao da varincia em torno da H1.


Fonte: Acervo autores

A figura trs representa a soma dos quadrados dos erros (SQE) em relao aos valores estimados pelo modelo. Basicamente quando fazemos linhas retas em grficos, buscamos minimizar a distncia mdia da linha aos pontos. exatamente isso que o modelo prediz, ou seja, quanto mais prximo minha reta est dos pontos amostrados, mais chances de acertar ao dizer que minhas variveis se relacionam.

Menor o erro! Isso ocorre porque com o SQE obtemos a soma de quadrados da regresso (SQR), que dada pela seguinte frmula:

Isso significa que quanto menor o erro

31

UAB/Unimontes - 6 Perodo (SQE), maior ser a SQR. Entretanto, para verificar se esta relao significativa devemos calcular o valor de F obtido atravs da frmula: que fazem isso com apenas um comando. Aqui, no meu caso, estou utilizando o software R (disponvel: http://cran.r-project. org/), um programa gratuito, fcil de ser instalado em seu computador, mas de operao um pouco mais complicada, quando comparado a programas pagos, disponveis no mercado. Portanto para verificar a probabilidade associada ao F e aos graus de liberdade, atravs de uma anlise de varincia, basta digitar: Anova (modelo).

Como podemos observar o valor de F leva em considerao os graus de liberdade utilizados no modelo (glregresso), agora descobrir qual a probabilidade associada a este F com os respectivos graus de liberdade. No se preocupem, no precisamos fazer estes clculos com uma calculadora, existe uma srie de programas estatsticos

Tabela 4: Tabela de anlise de varincia. Os graus de liberdade esto representados em Df (degrees of freedom), soma dos quadrados por Sum Sq e a mdia da soma dos quadrados por Mean Sq. Tabela de varincia Varivel resposta (Y): Nmero de participaes em sala Df N. alunos Residuals 1 11 Sum Sq 289.282 161.795 Mean Sq 289.282 14.709 F valor 19.668 P valor 0.001**

** Indica a significncia do teste

Vejam que a probabilidade da relao entre as variveis ser casual foi igual a 0,001 (Tabela 2), ou seja, existe 1 chance em 1000 de mentir quando afirmamos que o nmero de alunos dentro da sala de aula afeta a participao durante as aulas. De fato ter muitos alunos em sala de aula importante para o nmero de participaes. Para completarmos nossa anlise e nossa equao, devemos obter os valores dos parmetros a e b. Para ambos as formulas so simples, veja:

Onde n o nmero de amostras, e so as mdias dos valores dos eixos y e x respectivamente. O nico problema de refazer dados biolgicos mo, utilizando apenas uma calculadora, de que normalmente nossos dados giram em torno de dezenas de nmeros, que somados, utilizam vrias casas decimais. Portanto, atualmente estes valores, para nossa sorte e prazer, podem ser adquiridos em qualquer programa de estatstica que existe, apenas devemos pedir o resumo (summary) da anlise. Summary (modelo)

Tabela 5. Resumo da anlise de varincia. Demonstrando os coeficientes da anlise de varincia. O Estimate representa as estimativas dos valores utilizados na regresso, a o intercepto e b o coeficiente angular. Coefficients: Estimate (Intercept) Nalunos -11.3814 0.9079 Std. Error 4.4137 0.2047 t value -2.579 4.435 Pr(>|t|) 0.02565 * 0.00100 **

Std. error (Erro padro) T value (Valor do teste T, Valor crtico a diferena entre as mdias, divididas pelo desvio padro, usadas no calculo da probabilidade da hiptese nula ser verdadeira.

32

Cincias Biolgicas - Anlise de Dados Biolgicos Nossa equao era: Participao em sala de aula = a + b * Frequncia de alunos. Agora iremos substituir os valores para definirmos o grfico. Na seo Estimate esto os valores estimados do intercepto a (-11.3814) e do coeficiente angular b (0.9079), substituindo a formula fica: Participao em sala de aula = -11.3814+ 0.9079*x

PARA REFLETIR
A estatstica t foi introduzida em1908por William Sealy Gosset. Contratado por uma cervejaria ele desenvolveu o teste t como um modo barato de monitorar a qualidade da cerveja.

Figura 14 : Grfico Final, relao entre o nmero de participao na aula e a frequncia de alunos em sala de aula.
Fonte: Acervo autores

Resumindo a matemtica dos nossos clculos, na ausncia de alunos na sala de aula, o nmero de participaes -11.3814 (a ou inter-

cepto) e o incremento de um aluno na sala de aula provoca o aumento de 0.9079 participaes na aula (b ou inclinao da reta).

4.2 Regresso mltipla: mltiplos fatores


A regresso mltipla segue as mesmas premissas da regresso simples. Entretanto a regresso mltipla envolve mais de um fator influenciando na sua varivel resposta, ou seja, ainda que exista apenas uma varivel resposta, devem existir duas ou mais variveis explicativas. A proposta deste tipo de anlise reduzir o coeficiente do intercepto, o qual, em regresso, significa a parte da varivel dependente explicada por outras variveis, que no a considerada no modelo. Em outras palavras, ao inserir mais de uma varivel explicativa, a varincia residual (ERRO PADRO DA ESTIMATIVA) diminui, e aumenta a fora dos testes de significncia. Alm disso, podemos eliminar a tendenciosidade que poderia resultar se simplesmente ignorssemos uma varivel que afeta Y substancialmente. Vamos seguir com o exemplo anterior. O professor de Cincias continua interessado em saber quais fatores so capazes de despertar o interesse dos alunos pela disciplina. Atravs da regresso simples, ele concluiu que quanto mais alunos em sala, melhor o nmero de participaes dos mesmos. Mas os anos de experincia, como professor, dizem a ele que, na prtica, elevar o nmero de alunos em uma sala de aula gera desordem e falta de controle. Portanto, aumentar o nmero de alunos em sala est fora de cogitao. Para sanar a dvida causada pela matemtica da anlise de regresso simples, ele resolve inserir mais uma varivel em suas anlises. Veja! Isso o que a regresso mltipla nos permite fazer. Voc se lembra que a equao da reta na regresso simples era: y = a + bx; agora a equao fica y = a+ b1x1+b2x2...bnxn. Desta forma, o professor pode inserir variveis explicativas que se relacionam em um mesmo modelo e assim obter resultados mais confiveis. Entretanto, para o aumento de cada varivel explicativa existe o custo nos graus de liberdade, pois cada nova varivel requer, no mnimo, um grau de liberdade para estimar sua probabilidade de efeito no modelo. Por

33

UAB/Unimontes - 6 Perodo

GLOSSRIO
Graus de liberdade: Nmero de observaes independentes menos o nmero de parmetros estimados (N 1).

este motivo, o modelo ideal deve obter o mais alto relacionamento explanatrio com o mnimo de variveis explicativas. Mas, afinal de contas, qual ou quais variveis podem relacionar-se com a participao dos alunos em sala de aula, alm do nmero de alunos em sala? Para responder esta questo, o professor de Cincias deve possuir um conhecimento prvio, e LER bastante sobre o assunto. O professor, portanto, decide refazer seu experimento, com um maior nmero de alunos, anotando o nmero de vezes que precisou interromper a explicao da matria, devido indisciplina ocasionada pelo excesso de alunos. Note! Este

mtodo criou uma nova varivel chamada Interrupes durante a aula. Com esse novo modelo possvel relacionar o nmero de participaes em sala de aula, com a frequncia de alunos somada s Interrupes nas aulas. Logo, a equao deixa de ser: Participao em sala de aula = a + b * Frequncia de alunos. passa a ser: Participao em sala de aula = a + b * Frequncia de alunos+b* Interrupes. Refazendo a Anova com o novo modelo, teremos: Anova (novomodelo)

Tabela 6: Tabela de anlise de varincia. Os graus de liberdade esto representados em Df (degrees of freedom), soma dos quadrados por Sum Sq e a mdia da soma dos quadrados por Mean Sq. Tabela de varincia Response: Participao em sala de aula Df N alunos Interrupes Residuals 1 1 10 Sum Sq 289.282 72.948 88.847 Mean Sq 289.282 72.948 8.885 F value 32.5595 8.2104 Pr(>F) 0.0001967 *** 0.0168011 *

* Indica a significncia do teste

Nesta anlise ambas as variveis apresentam efeito no nmero de participaes dos alunos na sala de aulas. Para saber COMO

este efeito, devemos saber os valores dos parmetros a e b da nossa equao. Vejamos: Summary(modelo)

Tabela 7. Resumo da anlise de varincia. Demonstrando os coeficientes da anlise de varincia. O Estimate representa as estimativas dos valores utilizados na regresso, a o intercepto e b o coeficiente angular. Frmula do modelo: lm(frmula = Participao ~ N alunos + Interrupes) Coefficients: Estimate (Intercept) N alunos Interrupes 10.7732 0.2216 -0.5538 Std. Error 8.4586 0.2876 0.1933 t value 1.274 0.771 -2.865 Pr(>|t|) 0.2316 0.4587 0.0168 *

OK, agora que temos os valores dos parmetros podemos construir os grficos. Iremos demonstrar estes dados em dois grficos, cada um com uma das variveis explicativas no eixo X. Logo, para duas retas devemos construir duas equaes. Vamos relembrar como a equao mltipla. y= a + b1x1 + b2x2 Traduzindo Participao em sala de aula = a + b * Frequncia de alunos+ b*Interrupes.

Inserindo os valores (Tabela 5): Reta correspondente ao primeiro grfico, com N de alunos no eixo X. Participao em aula = 10.7732+0.2216*x-0.5538*Interrupes Reta correspondente ao segundo grfico, com Interrupes durante a aula no eixo X. Participao em aula=10.7732-0.5538*x+0.2216* N alunos

34

Cincias Biolgicas - Anlise de Dados Biolgicos

Figura 15: Nmero de participaes dos alunos, em relao ao nmero de alunos em sala (grfico da esquerda) e Interrupes durante a aula (grfico da direita).
Fonte: Acervo autores

Veja que agora nosso amigo, professor de cincias, pode afirmar que o aumento no nmero de alunos em sala de aula capaz de elevar a participao dos acadmicos. Todavia, o aumento de Interrupes possui efeito contrrio, diminuindo o nmero de participaes em sala (Figura 14). Desta forma, para que as aulas do nosso amigo professor de cincias sejam

contempladas pela ateno e participao de seus alunos, ele deve preocupar-se em manter um nmero de alunos capaz de manter um mnimo de Interrupes possveis. Observe que o mundo cientfico no simples assim, as variveis explicativas podem interagir! Daremos mais nfase nestas mltiplas interaes nos prximos captulos.

4.3 Anlise de varincia (ANOVA)


A anlise de varincia, ou ANOVA, um dos testes estatsticos mais utilizados em biologia. (MAGNUSSON; MOURO, 2003). Seu objetivo principal fazer comparaes entre dois ou mais grupos baseadas nas diferenas entre as mdias e a variabilidade. Especificamente neste curso, focaremos na ANOVA baseada em um fator (one-way).

Existem outros testes estatsticos considerados tradicionais que desempenham funo semelhante ANOVA, como o caso do teste t de Student ou simplesmente teste t. Esta anlise tambm compara grupos baseada em suas mdias e variabilidades. Entretanto, este teste somente pode ser utilizado na comparao de DOIS grupos. Por este fato, tambm chamado de teste pareado, ou seja, feito par a par. A anlise de varincia faz parte de um grupo de testes chamados paramtricos (uma discusso mais detalhada de testes paramtrios e no-paramtricos ser feita no prximo captulo). A premissa bsica para a utilizao destes testes que os dados se adquem ao modelo de distribuio de probabilidade normal (ou gaussiana). Este modelo comumente observado em dados contnuos como peso, altura, etc. Neste tipo de distribuio, a maioria das observaes est agregada ao redor do centro, sendo gradativamente diminuda quando se afasta dele.

35

UAB/Unimontes - 6 Perodo

Nmero de observaes

Figura 16: Grfico demonstrando o modelo de distribuio normal. Note que a maioria das observaes (eixo y) esto concentradas no centro, gradativamente diminuindo nas extremidades.
Fonte: Acervo autores

Peso

GLOSSRIO:
Graus de liberdade: para encontrar a probabilidade (p) associada a um valor em particular de uma estatstica utilizam-se graus de liberdade. Este definido como o nmero de observaes menos 1. No nosso caso 20 peixes: n-1 = 19. Hoje em dia os programas de estatstica j calculam automaticamente O valor de p. Antigamente eram utilizadas as tabelas estatsticas, comuns ao final dos livros de estatstica para estabelecer este valor.

Para a utilizao da ANOVA, primeiramente devemos dividir os dados em variveis dependentes (ou resposta) e variveis independentes (ou categricas). Vamos utilizar nosso pesquisador de tilpias novamente. Neste caso minha varivel dependente o peso dos peixes e minha varivel categrica o tipo de rao. Sendo assim, minha varivel categrica meu tratamento, ou seja, o que foi manipulado para testar minha hiptese. A varivel resposta sempre uma varivel numrica. Minha varivel categrica, como o prprio nome diz, refere-se a uma categoria. A ANOVA uma anlise que compara grupos (categorias) baseados na mdia e variabilidade dentro dos grupos e entre os grupos. Este teste a tcnica de Fischer para partio da soma dos quadrados. (GOTTELI; ELLISON, 2011). A soma dos quadrados nada mais do que a soma dos desvios elevada ao quadrado. Lembre-se do que foi abordado sobre variabilidade e desvios na unidade II. A soma dos quadrados uma medida de variabilidade. Como frmula base da ANOVA temos:

e julgamos mais importante entendermos a teoria do que substituirmos frmulas por nmeros. Como toda anlise estatstica, a ANOVA possui alguns pressupostos, sendo eles: Amostras independentes: Conforme j discutido no captulo sobre delineamento amostral: As amostras devem ser aleatrias e independentes entre si; As varincias so homogneas entre grupos: Embora a mdia possa variar, assumimos que a varincia dentro de cada grupo similar quela dentro de todos os grupos. Assim, cada tratamento contribui com o mesmo tanto para a soma dos quadrados entre os grupos; Os dados ajustam-se distribuio normal; Vamos a um exemplo. Nosso pesquisador utilizou uma ANOVA para verificar a diferena entre o peso das tilpias entre seus tratamentos. Aps rodar a anlise em um programa estatstico, ele obteve os seguintes resultados:
GL Grupos 1 F 7.217

p 0.015*

36

S2B, que a soma dos quadrados entre os grupos (B = between) e S2W a soma dos quadrados dentro dos grupos (W = within). Note que uma ANOVA nada mais do que a relao entre a varincia entre grupos e a varincia dentro dos grupos. O restante dos clculos so derivaes desta frmula geral. No iremos aqui fazer manualmente passo a passo todos os clculos por diversas razes. Uma delas a de que existem inmeros softwares que fazem estas anlises

onde GL: Graus de liberdade; F valor do teste Fisher; P probabilidade de aceitar a H0. Neste caso, o valor de p = 0,015 indica que o pesquisador deve rejeitar sua hiptese nula, ou seja, a variao no peso dos peixes explicada pela diferena na dieta. Sendo assim, caso seu interesse seja fazer com que os peixes ganhem peso mais rapidamente, uma boa alternativa oferecer a eles rao rica em gordura. Aps a anlise, geralmente recorremos a grficos que ilustrem os resultados, como o que segue:

Cincias Biolgicas - Anlise de Dados Biolgicos

Figura 17: Grficos comparando o peso mdio dos indivduos (eixo y) entre os tratamentos (eixo x).
Fonte: Acervo autores

3.0

p=0,015
2.8

Barras de erro

2.6

2.4

Peso
2.2 2.0 1.8 1.6

t1 Grupos

t2

Note que o grfico torna a interpretao quase intuitiva. No eixo Y temos o peso mdio dos peixes e no X os dois tratamentos, neste caso, t1 e t2 (rao rica em gordura e rica em protena, respectivamente). Visualmente, observa-se uma grande diferena no peso dos indivduos entre os dois tratamentos e uma maior variabilidade no tratamento um. A observao da variabilidade feita atravs das barras de erro (indicadas pela seta) presentes no grfico. Neste caso, a medida de erro utilizada foi erro padro, sendo esta bastante comum nos trabalhos cientficos. Alm da di-

ferena visual, os grficos em trabalhos cientficos contm toda, ou quase toda, informao relativa anlise. Note que o valor de p tambm est presente no grfico, informando ao leitor se a diferena visual ou no significativa. Lembre-se de que dissemos que existe diferena significativa quando rejeitamos nossa H0, ou seja, p<0,05. Agora tomemos o exemplo das baratas e a concentrao de inseticida. Aps utilizar uma ANOVA o pesquisador chegou ao seguinte grfico:

Figura 18: Grfico relacionando ao nmero de indivduos mortos (eixo y) entre os tratamentos (eixo x).
Fonte: Acervo autores
Indivduos Mortos

10 9 8 7 6 5 4 3 2

p=0.00105

100mg/L

500mg/L

Concentrao

Note que, mais uma vez, analisando o grfico temos acesso a todos os resultados relevantes da anlise. Relembrando: A hiptese alternativa do pesquisador de que uma maior concentrao

de inseticida causa uma maior mortalidade aos besouros. Podemos observar (p<0,05) que, atravs da anlise de varincia, o pesquisador rejeitou sua hiptese nula de que a variao na mortalidade

37

UAB/Unimontes - 6 Perodo devido ao acaso. Ou seja, a concentrao de inseticidas no influencia na mortalidade de besouros. Apesar de bastante simples, nossos exemplos ilustram bem qual o objetivo de uma anlise de varincia (ANOVA): Comparar dois (ou mais tratamentos) com base em suas mdias e varincias. Agora que j aprendemos dois testes bsicos para dados com distribuio normal podemos passar para outras anlises, chamadas de modelos lineares generalizados.

Referncias
Magnusson, W.: Mouro, G. Estatstica sem Matemtica: A Ligao Entre as Questes e a Anlise. Editora Planta, 2003. Gotelli, N. J. & Ellison, A. M. Princpios de Estatstica em Ecologia, Editora Artmed, 2011.

38

Cincias Biolgicas - Anlise de Dados Biolgicos

Modelos lineares generalizados


Iremos abordar este tema de modo mais ilustrativo e com isto esperamos que o leitor vislumbre situaes similares aos princpios que descrevemos e, desta forma tornar mais prtico para que possam tratar seus dados de forma mais robusta, e desta forma, solucionarmos parte das grandes dvidas sobre este assunto. Iremos utilizar no curso o software R (disponvel: http://cran.r-project.org/), o qual recomendamos que voc o baixe e instalem em seus computadores e/ou peam para instalarem em seu local de uso. A famlia exponencial de anlise de dados, que se baseia no fato de alguns dados podem ser linearizados e este procedimento confere a eles serem tratados com as ferramentas estatsticas que hoje detemos e esto disponveis sob uma famlia de distribuies de erro com este perfil, a dos modelos linearizado generalizados (GLM) (CRAWLEY, 2007). A princpio, imagine que voc precisasse analisar os seu dados e tivesse indcios de que eles poderiam ser tratados como dados linearizveis, aqui iremos tratar basicamente como seguindo um padro Poisson e Binomial de erros.

UNIDADE 5

5.1 A anlise dos dados


Imagine se o interesse neste momento fosse o de testar se a informao de sobre se existe efeito benfico para uma escola aumentar a participao do aluno na construo de regras para o recreio. Na verdade, este apenas um exemplo onde o esperado que o leitor neste momento vislumbre a hiptese, pelo menos uma predio e como testar esta hiptese por meio da predio escolhida. Uma possvel hiptese seria: A adeso as regras est condicionada a identificao dos agentes e participantes da ao. Uma possvel predio: Quanto maior o nmero de envolvidos na escolha das regras, menor ser incidncia. At aqui plausvel que se imagine que a presena de pessoas na discusso das propostas seja algo importante, voc concorda? No entanto, as pessoas envolvidas nas discusses da proposta possuem diferentes pontos de vista, o que aceitvel dado a dinmica do processo democrtico. Assim, quanto maior o nmero pessoas de determinada classe maior ser o peso dado as decises, em se tratando de diferente nmero de pessoas de determinada classe opinando. Assim, a informao se professor, aluno, auxiliar de servios gerais, relevante, ento esta varivel tem que estar em nossa planilha, que agora passa a ser do seguinte modo: Inicialmente a nossa hiptese se tornar uma predio e esta poderia ser analisada atravs da construo de pelo menos um modelo, com uma varivel resposta (y) e uma ou mais variveis explicativas (x), que poderia ser do seguindo uma rotina paramtrica ou no paramtrica.

5.2 Modelos paramtricos e no paramtricos


Os modelos de anlise podem assumir uma curva terica (ou de distribuio de erros conhecida) , neste caso, constitui um parmetro e em razo disto denominar como analise paramtrica. As analises que no assumem nenhum padro de erros como parmetro so

39

UAB/Unimontes - 6 Perodo consideradas como no paramtrica e normalmente constitui uma dificuldade na extrapolao e comparao dos resultados encontrados. Na verdade, nas analises no paramtricas podemos encontrar mtodos que no seriam prontamente comparveis com outros resultados, e desta forma, podem preencher as argumentaes de um carrega de subjetividade considervel. De certa forma, esta rotina de orientar os trabalhos com parmetros no comparveis no pode ser dogmatizada, considerando que o meio cientfico s continua instigando dvidas e as nossas dvidas no podem ser somente de qual o melhor mtodo de anlise mas, de qual a resposta mais realstica. De certo modo, a informao de como analisar e reconhecer os resultados de modo paramtrico tem sido mais claro e didtico, e por isto baseamos nele no ser visto no restante deste material.

5.3 A construo dos modelos de anlise de modo paramtrico


A escolha de um processo de modelagem paramtrica uma opo de se construir um modelo de anlise com a distribuio de probabilidade dentro de um padro conhecido e prontamente comparado ou confrontado de modo universal. Por isto, iremos tratar a partir daqui somente de padres ou distribuies conhecidas e que por mais curioso que seja, so os mesmos padres que a maioria dos dados encontrados em ecologia e biologia se ajustam. O primeiro conceito importante o de distribuio de erros, que na verdade o de disperso dos dados dentro de um limiar esperado para aquele tipo de dados, isto importante e para compreendermos melhor iremos revisar a interpretao dos coeficientes e estimadores, que sero gerados ao final da anlise e a importncia de sua maior confiabilidade e preciso para uma melhor previso de determinado evento ou alterao. O primeiro que com o procedimento ir se calcular estes coeficientes seguindo um determinado padro, no caso uma distribuio terica esperada, que ser escolhida a priori. Esta distribuio terica mais correta pode ser escolhida segundo caractersticas da varivel resposta, (y) do modelo construdo. Novamente reforamos a ideia de que a modelagem uma ferramenta extremamente poderosa na construo e verificao de uma anlise mais correta e portanto mais robusta, o que vai garantir maior sucesso na interpretao dos padres verificados ao final do processo de anlise. Assim caso voc no saiba com clareza quais so a(s) sua(s) predies, no comece a fazer o processo de modelagem do modelo, porque na verdade ele ir avaliar uma realidade que voc deve conhecer. Esta sem dvida uma justificativa voc no delegue a outros a sua analise, porque os resultados sero para voc apenas nmeros sem uma real interpretao biolgica.

5.4 A escolha e o uso de uma curva terica


A escolha de qual a mais adequada curva terica para sua anlise se dar de acordo com as caractersticas encontradas na sua varivel resposta. Lembrando que as informaes encontradas nestas variveis so sempre numricas, portanto no qualitativas. Em via de regra no se tem uma total confiana e certeza de que a curva terica escolhida a melhor para aquele conjunto de dados, por isto necessrio fazermos as anlise de resduo para aferirmos o quanto a curva terica escolhida adequada e tambm o quanto o modelo construdo representa a realidade medida. Esta talvez uma das maiores dificuldades em se analisar os nossos dados em um ambiente que no seja de modelagem. Na verdade, quando construmos nossos prprios modelos podemos descrever quais as variveis e me algumas circunstncias at orientarmos para especificidades de cada tipo dados que obtenhamos, para melhores informaes veja o tpico desenho amostral.

40

Cincias Biolgicas - Anlise de Dados Biolgicos

5.5 As curvas tericas encontradas na famlia GLM, de maior interesse para bilogos
As principais curvas tericas que utilizamos podem serem encontradas em rotinas da famlia glm. Elas so a Poisson e Binomial, bem como as suas variaes. As definies dos principais casos vero abaixo.

5.6 Poisson
a distribuio de probabilidade encontradas nas anlises de dados cuja varivel resposta (y) possui caractersticas de nmeros naturais. Os nmeros naturais so nmeros inteiros e positivos e comum encontra esta caracterstica em experimentos cuja varivel resposta se refere a contagem de indivduos. A razo obvia, no biologicamente plausvel se conceber a ideia de que possa se registra esta informa co considerando 0,5 indivduos. No entanto, a disperso dos dados que melhor se adequem a um padro de distribuio Poisson podem no ser perfeita, podendo ocorrer disperso diferente do esperado, podendo ser acima (sobredisperso) ou abaixo (subdisperso) dos dados. Neste caso, podendo refazer o modelo para tornar a nossa anlise ainda mais confivel, utilizando um das duas variaes possveis do padro Poisson, a Quasipoisson ou Binomial Negativa.

5.7 Ajustamento no processo de padronizao


A necessidade de refazer o modelo para corrigir ao mximo possvel a subdisperso (Quasipoisson) ou sobredisperso (Binomial Negativa), deve ser feita quando detectarmos que o parmetro de disperso que para a famlia Poisson e Binomial giram em torno de 1 esto muito acima ou muito abaixo do esperado. Isto verificamos quando olhamos o resumo (summary(nome-do-modelo)) e nas ltimas informaes que verificamos, observamos a razo entre a Deviance residual em relao ao nmero de graus de liberdade do resduo. O valor encontrado refere-se ao parmetro utilizado, o que na verdade pode ser diferente do esperado como padro. Assim, teremos de refazer o modelo utilizando como distribuio de erro uma das verses da Poisson (em circunstncia em o modelo inicial mais adequado foi feito com o uso da Poisson), sendo Quasipoisson, ou Binomial Negativa. A Binomial negativa possui um rotina um pouco diferente no diz respeito ao modo de modelagem, a rotina em si est no pacote de nome MASS, sob o nome de glm.nb.
Figura 19 : Clculo do parmetro de disperso
Fonte: Acervo autores

41

UAB/Unimontes - 6 Perodo

5.8 Binomial
O padro binomial comumente utilizado em dados em percebamos a sua varivel resposta com valores de 0 a 1, podendo inclusive se referir a estes extremos. A funo utilizada a logit, a qual diferente da funo de ligao da curva terica Poisson (log). Um erro muito comum ao uso desta curva terica sua similaridade com os dados comumente de taxa que tambm aparentam se tratar de propores de uma dada ocorrncia. Assim, o padro Binomial se adequa muito bem a dados proporcionais, o que de certa forma, representa dois extremos bem evidentes. 1) No possvel a ocorrncia de nenhum dado com informao negativa, j que no concebvel existir uma proporo negativa de um evento ou coisa, e 2) no concebvel existir 105% de um todo. Desta forma, as duas assintticas so bem representadas e a existncia delas distingue este tipo de dados da informao de taxa, que tambm pode ser registrada como percentagem. Para efeito de modelagem no muda em nada do que j foi descrito anteriormente, difere em apenas a varivel que ocupa a funo de varivel resposta, que no item anterior foi apresentada como sendo do padro Poisson, neste caso, no podem ser maiores que 1 ou menores que 0. O mesmo procedimento para estimar a se a disperso est sendo calculada de acordo com o parmetro esperado serve para acessar esta informao no padro binomial, com uma exceo de que s existe at ento uma forma de corrigir a sub ou sobredisperso por meio de mudana de curva terica da mesma famlia. Detectando a ocrrncia de sub ou sobredisperso o mtodo de correo a priori seria o de refazer o modelo com Quasibinomial ocupando o local da distribuio de erros.

5.9 Como construir modelos de regresso coerentes com as predies testadas


Em via de regra devemos sempre criticar os nossos modelos no que tange a correspondncia entre a hiptese que acreditamos ser vlidas para explicar o nosso fato e a real correspondncia dos dados as predies que assumimos. Caso esta correspondncia no seja prontamente vista em nosso trabalho suspeite de que voc pode estar medindo algo que no seja na verdade o que deveria. Um bom exerccio para avaliar isto escrever de modo claro e extremamente objetivo as seguintes informaes do seu trabalho antes de fazer as suas anlises (com no mximo 2 linhas par acada item): a. b. c. d. Hiptese que explica o fato em questo; A(s) predio(es) que podem ser feitas a partir desta hiptese (item 1); Quais dados corresponderiam ao que estar sendo testado (relacionado com a predio) Quais o resultados possveis de serem encontrados (neste item deve se considerar o que foi predito) e. Quais os resultados possveis de serem encontrados (que so aqueles que podem ser encontrados mas diferem do predito e que voc saber o que representam).

42

Cincias Biolgicas - Anlise de Dados Biolgicos

5.10 Mtodo de construo e simplificao dos modelos construdos


O processo de modelagem requer conhecimento de quais so as premissas avaliadas em determinado momento. Este conhecimento de extrema utilidade no processo de simplificao do modelo construdo. Inicialmente, precisamos compreender porque precisamos simplificar os modelos de analise que construmos e qual(is) o mtodos para faz-lo. Os processo de simplificao garantem a quem estiver modelando a anlise estatstica a certeza de que estar fazendo as inferncias com base em apenas as predies que realmente so importantes para explicar as alteraes verificadas na fato medido (Varivel resposta (ou Y, encontrada nos grficos)). O princpio que se baseia para tal processo o da parcimnia em que se assume que a melhor explicao para qualquer alterao a mais simples, portanto a mais aceitvel. Existem trs mtodos de simplificao durante o processo de modelagem: Backward, Forward e Stepwise, sendo os dois primeiros os mais comumente os mais utilizados, veja a seguir a diferena bsica entre eles.

5.11 Mtodo Backward de construo e/ou simplificao de modelos de regresso


Este mtodo considera que ponto de incio do processo de modelagem parte do modelo mais complexo, com todas as variveis e possveis interaes estatsticas que biologicamente faam sentido. Observe o exemplo abaixo: Imagine o objeto a abaixo criado com 5 nmeros e outro objeto, b com tambm com 5 nmeros.
Figura 20: Criao de objetos a e b (caracterizados por ) e consequente construo de um modelo completo
Fonte: Acervo autores

43

UAB/Unimontes - 6 Perodo Assim, o parmetro que baseamos o valor de probabilidade que na tabela aparece na ltima coluna da anlise de Deviance ou varincia, nomeada de P(>|Chi|), que neste caso so a(P= 0.02336 ), b(P=0.76010) e a:b(P=0.85820), sendo que o maior de probabilidade o de b, que neste caso, seria a varivel de maior probabilidade de o resultado encontrado, porm no a varivel mais de maior complexidade, que neste caso o a:b, portanto teremos qeiu refazer o modelo retirando este termo do modelo, o que pode ser feito de duas formas: Refazendo o modelo digitando as variveis novamente

Figura 21: Simplificao de modelo de regresso


Fonte: Acervo autores

Ou, 2) Atualizar o modelo feito anteriormente e no mesmo momento retirar (ou adicionar conforme a necessidade) o termo que tiver interesse no momento com o comando update, deste modo:
Figura 22: Simplificao de modelo de regresso utilizando o comando update
Fonte: Acervo autores

O passo seguinte fazer a releitura das informaes que anlise de Deviance ou varincia do modelo de regresso feito, sempre observando a retirada das variveis ou interaes que tenham um valor de probabilidade superior ao limiar aceitvel, no nos-

so caso comumente 0,05 (5%). Neste caso, a varivel que seria retirada neste momento b, que na tabela de resultados podemos ler o valor de probabilidade (P=0.89491, que superior ao limiar de significncia considerado, 0,05). Observe:

44

Cincias Biolgicas - Anlise de Dados Biolgicos

Figura 23: Simplificao de modelo de regresso utilizando o comando update e - a varivel ou interao de interesse
Fonte: Acervo autores

Existe uma exceo a esta ordem de prioridade na escolha de qual varivel deve ser retira do modelo em questo, quando uma possvel interao for importante para ao modelo, mas a uma ou mais variveis que participem da interao no o forem. Neste caso, deve-se manter as variveis no significativa no modelo considerado como o modelo mnimo ade-

quado (MMA), em razo do efeito que exercem na interao. A leitura dos resultados a seguinte: =5.1414, P=0.02336, por conveno existem algumas padronizaes para registrar estes resultados, verifique sempre na hora de escrever os seus resultados para mostr-los da melhor e mais formatada forma possvel.

5.12 Mtodo Forward de construo e/ou simplificao de modelos de regresso


Agora vamos construir o modelo de regresso seguindo uma rotina diferente da Backward, que partia de uma construo de modelo j com todas as possibilidades biologicamente possveis de se testar, agora o ponto de partida o modelo nulo, modelo onde se considera a ausncia qualquer varivel e vai se adicionando variveis e possveis interaes que faam sentido biolgico, uma por vez. Este mtodo Forward, em que a modelagem construda de modo a se encontrar o modelo mais parcimonioso de modo, mais aceitvel. Desta forma, assim como a rotina de modelagem em Backward, o proposito se chegar ao modelo minimo adequado, no entanto, o modelo mais realstico possvel, o que neste caso, ser o modelo com as variveis ou interaes que de fato representam algo, observe o procedimento na figura 5 abaixo.

Figura 23: Simplificao de modelo de regresso


Fonte: Acervo autores

45

UAB/Unimontes - 6 Perodo O prximo passo o de acrescer uma varivel ou interao ao sistema por vez, do seguinte modo:
Figura 24: Simplificao de modelo de regresso
Fonte: Acervo autores

Quando executamos o comando anova, fazemos uma anlise de Deviance do modelo de regresso construdo, o que poderia ser feito de outra forma, caso a funo anova no tivesse sido implementada no instante em questo. Este outro mtodo para se ter a mesma informao, se comparamos os dois modelos, baseia-se na diferena entre os dois mode-

los construdos, o anteiro e o segundo com a varivel ou interao que adicionamos a ele. Os valores que encontrarmos se referem a varivel que foi adicionada quando comparamos os dois modelos, esta informao de vital importncia em algumas rotinas que veremos adiante, observe:

Figura 25: Simplificao de modelo de regresso


Fonte: Acervo autores

5.13 Mtodo Stepwise de construo e/ou simplificao de modelos de regresso


O mtodo de construo seguindo a rotina em Stepwise baseia-se na construo de modelo seguindo as duas formas de modelagem (Forward e Backward) simultaneamente. Este mtodo bastante interessante mas um pouco mais complexo que os dois anteriores.

46

Cincias Biolgicas - Anlise de Dados Biolgicos

5.14 Mtodos de crtica ao modelo construdo


5.14.1 Anlise de resduos
A idia de previso est relacionada nossa necessidade de antepor ou prever provveis eventos ou situaes e antecipar provveis solues. O nosso corpo terico poderia nos dar suporte para isto, atravs de predies. Estas predies nascem do nosso conhecimento dos padres como os eventos biolgicos ocorrem e de que dependem. Desta forma, as alteraes nos fatores que determinam determinado evento podem instigar provveis medidas de preservao ou de reajustem na Dentre as anlises de crtica aos modelos esta garante um maior rigor de analise o que garante uma maior robustez aos modelos analisados. Existem pelo menos dois procedimentos de analises de resduos, um por meio de analise de diferenciao do modelo mnimo adequado do modelo nulo e por meio de grficos de resduos do mesmo em relao a um modelo terico saturado.

5.14.2 Anlise de resduos por meio da comparao do MMA com o modelo nulo
Uma dvida recorrente se d em virtude da natureza do modelo nulo. O modelo nulo aquele em que se constri um modelo assumindo a varivel resposta mensurada e como varivel explicativa(s) apenas um componente aleatrio, que neste caso, interpretado pelo R como 1. Assim o modelo nulo seria do seguinte modo, considerando do exemplo dado na unidade ancova,

Figura 26: Simplificao de modelo de regresso


Fonte: Acervo autores

Neste caso, foi considerado como varivel resposta o objeto numero.de.aucar, sendo a medida correspondendo ao nmero de pirulitos vendidos na banca de uma destas esquinas em, relao ao contedo de acar e a cor dos mesmo. Claro que neste exemplo deveria ficar claro a hiptese e a(s) predio(es) que derivem da mesma. Neste caso, a varivel cor se refere a intensidade do tom verde que foi utilizado na fabricao do pirulito. Esta observao de extrema importncia, os dados de uma varivel quantitativa devem ter uma exata correspondncia entre a caracterstica

e o nmero dado a ela, isto porque, durante a anlise o programa ir entender desta forma. Se isto no for verdade voc deve substituir os nmeros desta varivel por letras para tornar mais correta a interpretao destes dados (para maiores detalhes reveja as primeiras unidades deste material). E, considerando que a varivel resposta se refere a nmero de pirulitos vendidos, que um nmero discreto e positivo, assumimos a como varvel resposta e deste modo a curva terica mais provvel seria a Poisson, e considerando um limiar de significncia de 0,05 (5%). Assim,

47

UAB/Unimontes - 6 Perodo

Figura 27: Simplificao de modelo de regresso


Fonte: Acervo autores

Observe que podemos economizar em digitar o nome de vrios fatores a serem testadas no modelo como o sinal de *, que interpretado como sendo para se testar as variveis envolvidas pelo * separadamente e tambm as possveis interaes estatsticas

entre elas. Lembrando que s podemos fazer inferncia com base no modelo mnimo adequado (MMA), inclusive a anlise e de resduo tambm feita a partir dele, assim temos que obt-lo e neste caso que retirar um termo do modelo, a teor.de.aucar:cor.do.pirulito, logo,

Figura 28: Simplificao de modelo de regresso


Fonte: Acervo autores

Repare que a interao presente entre os termos no poderia foi retirada porque alm de possuir um valor de significncia superior ao limiar aceitvel (0,05), portanto o modelo. completo.2 mais aceitvel que o anterior mas ainda no pode ser considerado como modelo mnimo adequado (MMA) por ainda possuir varivel com valor de significncia

acima do limiar de significncia aceitvel que nem mesmo fazem parte de interaes entre os termos ou varivel testadas com valor de probabilidade abaixo do limiar de probabilidade aceitvel. Assim, devemos continuar retirando os termo(s), um por vez, que no importam para explicar as variaes no nmero de pirulitos vendidos. Ento:
Figura 9: Simplificao de modelo de regresso
Fonte: Acervo autores

48

Cincias Biolgicas - Anlise de Dados Biolgicos Repare que no modelo.completo.4, verfica-se apenas a varivel teor.de.aucar como varivel explicativa importante , mas no existe a possibilidade de simplificar ainda mais o modelo. Se no puder simplificar ainda mais, o modelo em questo pode ser considerado como o modelo mnimo adequado (MMA). Lembrando que a anlise de resduo deve ser feita confrontando o MMA com as anlises de resduo possveis. Assim vamos confront-lo com o modelo nulo, a 1 anlise de resduo.
Figura 29: Simplificao de modelo de regresso
Fonte: Acervo autores

O valor de significncia observado nesta anlise de comparao do modelo mnimo adequado como modelo nulo deve ser inferior ao limiar de significncia admitido anteriormente. Se isto for verificado, interpretamos como o modelo mnimo adequado possuindo uma(s) explicao diferente da dada pelo modelo nulo. Assim ele melhor que o modelo nulo porque o mesmo uma medida daquele evento ocorrer simplesmente ao aleatrio,

e o nosso modelo construdo encontrou uma correspondncia entre a variao do nmero de vendas de pirulitos e teor de acar dos mesmos. Isto suficiente para aferirmos de o modelo mnimo adequado melhor que o modelo nulo. Mas ainda no temos condies de aferir com total certeza que o teor de acar um bom preditor da venda de pirulitos. Teremos que fazer outras anlises de resduos possveis para este tipo de anlise.

5.14.3 Anlise de resduo por meio da comparao dos grficos dos resduos do MMA com o modelo terico
O modelo mnimo adequado pode ser comparado com o modelo terico saturado utilizado como parmetro (neste caso o Poisson). Para isto, basta fazer um grfico do modelo e, utilizando os dois primeiros grficos termos uma informaes se o modelo est aceitvel. Esta parte da anlise um pouco mais subjetiva e a rapidez na verificao vai de da com o tempo e experincia. Mas um iniciante ter o mesmo mrito se for atento e observar cuidadosamente os grficos em questo. Vamos l, ao digitar o comando plot(nome do modelo) iremos notar alguns grficos dos quais gostaramos de chamar a ateno para os dois primeiros. O primeiro deles tem como eixos os resduos e o eixo x o nome do modelo como o encontrado na figura 11.
Figura 30: Simplificao de modelo de regresso
Fonte: Acervo autores

Neste caso os resduos no esto to bons, percebido observando a concatividade da linha avermelhada (curva de tendncia). Quanto menor esta concatividade melhor ser os resduos, muito embora nem sempre tenhamos resduos perfeitos. O segundo grfico da figura 11, o de disperso e interessante porque podemos basear tambm nele para verificar o quanto o nosso modelo est ajus-

tado a distribuio de erros que assumimos a priori. A linha pontilhada neste grfico mostra o modelo que foi assumido com a curva terica que assumimos a priori e os crculos abertos so os nossos dados. O melhor seria se o maior nmero de crculos estivesse sobre a linha pontilhada, caracterizando a distribuio de erros mais ou menos que mais ou menos adequada.

49

UAB/Unimontes - 6 Perodo

Referncias
Crawley M. J. The R Book. John Wiley & Sons, 2007.

50

Cincias Biolgicas - Anlise de Dados Biolgicos

Resumo
Na Unidade I foram abordados conceitos bsicos para nossa disciplina, como delineamento experimental e rplicas. Um bom desenho experimental permite ao pesquisador testar sua hiptese de maneira correta e ter uma boa base de dados para suas anlises. A utilizao de rplicas permite ao pesquisados acessar a variabilidade presente em seu universo amostral e, a partir de ento, tirar concluses de seus dados. Vimos, ainda nesta unidade, que o delineamento experimental parte crucial de qualquer projeto e deve ser muito bem pensado. Um desenho mal elaborado torna o projeto mais caro e muitas vezes inviabiliza a elaborao de concluses robustas sobre o tema estudado. Na Unidade II foram introduzidos os conceitos de probabilidade e variabilidade. O primeiro diz respeito a chance de que um dado evento ocorra. J o segundo, refere-se a variao natural existente dentro de um mesmo grupo de estudos. Estes dois conceitos, em conjunto, formam a base para a maioria dos testes estatsticos. J na Unidade III foi introduzido o conceito de hipteses biolgicas. A maioria dos estudos se baseia em hipteses, que podem ser definidas como explicaes para um evento observado. Deve-se considerar a necessidade de que uma hiptese seja testvel, ou seja, a minha hiptese pode ser refutada ou aceita aps um experimento. Foram apresentados, ainda, os mtodos cientficos que podem ser definidos como a maneira utilizada para escolher entre hipteses com base nas observaes. Foram abordadas, ainda, as definies de hiptese nula (H0) e hiptese alternativa (Hn), que dizem respeito explicao de meu evento. Ele pode acontecer simplesmente ao acaso, neste caso aceitamos nossa hiptese nula; ou nosso evento pode confirmar uma hiptese anteriormente apresentada, aceitando a hiptese alternativa. Duas anlises estatsticas simples e bastante utilizadas na biologia foram apresentadas na Unidade IV: regresso linear e a anlise de varincia. A regresso linear utilizada para testar uma relao entre duas variveis quantitativas, enquanto a ANOVA compara uma varivel quantitativa baseada em dois ou mais grupos (categorias) qualitativo. Essas anlises tm algumas restries de utilizao, sendo uma delas, a necessidade de que os dados se adqem a distribuio normal. Por fim, a Unidade V tratou dos modelos lineares generalizados. Este tipo de abordagem estatstica est sendo amplamente utilizado na atualidade por fornecer uma maior gama de possibilidades ao pesquisador. Nestas anlises possvel construir um modelo baseado na distribuio particular dos dados coletados. De uma maneira simplista, essas anlises tornam-se mais direcionadas a cada tipo de dado. Foram apresentadas, ainda, as curvas tericas de maior importncia em trabalhos na rea da biologia e exemplos passo a passo de como construir e utilizar os modelos lineares generalizados.

51

Cincias Biolgicas - Anlise de Dados Biolgicos

Referncias
Bsicas
Magnusson, W. & Mouro, G. Estatstica sem Matemtica: a Ligao Entre as Questes e a Anlise. Editora Planta, 2003. Stokes, D. E. O quadrante de Pasteur: A cincia bsica e a inovao tecnolgica. Editora UNICAMP, 2005.

Complementares
Crawley M. J. The R Book. John Wiley & Sons, 2007. Gotelli, N. J. & Ellison, A. M. Princpios de Estatstica em Ecologia, Editora Artmed, 2011. Krebs, C. J. Ecological Methodology. New York: Harper & Row,1989. Ruxton, G.D. & Colegrave, N. Experimental design for the life sciences. 2ed. Oxford, 2006.

53

Cincias Biolgicas - Anlise de Dados Biolgicos

Atividades de Aprendizagem AA
01) Defina probabilidade e variabilidade. Qual a importncia destas medidas para uma anlise estatstica? 02) O que so hipteses nulas e hipteses alternativas? 03) O que a anlise de varincia? Quando devemos utilizar este tipo de anlise? 04) O que pseudo-repetio? D exemplos dos principais tipos. 05) Defina os parmetros (y, a, b e x) da equao: y= a +bx. 06) O objetivo do seu estudo verificar se o peso influenciado pela idade. A partir dos dados apresentados na tabela a seguir, faa um grfico contendo a disperso dos pontos e responda:
Peso (kg) 85 90 75 70 65 70 60 55 Idade (anos) 20 25 30 40 50 60 70 80

a) Qual sua varivel resposta e qual a varivel explicativa? b) A inclinao b ter um valor positivo ou negativo?

07) O que configura uma rplica verdadeira? 08) Diferencie anlises paramtricas das no paramtricas. 09) Quais as caractersticas que um modelo tem de possuir para ser considerado como modelo mnimo adequado? 10) Qual(is) critrio(s) devemos utilizar quando for necessrio simplificar o modelo de anlise construdo?

55

Potrebbero piacerti anche