Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
6 PERODO
Luiz Alberto Dolabela Falco Luiz Eduardo Macedo Reis Magnel Lima de Oliveira Rodrigo Oliveira Pessoa
Luiz Alberto Dolabela Falco Luiz Eduardo Macedo Reis Magnel Lima de Oliveira Rodrigo Oliveira Pessoa
Copyright : Universidade Estadual de Montes Claros UNIVERSIDADE ESTADUAL DE MONTES CLAROS - UNIMONTES
REITOR Joo dos Reis Canela VICE-REITORA Maria Ivete Soares de Almeida DIRETOR DE DOCUMENTAO E INFORMAES Huagner Cardoso da Silva CONSELHO EDITORIAL Maria Cleonice Souto de Freitas Rosivaldo Antnio Gonalves Slvio Fernando Guimares de Carvalho Wanderlino Arruda REVISO DE LNGUA PORTUGUESA ngela Heloiza Buxton Arlete Ribeiro Nepomuceno Aurinete Barbosa Tiago Carla Roselma Athayde Moraes Luci Kikuchi Veloso Maria Cristina Ruas de Abreu Maia Maria Lda Clementino Marques Ubiratan da Silva Meireles
REVISO TCNICA Admilson Eustquio Prates Cludia de Jesus Maia Josiane Santos Brant Karen Trres Corra Lafet de Almeida Kthia Silva Gomes Marcos Henrique de Oliveira DESIGN EDITORIAL E CONTROLE DE PRODUO DE CONTEDO Andria Santos Dias Camilla Maria Silva Rodrigues Clsio Robert Almeida Caldeira Fernando Guilherme Veloso Queiroz Francielly Sousa e Silva Hugo Daniel Duarte Silva Marcos Aurlio de Almeida e Maia Patrcia Fernanda Heliodoro dos Santos Sanzio Mendona Henriques Tatiane Fernandes Pinheiro Ttylla Ap. Pimenta Faria Vincius Antnio Alencar Batista Wendell Brito Mineiro Zilmar Santos Cardoso
2011 Proibida a reproduo total ou parcial. Os infratores sero processados na forma da lei. EDITORA UNIMONTES Campus Universitrio Professor Darcy Ribeiro s/n - Vila Mauricia - Montes Claros (MG) Caixa Postal: 126 - CEP: 39.401-089 Correio eletrnico: editora@unimontes.br - Telefone: (38) 3229-8214
Ministro da Educao Fernando Haddad Presidente Geral da CAPES Jorge Almeida Guimares Diretor de Educao a Distncia da CAPES Joo Carlos Teatini de Souza Clmaco Governador do Estado de Minas Gerais Antnio Augusto Junho Anastasia Vice-Governador do Estado de Minas Gerais Alberto Pinto Coelho Jnior Secretrio de Estado de Cincia, Tecnologia e Ensino Superior Nrcio Rodrigues Reitor da Universidade Estadual de Montes Claros - Unimontes Joo dos Reis Canela Vice-Reitora da Unimontes Maria Ivete Soares de Almeida Pr-Reitora de Ensino Anete Marlia Pereira Diretor do Centro de Educao a Distncia Jnio Marques Dias Coordenadora da UAB/Unimontes Maria ngela Lopes Dumont Macedo Coordenadora Adjunta da UAB/Unimontes Betnia Maria Arajo Passos Diretor do Centro de Cincias Humanas - CCH Antnio Wagner Veloso Rocha Diretora do Centro de Cincias Biolgicas da Sade - CCBS Maria das Mercs Borem Correa Machado Diretor do Centro de Cincias Sociais Aplicadas - CCSA Paulo Cesar Mendes Barbosa Chefe do Departamento de Artes Maristela Cardoso Freitas
Chefe do Departamento de Cincias Biolgicas Guilherme Victor Nippes Pereira Chefe do Departamento de Cincias Sociais Maria da Luz Alves Ferreira Chefe do Departamento de Geocincias Guilherme Augusto Guimares Oliveira Chefe do Departamento de Histria Donizette Lima do Nascimento Chefe do Departamento de Comunicao e Letras Ana Cristina Santos Peixoto Chefe do Departamento de Educao Andra Lafet de Melo Franco Coordenadora do Curso a Distncia de Artes Visuais Maria Elvira Curty Romero Christoff Coordenador do Curso a Distncia de Cincias Biolgicas Afrnio Farias de Melo Junior Coordenadora do Curso a Distncia de Cincias Sociais Cludia Regina Santos de Almeida Coordenadora do Curso a Distncia de Geografia Janete Aparecida Gomes Zuba Coordenadora do Curso a Distncia de Histria Jonice dos Reis Procpio Coordenadora do Curso a Distncia de Letras/Espanhol Orlanda Miranda Santos Coordenadora do Curso a Distncia de Letras/Ingls Hejaine de Oliveira Fonseca Coordenadora do Curso a Distncia de Letras/Portugus Ana Cristina Santos Peixoto Coordenadora do Curso a Distncia de Pedagogia Maria Narduce da Silva
Autores
Bacharel em Cincias Biolgicas pela Universidade Estadual de Montes Claros Unimontes e mestre em Cincias Biolgicas pela mesma instituio. Atualmente professor pesquisador da Universidade Aberta do Brasil UAB Bacharel em Cincias Biolgicas pelo Centro Universitrio do Leste de Minas Gerais UNILESTE-MG mestre em Cincias Biolgicas pela Universidade Estadual de Montes Claros Unimontes. Atualmente coordena um subprojeto do PIBID/UNIMONTES Licenciado em Cincias Biolgicas pela Universidade Estadual de Montes Claros Unimontes e mestre em Cincias Biolgicas pela mesma instituio Doutor em Biologia Gentica pela Universidade de So Paulo (USP), mestrado em Zoologia pela Universidade Federal da Paraba, graduado em biologia licenciatura e bacharelado com nfase em Zoologia pela Universidade Federal de Minas Gerais (UFMG). Atualmente professor da Universidade Estadual de Montes Claros (Unimontes).
Sumrio
Apresentao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .9
Unidade 1
Delineamento experimental 1.1 Por que delinear? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .11 1.2 Custos de um desenho mal elaborado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .12 1.3 Como delinear? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .12 1.4 Pseudo-repetio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .15 1.5 Como selecionar um nmero apropriado de rplicas. . . . . . . . . . . . . . . . . . . . . . . . . .17 Referncias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .19
Unidade 2
Probabilidade e variabilidade 2.1 Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 2.2 Probabilidade e amostragens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 2.3 Variabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 Referncias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .24
Unidade 3
Hipteses Biolgicas 3.1 Mtodos cientficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.2 Deduo e induo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.3 Mtodo hipottico-dedutivo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .26 3.4 Testando hipteses estatsticas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .27 3.5 Hiptese nula x Hiptese alternativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .27 Referncias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
UAB/Unimontes - 6 Perodo
Unidade 4
Regresso linear e ANOVA 4.1 Regresso linear simples: Um fator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.2 Regresso mltipla: mltiplos fatores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .33 4.3 Anlise de varincia (ANOVA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .35 Referncias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Unidade 5
Modelos lineares generalizados 5.1 A anlise dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .39 5.2 Modelos paramtricos e no paramtricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .39 5.3 A construo dos modelos de anlise de modo paramtrico . . . . . . . . . . . . . . . . . 40 5.4 A escolha e o uso de uma curva terica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 5.5 As curvas tericas encontradas na famlia GLM, de maior interesse para bilogos . .41 5.6 Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .41 5.7 Ajustamento no processo de padronizao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .41 5.8 Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .42 5.9 Como construir modelos de regresso coerentes com as predies testadas . . .42 5.10 Mtodo de construo e simplificao dos modelos construdos . . . . . . . . . . . . .43 5.11 Mtodo Backward de construo e/ou simplificao de modelos de regresso . .43 5.12 Mtodo Forward de construo e/ou simplificao de modelos de regresso . . . .45 5.13 Mtodo Stepwise de construo e/ou simplificao de modelos de regresso . . 46 5.14 Mtodos de crtica ao modelo construdo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .47 Referncias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .51 Referncias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .53 Atividades de Aprendizagem AA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .55
Apresentao
Caro(a) acadmico(a), Iniciamos agora a disciplina Anlise de Dados Biolgicos. De maneira geral, ns, bilogos, temos certa averso a nmeros e modelos matemticos. Entretanto, a estatstica nos fornece a possibilidade de resumir aspectos gerais da natureza em padres cientficos atravs da mensurao e anlise de dados. Sem esta ferramenta, estaramos todos desenvolvendo teorias e mais teorias sem nenhum sentido cientfico. A anlise de dados biolgicos engloba um nmero infinito de possibilidades. Podemos analisar os dados amostrados utilizando desde uma simples comparao entre mdias at complexos modelos multivariados de explorao. Entretanto, nesta disciplina, focamos em aspectos mais bsicos da estatstica que nos permitiro entender a linguagem cientfica de uma maneira geral. Sendo assim, comeamos agora nossa disciplina. Recomendamos a utilizao de outros livros-textos e outras fontes de informao parra compreenso mais aprofundada de alguns assuntos. Ento, vamos nessa?! Mos obra e bons estudos a todos! Os autores.
Delineamento experimental
O delineamento experimental o passo crucial durante a elaborao de trabalhos cientficos para alcanar o objetivo da cincia de responder as perguntas formuladas normalmente atravs das hipteses. Portanto, um desenho amostral mal formulado ter consequncias diretas nos resultados, culminando em respostas equivocadas que nenhum teste estatstico ser capaz de corrigir. O delineamento experimental definido por Magnunsson e Mouro (2003) como uma maneira de coletar os dados de forma que voc tenha uma boa chance de tomar uma boa deciso. Todavia os passos para alcanar esta boa deciso, durante a escrita de seu projeto, seguem as premissas de um mtodo cientfico, em que primeiramente se deve pensar, formular perguntas e hipteses que sero a base para tal delineamento, alm de desenhar o experimento e realizar as anlises estatsticas quando necessrias. Desta forma a estatstica apenas uma ferramenta de anlise de dados que permite a comunicao entre pesquisadores.
UNIDADE 1
PARA REFLETIR
Somos compositores de um bom conhecimento cientfico.
DICAS
Turkey (1980) enfatizou que Encontrar a pergunta certa frequentemente mais importante do que encontrar a resposta certa.
Ser que o rio situado ao leste da cidade, funciona como um reservatrio para o mosquito transmissor? O grande nmero de terrenos abandonados nesta regio pode conter gua e facilitar o processo de reproduo do mosquito? Casas com grandes quintais, como caracterstica desta regio, so reservatrios efetivos do mosquito transmissor?
11
UAB/Unimontes - 6 Perodo Veja que todas as perguntas partiram do conhecimento prvio da regio a ser estudada, entretanto muitas vezes o recurso financeiro que possui no permite que responda a todas elas.
DICAS
Um delineamento experimental mal formulado ser penalizado com perda de tempo e recursos materiais.
Os trabalhos que no apresentam um desenho experimental bem elaborado sero capazes, na melhor das hipteses, de apresentar resultados limitados e, na pior das hipteses, de no apresentarem resultado algum (RUXTON; COLEGRAVE, 2006). Pois, as anlises sero feitas atravs de recursos estatsticos complexos a fim de corrigirem possveis erros amostrais, incapazes, na maioria dos casos, de responderem alguma questo. neste momento que se percebe a perda de tempo e/ou dinheiro. Ainda que o experimento consiga contemplar as questes propostas, existem outras formas de um experimento mal delineado ser menos eficiente. Um erro comum assumir que todo experimento deve ser feito com o maior nmero possvel de coletas. Mas, se voc coleta mais dados do que sua pergunta realmente necessita voc perdeu tempo e dinheiro. Por outro lado, caso seu experimento
trabalhe em uma escala maior e necessite de muitas coletas ou muitos materiais no laboratrio, h a tentao de torn-lo o menor possvel. Assim caso seu experimento seja muito pequeno, sem chance alguma de detectar os efeitos de interesse, haver novamente perda de tempo e dinheiro, e provavelmente voc ter que refazer suas coletas. Alm disso, existem casos em que se coleta dados demasiadamente, sem que se pense no que est sendo feito, e no fim do processo vem a pergunta: Afinal, qual destes dados realmente importante para minha pesquisa? Esta uma tima maneira de gastar seu precioso tempo: Coletando coisas desnecessrias, e correr o risco de no coletar os dados que realmente tenham sentido para sua pesquisa. Para evitar tais problemas, basta usar mais do seu tempo planejando o delineamento de sua pesquisa.
12
Cincias Biolgicas - Anlise de Dados Biolgicos Na Biologia, mais do que qualquer outra cincia, seja ela fsica ou matemtica, a variao regra e as causas destas variaes so complexas e diversas. Existe variao em qualquer lugar ou estema de estudo, mesmo que sejam clones ou populaes naturais. Assim, indivduos de uma populao de peixes variam em tamanho corporal ou bactrias em um tubo de ensaio variam em taxas de crescimento. Esta complexidade de variaes faz com que os experimentos biolgicos necessitem de amostragens que sejam capazes de revelar as situaes reais daquele sistema. Vamos supor que um Bilogo tenha sido contratado por
Figura 1: Modelo representando a porcentagem de parasitismo de um peixe por tanque de criao de tilpias.
Fonte: Acervo autores
60 100
um piscicultor para verificar que fatores causam mortalidade em tilpias (peixes) criadas em sua piscicultura comercial. O dono do estabelecimento reclama de perdas na produo em um dos seus trs tanques de criao. O proprietrio revela que no existe distino de tratamento dos peixes entre os tanques. Sabendo-se que a mortalidade causada por parasitas um dos principais fatores responsveis pela morte de peixes em pisciculturas, o Bilogo vai ao estabelecimento e coleta um peixe em cada tanque aleatoriamente e, em laboratrio, determina a taxa de parasitismo de cada um deles. Encontrando o seguinte resultado (Fig. 1)
PRA REFLETIR
Na Biologia, VARIAO regra!
GLOSSRIO:
Aleatrio: Adj. Que repousa sobre um acontecimento incerto, fortuito. Seriam dados sorteados.
80
40
Veja, parece que o peixe coletado no terceiro tanque possui uma carga parasitria um pouco maior do que os peixes dos tanques um e dois. Entretanto, o Bilogo no ficou convencido desse resultado, pois um peixe com 10% de parasitas a mais do que outros no o suficiente para concluir que o parasitismo a causa das mortes de todos os peixes nesse
Figura 2: Modelo representando a porcentagem de parasitismo em 20 peixes por tanque de criao de tilpias.
Fonte: Acervo autores
60 100
% de parasitismo
20
Tanque 1
Tanque 2
Tanque 3
tanque. Outros fatores podem influenciar com maior fora nas taxas de mortalidade do que o parasitismo. Para solucionar este problema, o Bilogo retorna ao estabelecimento e realiza mais uma coleta aleatria e, desta vez, coleta 20 peixes por tanque, encontrando o seguinte resultado (Fig. 2).
80
40
% de parasitismo
20
Tanque 1
Tanque 2
Tanque 3
13
UAB/Unimontes - 6 Perodo
PARA REFLETIR
Replicao uma maneira de lidar com as variaes entre indivduos devido s variaes aleatrias que estaro presentes em qualquer experincia de cincias da vida. Quanto maior o nmero de rplicas maior ser a confiana que teremos em dizer que qualquer diferena encontrada entre os grupos de seu experimento devida aos fatores em que estamos interessados e no ao acaso.
H um aumento na confiana do Bilogo ao dizer que o tanque 3 apresenta maiores taxas de mortalidade devido presena de parasitas. A razo desta maior confiana no obscura. Atravs da amostra de um nico peixe bastante possvel que as diferenas das taxas de parasitismo entre os tanques sejam mera obra do acaso, e improvvel que o mesmo acaso ocorra durante a seleo aleatria de 20 peixes por tanque. O que o Bilogo fez foi replicar sua observao. Se as diferenas foram casuais no primeiro momento, no esperado que o mesmo ocorra em uma amostra maior da populao. Todas as anlises estatsticas so baseadas em rplicas, que so realmente uma maneira de formalizar a ideia de que quanto mais vezes observamos um fenmeno, menores sero as chances dos resultados serem casuais. Observem que o Bilogo possui 20 amostras de peixes por tanque, como so trs tanques, logo o seu nmero amostral (N) igual a 60. Estes 60 peixes foram coletados de forma aleatria, que uma das formas de se amos1.6
trar uma populao, entretanto este tipo de amostragem permite apenas uma viso geral da realidade daquele sistema. Onde todo o elemento da populao tem igual probabilidade de ser escolhido para a amostra. Assim, apesar de estar certo de que a elevada taxa de mortalidade dos peixes do tanque trs causada por parasitas, nosso amigo Bilogo incapaz de responder a seguinte pergunta atravs de seus resultados; por que os peixes do tanque trs so mais parasitados? Para responder a esta questo o Bilogo, com conhecimento prvio do sistema de parasitismo em peixes, sabe que peixes mais velhos e pesados geralmente apresentam maiores taxas de parasitismo, devido depresso do seu sistema imune a partir de determinada idade. Com carter investigativo, o pesquisador utiliza o mesmo desenho com os 20 peixes coletados aleatoriamente em cada tanque para estabelecer uma comparao do peso entre os tanques. E revela o seguinte resultado (Fig. 3):
1.4
1.2
1.0
0.8
Agora nosso Bilogo est convencido de que o tanque trs possui peixes mais velhos e pesados quando comparado aos outros tanques. Ser que a hiptese de que peixes mais velhos so mais susceptveis ao ataque de parasitas est correta? Para sanar esta dvida, o pesquisador retorna ao estabelecimento e realiza a coleta de outros 60 peixes apenas no tanque trs, mas desta vez os separa em trs categorias de idade durante a coleta: Peixes com idade entre
Peso (kg)
0.6
0.4
0.2
T anque 1
T anque 2
T anque 3
oito a dez meses, peixes de 12 a 14 meses e peixes com mais de 16 meses. Repare que desta vez a coleta no mais aleatria! Desta forma nosso pesquisador possui uma amostra estratificada, com 20 peixes por estrado, onde os estrados so representados pela idade dos peixes. Aps a coleta o Bilogo vai ao laboratrio e determina as taxas de parasitismo em cada um deles, revelando o seguinte resultado (Fig. 4).
14
Figura 4: Modelo representando uma amostra estratificada de peixes por idade, em relao porcentagem de parasitismo, em um tanque de criao de tilpias.
Fonte: Acervo autores
90 80 70 60 50 40
De fato o pesquisador atravs de sua estratificao por idade evidenciou que os peixes mais velhos so aqueles mais parasitados e, por conta da presena destes peixes com baixo sistema imune nesse tanque, h uma taxa de mortalidade maior no local. Assim, aps sua pesquisa, o Bilogo capaz de programar um sistema eficaz de manejo da piscicultura de tilpias para o empre-
1.4 Pseudo-repetio
Toda replicao deve conter amostras independentes entre si. Vejamos o exemplo anterior! Cada peixe uma unidade amostral independente, devido taxa de parasitismo depender das caractersticas fisiolgicas de cada um. Assim, caso o pesquisador dividisse os peixes pela metade e determinasse o parasitismo em cada parte, ele estaria aumentando sua amostra em 100%. Mas, seria um erro consider-las independentes, pois o sistema fisiolgico funciona no peixe inteiro e no de forma independente entre suas metades, isso no o real. Portanto, o que chamamos de pseudo-rplicas nada mais do que rplicas de um experimento sem que haja independncia entre amostras, ou seja, h uma elevao do nmero de amostras sem descrio da realidade. Espera-se que a quantidade de informao disponvel aumente o nmero de observaes, mas nem sempre assim. Quando uma nova observao fornece apenas a mesma informao que tnhamos de observaes anteriores no aumentou a quantidade total de conhecimento disponvel para ns, podendo confundir-nos, fazendo-nos acreditar que dispomos de mais informaes do que as que realmente temos. Assim, por esta observao no ser uma real repetio, Hurlbert denominou-a pseudo-repetio, que significa falsa repetio (MAGNUNSSON; MOURO, 2005). As pseudo-repeties podem ser espaciais, temporais, filogenticas ou tcnicas. As mais comuns em trabalhos cientficos e mais difceis de serem evitadas so as falsas repeties espaciais e temporais. As pseudo-repeties filogenticas e tcnicas normalmente ocorrem em estudos especficos ou que contenham problemas tcnicos durante o experimento. A pseudo-repetio filogentica ocorre onde as espcies so as unidades amostrais e os organismos usados no experimento tm estreito parentesco. Por exemplo, girinos de uma mesma desova podem apresentar respostas ecolgicas muito similares, devido ao mate-
% de parasitismo
30 20
10 0
8 a 10 meses
12 a 14 meses
> 16 meses
endedor, retirando aqueles peixes com idade entre 12 a 14 meses de vida. Aprendemos, portanto, que uma amostra parte de uma populao de elementos, e as rplicas so repeties independentes feitas a fim de descrever as variaes dos elementos contidos nessa populao. Veremos, a seguir, um dos principais problemas da estatstica atualmente, a chamada pseudo-repetio.
DICAS
Replicaes devem ser independentes; caso contrrio, ser uma pseudo-replicao Em uma pseudo-rplica as unidades amostrais possuem dependncia entre si. Ou seja, uma modificao em uma unidade amostral no pode afetar a outra.
15
UAB/Unimontes - 6 Perodo rial gentico semelhante entre os elementos e normalmente no representam a situao real exibida por populaes maiores. Na pseudo-repetio tcnica, a falsa rplica ocorre quando diferentes observaes ou instrumentos so utilizados no experimento. Isso normalmente no ocorre em experimentos bem planejados, mas eventualmente existem falhas nos equipamentos utilizados ou mudana da pessoa que est coletando os dados, o que pode alterar os resultados em decorrncia da particularidade de cada um ao realizar sua tarefa. Para compreendermos o erro contido em uma pseudo-repetio espacial, vejamos o seguinte exemplo: Nosso amigo Bilogo foi contratado novamente, mas desta vez, por uma empresa que cultiva eucaliptos, interessada em saber a influncia das regies de mata sobre a densidade de mariposas que consome os plantios. Portanto, a questo biolgica determinar se a complexidade deste ambiente prximo ao plantio influencia na densidade de mariposas que devora os plantios. O que aconteceria se nosso Bilogo amostrasse cinco sees de um plantio com uma floresta nativa adjacente e outras cinco sees de outro plantio sem floresta adjacente? Como demonstrado na Fig. 5, todas as sees do primeiro plantio poderiam ter menos mariposas porque a floresta adjacente foi queimada em um passado recente ou pouco produtiva ou qualquer um de um grande nmero de fatores possveis que afetam as mariposas. Para esta questo, uma amostra da densidade de mariposas em um plantio obviamente no independente de outras amostras do mesmo plantio. Portanto, as cinco amostragens no carregam mais informaes do que uma nica amostra.
Figura 5: Esquema demonstrando as sees de coleta do pesquisador contratado pela empresa de eucalipto. Os pontos amarelos representam a disposio da amostra em um plantio coberto por rea de mata em A e sem a presena de mata em B.
Fonte: Acervo autores
De fato este erro simples muito complicado de ser observado e, por isso, ns pesquisadores devemos preocupar-nos com a independncia entre amostras. Isto uma tarefa difcil porque nenhuma observao completamente vlida ou invlida. Uma pseudo-repetio espacial para uma questo pode ser uma repetio vlida para outra. Por exemplo, se nosso amigo Bilogo estivesse interessado em diferenas nas densidades de mariposas entre plantios (sem levar em considerao a presena de florestas adjacentes) as cinco observaes seriam rplicas perfeitamente vlidas, cada uma trazendo mais informao a respeito das densidades de cada plantio. As pseudo-repeties temporais so ainda mais difceis de serem detectadas. Ocorrem por exemplo quando os pesquisadores tm o interesse de descrever os efeitos da sazonalidade sobre os padres de diversidade em um
determinado sistema. Entretanto, o estado de um sistema natural no se altera instantaneamente. Assim, coletas mensais em um mesmo ponto no so independentes, porque as condies climticas da primeira coleta possuem influncia nos padres de diversidade encontrados na segunda e, da mesma forma, as condies climticas da segunda tero influncia na terceira coleta, e assim sucessivamente nos prximos meses. Problemas similares ocorrero em qualquer experimento que contenha mltiplas observaes ao longo do tempo (RUXTON ;COLEGRAVE, 2006). Saber se estas observaes so ou no independentes variar de acordo com as particularidades biolgicas de cada sistema. Muitas vezes, como o caso da sazonalidade citada acima, no possvel fugir da pseudo-repetio temporal, o jeito conviver com isso, analisando seus dados, incluindo o
16
Cincias Biolgicas - Anlise de Dados Biolgicos erro contido na amostragem (existem alguns pacotes estatsticos especializados neste tipo de erro) ou realizar coletas em um longo perodo de tempo, talvez dcadas. Mas se quiser um bom conselho, fuja, como a caa foge do caador, de experimentos que contenham qualquer tipo de pseudo-repetio. Isto complicar seus estudos.
PARA REFLETIR
Nunca se convena de que no existem, na literatura mundial, experimentos que sejam similares ao seu. Sempre existem estudos capazes de auxiliar na construo do seu!
17
UAB/Unimontes - 6 Perodo
Figura 6: Demonstrao do acumulo de espcies de lagartos em relao ao nmero de coletas. Vejam que apenas as espcies novas so levadas em considerao para a construo de uma curva do coletor.
Fonte: Acervo autores
Analisando visualmente o grfico acima, somos levados a crer que a partir de oito coletas no iremos acrescentar uma nova espcie em meus dados, portanto oito coletas o nmero ideal para realizao deste trabalho. Entretanto, na biologia, as coisas no so to simples assim. Vejamos o exemplo prtico a seguir.
Figura 7: Curva do coletor calculada com o nmero de espcies de anfbios entre visitas ao campo. Cada ponto expressa a mdia de 50 pontos gerados pelo simulador EstimateS verso 6.0b1 e as barras indicam o desvio padro calculado para cada ponto.
FONTE: Toledo et al., (2003), disponvel em: http://www.ib.unicamp. br/museu_zoologia/files/ lab_museu_zoologia/Toledo_et_al_2003_Comunidade_FEENA.pdf
GLOSSRIO
Poder do teste: a probabilidade que um experimento possui para detectar alguma diferena entre os tratamentos, assumindo que esta diferena existe para ser detectada. Ou em outras palavras, Se repetir o experimento vrias vezes, quanto maior o nmero de vezes para que o seu teste descubra diferenas, mais adequado ser o tamanho da amostra.
18
A curva do coletor deste artigo demonstra que seus dados apontam para um crescente nmero de espcies encontrado ao longo das visitas. Demonstrando insuficincia amostral para a realizao de um inventrio completo de anfbios (Toledo et al., 2003). Os autores realizam anlises contendo ndices como jackknife e bootstrapping por serem tcnicas de reamostragem que fornecem um valor de riqueza de espcies e uma estimativa do intervalo de confiana, permitindo comparaes estatsticas entre dois ou mais tratamentos. No iremos ater-nos aos detalhes desta anlise, mas preciso que compreendam suas funes vlidas e para tanto recomendamos a leitura de Trust (1974) para maiores detalhes.
Alm destas tcnicas, que so boas dicas, existem inmeros clculos matemticos elegantes para decidir quantas observaes so necessrias para se detectar um efeito de boa magnitude (KREBS 1989), entretanto todos eles requerem amostras preliminares (KRAMER; THIEMAN, 1987) e a maioria limitada por situaes triviais e simples (MAGNUNSSON; MOURO 2005). Na prtica ns no precisamos recorrer a longos processos de simulaes em computador para calcular o poder do teste, voc precisa saber que eles existem. Decidir qual o tamanho ideal das amostras uma tarefa que requer conhecimento e, mais importante, pacincia.
Referncias
Kraemer, H. C.; Thiemann, S. How Many subjects? Statistical power analysis in reseach. The international Professional publishers, London, 1987. Krebs, C. J. Ecological Methodology. New York: Harper & Row,1989. Magnusson, W.E. & Mouro, G. Estatstica sem matemtica. Londrina: Editora Planta, 2005. Ruxton, G.D. & Colegrave, N. Experimental design for the life sciences. 2ed. Oxford, 2006. Schilling, A. N., & Ferreira, L. Curva de acumulao de espcies e suficincia amostral em florestas tropicais. Acta Amazonica, 179-187, 2008. Toledo, L. F., Zina, J. & Haddad, C. F. Distribuio Espacial e Temporal de uma Comunidade de Anfbios Anuros do Municpio de Rio Claro, So Paulo, Brasil. Holos Environment, 136-149, 2003.
19
Probabilidade e variabilidade
Nesta unidade estudaremos dois conceitos bsicos para o entendimento da estatstica: Probabilidade e variabilidade. O primeiro, de uma maneira geral, mais claramente utilizado no nosso cotidiano, ao passo que o segundo a base da maioria dos testes estatsticos de comparao de mdias.
UNIDADE 2
2.1 Probabilidade
Um exemplo clssico de probabilidade a previso do tempo. Quando lemos no jornal que existe 90% de chance de chover intuitivamente sabemos o que isto significa, ou seja, que a chance de chover extremamente alta. Sendo assim, prudente sair com um guarda-chuva. Mas por que no podemos afirmar com certeza se ir ou no chover? Isto acontece porque existe variao nas condies, e esta nem sempre possvel de ser prevista. Entretanto, entraremos nesta questo um pouco adiante. Vamos tomar um exemplo bem simples para entender como calculamos a probabilidade de um evento real. Imaginemos um grupo de lees que se alimenta de antlopes. Para calcularmos a probabilidade de um leo capturar um antlope, basta que observemos criteriosamente o nmero de ataques de lees a antlopes e quantos destes so bem sucedidos. O ataque , ento, o evento que estamos observando com dois resultados possveis: Captura ou fuga. Um evento, estatisticamente falando, deve ser um processo simples com incio e fim bem definidos. Suponhamos que observamos, em um dia, 100 ataques de lees a antlopes. Destes, 98 resultaram em captura, ao passo que nos outros dois ataques, os antlopes conseguiram escapar. Para calcularmos a probabilidade de que nosso evento ocorra (neste caso nosso evento a captura) basta dividirmos o nmero de capturas pelo nmero de observaes. Neste caso temos:
Onde P: probabilidade; C quantidade de capturas observadas; O nmero total de observaes. Analisando a frmula, podemos chegar a uma concluso bvia: Nunca pode haver mais resultados do que observao. Sendo assim, nossa probabilidade sempre estar entre 0 e 1. Uma probabilidade (P), prxima a 1, indica que nosso evento tem grandes chances de acontecer. Por outro lado, um valor de P baixo indica que as chances de que nosso evento ocorra so raras. Entretanto, mesmo o clculo simples, como o de lees e antlopes, pode ser problemtico. Poderamos ter observado nosso evento, por exemplo, em um dia muito quente, o que poderia ser uma vantagem para os lees, causando uma maior probabilidade de captura do que o habitual. Ento, como definir o quanto de observaes necessrio para estimarmos a probabilidade?
21
UAB/Unimontes - 6 Perodo cular. Uma maneira de resolver isso seria realizar o experimento em todos os dias durante um ano. Entretanto, esta seria uma maneira extremamente custosa de solucionar o problema. Ento como resolver esta questo? Uma maneira eficaz de se estimar a probabilidade atravs do uso de amostras (GOTTELI; ELLISON, 2011). Uma amostra, nada mais , do que uma parcela considervel do nosso objeto de estudo. No caso poderamos observar durante cinco dias por ms nosso evento (captura de antlopes por lees), em diferentes partes da rea de estudo. Assim, assumiramos que a maior parte das condies ambientais em que nosso evento est inserido foi englobada. Aps a realizao desta nova metodologia, o pesquisador chegou aos seguintes nmeros:
Capturas 65 Fugas 35
Total 100
Note que, neste caso, nosso resultado foi bastante diferente do encontrado no primeiro momento. Esta probabilidade de P=0,65 provavelmente aproxima-se mais da realidade, uma vez que o experimento foi conduzido sob diferentes condies ambientais. Sendo assim, em
nosso exemplo, a chance de um leo capturar um antlope em condies naturais de 65%. Estimativas de probabilidades tambm so possveis com experimentos em laboratrio. Um pesquisador interessado em estudar a germinao de sementes de uma dada espcie vegetal pode, por exemplo, controlar algumas variveis e realizar testes de germinao com estas sementes para estimar a probabilidade de que as sementes germinem sobre determinada condio. Imaginemos um pesquisador interessado em estudar os efeitos da seca sobre a germinao de pequizeiro (Caryocar brasiliense) uma rvore tpica do cerrado. O pesquisador coleta sementes desta planta e, em laboratrio, acompanha sua germinao durante um perodo de 30 dias com umidade controlada de 20% (estes nmeros ficam a critrio do pesquisador, dependem de seu objetivo). Ao fim do experimento, ele pode calcular a probabilidade de germinao das sementes de pequizeiro em um ambiente de baixa umidade. Notem que experimentos laboratoriais permitem o controle de outras variveis. Se o mesmo experimento fosse conduzido no campo, alm de ser quase impossvel o controle da varivel principal (umidade) outros fatores como luminosidade, temperatura, etc., poderiam atuar em conjunto, mascarando os resultados.
A utilizao de amostras em biologia algo natural. Na maioria dos casos, impossvel, ou pelo menos invivel, a realizao de um experimento ou observao de um evento com todos os indivduos de uma populao. Sendo assim, a utilizao de amostras importante ferramenta no desenvolvimento de trabalhos cientficos.
2.3 Variabilidade
A variabilidade algo comum na biologia. (Magnusson; Mouro, 2003) Alis, a variao entre indivduos a base de uma das teorias mais revolucionrias na biologia: A teoria da seleo natural. A variabilidade se refere a diferenas encontradas em um padro especfico. Por exemplo, em indivduos de uma mesma espcie, encontramos diferenas genotpicas, o que chamamos de variabilidade gentica. De fato, biologicamente falando, no existem amostras retiradas de uma populao (neste caso designando a totalidade) que no apresente variaes, mesmo que diminutas. Vamos a mais um exemplo simples. Um pesquisador est interessado em associar o ganho de peso ao tipo de dieta oferecida a uma espcie de peixes comercial, a tilpia. Em dois tanques, ele coloca dez tilpias em cada e oferece dois tipos de rao: Uma rica em gordura e a outra em protena. Aps dois meses de experimento, os peixes foram pesados e encontrados os seguintes resultados:
22
1 2 3 4 5 6 7 8 9 10
1,8
Note nos resultados que, mesmo em peixes com a mesma dieta, foi observada diferena no ganho de peso. Ou seja, existe uma variabilidade no seu parmetro observado. Isto possivelmente pode estar relacionado a caractersticas fisiolgicas de cada indivduo. Sendo assim, indivduos com a mesma dieta, submetido s mesmas condies, apresentam diferenas no peso. Qual
a importncia desta variabilidade para o experimento do pesquisador? O interesse inicial do pesquisador relacionar o tipo de dieta ao ganho de peso. De acordo com nossos dados, observamos uma tendncia no aumento de peso nos peixes submetidos a uma dieta rica em gordura, entretanto diferenas foram observadas mesmo em peixes com a mesma dieta. Se fizermos a mdia, observaremos que peixes com dieta gordurosa, pesam, em mdia, 2,57 kg. Enquanto peixes com dieta protica pesam, em mdia 1,88 kg. Uma simples anlise destes dois nmeros no nos permite chegar a uma concluso. Na verdade, o pesquisador dever utilizar testes estatsticos que comparam a variabilidade entre indivduos do mesmo grupo e a variabilidade entre grupos. Esta diferena ser vlida desde que a variabilidade entre grupos seja maior do que a variabilidade entre indivduos do mesmo grupo. Caso isto seja verdade, o pesquisador poder concluir que uma dieta rica em gordura causa um ganho de peso maior em tilpias do que uma dieta protica. Vamos novamente a um exemplo de experimento laboratorial. Um pesquisador est interessado em determinar a eficcia de diferentes concentraes de inseticidas no controle de besouros. Ele monta um experimento de acordo com o esquema a seguir:
Concentrao 100gr/L
Figura 8: Esquema demonstrando o desenho experimental criado por um pesquisador a fim de testar o efeito da concentrao de inseticidas sobre a mortalidade de besouros.
Fonte: Acervo autores
Concentrao 500gr/L
O pesquisador criou seis grupos com dez besouros da mesma espcie e aplicou, em cada um dos grupos, concentraes diferentes de um determinado inseticida. Aps 30 dias, o pesquisador contou e comparou a quantidade de besouros mortos entre as diferentes amostras. Provavelmente ele tenha observado uma variao na quantidade de indivduos entre os grupos devido a uma maior susceptibilidade morte de alguns indivduos. A inteno do pesquisador verificar se existe diferena entre os tratamentos (concentrao de inseticida). Para isto ele utilizar um teste estatstico novamente baseado na mdia e variabilidade de indivduos mortos entre suas amostras. Caso seja observada uma diferena significativa, ele poder atribuir uma
23
UAB/Unimontes - 6 Perodo maior eficcia a uma concentrao especfica de inseticida. Caso no verifique esta diferena, ele assumir que as duas concentraes testadas tm a mesma eficcia no controle desta espcie de besouro. No entraremos, neste momento, nos testes estatsticos citados. A ideia desta unidade apresentar os conceitos de probabilidade e variabilidade. Entendendo-os plenamente poderemos ento partir para as prximas unidades. Caso ainda tenha dvida, reveja estes conceitos, pois so conceitos-chave no desenvolvimento de toda a disciplina.
Referncias
Magnusson, W.: Mouro, G. Estatstica sem Matemtica: A Ligao Entre as Questes e a Anlise. Editora Planta, 2003. Gotelli, N. J. & Ellison, A. M. Princpios de Estatstica em Ecologia, Editora Artmed, 2011.
24
Hipteses Biolgicas
Inicialmente podemos dizer que hipteses so explicaes potenciais sobre um evento que estamos observando. No experimento da unidade anterior o evento o ganho de peso das tilpias. Uma hiptese para explicar este evento o tipo de dieta dos peixes. Outro exemplo a quantidade de frutas produzidas por plantas cultivadas em solos sem adubao e com adubao. Meu evento a produo diferencial de frutos. Minha hiptese a quantidade de nutrientes disponveis no solo. Sendo assim, a relao evento/hiptese pode ser definida como uma relao de causa (hiptese) e efeito (observao). Observaes so os nossos dados, ou seja, os eventos que observamos no mundo real conhecidos como fatos. Se as observaes so o qu da cincia, as hipteses so o como. Portanto, as observaes so coletadas do nosso cotidiano, de eventos naturais, enfim, do mundo real. J as hipteses no necessariamente o so. As hipteses podem vir da literatura j existente, de modelos tericos e muitas vezes da intuio e conhecimento prvio do pesquisador. Entretanto, uma premissa bsica deve ser obedecida no desenvolvimento de hipteses cientficas: Ela deve ser testvel. Assim, deve haver a possibilidade de desenvolvermos experimentos que nos permitam aceitar, modificar ou rejeitar nossa hiptese desenvolvida. Por que o cu azul? Porque Deus quis assim. Este um exemplo de uma hiptese no cientfica. No h meios de testarmos esta explicao para nosso evento. Hipteses baseadas na f, em deuses onipresentes ou qualquer outra explicao no testvel no devem fazer parte do arsenal de um cientista. Vale aqui relembrar o antagonismo entre cincia e religio j discutido na disciplina evoluo.
UNIDADE 3
GLOSSRIO:
Inferncia uma concluso tirada pelo pesquisador com base nos seus dados.
25
UAB/Unimontes - 6 Perodo
DICAS:
A internet est cheia de silogismos interessantes como alguns do site http://interessante. Rangesite.Com/index. Php?Option=com_con tent&view=article&id= 143:silogismo&catid=3 8:geral&itemid=54 procure mais a respeito.
Em contraste com o pensamento dedutivo, temos o indutivo: 1. Fernando tem corao; 2. Fernando homem; 3. Todos os homens tm corao. O modelo indutivo ento o oposto do dedutivo: Parte do especfico para o geral. Vamos utilizar novamente um exemplo biolgico para uma explicao mais detalhada: 1. Todos estes 20 morcegos so da famlia Phyllostomidae; 2. Todos estes 20 morcegos foram coletados no Parque Estadual da Mata Seca; 3. Todos os morcegos do Parque Estadual da Mata Seca pertencem famlia Phyllostomidae. Os cientistas definem o modelo dedutivo como uma inferncia certa e o indutivo como uma inferncia provvel. (GOTELLI; ELLISON, 2011). De fato isto o que ocorre. Se as duas premissas esto certas no primeiro exemplo (dedutivo) a concluso obrigatoriamente tambm ser verdadeira. J no modelo indutivo, embora a concluso provavelmente seja verdadeira, ela tambm pode ser falsa mesmo sendo as duas primeiras premissas verdadeiras. Como? Pense em um trabalho com duas coletas no PEMS. Em cada uma foram capturados dez morcegos. Do total, todos eram filostomdeos, o que fez o pesquisador tirar a concluso de que todos os morcegos do PEMS so filostomdeos. Entretanto, nada impede que em uma
Figura 9: Esquema ilustrando o mtodo indutivo.
Fonte: Adaptado de Gotteli e Elisson, 2011.
Observao Inicial Predio
terceira coleta indivduos de outras famlias sejam amostrados no Parque. Caso isto ocorra, nossa concluso deixa de ser verdadeira. A cincia, de uma maneira geral, indutiva. Isto verdade principalmente porque a estatstica , por natureza, indutiva. Frequentemente tentamos tirar concluses gerais com base em amostras especficas e limitadas. Isto comum na cincia, pois muitas vezes, como no exemplo citado, torna-se impossvel a coleta de todo nosso campo de estudos. improvvel, e praticamente impossvel, que eu amostre todos os morcegos do PEMS. Sendo assim, sempre haver margem para que minha concluso seja rejeitada. Quanto mais prximo da totalidade de morcegos eu amostrar (maior conjunto de dados coletados) mais forte torna-se minha concluso. Podemos citar duas vantagens principais do mtodo indutivo: Enfatiza a ligao entre dados e teoria; constri e modifica hipteses com base em conhecimento prvio. Sendo assim, o mtodo indutivo baseia-se na coleta de dados que suportem ou que modifiquem a hiptese inicial. Seguindo este raciocnio, podemos apontar uma desvantagem no mtodo indutivo clssico: Ele considera somente uma hiptese inicial. Sendo assim, outras hipteses somente sero desenvolvidas em resposta a observaes adicionais. Caso o pesquisador comece seu trabalho com uma hiptese equivocada, o caminho para chegar a uma resposta correta poder tornar-se bastante longo. Alm do mais, este mtodo encoraja o pesquisador a confirmar sua hiptese inicial, mesmo que seus dados no a confirmem claramente.
Hiptese
Novas Observaes
Sim
Hiptese confirmada
Cincias Biolgicas - Anlise de Dados Biolgicos es e a lista reduzida a um nmero menor de hipteses competidoras. Sendo assim, uma explicao permanece vlida at que novas observaes sejam feitas e rejeitem aquela hiptese estabelecida anteriormente e uma nova seja aceita. Nenhum mtodo cientfico mais correto que outro. Entretanto os mtodos hipottico-dedutivo e indutivo caracterizam muito a cincia no mundo real. Entender estes mtodos importante para nosso prximo passo, que testar hipteses.
27
UAB/Unimontes - 6 Perodo
Tanque I
5 4.5 4 3.5 3 2.5 2 1.5 1 0.5 0 1 2 3
+1,93
Peso (kg)
-0.67
10
DICAS:
Faa uma tabela semelhante para os peixes do tanque dois. isso ajudar a fixar o que foi explicado.
O grfico acima relativo ao tanque I, no eixo X temos os indivduos e em Y seu respectivo peso. Cada ponto azul no grfico representa um indivduo e a linha tracejada vermelha a mdia de peso para o tanque I. Assumiremos aqui que voc j sabe como calcular um valor de mdia. Caso ainda tenha dvidas nesta questo, recorra a sua apostila de matemtica. A distncia entre cada ponto para mdia (representada no grfico pelos colchetes) o desvio, como j dito, uma medida de variabilidade. Note que caso o desvio esteja acima da mdia ele ter um valor positivo. Por outro lado, pontos abaixo da mdia apresentaro um desvio negativo. Um dos meios mais simples para calcular a variabilidade utilizar o desvio mdio absoluto, ou seja, a mdia das distncias de cada ponto at a mdia. Para calcular este parmetro, somamos os desvios mdios absolutos (ou seja, o mdulo dos desvios) e dividimos pela quantidade total de pontos. Utiliza-se o mdulo do desvio, pois o somatrio dos desvios sempre zero quando o sinal conservado. O desvio mdio nos permite dizer que no tanque um, os peixes pesam 2,57 0,54 kg. Note que, neste caso, adicionamos a margem de erro relacionada variabilidade. Isto significa dizer que a maioria dos dados se encontra neste intervalo. O desvio absoluto mdio apenas uma das vrias medidas da variabilidade existentes. Embora bastante simples e intuitiva esta no a medida mais utilizada em trabalhos cientficos. (MAGNUSSON; MOURO, 2003). Na maioria das vezes, utiliza-se o desvio padro ou alguma derivao dele, que em alguns ca-
Indivduos
sos, torna-se um parmetro mais refinado. Entretanto, no abordaremos as frmulas para calcular o desvio padro, j que a ideia por trs dos nmeros a mesma do desvio absoluto mdio: Medir a variabilidade. Aps o entendimento destes clculos simples, podemos passar para o estudo de alguns testes estatsticos. Observem a tabela a seguir com os clculos dos parmetros discutidos:
Tabela 2: Peso de peixes em um tanques de criao bem como os valores de desvio e o mdulo de desvio para o peso de cada indivduo. Indivduo Tanque I (kg) 3 2.7 4.5 1.9 2 2.4 2.8 2.3 2 2.1 2.57 Desvio 0.43 0.13 1.93 -0.67 -0.57 -0.17 0.23 -0.27 -0.57 -0.47 Mdulo do desvio 0.43 0.13 1.93 0.67 0.57 0.17 0.23 0.27 0.57
1 2 3 4 5 6 7 8 9 10
Mdia |Desvios| Desvio mdio
0.47
5.44
0.544
Referncias
Magnusson, W.: Mouro, G. Estatstica sem Matemtica: A Ligao Entre as Questes e a Anlise. Editora Planta, 2003.
28
UNIDADE 4
29
UAB/Unimontes - 6 Perodo
DICAS
A regresso uma anlise que visa basicamente estimar estes parmetros e verificar se so estatisticamente significativos.
Figura 11: Relao entre o nmero de participaes dos alunos em aula, e o nmero de alunos presentes em sala.
Fonte: Acervo autores
PARA REFLETIR
A habilidade para interpretar as estatsticas no to importante quanto habilidade de interpretar grficos
Neste grfico parece existir uma relao positiva entre o nmero de participaes em sala de aula (Eixo y, varivel resposta), em funo do aumento da frequncia de alunos presentes em sala de aula (Eixo X, varivel explicativa). Ou seja, medida que existam mais alunos em sala de aula, as aulas obtero um maior nmero de participao a respeito da matria. Este grfico nada mais do que a representao de uma tabela. Veja que se cruzarmos os dados da tabela no grfico, como o jogo batalha naval, encontraremos cada um daqueles pontos no grfico.
Tabela 3. Dados quantitativos demonstrando os valores da relao entre o nmero de participaes e a quantidade de alunos em sala de aula. Eixo x 27
Eixo y
15 10 11 11 21 9 1 8 6 3 2 1 1
31 20 26 26 23 13 22 18 18 17 16
30
15
Cincias Biolgicas - Anlise de Dados Biolgicos Sabendo-se o conceito de inferncia, agora podemos montar as hipteses: H0: As participaes no aumentam com o aumento no nmero de alunos na sala de aula. H1: As participaes aumentam com o nmero de alunos na sala de aula. Nossa equao, colocando * para representar a multiplicao, fica: y (Participao em sala de aula) = a + b * x (Frequncia de alunos) Para sabermos se existe uma relao entre estas duas variveis necessrio estimar os parmetros a e b. Mas antes iremos verificar se o modelo construdo vlido estatisticamente. Para isso devemos calcular a Soma dos quadrados totais, criando o modelo de anlise de varincia geral. Se a relao for linear, a probabilidade de se detectar uma relao aumenta com o aumento da amplitude do intervalo (valores do eixo X). Observe as figuras abaixo contendo as variaes em torno das Hipteses.
DICAS
Quando ns, outras pessoas, ou programas de estatstica colocam linhas retas em grficos, fazem isto minimizando a distncia mdia da linha aos pontos (Magnusson e Mouro, 2005).
A figura trs representa a soma dos quadrados dos erros (SQE) em relao aos valores estimados pelo modelo. Basicamente quando fazemos linhas retas em grficos, buscamos minimizar a distncia mdia da linha aos pontos. exatamente isso que o modelo prediz, ou seja, quanto mais prximo minha reta est dos pontos amostrados, mais chances de acertar ao dizer que minhas variveis se relacionam.
Menor o erro! Isso ocorre porque com o SQE obtemos a soma de quadrados da regresso (SQR), que dada pela seguinte frmula:
31
UAB/Unimontes - 6 Perodo (SQE), maior ser a SQR. Entretanto, para verificar se esta relao significativa devemos calcular o valor de F obtido atravs da frmula: que fazem isso com apenas um comando. Aqui, no meu caso, estou utilizando o software R (disponvel: http://cran.r-project. org/), um programa gratuito, fcil de ser instalado em seu computador, mas de operao um pouco mais complicada, quando comparado a programas pagos, disponveis no mercado. Portanto para verificar a probabilidade associada ao F e aos graus de liberdade, atravs de uma anlise de varincia, basta digitar: Anova (modelo).
Como podemos observar o valor de F leva em considerao os graus de liberdade utilizados no modelo (glregresso), agora descobrir qual a probabilidade associada a este F com os respectivos graus de liberdade. No se preocupem, no precisamos fazer estes clculos com uma calculadora, existe uma srie de programas estatsticos
Tabela 4: Tabela de anlise de varincia. Os graus de liberdade esto representados em Df (degrees of freedom), soma dos quadrados por Sum Sq e a mdia da soma dos quadrados por Mean Sq. Tabela de varincia Varivel resposta (Y): Nmero de participaes em sala Df N. alunos Residuals 1 11 Sum Sq 289.282 161.795 Mean Sq 289.282 14.709 F valor 19.668 P valor 0.001**
Vejam que a probabilidade da relao entre as variveis ser casual foi igual a 0,001 (Tabela 2), ou seja, existe 1 chance em 1000 de mentir quando afirmamos que o nmero de alunos dentro da sala de aula afeta a participao durante as aulas. De fato ter muitos alunos em sala de aula importante para o nmero de participaes. Para completarmos nossa anlise e nossa equao, devemos obter os valores dos parmetros a e b. Para ambos as formulas so simples, veja:
Onde n o nmero de amostras, e so as mdias dos valores dos eixos y e x respectivamente. O nico problema de refazer dados biolgicos mo, utilizando apenas uma calculadora, de que normalmente nossos dados giram em torno de dezenas de nmeros, que somados, utilizam vrias casas decimais. Portanto, atualmente estes valores, para nossa sorte e prazer, podem ser adquiridos em qualquer programa de estatstica que existe, apenas devemos pedir o resumo (summary) da anlise. Summary (modelo)
Tabela 5. Resumo da anlise de varincia. Demonstrando os coeficientes da anlise de varincia. O Estimate representa as estimativas dos valores utilizados na regresso, a o intercepto e b o coeficiente angular. Coefficients: Estimate (Intercept) Nalunos -11.3814 0.9079 Std. Error 4.4137 0.2047 t value -2.579 4.435 Pr(>|t|) 0.02565 * 0.00100 **
Std. error (Erro padro) T value (Valor do teste T, Valor crtico a diferena entre as mdias, divididas pelo desvio padro, usadas no calculo da probabilidade da hiptese nula ser verdadeira.
32
Cincias Biolgicas - Anlise de Dados Biolgicos Nossa equao era: Participao em sala de aula = a + b * Frequncia de alunos. Agora iremos substituir os valores para definirmos o grfico. Na seo Estimate esto os valores estimados do intercepto a (-11.3814) e do coeficiente angular b (0.9079), substituindo a formula fica: Participao em sala de aula = -11.3814+ 0.9079*x
PARA REFLETIR
A estatstica t foi introduzida em1908por William Sealy Gosset. Contratado por uma cervejaria ele desenvolveu o teste t como um modo barato de monitorar a qualidade da cerveja.
Figura 14 : Grfico Final, relao entre o nmero de participao na aula e a frequncia de alunos em sala de aula.
Fonte: Acervo autores
Resumindo a matemtica dos nossos clculos, na ausncia de alunos na sala de aula, o nmero de participaes -11.3814 (a ou inter-
cepto) e o incremento de um aluno na sala de aula provoca o aumento de 0.9079 participaes na aula (b ou inclinao da reta).
33
UAB/Unimontes - 6 Perodo
GLOSSRIO
Graus de liberdade: Nmero de observaes independentes menos o nmero de parmetros estimados (N 1).
este motivo, o modelo ideal deve obter o mais alto relacionamento explanatrio com o mnimo de variveis explicativas. Mas, afinal de contas, qual ou quais variveis podem relacionar-se com a participao dos alunos em sala de aula, alm do nmero de alunos em sala? Para responder esta questo, o professor de Cincias deve possuir um conhecimento prvio, e LER bastante sobre o assunto. O professor, portanto, decide refazer seu experimento, com um maior nmero de alunos, anotando o nmero de vezes que precisou interromper a explicao da matria, devido indisciplina ocasionada pelo excesso de alunos. Note! Este
mtodo criou uma nova varivel chamada Interrupes durante a aula. Com esse novo modelo possvel relacionar o nmero de participaes em sala de aula, com a frequncia de alunos somada s Interrupes nas aulas. Logo, a equao deixa de ser: Participao em sala de aula = a + b * Frequncia de alunos. passa a ser: Participao em sala de aula = a + b * Frequncia de alunos+b* Interrupes. Refazendo a Anova com o novo modelo, teremos: Anova (novomodelo)
Tabela 6: Tabela de anlise de varincia. Os graus de liberdade esto representados em Df (degrees of freedom), soma dos quadrados por Sum Sq e a mdia da soma dos quadrados por Mean Sq. Tabela de varincia Response: Participao em sala de aula Df N alunos Interrupes Residuals 1 1 10 Sum Sq 289.282 72.948 88.847 Mean Sq 289.282 72.948 8.885 F value 32.5595 8.2104 Pr(>F) 0.0001967 *** 0.0168011 *
Nesta anlise ambas as variveis apresentam efeito no nmero de participaes dos alunos na sala de aulas. Para saber COMO
este efeito, devemos saber os valores dos parmetros a e b da nossa equao. Vejamos: Summary(modelo)
Tabela 7. Resumo da anlise de varincia. Demonstrando os coeficientes da anlise de varincia. O Estimate representa as estimativas dos valores utilizados na regresso, a o intercepto e b o coeficiente angular. Frmula do modelo: lm(frmula = Participao ~ N alunos + Interrupes) Coefficients: Estimate (Intercept) N alunos Interrupes 10.7732 0.2216 -0.5538 Std. Error 8.4586 0.2876 0.1933 t value 1.274 0.771 -2.865 Pr(>|t|) 0.2316 0.4587 0.0168 *
OK, agora que temos os valores dos parmetros podemos construir os grficos. Iremos demonstrar estes dados em dois grficos, cada um com uma das variveis explicativas no eixo X. Logo, para duas retas devemos construir duas equaes. Vamos relembrar como a equao mltipla. y= a + b1x1 + b2x2 Traduzindo Participao em sala de aula = a + b * Frequncia de alunos+ b*Interrupes.
Inserindo os valores (Tabela 5): Reta correspondente ao primeiro grfico, com N de alunos no eixo X. Participao em aula = 10.7732+0.2216*x-0.5538*Interrupes Reta correspondente ao segundo grfico, com Interrupes durante a aula no eixo X. Participao em aula=10.7732-0.5538*x+0.2216* N alunos
34
Figura 15: Nmero de participaes dos alunos, em relao ao nmero de alunos em sala (grfico da esquerda) e Interrupes durante a aula (grfico da direita).
Fonte: Acervo autores
Veja que agora nosso amigo, professor de cincias, pode afirmar que o aumento no nmero de alunos em sala de aula capaz de elevar a participao dos acadmicos. Todavia, o aumento de Interrupes possui efeito contrrio, diminuindo o nmero de participaes em sala (Figura 14). Desta forma, para que as aulas do nosso amigo professor de cincias sejam
contempladas pela ateno e participao de seus alunos, ele deve preocupar-se em manter um nmero de alunos capaz de manter um mnimo de Interrupes possveis. Observe que o mundo cientfico no simples assim, as variveis explicativas podem interagir! Daremos mais nfase nestas mltiplas interaes nos prximos captulos.
Existem outros testes estatsticos considerados tradicionais que desempenham funo semelhante ANOVA, como o caso do teste t de Student ou simplesmente teste t. Esta anlise tambm compara grupos baseada em suas mdias e variabilidades. Entretanto, este teste somente pode ser utilizado na comparao de DOIS grupos. Por este fato, tambm chamado de teste pareado, ou seja, feito par a par. A anlise de varincia faz parte de um grupo de testes chamados paramtricos (uma discusso mais detalhada de testes paramtrios e no-paramtricos ser feita no prximo captulo). A premissa bsica para a utilizao destes testes que os dados se adquem ao modelo de distribuio de probabilidade normal (ou gaussiana). Este modelo comumente observado em dados contnuos como peso, altura, etc. Neste tipo de distribuio, a maioria das observaes est agregada ao redor do centro, sendo gradativamente diminuda quando se afasta dele.
35
UAB/Unimontes - 6 Perodo
Nmero de observaes
Figura 16: Grfico demonstrando o modelo de distribuio normal. Note que a maioria das observaes (eixo y) esto concentradas no centro, gradativamente diminuindo nas extremidades.
Fonte: Acervo autores
Peso
GLOSSRIO:
Graus de liberdade: para encontrar a probabilidade (p) associada a um valor em particular de uma estatstica utilizam-se graus de liberdade. Este definido como o nmero de observaes menos 1. No nosso caso 20 peixes: n-1 = 19. Hoje em dia os programas de estatstica j calculam automaticamente O valor de p. Antigamente eram utilizadas as tabelas estatsticas, comuns ao final dos livros de estatstica para estabelecer este valor.
Para a utilizao da ANOVA, primeiramente devemos dividir os dados em variveis dependentes (ou resposta) e variveis independentes (ou categricas). Vamos utilizar nosso pesquisador de tilpias novamente. Neste caso minha varivel dependente o peso dos peixes e minha varivel categrica o tipo de rao. Sendo assim, minha varivel categrica meu tratamento, ou seja, o que foi manipulado para testar minha hiptese. A varivel resposta sempre uma varivel numrica. Minha varivel categrica, como o prprio nome diz, refere-se a uma categoria. A ANOVA uma anlise que compara grupos (categorias) baseados na mdia e variabilidade dentro dos grupos e entre os grupos. Este teste a tcnica de Fischer para partio da soma dos quadrados. (GOTTELI; ELLISON, 2011). A soma dos quadrados nada mais do que a soma dos desvios elevada ao quadrado. Lembre-se do que foi abordado sobre variabilidade e desvios na unidade II. A soma dos quadrados uma medida de variabilidade. Como frmula base da ANOVA temos:
e julgamos mais importante entendermos a teoria do que substituirmos frmulas por nmeros. Como toda anlise estatstica, a ANOVA possui alguns pressupostos, sendo eles: Amostras independentes: Conforme j discutido no captulo sobre delineamento amostral: As amostras devem ser aleatrias e independentes entre si; As varincias so homogneas entre grupos: Embora a mdia possa variar, assumimos que a varincia dentro de cada grupo similar quela dentro de todos os grupos. Assim, cada tratamento contribui com o mesmo tanto para a soma dos quadrados entre os grupos; Os dados ajustam-se distribuio normal; Vamos a um exemplo. Nosso pesquisador utilizou uma ANOVA para verificar a diferena entre o peso das tilpias entre seus tratamentos. Aps rodar a anlise em um programa estatstico, ele obteve os seguintes resultados:
GL Grupos 1 F 7.217
p 0.015*
36
S2B, que a soma dos quadrados entre os grupos (B = between) e S2W a soma dos quadrados dentro dos grupos (W = within). Note que uma ANOVA nada mais do que a relao entre a varincia entre grupos e a varincia dentro dos grupos. O restante dos clculos so derivaes desta frmula geral. No iremos aqui fazer manualmente passo a passo todos os clculos por diversas razes. Uma delas a de que existem inmeros softwares que fazem estas anlises
onde GL: Graus de liberdade; F valor do teste Fisher; P probabilidade de aceitar a H0. Neste caso, o valor de p = 0,015 indica que o pesquisador deve rejeitar sua hiptese nula, ou seja, a variao no peso dos peixes explicada pela diferena na dieta. Sendo assim, caso seu interesse seja fazer com que os peixes ganhem peso mais rapidamente, uma boa alternativa oferecer a eles rao rica em gordura. Aps a anlise, geralmente recorremos a grficos que ilustrem os resultados, como o que segue:
Figura 17: Grficos comparando o peso mdio dos indivduos (eixo y) entre os tratamentos (eixo x).
Fonte: Acervo autores
3.0
p=0,015
2.8
Barras de erro
2.6
2.4
Peso
2.2 2.0 1.8 1.6
t1 Grupos
t2
Note que o grfico torna a interpretao quase intuitiva. No eixo Y temos o peso mdio dos peixes e no X os dois tratamentos, neste caso, t1 e t2 (rao rica em gordura e rica em protena, respectivamente). Visualmente, observa-se uma grande diferena no peso dos indivduos entre os dois tratamentos e uma maior variabilidade no tratamento um. A observao da variabilidade feita atravs das barras de erro (indicadas pela seta) presentes no grfico. Neste caso, a medida de erro utilizada foi erro padro, sendo esta bastante comum nos trabalhos cientficos. Alm da di-
ferena visual, os grficos em trabalhos cientficos contm toda, ou quase toda, informao relativa anlise. Note que o valor de p tambm est presente no grfico, informando ao leitor se a diferena visual ou no significativa. Lembre-se de que dissemos que existe diferena significativa quando rejeitamos nossa H0, ou seja, p<0,05. Agora tomemos o exemplo das baratas e a concentrao de inseticida. Aps utilizar uma ANOVA o pesquisador chegou ao seguinte grfico:
Figura 18: Grfico relacionando ao nmero de indivduos mortos (eixo y) entre os tratamentos (eixo x).
Fonte: Acervo autores
Indivduos Mortos
10 9 8 7 6 5 4 3 2
p=0.00105
100mg/L
500mg/L
Concentrao
Note que, mais uma vez, analisando o grfico temos acesso a todos os resultados relevantes da anlise. Relembrando: A hiptese alternativa do pesquisador de que uma maior concentrao
de inseticida causa uma maior mortalidade aos besouros. Podemos observar (p<0,05) que, atravs da anlise de varincia, o pesquisador rejeitou sua hiptese nula de que a variao na mortalidade
37
UAB/Unimontes - 6 Perodo devido ao acaso. Ou seja, a concentrao de inseticidas no influencia na mortalidade de besouros. Apesar de bastante simples, nossos exemplos ilustram bem qual o objetivo de uma anlise de varincia (ANOVA): Comparar dois (ou mais tratamentos) com base em suas mdias e varincias. Agora que j aprendemos dois testes bsicos para dados com distribuio normal podemos passar para outras anlises, chamadas de modelos lineares generalizados.
Referncias
Magnusson, W.: Mouro, G. Estatstica sem Matemtica: A Ligao Entre as Questes e a Anlise. Editora Planta, 2003. Gotelli, N. J. & Ellison, A. M. Princpios de Estatstica em Ecologia, Editora Artmed, 2011.
38
UNIDADE 5
39
UAB/Unimontes - 6 Perodo consideradas como no paramtrica e normalmente constitui uma dificuldade na extrapolao e comparao dos resultados encontrados. Na verdade, nas analises no paramtricas podemos encontrar mtodos que no seriam prontamente comparveis com outros resultados, e desta forma, podem preencher as argumentaes de um carrega de subjetividade considervel. De certa forma, esta rotina de orientar os trabalhos com parmetros no comparveis no pode ser dogmatizada, considerando que o meio cientfico s continua instigando dvidas e as nossas dvidas no podem ser somente de qual o melhor mtodo de anlise mas, de qual a resposta mais realstica. De certo modo, a informao de como analisar e reconhecer os resultados de modo paramtrico tem sido mais claro e didtico, e por isto baseamos nele no ser visto no restante deste material.
40
5.5 As curvas tericas encontradas na famlia GLM, de maior interesse para bilogos
As principais curvas tericas que utilizamos podem serem encontradas em rotinas da famlia glm. Elas so a Poisson e Binomial, bem como as suas variaes. As definies dos principais casos vero abaixo.
5.6 Poisson
a distribuio de probabilidade encontradas nas anlises de dados cuja varivel resposta (y) possui caractersticas de nmeros naturais. Os nmeros naturais so nmeros inteiros e positivos e comum encontra esta caracterstica em experimentos cuja varivel resposta se refere a contagem de indivduos. A razo obvia, no biologicamente plausvel se conceber a ideia de que possa se registra esta informa co considerando 0,5 indivduos. No entanto, a disperso dos dados que melhor se adequem a um padro de distribuio Poisson podem no ser perfeita, podendo ocorrer disperso diferente do esperado, podendo ser acima (sobredisperso) ou abaixo (subdisperso) dos dados. Neste caso, podendo refazer o modelo para tornar a nossa anlise ainda mais confivel, utilizando um das duas variaes possveis do padro Poisson, a Quasipoisson ou Binomial Negativa.
41
UAB/Unimontes - 6 Perodo
5.8 Binomial
O padro binomial comumente utilizado em dados em percebamos a sua varivel resposta com valores de 0 a 1, podendo inclusive se referir a estes extremos. A funo utilizada a logit, a qual diferente da funo de ligao da curva terica Poisson (log). Um erro muito comum ao uso desta curva terica sua similaridade com os dados comumente de taxa que tambm aparentam se tratar de propores de uma dada ocorrncia. Assim, o padro Binomial se adequa muito bem a dados proporcionais, o que de certa forma, representa dois extremos bem evidentes. 1) No possvel a ocorrncia de nenhum dado com informao negativa, j que no concebvel existir uma proporo negativa de um evento ou coisa, e 2) no concebvel existir 105% de um todo. Desta forma, as duas assintticas so bem representadas e a existncia delas distingue este tipo de dados da informao de taxa, que tambm pode ser registrada como percentagem. Para efeito de modelagem no muda em nada do que j foi descrito anteriormente, difere em apenas a varivel que ocupa a funo de varivel resposta, que no item anterior foi apresentada como sendo do padro Poisson, neste caso, no podem ser maiores que 1 ou menores que 0. O mesmo procedimento para estimar a se a disperso est sendo calculada de acordo com o parmetro esperado serve para acessar esta informao no padro binomial, com uma exceo de que s existe at ento uma forma de corrigir a sub ou sobredisperso por meio de mudana de curva terica da mesma famlia. Detectando a ocrrncia de sub ou sobredisperso o mtodo de correo a priori seria o de refazer o modelo com Quasibinomial ocupando o local da distribuio de erros.
42
43
UAB/Unimontes - 6 Perodo Assim, o parmetro que baseamos o valor de probabilidade que na tabela aparece na ltima coluna da anlise de Deviance ou varincia, nomeada de P(>|Chi|), que neste caso so a(P= 0.02336 ), b(P=0.76010) e a:b(P=0.85820), sendo que o maior de probabilidade o de b, que neste caso, seria a varivel de maior probabilidade de o resultado encontrado, porm no a varivel mais de maior complexidade, que neste caso o a:b, portanto teremos qeiu refazer o modelo retirando este termo do modelo, o que pode ser feito de duas formas: Refazendo o modelo digitando as variveis novamente
Ou, 2) Atualizar o modelo feito anteriormente e no mesmo momento retirar (ou adicionar conforme a necessidade) o termo que tiver interesse no momento com o comando update, deste modo:
Figura 22: Simplificao de modelo de regresso utilizando o comando update
Fonte: Acervo autores
O passo seguinte fazer a releitura das informaes que anlise de Deviance ou varincia do modelo de regresso feito, sempre observando a retirada das variveis ou interaes que tenham um valor de probabilidade superior ao limiar aceitvel, no nos-
so caso comumente 0,05 (5%). Neste caso, a varivel que seria retirada neste momento b, que na tabela de resultados podemos ler o valor de probabilidade (P=0.89491, que superior ao limiar de significncia considerado, 0,05). Observe:
44
Figura 23: Simplificao de modelo de regresso utilizando o comando update e - a varivel ou interao de interesse
Fonte: Acervo autores
Existe uma exceo a esta ordem de prioridade na escolha de qual varivel deve ser retira do modelo em questo, quando uma possvel interao for importante para ao modelo, mas a uma ou mais variveis que participem da interao no o forem. Neste caso, deve-se manter as variveis no significativa no modelo considerado como o modelo mnimo ade-
quado (MMA), em razo do efeito que exercem na interao. A leitura dos resultados a seguinte: =5.1414, P=0.02336, por conveno existem algumas padronizaes para registrar estes resultados, verifique sempre na hora de escrever os seus resultados para mostr-los da melhor e mais formatada forma possvel.
45
UAB/Unimontes - 6 Perodo O prximo passo o de acrescer uma varivel ou interao ao sistema por vez, do seguinte modo:
Figura 24: Simplificao de modelo de regresso
Fonte: Acervo autores
Quando executamos o comando anova, fazemos uma anlise de Deviance do modelo de regresso construdo, o que poderia ser feito de outra forma, caso a funo anova no tivesse sido implementada no instante em questo. Este outro mtodo para se ter a mesma informao, se comparamos os dois modelos, baseia-se na diferena entre os dois mode-
los construdos, o anteiro e o segundo com a varivel ou interao que adicionamos a ele. Os valores que encontrarmos se referem a varivel que foi adicionada quando comparamos os dois modelos, esta informao de vital importncia em algumas rotinas que veremos adiante, observe:
46
5.14.2 Anlise de resduos por meio da comparao do MMA com o modelo nulo
Uma dvida recorrente se d em virtude da natureza do modelo nulo. O modelo nulo aquele em que se constri um modelo assumindo a varivel resposta mensurada e como varivel explicativa(s) apenas um componente aleatrio, que neste caso, interpretado pelo R como 1. Assim o modelo nulo seria do seguinte modo, considerando do exemplo dado na unidade ancova,
Neste caso, foi considerado como varivel resposta o objeto numero.de.aucar, sendo a medida correspondendo ao nmero de pirulitos vendidos na banca de uma destas esquinas em, relao ao contedo de acar e a cor dos mesmo. Claro que neste exemplo deveria ficar claro a hiptese e a(s) predio(es) que derivem da mesma. Neste caso, a varivel cor se refere a intensidade do tom verde que foi utilizado na fabricao do pirulito. Esta observao de extrema importncia, os dados de uma varivel quantitativa devem ter uma exata correspondncia entre a caracterstica
e o nmero dado a ela, isto porque, durante a anlise o programa ir entender desta forma. Se isto no for verdade voc deve substituir os nmeros desta varivel por letras para tornar mais correta a interpretao destes dados (para maiores detalhes reveja as primeiras unidades deste material). E, considerando que a varivel resposta se refere a nmero de pirulitos vendidos, que um nmero discreto e positivo, assumimos a como varvel resposta e deste modo a curva terica mais provvel seria a Poisson, e considerando um limiar de significncia de 0,05 (5%). Assim,
47
UAB/Unimontes - 6 Perodo
Observe que podemos economizar em digitar o nome de vrios fatores a serem testadas no modelo como o sinal de *, que interpretado como sendo para se testar as variveis envolvidas pelo * separadamente e tambm as possveis interaes estatsticas
entre elas. Lembrando que s podemos fazer inferncia com base no modelo mnimo adequado (MMA), inclusive a anlise e de resduo tambm feita a partir dele, assim temos que obt-lo e neste caso que retirar um termo do modelo, a teor.de.aucar:cor.do.pirulito, logo,
Repare que a interao presente entre os termos no poderia foi retirada porque alm de possuir um valor de significncia superior ao limiar aceitvel (0,05), portanto o modelo. completo.2 mais aceitvel que o anterior mas ainda no pode ser considerado como modelo mnimo adequado (MMA) por ainda possuir varivel com valor de significncia
acima do limiar de significncia aceitvel que nem mesmo fazem parte de interaes entre os termos ou varivel testadas com valor de probabilidade abaixo do limiar de probabilidade aceitvel. Assim, devemos continuar retirando os termo(s), um por vez, que no importam para explicar as variaes no nmero de pirulitos vendidos. Ento:
Figura 9: Simplificao de modelo de regresso
Fonte: Acervo autores
48
Cincias Biolgicas - Anlise de Dados Biolgicos Repare que no modelo.completo.4, verfica-se apenas a varivel teor.de.aucar como varivel explicativa importante , mas no existe a possibilidade de simplificar ainda mais o modelo. Se no puder simplificar ainda mais, o modelo em questo pode ser considerado como o modelo mnimo adequado (MMA). Lembrando que a anlise de resduo deve ser feita confrontando o MMA com as anlises de resduo possveis. Assim vamos confront-lo com o modelo nulo, a 1 anlise de resduo.
Figura 29: Simplificao de modelo de regresso
Fonte: Acervo autores
O valor de significncia observado nesta anlise de comparao do modelo mnimo adequado como modelo nulo deve ser inferior ao limiar de significncia admitido anteriormente. Se isto for verificado, interpretamos como o modelo mnimo adequado possuindo uma(s) explicao diferente da dada pelo modelo nulo. Assim ele melhor que o modelo nulo porque o mesmo uma medida daquele evento ocorrer simplesmente ao aleatrio,
e o nosso modelo construdo encontrou uma correspondncia entre a variao do nmero de vendas de pirulitos e teor de acar dos mesmos. Isto suficiente para aferirmos de o modelo mnimo adequado melhor que o modelo nulo. Mas ainda no temos condies de aferir com total certeza que o teor de acar um bom preditor da venda de pirulitos. Teremos que fazer outras anlises de resduos possveis para este tipo de anlise.
5.14.3 Anlise de resduo por meio da comparao dos grficos dos resduos do MMA com o modelo terico
O modelo mnimo adequado pode ser comparado com o modelo terico saturado utilizado como parmetro (neste caso o Poisson). Para isto, basta fazer um grfico do modelo e, utilizando os dois primeiros grficos termos uma informaes se o modelo est aceitvel. Esta parte da anlise um pouco mais subjetiva e a rapidez na verificao vai de da com o tempo e experincia. Mas um iniciante ter o mesmo mrito se for atento e observar cuidadosamente os grficos em questo. Vamos l, ao digitar o comando plot(nome do modelo) iremos notar alguns grficos dos quais gostaramos de chamar a ateno para os dois primeiros. O primeiro deles tem como eixos os resduos e o eixo x o nome do modelo como o encontrado na figura 11.
Figura 30: Simplificao de modelo de regresso
Fonte: Acervo autores
Neste caso os resduos no esto to bons, percebido observando a concatividade da linha avermelhada (curva de tendncia). Quanto menor esta concatividade melhor ser os resduos, muito embora nem sempre tenhamos resduos perfeitos. O segundo grfico da figura 11, o de disperso e interessante porque podemos basear tambm nele para verificar o quanto o nosso modelo est ajus-
tado a distribuio de erros que assumimos a priori. A linha pontilhada neste grfico mostra o modelo que foi assumido com a curva terica que assumimos a priori e os crculos abertos so os nossos dados. O melhor seria se o maior nmero de crculos estivesse sobre a linha pontilhada, caracterizando a distribuio de erros mais ou menos que mais ou menos adequada.
49
UAB/Unimontes - 6 Perodo
Referncias
Crawley M. J. The R Book. John Wiley & Sons, 2007.
50
Resumo
Na Unidade I foram abordados conceitos bsicos para nossa disciplina, como delineamento experimental e rplicas. Um bom desenho experimental permite ao pesquisador testar sua hiptese de maneira correta e ter uma boa base de dados para suas anlises. A utilizao de rplicas permite ao pesquisados acessar a variabilidade presente em seu universo amostral e, a partir de ento, tirar concluses de seus dados. Vimos, ainda nesta unidade, que o delineamento experimental parte crucial de qualquer projeto e deve ser muito bem pensado. Um desenho mal elaborado torna o projeto mais caro e muitas vezes inviabiliza a elaborao de concluses robustas sobre o tema estudado. Na Unidade II foram introduzidos os conceitos de probabilidade e variabilidade. O primeiro diz respeito a chance de que um dado evento ocorra. J o segundo, refere-se a variao natural existente dentro de um mesmo grupo de estudos. Estes dois conceitos, em conjunto, formam a base para a maioria dos testes estatsticos. J na Unidade III foi introduzido o conceito de hipteses biolgicas. A maioria dos estudos se baseia em hipteses, que podem ser definidas como explicaes para um evento observado. Deve-se considerar a necessidade de que uma hiptese seja testvel, ou seja, a minha hiptese pode ser refutada ou aceita aps um experimento. Foram apresentados, ainda, os mtodos cientficos que podem ser definidos como a maneira utilizada para escolher entre hipteses com base nas observaes. Foram abordadas, ainda, as definies de hiptese nula (H0) e hiptese alternativa (Hn), que dizem respeito explicao de meu evento. Ele pode acontecer simplesmente ao acaso, neste caso aceitamos nossa hiptese nula; ou nosso evento pode confirmar uma hiptese anteriormente apresentada, aceitando a hiptese alternativa. Duas anlises estatsticas simples e bastante utilizadas na biologia foram apresentadas na Unidade IV: regresso linear e a anlise de varincia. A regresso linear utilizada para testar uma relao entre duas variveis quantitativas, enquanto a ANOVA compara uma varivel quantitativa baseada em dois ou mais grupos (categorias) qualitativo. Essas anlises tm algumas restries de utilizao, sendo uma delas, a necessidade de que os dados se adqem a distribuio normal. Por fim, a Unidade V tratou dos modelos lineares generalizados. Este tipo de abordagem estatstica est sendo amplamente utilizado na atualidade por fornecer uma maior gama de possibilidades ao pesquisador. Nestas anlises possvel construir um modelo baseado na distribuio particular dos dados coletados. De uma maneira simplista, essas anlises tornam-se mais direcionadas a cada tipo de dado. Foram apresentadas, ainda, as curvas tericas de maior importncia em trabalhos na rea da biologia e exemplos passo a passo de como construir e utilizar os modelos lineares generalizados.
51
Referncias
Bsicas
Magnusson, W. & Mouro, G. Estatstica sem Matemtica: a Ligao Entre as Questes e a Anlise. Editora Planta, 2003. Stokes, D. E. O quadrante de Pasteur: A cincia bsica e a inovao tecnolgica. Editora UNICAMP, 2005.
Complementares
Crawley M. J. The R Book. John Wiley & Sons, 2007. Gotelli, N. J. & Ellison, A. M. Princpios de Estatstica em Ecologia, Editora Artmed, 2011. Krebs, C. J. Ecological Methodology. New York: Harper & Row,1989. Ruxton, G.D. & Colegrave, N. Experimental design for the life sciences. 2ed. Oxford, 2006.
53
Atividades de Aprendizagem AA
01) Defina probabilidade e variabilidade. Qual a importncia destas medidas para uma anlise estatstica? 02) O que so hipteses nulas e hipteses alternativas? 03) O que a anlise de varincia? Quando devemos utilizar este tipo de anlise? 04) O que pseudo-repetio? D exemplos dos principais tipos. 05) Defina os parmetros (y, a, b e x) da equao: y= a +bx. 06) O objetivo do seu estudo verificar se o peso influenciado pela idade. A partir dos dados apresentados na tabela a seguir, faa um grfico contendo a disperso dos pontos e responda:
Peso (kg) 85 90 75 70 65 70 60 55 Idade (anos) 20 25 30 40 50 60 70 80
a) Qual sua varivel resposta e qual a varivel explicativa? b) A inclinao b ter um valor positivo ou negativo?
07) O que configura uma rplica verdadeira? 08) Diferencie anlises paramtricas das no paramtricas. 09) Quais as caractersticas que um modelo tem de possuir para ser considerado como modelo mnimo adequado? 10) Qual(is) critrio(s) devemos utilizar quando for necessrio simplificar o modelo de anlise construdo?
55