Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Interpretao de
Grficos e Anlises
Estatsticas
Arleu Barbosa
Viana Junior
100%
50%
0%
01
02
03
04
100%
100%
0%
0%
100%
100%
0%
0%
05
06
100%
0%
www.biologiadaconservacao.com.br
PREFCIO
Os grcos esto presentes na vida de todos, principalmente no cotidiano de estudantes de diversas reas do conhecimento. extremamente comum ver esses alunos de diversos
nveis acadmicos se deparando com grcos - seja em sala de
aula, artigos, apresentaes de trabalhos em congressos, livros, ou
at em meios cienticamente no convencionais como programas
de televiso, embalagens de alimentos, revistas, entre outros e
tendo diculdade na sua interpretao. Isso ocorre especialmente
quando nos deparamos com os meios de comunicao acadmica,
onde a leitura dos grcos pode se tornar uma tarefa conituosa!
Pgina 2
Grcos so representaes visuais que contem informao numrica ou espacial. Um grco tem a funo de facilitar
a interpretao de resultados de testes estatsticos mais complicados, ou sumarizar as informaes gigantescas que uma tabela
pode ter. Porm, a depender da informao que est sendo colocada ali, ler e interpretar um grco pode ser uma frustrao
para o bilogo.
].
Voc percebe que o verbo INTERPRETAR apareceu em todas as respostas? Parece que no s a
forma de interpretar os resultados analticos um
medo para os estudantes de biologia e de reas ans de
diversos graus acadmicos. Interpretar os grcos tambm
um fator limitante.
Pgina 3
E tanto interpretar resultados analticos quanto interpretar grcos so dois atributos bastante interligados em anlises
de dados biolgicos. Realmente, se essas duas coisas no estiverem bem conectadas, sua capacidade em compreender uma
informao estar prejudicada.
Vamos pensar em um exemplo bem rpido!
muito comum voc encontrar em um artigo cientco
essa sintaxe de linguagem estatstica:
(F3, 36 = 4.56; p < 0.05)
O que cada letra e nmero querem dizer? Quais informaes podemos tirar disso? Podemos ter a capacidade de imaginar quantas unidades amostrais independentes foram obtidas
nesse trabalho? Ser que podemos saber qual o possvel tipo de
grco que um resultado como esse pode gerar?
Bem, a resposta da ltima pergunta SIM!
Novamente, se a sintaxe agora for essa (F1, 58 = 5.1; p < 0.05),
ser que podemos ter uma ideia de que grco pode sair? A resposta tambm SIM!
Agora vamos tentar fazer o inverso. Observando os grcos abaixo, podemos ter uma ideia de que anlise foi
feita?
Pgina 4
12
110
105
Riqueza
Abundncia
14
115
100
95
10
8
6
90
85
2
A
20
reas de Coleta
30
40
50
Umidade (%)
a
1.0
b
0.5
NMDS
0.0
-0.5
PFU
PFLB
PFL
SEF
REF
PAS
-1.0
AGR
-0.5
0.0
0.5
NMDS
Land-use class
14
Lentics
Lotics
12
1.5
10
RDA2
Temp.
P. americana
O.M.
Mud
V.C.S.
Depth
-4
M.S.
-6
-6
-4
N. bonettoi
Gra.
pH
-2
-8
C.S.
Cond.
A. pigweti
-2
1.2
0.9
0.6
0.3
8
10
RDA1
12
14
1.0
0.5
Low
0.0
0.5
1.0
1.5
High
introduo
Antes de olhar para um grco e compreender a informao que ele quer transmitir, muito importante que voc
tenha a noo dos tipos de variveis utilizadas a priori. A ideia
do grco perceber relaes - ou a falta delas - ou ilustrar
o tamanho do efeito de uma predio biolgica.
Em geral, em um grco sempre so plotadas informaes de dados em dois eixos cartesianos: vertical/horizontal,
ordenadas/abcissas, y/x, dependente/independente, resposta/explicativa. Ento, para entender a forma do grco preciso ter
a capacidade de identicar qual tipo de varivel est associada
ao eixo Y (conhecido como eixo da varivel resposta ou dependente) e ao eixo X (conhecida como eixo da varivel explicativa ou independente).
Abcissas
Horizontal
Dependente
Resposta
X
Independente
Explicativa
Vertical
Ordenadas
Pgina 7
Pgina 8
BOX PLOT
um dos grcos mais clssicos, porm no to utilizado
em artigos cientcos. No entanto
acadmico se sugere usar com mais frequncia esse tipo de grco, pois ele demonstra com maior delidade a disperso das
observaes (Krzywinski and Altman, 2014).
30
20
10
1
0
A
Tipo de Varivel
Y numrica
X - categrica
{
B
Tipo de Anlises
Teste-t
Teste U de Mann-Whitney
Anova one-way
GLM
1 O quadrado central representa 50% da cobertura central dos dados, tambm conhecida
como IQR (InterQuartile Range). Seus limites inferiores e superiores representam 25 e 75
percentil, tambm podendo ser o 1 quartil e o 3 quartil. A faixa escura do meio o 2 quartil
ou a mediana. A mediana o valor do meio, dentro de um conjunto de dados. Ex.: Se temos
o conjunto de dados 1, 2, 3, 4, e 5, o valor 3 a mediana. O 1 e 3 quartis, que nesse nosso
exemplo so representados pelos valores 2 e 4 respectivamente, representam a mediana
entre o valor mnimo e mximo e o 2 quartil.
Pgina 9
5
4
3
2
3 quartil
IQR
2 quartil
ou mediana
1 quartil
1
Para se ter uma melhor ideia das distribuies dos
pontos pelo grco de caixa, abaixo vai uma comparao de dois
boxplots.
30
30
20
20
10
10
Pgina 10
Pgina 11
Bar PLOT
um tipo de grco muito utilizado para representar
mdias e desvios. Um dos tipos de grco mais comum em artigos
cientcos e de interpretao simples e intuitiva.
30
}
*
20
10
0
A
1 Sempre quando trabalhamos com amostras, nossa inteno coletar uma pequena
parte de uma determinada populao para que possamos fazer inferncias sobre ela
como todo. Uma das principais medidas de posio gerada para descrever a populao
atravs de uma amostragem a mdia, representada pela parte superior da barra. Como
a populao varia dentro dessa mdia, existe uma medida da disperso desses dados em
relao a essa mdia, representada pelo numeral 1 no grco. Essas medidas de
disperso podem ser representadas pela amplitude mxima e mnima, varincia, desvio
padro, erro padro ou intervalo de conana e o tipo de medida voc est usando deve
ser informada no rtulo do eixo Y. Para saber mais sobre barras de erro, sugiro ler o artigo
do Cumming e colaboradores (2007).
Pgina 12
35
30
30
25
20
20
15
10
10
5
0
0
A
60
60
40
40
20
20
20
40
40
60
60
A
20
Pgina 13
60
60
40
40
20
t1$y
20
0
20
20
40
40
60
60
A
25
20
15
10
0
A
reas de Coleta
Pgina 14
Pgina 15
scatter PLOT
Saindo dos grcos de barras, os scatter plots ou grcos
de disperso, so extremamente importantes quando queremos
demonstrar a relao entre variveis numricas, seja ilustrando
uma relao de causa e efeito ou uma relao de associao entre
variveis. Esses tipos de grcos so importantes para vericar
padres ecolgicos, diferente dos grcos de barras que representam tamanho de efeito.
Abundncia de Morcegos
20
y = 17.4905 + 0.8156*x
R = 0. 48
15
10
0
26
28
30
32
34
36
38
40
Temperatura (C)
Tipo de Varivel
Y - numrica
X - numrica
Tipo de Anlises
Regresso
Correlao
GLM
Pgina 16
1 Esses valores podem vir diretamente no texto ou na legenda do grco. Essa equao
representa a frmula na qual foi calculada a estimativa da linha reta (geralmente presente
somente em resultados signicativos). Lembrando l do ensino mdio, neste caso apenas
uma equao do primeiro grau Y = a + bx. Porm, vamos entender o que isso signica. O a,
representado no grco pelo valor 27.8, representa o ponto que a reta comea em Y, levando
em considerao que o X zero. Perceba que no nosso grco o eixo X inicia em 10. Esse a
conhecido como o intercepto da reta. O b representa o coeciente angular e ele demonstra
a inclinao da reta e a relao que a varivel Y tem com o X. Ou seja, o quanto cada unidade
de X variando que vai inuenciar na varivel Y.
2 Esse valor conhecido como coeciente de determinao. Esse valor varia entre 0 e 1 e
geralmente o valor do poder de explicao que a varivel X tem em relao a varivel Y.
Quanto mais prximo de 1, mais prximos os pontos esto da reta; quanto mais distante,
mais dispersos em relao a reta os pontos esto. Veja os exemplos abaixo.
10
R = 1
R = 0.86
10
10
x
10
R = 0.65
R = 0.27
4
2
6
4
10
10
8
6
x
10
6
x
10
Pgina 17
10
y = 0.3333 + 0.9394*x
8
y = 1.24 + 1.13*log(x)
10
10
10
10
y = exp(064 + 0.27*x)
8
6
x
10
10
Pgina 18
Pgina 19
Abundncia de Morcegos
20
15
10
0
26
28
30
32
34
36
38
40
Temperatura (C)
Tipo de Varivel
Y numrica
X - categrico + numrica
Tipo de Anlises
ANCOVA
GLM
Pgina 20
Esquecendo a existncia das duas cores, evidente observar que os pontos da rea B
esto h uma maior media de indivduos de morcegos que a rea A (olhando a
distribuio dos pontos em relao ao eixo Y) e que a temperatura inuencia positivamente nessa abundncia. Porm, no sempre que a rea B tem mais morcegos que a
rea A. A temperatura age de maneira distinta nas duas reas de estudo. Se pudssemos
coletar em uma maior amplitude de temperatura na rea A, a quantidade de morcegos
nessa rea iria ser superior que na rea B. Isso mostra que o efeito da temperatura na
quantidade de indivduos de morcegos diferente a depender da rea, e caso zssemos
um grco de disperso ou um grco de barras, essa informao no poderia ser capaz
de visualizar. Ento cabe a voc como pesquisador ou prossional da conservao a tarefa
de compreender e explicar quais so os processos e mecanismos que esto associados s
reas para explicar como o efeito da temperatura difere.
Ok, agora grande parte dos grcos comumente apresentados em artigos de ecologia e conservao foram explanados. O que muda a partir da a abordagem, a criatividade, o rigor
que o redator do trabalho d sua apresentao e anlise. Como
falei no incio do e-book, compreender os tipos de variveis associadas aos eixos fundamental para saber qual tipo de grco devemos gerar e qual(ais) anlise(s) devemos fazer. A partir de agora
vamos falar de algumas variaes grcas referentes s anlises
estatsticas.
Pgina 21
1.0
12
jun.07 jul.07
4 18
mar.06
fev.07
jun.06
mar.07
may.07
0.5
0.0
50
100
Rainfall (mm)
150
Esse tipo de grco gerado quando temos uma varivel resposta binria. Mas como seria
isso Arleu? Seria assim: Uma varivel resposta binria quando estamos vericando um
evento de forma dual (p. ex. acontece ou no acontece, tem ou no tem, homem ou
mulher...). Estritamente a varivel explicativa tem que ser uma varivel continua. Essa
anlise verica a probabilidade de um determinado fator observacional, ou seja, nossa
varivel de interesse, acontecer ou no acontecer dado a mudana da varivel explicativa.
Vamos ao nosso exemplo! Eu estava vericando mensalmente durante o ano todo, vrios
ninhos de cupins para saber o perodo em que aconteceriam revoadas. Telei os ninhos com
tecido e vericava se em cada vistoria havia buracos abertos, alados mortos ou presos, asas
cadas, qualquer caracterstica que pudesse diagnosticar o evento de revoada. Ento minha
varivel resposta era a presena ou ausncia de revoada em determinado ms. Depois
de nalizar todas as campanhas de campo, eu tinha tambm dados de precipitao daquele
ms. Esta seria minha varivel explicativa. Ento realizando modelos estatsticos com esses
dados eu cheguei a esse grco.
Pgina 22
Mas o que ele me diz Arleu!? Como falei anteriormente, ele nos informa a probabilidade
do evento acontecer ou no acontecer. Se levarmos em considerao que no 50% (no eixo
Y est com o numero 0.5) o momento onde h a probabilidade do evento mudar de no
acontecer, para acontecer (ou vice-versa, dependendo da sua varivel), qual ponto do
eixo X esse fenmeno ocorre? Olhando para o grco, mais ou menos quando atingimos
50 mm de chuva ocorre essa probabilidade de revoada. assim que interpretamos este
grco baseado nesta anlise. Assim, a partir da, eu preciso explicar quais mecanismos
esto por trs dessa inuncia da chuva na probabilidade de revoada por cupins.
Agora vamos falar de uma anlise que muito importante quando queremos vericar algumas questes, como tness
(valor adaptativo) por exemplo.
1.0
Somente Cupins
Controle
Fungo
Sobrevivncia (%)
0.8
0.6
0.4
0.2
0.0
0
10
Tempo (dias)
Tipo de Varivel
Y tempo
X - categrica
Tipo de Anlises
Analise de sobrevivncia
Pgina 23
]. Ento,
inseri em uma placa de petri 25 indivduos de uma mesma colnia em contato com diferentes recursos, separados em trs tratamentos: i) papel ltro contaminado com fungos; ii)
papel ltro umedecido; iii) apenas cupins na placa sem nenhum recurso. Todas foram
alocadas em um ambiente controlado sob os mesmo efeitos externos. Diariamente vericvamos a taxa de sobrevivncia dos indivduos e anotvamos quanto tempo demorava
desde o tempo zero (primeiro dia do experimento) at o dia em que todos os indivduos
morressem. Agora acho que cou mais fcil de entender... Nosso evento era a morte de
todos os indivduos. um evento claro, sem a mnima condio de dvida. Neste caso,
nossa varivel resposta era o dia de morte e nossa varivel explicativa eram os nossos
tratamentos. Logo, fazendo modelos estatsticos para vericar o tempo de morte desses
indivduos frente a um determinado tipo de recurso, chegamos ao resultado apresentado
neste grco. Percebam que a longevidade dos cupins aumenta quando esto em contato
com um recurso contaminado com fungo se comparamos com a falta de recurso ou
quando esto com um recurso mido. O que isso quer dizer ento Arleu?
Pgina 24
log(log(S(t)))
Site 3
3
Site 1
2
1
0
5
10
15
20
t (days)
100
0.8
0.6
0.4
0.2
Malefemale
Malemale
Single male
20
40
60
80
100
Time elapsed until nest establishment (h)
120
Percent germinated
Searching rate
10
80
15
60
40
20
20
0
0
10 15 20 25 30
Days
Ento meu (minha) caro(a) amigo(a), este e-book que preparei para voc s um passo inicial para que voc tenha uma
noo de como observar e interpretar algumas formas grcas e a
quais anlises elas podem est associadas. H muito ainda pela
frente, no s na maneira de apresentar um resultado, como
tambm de compreender algumas anlises. A estatstica multivariada, as famosas anlises de sries temporais, ou at estatsticas
mais complexas - como modelos bayesianos ou modelagens espaciais - podem ser exemplos do que almejar no mundo da estatstica.
Pgina 25
2. Os prximos dois links so uma forma divertida de voc brincar dando palpites de coecientes de correlao, conhecido em trabalhos como r (errezinho). O coeciente de correlao muito semelhante ao coeciente de determinao (R) da regresso. A diferena
que o r uma medida de associao e ela varia entre -1 e 1. Utilizando a
mesma lgica do R, quanto mais dispersos os pontos esto da reta,
mais prximos de zero vo estar. A diferena que como essa mtrica
varia de -1 a 1, ela informa a direo da associao realizada. Se encontrarmos valores entre -1 e 0, teremos uma associao negativa (reta decrescente). Se for entre 0 e 1, uma associao positiva (reta ascendente).
http://guessthecorrelation.com/
http://www.istics.net/Correlations/
Ento isso! Divirta-se e d um bom palpite. At a prxima.
OBRIGADO
Pgina 27
Pgina 28
RECOMENDAES DE LEITURA
Cohen J. (1990). Thing I have learned (so far). American Psychologist. 45: 1304-1312.
Cumming G. et al. (2007). Error bars in experiments biology.
The Journal of Cell Biology. 177: 7-11.
Krzywinski M. and Altman N. (2013). Error bars. Nature Methods. 10: 921-922.
Krzywinski M. and Altman N. (2014). Visualizing sample with
box plots. Nature Methods. 11: 119-120.
Streit M. and Gehlenborg N. (2014). Bar charts and box plots.
Nature Methods. 11: 117.
Weissgerber T. L. et al. (2015). Beyond Bar and Line Graphs:
Time for a New Data Presentation Paradigm. Plos One. 13: 1-10
Pgina 29
AGRADECIMENTO
Este E-BOOK foi elaborado em 2016 aps anos de
estudo dentro da minha jornada acadmica em cincias biolgicas da qual gostaria de agradecer os professores doutores Leandro Sousa-Souto (UFS), Frederico Neves (UFMG), Ricardo Solar
(UFMG), Ronaldo Reis (Unimontes), Og de Souza (UFV) que at
hoje so minhas referencias em analises de dados e estudo das
tcnicas com o software R. No poderia deixar de agradecer
tambm os amigos do Laboratrio de Entomologia da UFS e da
Vila Parentoni (UFMG) que enriquecem meus conhecimentos
dentro da biologia e analises de dados. Agradeo a Renata
Muylaert por todas as conversas e aprendizados sobre R e pela
reviso realizada nesse e-book. Agradeo tambm a Bocaina
Biologia da Conservao pela oportunidade de parceria com os
diretores (Lucas Perillo e Felipe Fonseca).
Pgina 30