Sei sulla pagina 1di 187

PAleontological STatistics

Version 2.16

Manual de Referncia1

yvind Hammer
Natural History Museum
University of Oslo
http://folk.uio.no/ohammer/past/

1999-2012

1
Traduo feita por Pavel Dodonov pdodonov@gmail.com; revisado por Matheus Gonalves dos Reis.
Ambos doutorandos do Programa de Ps-Graduao em Ecologia e Recursos Naturais, Universidade
Federal de So Carlos (UFSCar).

1
Sumrio
Sumrio ............................................................................................................................... 2
Bem-Vinda(o) ao PAST! .................................................................................................... 7
Instalao ............................................................................................................................ 8
A planilha e o menu Edit (Editar) ....................................................................................... 9
Inserindo dados ............................................................................................................... 9
Selecionando reas.......................................................................................................... 9
Movendo uma linha ou uma coluna.............................................................................. 10
Renomeando linhas e colunas....................................................................................... 10
Aumentando o tamanho da matriz ................................................................................ 10
Recortar, copiar, colar................................................................................................... 11
Remover........................................................................................................................ 11
Agrupando (colorindo) colunas .................................................................................... 11
Escolhendo tipos de dados para as colunas................................................................... 12
Remover linhas/colunas no-informativas Remove uninformative rows/columns ... 12
Transpor - Transpose .................................................................................................... 12
Colunas agrupadas para dados multivariados Grouped columns to multivar............ 13
Linhas agrupadas para multivariado Grouped rows to multivar................................ 13
Empilhar linhas agrupadas em colunas Stack colored rows into columns ................ 13
Eventos para amostras Events to samples (RASC to UA)......................................... 13
Carregando e salvando dados........................................................................................ 14
Importando dados do Excel .......................................................................................... 15
Lendo e escrevendo arquivos Nexus............................................................................. 15
Importando arquivos de texto ....................................................................................... 15
Contador Counter....................................................................................................... 16
Transform menu (Transformaes de dados) ................................................................... 17
Logaritmo...................................................................................................................... 17
Remover tendncia remove trend .............................................................................. 17
Subtrair mdia Subtract mean.................................................................................... 17
Box-Cox........................................................................................................................ 17
Porcentagem de linhas Row percentage .................................................................... 18
Normalizar comprimento por linha Row normalize length ....................................... 18
Abundncia para presena/ausncia Abundance to presence/absence ...................... 18
Ecaixe de Procrustes Procrustes fitting...................................................................... 18
Encaixe de Bookstein (Bookstein fitting) ..................................................................... 19
Projetar para espao tangente........................................................................................ 19
Remover tamanho de pontos de referncia (Remove size from landmarks) ................ 19
Transformar pontos de referncia (Transform landmarks)........................................... 20
Remover tamanho de distncias (Remove size from distance) .................................... 20
Ordenar crescente e decrescente (Sort ascending and descending) .............................. 20
Ordenar por cor (Sort on color) .................................................................................... 21
Diferena entre colunas (Column difference)............................................................... 21
Interpolao regular (Regular interpolation) ................................................................ 21
Avaliar expresso (Evaluate expression) ...................................................................... 21
Plot Menu (Grficos) ........................................................................................................ 22

2
Grfico (Graph)............................................................................................................. 22
Grfico XY (XY graph) ................................................................................................ 23
Histograma (Histogram) ............................................................................................... 25
Grfico de barras / boxplot (Bar chart/box plot)........................................................... 26
Percentis (Percentiles)................................................................................................... 27
Grfico de probabilidade normal (Normal probability plot)......................................... 28
Ternrio (Ternary) ........................................................................................................ 29
Grfico de bolhas (Bubble plot).................................................................................... 30
Sobrevivncia (Survivorship) ....................................................................................... 31
Pontos de referncia (Landmarks) ................................................................................ 31
Pontos de referncia 3D (Landmarks 3D) .................................................................... 32
Matriz (Matrix) ............................................................................................................. 33
Superfcie (Surface) ...................................................................................................... 34
Statistics Menu (Estatstica univariada)............................................................................ 34
Univariada (Univariate) ................................................................................................ 35
ndices de similaridade e distncia (Similarity and distance indices)........................... 36
Tabela de correlao (Correlation table)....................................................................... 41
Var-covar ...................................................................................................................... 42
Testes F e t (duas amostras) (F and t tests (two samples))............................................ 42
Teste t (uma amostra) (t test (one sample)) .................................................................. 44
Testes F e t a partir de parmetros (F and t tests from parameters) .............................. 45
Testes pareados (t, sinal, Wilcoxon) (Paired tests (t, sign, Wilcoxon) ......................... 45
Testes de normalidade (Normality tests) ...................................................................... 47
Qui^2 (Chi^2) ............................................................................................................... 49
Coeficiente de variao (Coefficient of variation)........................................................ 50
Teste de Mann-Whitney (Mann-Whitney test) ............................................................. 52
Kolmogorov-Smirnov ................................................................................................... 53
Correlao ordinal/de rank (Rank/ordinal correlation)................................................. 54
Tabela de contingncia (Contingency table)................................................................. 55
ANOVA Uni-fatorial (One-way ANOVA) .................................................................. 56
ANOVA bifatorial (Two-way ANOVA) ...................................................................... 59
Kruskal-Wallis .............................................................................................................. 60
Teste de Friedman (Friedman test) ............................................................................... 61
ANCOVA unifatorial (One-way ANCOVA) ............................................................... 62
Estatsticas de sequncia gentica (Genetic sequence stats)......................................... 63
Anlise de sobrevivncia (curvas de Kaplan-Meier, teste log-rank etc) (Survival
analysis (Kaplan-Meier curves, log-rank test etc.) ....................................................... 64
Riscos / probabilidades (Risks / odds).......................................................................... 65
Combinar erros (Combine errors)................................................................................. 66
Multivar menu (Multivariada) .......................................................................................... 68
Componentes principais (Principal components) ......................................................... 68
Coordenadas principais (Principal coordinates) ........................................................... 73
Escalonamento multidimensional no-mtrico (Non-metric MDS) ............................. 74
Anlise de correspondncia (Correspondence analysis)............................................... 75
Anlise de correspondncia destendenciada (Detrended correspondence analysis)..... 76
Correspondncia cannica (Canonical correspondence) .............................................. 77

3
Anlise de fator CABFAC (CABFAC factor analysis) ................................................ 78
Mnimos quadrados parciais de dois blocos (Two-block PLS) .................................... 78
Seriao (Seriation)....................................................................................................... 79
Anlise de agrupamento (Cluster analysis)................................................................... 80
Agrupamento de vizinho (Neighbour joining).............................................................. 81
Agrupamento por K-medias (K-means clustering)....................................................... 82
Normalidade multivariada (Multivariate normality) .................................................... 83
Discriminantes (Discriminant)/Hotelling...................................................................... 84
Hotelling pareado (Paired hotelling)............................................................................. 85
Permutao de dois grupos (Two-group permutation) ................................................. 86
M de Box (Boxs M)..................................................................................................... 86
MANOVA/CVA ........................................................................................................... 87
ANOSIM unifatorial (One-way ANOSIM) .................................................................. 90
ANOSIM bifatorial (Two-way ANOSIM) ................................................................... 91
NPMANOVA unifatorial (One-way NPMANOVA) ................................................... 92
NPMANOVA bifatorial (Two-way NPMANOVA)..................................................... 93
Teste de Mantel (Mantel test) e teste parcial de Mantel (partial Mantel test) .............. 94
SIMPER ........................................................................................................................ 95
Calibrao a partir de CABFAC (Calibration from CABFAC).................................... 96
Calibrao a partir de timos (Calibration from optima).............................................. 96
Tcnica de Anlogo Moderno (Modern Analog Tecnhique)........................................ 97
Model menu (Modelagem) ............................................................................................... 99
Linear ............................................................................................................................ 99
Linear, uma independente, n dependentes (regresso multivariada) (Linear, onde
independent, n dependent (multivariate regression)).................................................. 101
Linear, n independentes, uma dependente (regresso mltipla) (Linear, n independent,
one dependente (multiple regression))........................................................................ 102
Linear, n independentes, n dependentes (regresso mltipla multivariada) (Linear, n
independent, n dependent (multivariate multiple regression)..................................... 103
Regresso polinomial (Polynomial regression) .......................................................... 104
Regresso sinusoidal (Sinusoidal regression)............................................................. 105
Logistic / Bertalanffy / Michaelis-Menten / Gompertz............................................... 107
Modelo Linear Generalizado (Generalized Linear Model) ........................................ 108
Alisamento polinomial (Smoothing spline) ................................................................ 109
Alisamento LOESS (LOESS smoothing) ................................................................... 111
Anlise de mistura (Mixture analysis) ........................................................................ 111
Modelos de abundncia (Abundance models) ............................................................ 113
Empacotamento de espcies (Gaussiano) (Species packing (Gaussian)) ................... 115
Espiral logartmica (Logarithmic spiral)..................................................................... 116
Diversity menu (Diversidade)......................................................................................... 117
ndices de diversidade (Diversity indices).................................................................. 117
Riqueza quadrtica ou por parcela (Quadrat richness) ............................................... 119
Diversidade beta (Beta diversity)................................................................................ 121
Distino taxonmica (Taxonomic distinctness) ........................................................ 122
Rarefao individual ................................................................................................... 123
Rarefao por amostra (Sample rarefaction) (Mao tau) ............................................. 124

4
Anlise SHE (SHE analysis)....................................................................................... 126
Comparar diversidades (Compare diversities)............................................................ 127
Teste t de diversidade (Diversity t test) ...................................................................... 127
Perfis de diversidade (Diversity profiles) ................................................................... 128
Time series menu (Sries temporais).............................................................................. 130
Anlise espectral (Spectral analysis) .......................................................................... 130
Anlise espectral REDFIT (REDFIT spectral analysis) ............................................. 131
Anlise espectral de afunilamento mltiplo (Multitaper spectral analysis)................ 132
Autocorrelao (Autocorrelation)............................................................................... 133
Correlao cruzada (Cross-correlation) ...................................................................... 134
Autoassociao (Autoassociation) .............................................................................. 135
Wavelet (Wavelet transform)...................................................................................... 136
Transformao de Fourier de tempos curtos (Short-time Fourier transform)............. 137
Transformao de Walsh (Walsh transform).............................................................. 138
Runs test (teste de sries) ........................................................................................ 139
Correlograma (e periodograma) de Mantel (Mantel correlogram (and periodogram) 141
ARMA (e anlise de interveno) (ARMA (and intervention analysis)) ................... 142
Modelo de insolao (foramento solar) (Insolation (solar forcing) model).............. 144
Eventos pontuais (Point events).................................................................................. 145
Cadeia de Markov (Markov chain) ............................................................................. 147
Filtrar (Filter) .............................................................................................................. 148
Suavizadores simples (Simple smoothers).................................................................. 149
Converso de data/tempo (Date/time conversion)...................................................... 150
Geometrical menu ........................................................................................................... 151
Direes uma amostra (Directions one sample) ................................................... 151
Direes duas amostras (Directions two samples)................................................ 153
Correlaes circulares (Circular correlations) ............................................................ 155
Esfrico uma amostra (Spherical one sample)...................................................... 156
Anlise de vizinho mais prximo do padro de pontos (Nearest neighbour point pattern
analysis) ...................................................................................................................... 156
Anlise do padro de pontos pelo K de Ripley (Ripleys K point pattern analysis) .. 158
Densidade Kernel (Kernel density)............................................................................. 159
Alinhamento de pontos (Point alignments)................................................................. 161
Autocorrelao espacial I de Moran (Spatial autocorrelation Morans I) ............ 161
Gridagem interpolao espacial (Gridding spatial interpolation)......................... 162
Transformao de coordenadas (Coordinate transformation)..................................... 165
Alometria multivariada (Multivariate allometry) ....................................................... 167
Forma de Fourier 2D (Fourier shape 2D) ............................................................. 168
Anlise elptica de forma de Fourier (Elliptic Fourier shape analysis) ...................... 168
Anlise Hangle de forma de Fourier (Hangle Fourier shape analysis)....................... 169
Anlise de autoforma (Eigenshape analysis) .............................................................. 171
Polinmios de placa fina e deformaes (Thin-plate splines and warps)................... 171
Deformaes relativas (Relative warps) ..................................................................... 172
Tamanho a partir de pontos de referncia 2D ou 3D (Size from landmarks 2D or
3D) .............................................................................................................................. 173

5
Distncia a partir de pontos de referncia 2D ou 3D (Distance from landmarks 2D
or 3D) .......................................................................................................................... 173
Todas as distncias a partir de pontos de referncia EDMA (All distances from
landmarks EDMA)................................................................................................... 173
Ligao de pontos de referncia (Landmark linking) ................................................ 174
Strat menu ....................................................................................................................... 175
Associaes unitrias (Unitary associations).............................................................. 175
Ranqueamento-Escalonamento (Ranking-Scaling) .................................................... 178
CONOP (Otimizao Restrita) ................................................................................... 179
Ordenao de Eventos de Aparecimento (Appearance Event Ordination .................. 180
Curva de diversidade (Diversity curve) ...................................................................... 180
Intervalos de confiana de extenso (Range confidence intervals) ............................ 181
Intervalos de confiana da extenso livres de distribuio (Distribution-free range
confidence intervals)................................................................................................... 181
Diagrama de carretel (Spindle diagram) ..................................................................... 182
Cladistics......................................................................................................................... 183
Anlise de parcimnia (Parsimony analysis).............................................................. 183

6
Bem-Vinda(o) ao PAST!

Este programa foi inicialmente desenvolvido como uma sequncia do PALSTAT, um


pacote para anlise de dados paleontolgicos que foi escrito por P. D. Ryan, D. A. T.
Harper e J. S. Whalley (Ryan et al. 1995).

Atravs de um desenvolvimento contnugo ao longo de mais de dez anos, o PAST


cresceu e se tornou um pacote estatstico abrangente, usado no s por paleontlogos,
mas tambm em muitas reas das cincias da vida, cincias da terra e at mesmo
engenharia e economia.

Explicaes mais detalhadas de muitas das tcnicas implementadas juntamente com


estudos de caso podem ser encontradas em Harper (1999). Alm disso, o livro
Palaeontological Data Analysis (Hammer & Harper 2005) pode ser visto como um
livro-companheiro do PAST.

Se voc tiver perguntas, relatos de defeitos no programa (bugs), sugestes para melhorias
ou outros comentrios, ns ficaramos felizes em ouvir voc. Contacte-nos em
ohammer@nhm.uio.no. Para relatos de defeitos no programa, lembre-se de mandar os
dados usados, como salvos pelo PAST, juntamente com uma descrio completa das
aes que levaram ao problema.

A ltima verso do PAST, juntamente com a documentao e um link para a lista de


emails do PAST, podem ser encontrados em

http://folk.uio.no/ohammer/past

Ns seremos gratos se voc citar o PAST em publicaes cientficas. A referncia oficial


Hammer et al. (2001).

Referncias
Hammer, . & Harper, D.A.T. 2006. Paleontological Data Analysis. Blackwell.
Hammer, ., Harper, D.A.T., and P. D. Ryan, 2001. PAST: Paleontological Statistics
Software Package for Education and Data Analysis. Palaeontologia Electronica 4(1): 9pp.
Harper, D.A.T. (ed.). 1999. Numerical Palaeobiology. John Wiley & Sons.

7
Instalao
Instalar o PAST fcil: apenas baixe o arquivo Past.exe e coloque-o em qualquer lugar
do seu disco rgido. Clicando duas vezes no arquivo vai abrir o programa. O Windows ir
considerar isso uma quebra de segurana e perguntar se voc confia no provedor do
programa. Se voc quiser usar o programa, ter que responder que sim.

Ns sugerimos que voc crie uma pasta chamada PAST em qualquer lugar do seu disco
rgido e coloque nela todos os arquivos.

Note: Foram relatados alguns problemas referentes a tamanhos de fonte diferentes do


padro usados por definio (non-standard default font size) no Windows o usurio
pode ter que aumentar o tamanho das janelas para ver todo o texto e botes. Caso isto
acontea, por favor ajuste o tamanho da fonte para Small fonts (fontes pequenas) no
painel Controle de tela (Screen control) do Windows.

Ao sair do PAST, um arquivo chamado pastsetup ser automaticamente colocado na


sua pasta de usurio (por exemplo Meus documentos no Windows 95/98). Este arquivo
contm os ltimos diretrios de arquivos que foram usados.

A ausncia de uma instalao formal para o Windows intencional, permitindo instalar


o PAST sem ter privilgios de administrador.

8
A planilha e o menu Edit (Editar)
O PAST tem uma interface de usurio em formato de planilha. Dados so inseridos como
uma matriz de clulas, organizada em linhas (horizontalmente) e colunas (verticalmente).

Inserindo dados
Para inserir dados em uma clula, clique na clula com o mouse e digite os dados. Isto s
possvel quando o programa est no Edit mode (Modo de edio). Para selecionar
o modo de edio, marque a caixa Edit mode acima da matriz. Quando o modo de edio
estiver desligado, a matriz bloqueada e os dados no podem ser alterados. Tambm
possvel navegar pelas clulas com as teclas de seta.

Qualquer texto pode ser inserido nas clulas, mas a maior parte das funes espera
nmeros. Tanto a vrgula (,) quanto o ponto (.) so interpretados como separadores
decimais.

Dados de presena/ausncia so codificados como 0 e 1, respectivamente. Qualquer outro


nmero positivo ser interpretado como presena. Matrizes de presena/ausncia podem
ser visualizadas como quadrados pretos para presena ao escolher a opo Square
mode (Modo de quadrados) acima da matriz.

Dados de sequncias genticas so codificados por C, A, G, T e U (letras minsculas


tambm so aceitas).

Dados ausentes (missing data) so codificados por pontos de interrogao (?) ou pelo
valor -1. A no ser que a documentao para uma funo fale explicitamente que h
suporte para dados faltantes, a funo no vai lidar corretamente com os dados
ausentes, ento tome cuidado.

A conveno no PAST que itens ocupam linhas e variveis ocupam colunas. Trs
indivduos de Brachiopoda podem ento ocupar as linhas 1, 2 e 3, com seus
comprimentos e larguras nas colunas A e B. Anlise de agrupamento (cluster) sempre vai
agrupar itens, ou seja, linhas. Para anlise de associao de modo Q (Q-mode analysis of
association), amostras (stios) devem ser inseridas nas linhas e os txons2 (espcies) nas
colunas. Para alternar entre modos Q e R, linhas e colunas podem ser facilmente
intercambiadas usando a operao Transpose (transpor).

Selecionando reas
A maior parte das operaes no PAST s feita em uma rea da matriz que voc tenha
escolhido (marcado). Se voc precisar rodar uma funo que requer dados e nenhuma
rea estiver selecionada, voc receber uma mensagem de erro.

2
Embora o plural de txon seja taxa, traduzi como txons para evitar confuses com taxas no sentido de
frequncia. (NT)

9
Uma linha selecionada clicando-se no rtulo de linha (row label, a coluna da
extrema esquerda).
Uma coluna selecionada clicando-se no rtulo de coluna (column label, a linha
superior).
Linhas mltiplas so selecionadas clicando no rtulo da primeira linhas,
segurando a tecla Shift e clicando nos rtulos das linhas adicionais. Note que voc
no pode selecionar as linhas clicando e arrastando isso vai mover a primeira
coluna (veja abaixo).
Colunas mltiplas so selecionadas de modo similar, segurando Shift e clicando
nos rtulos das colunas adicionais.
A matriz inteira pode ser selecionada clicando no canto superior esquerdo da
matriz (a clula cinza vazia) ou escolhendo a opo Select all (Selecionar
tudo) no menu Edit (Editar).
reas menores dentro da matriz podem ser selecionadas clicando e arrastando,
mas isso s funciona quando o modo de edio (Edit mode) est desligado.

Importante: Infelizmente, no possvel escolher vrias colunas que no sejam


vizinhas. Isso quer dizer que caso voc queria, por exemplo, rodar uma anlise apenas na
primeira e terceira coluna, voc primeiro ter que mover as colunas para que elas fiquem
juntas.

Movendo uma linha ou uma coluna


Uma linha ou uma coluna (incluindo o seu rtulo) pode ser movida simplesmente
clicando no rtulo e arrastando para uma nova posio.

Renomeando linhas e colunas


Quando o PAST inicia, as linhas so numeradas de 1 a 99 e as colunas de A a Z. Para a
sua prpria referncia e para uma rotulagem apropriada dos grficos, voc deveria dar s
linhas e colunas nomes mais descritivos mas ainda assim curtos. Selecione a opo
Rename columns (Renomear colunas) ou Rename rows (Renomear linhas) no
menu Edit (Editar). Voc deve selecionar a matriz inteira ou uma rea menor, como for
apropriado.

Uma outra forma escolher a opo Edit labels (Editar rtulos) acima da planilha. A
primeira linha e a primeira coluna agora podem ser editadas como o resto das clulas.

Aumentando o tamanho da matriz


Por definio, o PAST tem 99 linhas e 26 colunas. Caso voc precise de mais, voc pode
adicionar linhas ou colunas escolhendo as opes Insert more rows (Inserir mais
linhas) ou Insert more columns (Inserir mais colunas) no menu Edit (Editar).
Linhas/colunas sero inseridas depois da rea marcada ou abaixo/ direita da matriz se
nenhuma rea estiver selecionada. Linhas e/ou colunas so adicionadas automaticamente
quando um conjunto de dados grande carregado.

10
Recortar, copiar, colar
As opes para recortar, copiar e colar so encontradas no menu Edit (Editar). Voc pode
recortar/copiar dados da planilha do PAST e os colar em outros programas, por exemplo
Word e Excel. Similarmente, dados de outros programas podem ser colados na planilha
do PAST, contanto que estejam em formato de texto separado por tabulaes.
Lembre-se que blocos locais de dados (sem serem todas as linhas ou colunas) s podem
ser marcadas quando o modo de edio (Edit mode) est desligado.
Todos os mdulos com output grfico possuem um boto Copiar grfico (Copy
graphic). Este ir colocar a imagem do grfico na rea de colagem de modo que ele
possa ser colado em outros programas, por exemplo um programa de desenho para edio
da imagem. Grficos so copiados no formato Enhanced Metafile Format (EMF) no
Windows. Isso permite a edio de elementos individuais da imagem em outros
programas. Ao colar o grfico no Coreldraw, voc precisa escolher Colar especial
(Paste special) no menu Editar e escolher Enhanced metafile. Alguns programas
podem ter formas idiossincrticas de interpretar imagens EMF cuidado com coisas
engraadas acontecendo.

Remover
A funo remover (remover) no menu Edit (Editar) permite que voc remova da planilha
a(s) linha(s) ou coluna(s) escolhida(s). A rea removida no copiada para a rea de
colagem.

Agrupando (colorindo) colunas


Linhas (pontos com dados) podem ser coloridas com uma dentre 16 cores atraentes,
usando a opo Row color/symbol (Cor/smbolo de linha) no menu Edit. Cada grupo
tambm associado a um smbolo (ponto, X, quadrado, diamante, +, crculo, tringulo,
linha, barra, crculo cheio, estrela, oval, tringulo cheio, tringulo invertido, tringulo
invertido cheio, diamante cheio). Isso til para mostrar diferentes conjuntos de dados
nos grficos e necessrio para uma srie de mtodos de anlise.
Importante: Para mtodos que requerem agrupamento de linhas por meio de cores, as
linhas que pertencem ao mesmo grupo precisam ser consecutivas. Se so necessrios
mais de 16 grupos, as cores podem ser reutilizadas. No exemplo abaixo, trs grupos
foram marcados corretamente.

11
A opo Numbers to colors (Nmeros para cores) no menu Edit permite que
nmeros 1-16 em uma coluna selecionada atribuam a cor (smbolo) correspondente s
colunas.

Escolhendo tipos de dados para as colunas


As colunas selecionadas podem ser marcadas com um tipo de dado (contnuo/no-
especificado, ordinal, nominal ou binrio continuous/unspecified, ordinal, nominal or
binary) usando a opo Column data types (Tipos de dados da coluna) no menu
Edit. Isto s necessrio se voc deseja utilizar medidas mistas de similaridade/distncia.

Remover linhas/colunas no-informativas Remove uninformative


rows/columns
Linhas ou colunas podem ser no-informativas especialmente no que diz respeito s
anlises multivariadas. Alguns tipos podem ser buscados e removidos: linhas ou colunas
apenas com zeros, linhas ou colunas apenas com dados ausentes (?) e linhas ou colunas
com apenas uma clula diferente de zero (singletons).

Transpor - Transpose
A funo Transpose (Transpor), no menu Edit, ir intercambinar linhas e colunas. Isto
usado para alternar entre modos R e Q nas anlises de agrupamento (cluster),
componentes principais (principal components analysis) e seriao (seriation).

12
Colunas agrupadas para dados multivariados Grouped columns to
multivar
Converte de um formato com dados multivariados apresentados em grupos consecutivos
de N colunas para o formato do PAST, com um item por linha e todas as variveis
(variates) ao longo das colunas. Para N=2, dois espcies e quatro variveis a-d, a
converso de
a1 b1 a2 b2
c1 d1 c2 d2

para

a1 b1 c1 d1
a2 b2 c2 d2

Linhas agrupadas para multivariado Grouped rows to multivar


Converte de um formato em que itens so apresentados em grupos consecutivos de N
linhas para o formato do PAST, com um item por linha e todas as variadas (variates) ao
longo das colunas. Para N=2, dois espcies e quatro variveis a-d, a converso de

a1 b1
c1 d1
a2 b2
c2 d2

para

a1 b1c1 d1
a2 b2 c2 d2

Empilhar linhas agrupadas em colunas Stack colored rows into columns


Empilha horizontalmente grupos coloridos ao longo das colunas. Isso pode ser til, por
exemplo, para efetuar estatstica univariada em pares de colunas entre grupos.

Eventos para amostras Events to samples (RASC to UA)


Espera uma matriz de dados com sees/poos em linhas e txons em colunas, com
valores de FAD e LAD em colunas alternando (ou seja, duas colunas por txon).
Converte para o formato de presena/ausncia de Associaes Unitrias (Unitary
Associations) com sees em grupos de linhas, amostras em linhas e txons em colunas.

13
Carregando e salvando dados
A funo Open (Abrir) se encontra no menu File (Arquivo). Voc tambm pode
arrastar um arquivo da rea de trabalho (desktop) para dentro da janela do PAST. O
PAST utiliza um formato de texto fcil de importar de outros programas, como segue:

. rtulo_de_coluna rtulo_de_coluna rtulo_de_coluna


rtulo_de_linha dados dados dados
rtulo_de_linha dados dados dados
rtulo_de_linha dados dados dados

Clulas vazias (como a clula do topo esquerda) so codificadas com um ponto (.).
Clulas so separadas por espao em branco. Se uma clula contm caracteres de espao,
ela precisa ser envolta em colchetes duplos, por exemplo Argila de Oxford.
Caso a alguma clula tenha sido atribuda uma cor diferente do preto, o rtulo da linha no
arquivo vai comear underline, um nmero de 0 a 15 indicando a cor (smbolo), e outro
underline.
Caso a alguma coluna de dados tenha sido atribudo um formato que no seja o
contnuo/no-especificado (continuous/unspecified), os rtulos das colunas no arquivo
iro similarmente comear com um underline, um nmero de 0 a 3 identificando o tipo de
dados (0=contnuo/no-especificado, 1=ordinal, 2=nominal, 3=binrio), e um segundo
underline.
Adicionalmente a este formato, o PAST tambm consegue detectar e abrir arquivos nos
seguintes formatos:
Excel (apenas a primeira planilha)
Nexus (veja abaixo), popular em Sistemtica
formato TPS desenvolvido por Rohlf. Os campos landmark, outlines, curves, id,
scale e comentrio tm suporte, os outros campos so ignorados
NTSYS. Tabelas mltiplas e rvores no tm suporte. O arquivo precisa ter a
extenso .nts.
formato de sequncia molecular FASTA, especificao simplificada de acordo
com NCBI.
formato de sequncia molecular PHYLIP. O arquivo precisa ter a extenso
.phy.
formato de sequncia molecular Arlequin. Para dados de gentipo os dois
hapltipos so concatenados para uma nica linha. Nem todas as opes tm
suporte.
formato BioGraph para bioestratigrafia (formatos SAMPLES e DATUM). Se um
segundo arquivo com o mesmo nome e a extenso .dct for encontrado, ele ser
includo como um dicionrio do BioGraph.
formato RASC para bioestratigrafia. Voc precisa abrir o arquivo .DAT. O
programa espera arquivos .DIC e .DEP correspondentes no mesmo diretrio.
formato CONOP para bioestratigrafia. Voc precisa abrir o aquivo .DAT (log
file). O programa espera arquivos .EVT (event) e .SCT (section) correspondentes
no mesmo diretrio.

14
A funo Insert from file (Inserir do arquivo) tilo para concatenar conjuntos
de dados. O arquivo carregado ser inserido na sua planilha existente na posio
escolhida (esquerda superior).

Importando dados do Excel


Copie do Excel e cole dentro do PAST. Note que se voc quiser que a primeira
linha e coluna sejam copiadas nas clulas de rtulos do PAST, voc precisa deixar
a opo Edit labels (Editar rtulos) ligada. Ou,
abra o arquivo do Excel pelo PAST. A opo Edit labels opera do mesmo
modo. Ou,
deixe a primeira clula no Excel com um nico ponto (.) e salve como texto
separado por tabulaes (tab-separated text) no Excel. O arquivo resultante pode
ser aberto diretamente pelo PAST.

Lendo e escrevendo arquivos Nexus


O formato de arquivo Nexus usado por muitos programas de sistemtica. PAST
consegue ler e escrever os blocos de Dados (matriz de caracteres) do formato Nexus.
Tambm h suporte para interleaved data. Alm disso, caso voc tenha realizado uma
anlise de parsimnia e a janela Parsimony analysis se encontra aberta, todas as
rvores mais curtas sero includas no arquivo Nexus para processamento adicional em
outros programas (e.g. MacClade ou Paup). Note que no momento no h suporte para
todas as opes do Nexus.

Importando arquivos de texto

Arquivos de texto separados por espaos em branco, tabulaes ou vrgulas pode ser lidos
usando a opo Import text file (Importar arquivo de texto) no menu File. A planilha
na janela ilustra o formato do arquivo a ser aberto como especificado pela caixas de
verificao (check boxes).

15
Contador Counter
Uma funo de contagem (counter function) est disponvel no menu Edit para usar, por
exemplo, no microscpio durante a contagem de fsseis de diferentes txons. Uma nica
linha (amostra) deve ser selecionada. Uma janela de contagem ir abrir com um nmero
de contadores, um para cada coluna (txon) selecionada. Os contadores sero
inicializados com os rtulos das colunas e qualquer contagem que j esteja presente na
planilha. Ao fechar a janela do contador, os valores na planilha sero atualizados.
Conte para cima (+) ou para baixo (-) com o mouse, ou para cima com as teclas 0-9 e a-z
(apenas os primeiros 36 contadores). As barras representam a abundncia relativa. Um
registro (log) de eventos fornecido direita role para cima ou para baixo com o
mouse ou as setas do teclado. Um feedback auditivo opcional tem um tom especfico para
cada contador.

16
Transform menu (Transformaes de dados)
Estas rotinas realizam operaes matemticas nos seus dados. Isso pode ser necessrio
para exibir algumas caractersticas dos dados ou pode ser um passo pr-processamento
necessrio para algumas anlises.

Logaritmo
A funo Log no menu Transform transforma os seus dados em logaritmos na base 10.
Caso os dados apresentam zeros ou valores negativos, pode ser necessrio adicionar uma
constante (e.g. 1) antes da transformao em log (use Evaluate Expression x+1).
Isso til, por exemplo, para comparar a sua amostra com uma distribuio log-normal
ou para encaixar um modelo exponencial. Alm disso, dados de abundncia com alguns
txons muito dominantes podem ser transformados em logaritmo para reduzir a
importncia desses txons.
H suporte para dados ausentes (missing data).

Remover tendncia remove trend


Esta funo remove qualquer tendncia linear de um conjunto de dados (duas colunas
com pares X-Y ou uma coluna com valores do Y). Isso feito subtraindo-se uma
regresso linear dos valores de Y. Remover tendncias pode ser uma operao prvia til
para anlises de series temporais, por exemplo anlise espectral (spectral analysis), auto-
correlao e correlao cruzada, e ARMA.
H suporte para dados ausentes.

Subtrair mdia Subtract mean


Esta funo subtrai, de cada coluna selecionada, o valor da mdia da coluna As mdias
no podem ser calculadas por linha.
H suporte para dados ausentes.

Box-Cox
A transformao de Box-Cox uma famlia de transformaes de potncia cujo objetivo
tornar os dados x mais similares a uma distribuio normal. A transformao tem um
parmetro :
x 1
0


ln 0

17
O valor-padro do parmetro calculado maximizando a funo de log-verossimilhana
(lok likelihood function)

onde 2 a varincia dos dados transformados. O valor timo pode ser mudado pelo
usurio, estando limitado a -4 4.
H suporte para dados ausentes.

Porcentagem de linhas Row percentage


Todos os valores so convertidos em porcentagem da somatria da linha.
H suporte para dados ausentes.

Normalizar comprimento por linha Row normalize length


Todos os valores so divididos pelo comprimento Euclideano do vetor da linha.
H suporte para dados ausentes.

Abundncia para presena/ausncia Abundance to presence/absence


Todos os valores positivos (diferentes de zero) so substitudos por 1s.
H suporte para dados ausentes.

Ecaixe de Procrustes Procrustes fitting


Transforma suas medidas de coordenadas de pontos em coordenadas Procrustes. H uma
opo no menu para coordenadas de Bookstein. Espcies vo em linhas diferentes e
pontos de referncia (landmarks) ao longo de cada linha. Se voc tem trs espcies com
quatro pontos de referncia em 2D, o seus dados devem ter a seguinte aparncia:
x1 y1 x2 y2 x3 y3 x4 y4
x1 y1 x2 y2 x3 y3 x4 y4
x1 y1 x2 y2 x3 y3 x4 y4
Dados 3D so inseridos de forma similar mas com colunas adicionais para os valores de
z.
Dados de pontos de referncia (landmarks) neste formato podem ser analisados
diretamente com os mtodos multivariados do PAST, mas recomendado padronizar
para coordenadas Procrustes ao remover posio, tamanho e rotao. Uma transformao
adicional dos resduos Procrustes (coordenadas aproximadas no espao tangente
approximate tangent space coordinates) pode ser feita escolhendo a opo Subtract
mean (Subtrair mdia) no menu Transform. Voc precisa primeiro converter para
coordenadas Procrustes para depois converter para resduos Procrustes.

18
A opo Rotate to major axis (Rotacionar para o eixo principal) coloca o resultado
em uma orientao convencional, por convenincia.
A opo Keep size (Manter tamanho) adiciona um passo final no qual a escala das
formas transformada de modo que elas voltem aos tamanhos originais dos seus
centrides.
Uma descrio detalhada do coordenadas Procrustes e de espao tangete dada em
Dryden & Mardia (1998). Os algoritmos para o encaixe Procrustes so de Rohlf & Slice
(1990) (2D) e de Dryden & Mardia (1998) (3D). Deve ser notado que para 2D, o
algoritmo iterativo de Rohlf & Slice (1990) frequentemente d resultados ligeiramente
diferentes do algoritmo direto de Dryden & Mardia (1998). O PAST usa o primeiro para
seguir o padro industrial.
Dados ausentes tm suporte apenas por substituio pela mdia da coluna, o que pode
no ser muito significativo.
Referncias
Dryden, I.L. & K.V. Mardia 1998. Statistical Shape Analysis. Wiley.
Rohlf, F.J. & Slice, D. 1990. Extensions of the Procrustes method for the optimal superimposition
of landmarks. Systematic Zoology 39:40-59.

Encaixe de Bookstein (Bookstein fitting)


O encaixe de Bookstein tem uma funo similar ao encaixe Procrustes, mas ele
simplesmente padroniza tamanho, rotao e escala forando os dois primeiros pontos de
referncia para as coordenadas (0,0) e (0,1). Seu uso no comum hoje em dia. Encaixe
de Bookstein s implementado para 2D.

Projetar para espao tangente


Depois de encaixe Procrustes ou Bookstein, alguns procedimentos estatsticos so
realizados de preferncia em coordenadas no espao tangente (normalmente isso no faz
nenhuma diferena, mas no nos cite para falar isso!). Sendo d o nmero de dimenses e
p o nmero de pontos de referncia (landmarks), a projeo

Aqui, X a matriz n x dp de n espcimes, X a matriz transformada, I a matriz-


identidade dp x dp e Xc a configurao mdia (consenso) como um vetor de linha dp-
elemento (dp-element row vector).

Remover tamanho de pontos de referncia (Remove size from landmarks)


A opo Remover tamanho de pontos de referncia (Remove size from landmarks)
do menu Transform lhe permite remover o tamanho ao dividir o valor de todas as
coordenadas pelo tamanho do centride (centroid size) de cada espcime (coordenadas
Procrustes tambm so normalizadas em relao ao tamanho).
Veja Dryden & Mardia (1998), p. 23-26.
Referncia
Dryden, I. L. & K. V. Mardia 1998. Statistical Shape Analysis. Wiley.

19
Transformar pontos de referncia (Transform landmarks)
Permite rotao da nuvem de pontos em passos de 90 graus e espelhamento de cima para
baixo e de esquerda para direta, principalmente para facilitar a plotagem. A operao de
espelhamento pode ser til para reduzir dados de um ponto de referncia com simetria
bilateral por meio de um encaixe de Procrustes da regio esquerda verso espelhada da
regio direita (e opcionalmente calculando a mdia dos dois).
Apenas para coordenadas 2D.

Remover tamanho de distncias (Remove size from distance)


Tenta remover o compomente de tamanho de um conjunto de dados multivariados de
distncias medidas (espcimes em linhas, variveis em colunas). Trs mtodos so
disponveis.
Mtodo isomtrico de Burnaby (Isometric Burnabys method) projeta o conjunto
de distncias medidas em um espao ortogonal ao primeiro componente principal.
O mtodo de Burnaby pode (mas no necessariamente!) remover tamanho
isomtrico dos dados, permitindo anlises futuras de dados livres de tamanho
(size-free). Repare que a implementao no PAST no centra os dados dentro
dos grupos ela assume que todos os espcies (colunas) pertencem a um grupo.
Mtodo alomtrico de Burnaby (Allometric Burnabys method) transformar os
dados em logaritmo antes da projeo, assim (teoricamente) removendo dos dados
tambm a variao alomtrica dependente de tamanho.
Alomtrico vs. padro (Allometric vs. standard) estima coeficientes alomtricos
no que diz respeito a uma medida padro (de referncia) L tal como o
comprimento total (Elliott et al. 1995). Esta varivel padro deve ser colocada na
primeira coluna. Cada uma das colunas adcionais regredida para a primeira
coluna depois de transformao em logaritmo, fornecendo a inclinao
(coeficiente alomtrico) b para aquela varivel. Uma medida ajustada ento
calculada do valor original M como
b
L
M adj = M
L
Referncia
Elliott, N.G., K. Haskard & J.A. Koslow 1995. Morphometric analysis of orange
roughy (Hoplostethus atlanticus) off the continental slope of southern Australia.
Journal of Fish Biology 46:202-220.

Ordenar crescente e decrescente (Sort ascending and descending)


Ordena as linhas na rea marcada com base nos valores na coluna selecionada.
A funo Ordenar decrescente (Sort descending) til, por exemplo, para plotar
abundncia de txons contra seus ranks (isso tambm pode ser feito no mdulo Modelo
de Abundncia (Abundance Model)).

20
Ordenar por cor (Sort on color)
Ordena as linhas na rea marcada pela cor.

Diferena entre colunas (Column difference)


Simplesmente subtrai as duas colunas selecionadas e coloca os resultados na coluna
seguinte.

Interpolao regular (Regular interpolation)


Interpola uma srie temporal ou transecto amostrado irregularmente (unevenly sampled),
possivelmente multivariado, em um espaamento regular, como pedido por diversos
mtodos de anlise de sries temporais. Os valores de x devem estar na primeira coluna
selecionada. Estes sero substitudos por uma srie que aumenta regularmente. Todas as
colunas adicionais selecionadas sero interpoladas de maneira correspondente. Os perigos
da interpolao devem ser mantidos em mente.
Voc pode especificar o nmero total de pontos interpolados ou o novo espaamento.
Trs mtodos de interpolao so disponveis.

Avaliar expresso (Evaluate expression)


Esta ferramenta poderosa permite operaes matemticas flexveis na matriz de dados
selecionada. Cada clula selecionada avaliada e o resultado substitui o contedo
anterior. Uma expresso matemtica deve ser inserida, que pode incluir quaisquer dos
operadores +, -, *, /, ^ (potncia), e mod (mdulo calcula o resto da diviso de um
nmero por outro; no confundir com abs, a seguir!). Tambm h suporte para parnteses
( ) e para as funes abs (valor absoluto), atan, cos, sin, exp, ln, sqrt (square root raiz
quadrada), sqr (square quadrado), round (aproximar) e trunc.
Tambm so definidos os seguintes valores:
x (o contedo da clula atual)
l (a clula esquerda se ela existe, 0 caso contrrio - left)
r (a clula direita - right)

21
u (a clula acima up)
d (a clula abaixo down)
mean (o valor mdio da coluna atual)
min (o valor mnimo)
max (o valor mximo)
n (nmero de clulas na coluna
i (ndice de linha)
j (ndice de coluna)
random (nmero aleatrio uniforme entre 0 e 1)
normal (nmero aleatrio Gaussiano com mdia 0 e varincia 1)
integral (somatria corrente running sum - da coluna atual)
stdev (desvio padro da coluna atual)
sum (somatria total da coluna atual)
Adicionalmente, possvel se referir a outras colunas usando o nome da coluna
precedido por c_, por exemplo c_A.
Exemplos
sqrt(x) Substitui todos os valores por suas razes quadradas
(x-mean)/stdev Padronizao por mdia e desvio padro em cada coluna
x-0.5*(max+min) Centra os valores em torno de zero
(u+x+d)/3 suavizao mdia mvel de trs pontos (three-point moving average
smoothing)
i Preenche a coluna com os nmeros das linhas (requer clulas no-vazias, por
exemplo todos zeros)
sin(2*3.14159*i/n) gera um perodo de uma funo seno coluna abaixo (requer
clulas no-vazias)
5*normal+10 Nmero aleatrio de uma distribuio normal, com mdia 10 e
desvio padro 5.
H suporte para dados ausentes.

Plot Menu (Grficos)

Grfico (Graph) 3
Plota uma ou mais colunas como grficos separados. As coordinadas x so estabelecidas
automaticamente em 1,2,3,... H quantro estilos de grfico disponveis: Grfico (linha
line), pontos (points), linha com pontos (line+points) e barras (barchart). As opes
Legenda X (X labels) estabelece os labels do eixo x com os nomes das linhas
correspondentes.
A opo Log Y transforma em log os valores do eixo Y. O logaritmo calculado na
base 10, mas log 0 definido como 0.
Valores faltantes so desonsiderados.

3
Nesta seo, no traduzi os termos Plot (fazer um grfico) e Label (legenda de um eixo ou de um ponto).

22
Grfico XY (XY graph)
Plota um ou mais pares de colunas contendo pares de coordenadas x/y. A opo log Y
transforma em logaritmo os valores de Y (se necessrio, uma constante adicionada para
tornar o valor mnimo de log igual a 0). A curva tambm pode ser suavizada (smoothed)
usando mdia mvel de 3 pontos (3-point moving average).
Elipses de concentrao 95% podem ser plotadas na maior parte dos grficos de
disperso no PAST, tais como os escores das anlises de PCA, CA, DCA, PCO e NMDS.
O clculo destas elipses assume distribuio normal bivariada.
Envelopes convexos (convex hulls) tambm podem ser desenhados nos grficos de
disperso para mostrar as reas ocupadas por pontos de cores diferentes. O envelope
convexo o menor polgono convexo que contm todos os pontos.
A rvore de expanso mnima (minimal spanning tree) o conjunto de linhas de
comprimento total mnimo conectando todos os pontos. No mdulo XY graph, distncias
Euclideanas 2D so usadas.
Segure o cursor do mouse sobre um ponto para ver o label da sua linha.
Pontos com valores ausentes em X e/ou em Y so descartados.

23
Grfico XY com barras de erro (XY graph with error bars)
Igual a um grfico XY, mas espera quatro colunas (ou um mltiplo), com valores de x, y,
erro de x e erro de y. Barras de erro simtricas so desenhadas ao redor de cada ponto
com o semi-comprimento como espeficado. Se um valor de erro estabelecido em zero
ou no fornecido, a barra de erro correspondente no desenhada.
Pontos com valores ausentes de X e/ou Y so desconsiderados.

24
Histograma (Histogram)
Plota histogramas (distribuies de frequncias) para uma ou mais colunas. O nmero de
classes (bins) definido por padro em um nmero timo (a regra de fase-zero (zero-
stage rule) de Wand 1997):

h = 3.49min(s, IQ/1.349)n-1/3
onde s o desvio-padro da amostra e IQ a amplitude entre-quartis (interquartile
range).
OP nmero de classes pode ser mudado pelo usurio. A opo Fit normal (Ajustar
normal) desenha um grfico com uma distribuio normal ajustada (estimao
Paramtrica, no por Mnimos Quadrados).

Estimao de Densidade Kernel (Kernel Density Estimation) um estimador suave do


histograma. PAST utiliza o Kernel Gaussiano com amplitude definida pela regra dada por
Silverman (1986):

h=0.9 min (s, IQ/1.34)n-1/5.

Valores ausentes so deletados.

Referncias
Silverman, B.W. 1986. Density estimation for statistics and data analysis. Chapman & Hall.

Wand, M.P. 1997. Data-based choice of histogram bin width. American Statistician 51:59-64.

25
Grfico de barras / boxplot (Bar chart/box plot)
Grfico de barras ou caixas (boxplot) para uma ou mais columas (amostras) de dados
univariados. Valores ausentes so deletados.

Grfico de barras (Bar chart)


Para cada amostra, o valor mdio mostrado por uma barra. Alm disso, linhas de erro
podem ser mostradas. O intervalo das barras de erro representa um um-sigma ou um
intervalo de confiana 95% (1.96 sigma) para a estimativa da mdia (baseado no erro-
padro) ou um-sigma ou intervalo de concentrao de 95% (baseado no desvio padro).

Grfico de caixas (Box plot)


Para cada amostra, os quartis de 25-75% so desenhados usando uma caixa. A mediana
mostrada com uma linha horizontal dentro da caixa. Os valores mximo e mnimo so
mostrados com linhas horizontas curtas (whiskers).

Se a caixa Outliers (Pontos extremos) for selecionada, uma outra conveno de box
plot usada. Os whiskers so desenhados do topo da caixa at o maior ponto que esteja a
menos do que 1.5 vezes a altura da caixa acima da caixa(upper outer fence) e
similarmente abaixo da caixa. Valores fora dos limites internos so mostrados como
crculos, valores mais longe do que trs alturas da caxa da caixa (limites externos
outer fences) so mostrados como estrelas.

Os mtodos dos quartis (arredondamento ou interpolao) so descritos em Percentis


(Percentiles) abaixo.

Jitter plot

Cada valor plotado como um ponto. Para mostrar pontos sobrepostos mais claramente,
eles podem ser deslocados usando um valor de jitter aleatrio controlado por uma
barra deslizante.

26
Grfico de barras (Bar chart)

Box plot

Percentis (Percentiles)
Para cada percentil p, plota o valor de y tal que p porcento dos pontos so menores do que
y. Dois mtodos populares so inclusos. Para um percentil p, o rank calculado de
acordo com k=p(n+1)/100, e o valor correspondente quele rank tomado. No mtodo
de arredondamento, k arredondado at o nmero inteiro mais prximo; j no mtodo de
interpolao, ranks no-inteiros so tratados por interpolao entre os dois ranks mais
prximos.

27
Valores ausentes so deletados.

Grfico de probabilidade normal (Normal probability plot)


Plota um grfico de probabilidade normal (QQ normal) para uma coluna de dados. Uma
distribuio normal ir formar uma linha reta. Para comparao, fornecida uma linha de
regresso RMA juntamente com o Coeficiente de Correlao do Grfico de Probabilidade
(Probability Plot Correlation Coefficient).

28
Dados ausentes so deletados.
As medianas das estatsticas de ordem da normal (normal order statistic medians) so
calculadas como N(i) = G(U(i)), onde G o inverso da funo de distribuio cumulativa
da normal e U so as medianas das estatsticas de ordem da uniforme (uniform order
statistic medians):
1 U ( n ), i =1

U = i 0 . 3175 /( n + 0 . 365 ) i = 1,3,... n 1
0 .5 1 / n i=n

Ternrio (Ternary)
Grfico ternrio para trs colunas de dados, normalmente contendo propores de
composies. Se uma quarta coluna for includa, ela ser apresentada por meio de uma
representao de bolhas ou um mapa colorido/escala de cinza.

29
Linhas com valor(es) ausente(s) em qualquer coluna so deletadas. Quando utilizar a
opo de mapa colorido, as linhas com apenas a quarta coluna ausente so includas no
grfico, mas no contribuem com o mapa.

Grfico de bolhas (Bubble plot)


Plota dados 3D (trs colunas) mostrando o terceiro eixo como tamanho dos discos.
Selecione Subtract min para subtrair o o menor valor do terceiro eixo de todos os
valores isso vai forar os dados a ficarem positivos. A barra deslizante Size
(tamanho) muda a escala das bolhas em relao unidade escala das unidades do eixo
x.

Linhas com valor(es) ausente(s) em qualquer das colunas so deletadas.

30
Sobrevivncia (Survivorship)
Curvas de sobrevivncia para uma ou mais colunas de dados. Os dados podem consistir
de valores de idade ou tamanho. O grfico mostra o nmero de indivduos que
sobreviveram at diferentes idades. Assumindo crescimento exponencial (altamente
questionvel!), tamanho pode ser transformado, por logaritmo, em idade. Isso pode ser
feito no menu Transform ou diretamente no dilogo do Survivorship. Veja tambm
Anlise de sobrevivncia (Survival analysis) no menu Statistics.
Valores ausentes so deletados.

Pontos de referncia (Landmarks)


Essa funo muito similar ao grfico XY, a nica diferene que todos os pares XY
de cada linha so plotados com a cor e smbolo apropriados. Ele tambm fora relao de
aspecto igual a um (unit aspect ration), e bastante apropriada para plotar dados de
pontos de referncia. A opo links plota linhas entre os pontos de referncia, como
especificado pela opo Landmark linking no menu Geomet.
Pontos com valores ausentes em X e/ou em Y so desconsiderados.

31
Pontos de referncia 3D (Landmarks 3D)
Plotagem de pontos em 3D (XYZ). Especialmente adequado para dados em 3D de pontos
de referncia (landmarks), mas tambm pode ser usado, e.g., para grficos de disperso
de PCA com trs componentes principais. A nuvem de pontos pode ser rotacionada ao
redor dos eixos x e y (observe: sistema de coordenadas mo-esquerda (left-handed)). O
deslizador Perspective (Perspectiva) normalmente no usado. A opo Stems
(Caules) desenha desenha uma linha de cada ponto at o plano de baixo, o que s
vezes pode melhorar a informao 3D. Lines (Linhas), desenha linhas entre pontos
de referncia consecutivos dentro de cada espcime (linha) separado. Axes (Eixos),
mostra os trs eixos de coordenadas com o centride dos pontos como origem.
Pontos com valores ausentes em X, Y ou Z so desconsiderados.

32
Matriz (Matrix)
Grfico bidimensional da matriz de dados, usando uma escala de cinza com branco para o
valor mais baixo e preto para o valor ou mais alto, ou uma escala de cores. Use para ter
uma viso geral de uma matriz de dados grande. Valores ausentes so plotados como
vazios (permitindo buracos e limites no-quadrados).

33
Superfcie (Surface)
Grfico de paisagem tridimensional de uma matriz de dados com valores de elevao.
Cores so atribudas de acordo com a elevao, ou a superfcie pode ser preenchida com
tons de cinza usando um modelo de luz com uma fonte de iluminao fixa. Os dados no
exemplo abaixo so os mesmos que no grfico de matriz acima.

Statistics Menu (Estatstica univariada)

34
Univariada (Univariate)
Essa funo calculca uma srie de estatstica descritivas bsicas para uma ou mais
amostras de dados univariados. Cada amostra deve ter ao menos 3 valores, e ocupar uma
coluna na planilha. As colunas no precisam conter o mesmo nmero de valores. O
exemplo abaixo usa duas amostras: os tamanhos, em mm, dos crnios de 30 gorilas
fmeas e 29 gorilas machos. Para rodar a anlise, as duas colunas (ou a planilha inteira)
devem ser selecionadas.

Os seguintes valores so mostrados para cada amostra:

N: O nmero de valores n na amostra


Min: O valor mnimo
Max: O valor mximo
Sum: A soma
Mean:
A estimativa da mdia, calculada por x =
x i

n
Std. error: s
O erro padro da estimativa da mdia, calculado por SE x = onde
n
s a estimativa do desvio padro (ver abaixo).
Variance: 1
A varincia da amostra, calculada por s 2 =
n 1
( xi x ) 2 .
Stand. dev.: 1
O desvio padro da amostra, calculado por s =
n 1
( xi x ) 2 .
Median: A mediana da amostra. Para n mpar, o valor fornecido tal que h
tantos valores acima quanto abaixo dele. Para n par, a mdia dos
dois valores centrais.
25 prcntil: O 25o percentil, ou seja o valor tal que 25% da amostra est abaixo
dele e 75% est acima. O mtodo de interpolao usado (ver
Grfico de Percentis Percentile Plot acima).
75 prcntil: O 75o percentil, ou seja o valor tal que 75% da amostra est abaixo
dele e 35% est acima. O mtodo de interpolao usado (ver

35
Grfico de Percentis Percentile Plot acima).
Skewness: A assimetria da amostra, zero para uma distribuio normal, positiva
para uma distribuio com cauda para a direita.

Calculada por G1 =
n ( xi x ) 3 . Observe que
3
(n 1)(n 2) 1
n 1 ( xi x )
2


h diversas verses desta frmula o Past usa a mesma equao que
SPSS e Excel. Resultados ligeiramente diferentes podem ocorrer em
outros programas, especialmente para tamanhos amostrais pequenos.
Kurtosis:
G2 =
n(n + 1) ( xi x ) 4
3
(n 1) 2
.
4
(n 1)(n 2)(n 3) 1 (n 2)(n 3)
n 1 ( xi x )
2


Novamente o Past usa a mesma equao que SPSS e Excel.
Geom. mean: A mdia geomtrica, calculada como ( x1 x2 ...x n )1 / n .

Bootstrapping
Selecionando a opo bootstrapping ir calcular os limites superior e inferior dos
intervalos de confiana de 95% por meio de 9999 rplicas bootstrap. Intervalos de
confiana para os valores mnimo e mximo no so fornecidos, porque sabe-se que o
bootstrap no funciona bem para essas estatsticas.

Dados ausentes: suportados por deleo.

ndices de similaridade e distncia (Similarity and distance indices)


Calcula uma srie de medidas de similaridade ou distncia entre todos os pares de linhas.
Os dados podem ser univariados ou (mais comumente) multivariados, com as variveis
em colunas. Os resultados so fornecidos como uma maitrz simtrica de
similaridade/distncia. Este mdulo raramente usado porque matrizes de
similaridade/distncia normalmente so computados automaticamente em mdulos como
PCO, NMDS, anlise de agrupamento (cluster analysis) e ANOSIM no Past.

36
Gower
Uma medida de distncia que calcula a mdia da diferena entre todas as variveis, sendo
cada termo normalizado para a amplitude daquela varivel:
1 x ji xki
d jk = .
n max x si min x si
x
s
A medida de Gower similar distncia de Manhattan (ver abaixo) mas com
normalizao de amplitude. Quando usando tipos mistos de dados (ver abaixo), esta a
medida-padro para dados contnuos e ordinais.

Euclidean
Distncia Euclideana bsica. Nas primeiras verses do Past, era normalizada para o
nmero de variveis (o valor ainda ajustado para dados ausentes).
d jk = (x
i
ji xki ) 2 .

Mahalanobis
Uma medida de distncia que leva em conta a estrutura de covarincia dos dados, sendo S
a matriz de varincia-covarincia:
d jk = (x j x k )T S 1 (x j x k ) .
Geographical
Distncia em metros a longo de um grande crculo entre dois pontos na superfcie da
Terra. Requer exatamente duas variveis (colunas), com latitudes e longitudes em graus
decimas (e.g. 58 graus 30 minutos Norte 58.5). Espera-se que as coordenadas estejam
no datum WGS84, e a distncia calculada de acordo com o elipside WGS84. O uso de
outros datums ir resultar em erros muito pequenos.

37
A acurcia do algoritmo usado (Vicenty 1975) da ordem de 1 mm com relao a
WGS84.
Correlation
O complemento 1-r do coeficiente r de correlao de Pearson entre as variveis:
i ( xij x j )( xki xk )
d jk = 1 .
( x ji x j ) 2 ( xki xk ) 2
i i

Usar o complemento faz disso uma medida de distncia. Veja tambm o mdulo
Correlao (Correlation), onde o r de Pearson fornecido diretamente e com testes de
significncia.
Rho
O complemento 1-rs do rho de Spearman, que um coeficiente de correlao de ranks.
Veja tambm o mdulo Correlao (Correlation), onde o rho dado diretamente e com
testes de significncia.
Dice
Tambm conhecido como coeficiente de Sorensen. Para dados binrios (presena-
ausncia), codificados como 0 ou 1 (qualquer nmero positivo tratado como 1). A
similaridade de Dice pe mais peso em ocorrncias conjuntas do que em ocorrncias
disjuntas (mismatches).
Quando comparado duas linhas, uma ocorrncia conjunta (match) contada para todas as
colunas com presena em ambas as linhas. Usando M para o nmero de ocorrncias
conjuntas e N para o nmero total de colunas com presena em apenas uma linha,
temos d jk = 2M /(2 M + N ) .
Jaccard
Um ndice de similaridade para dados binrios. Com a mesma notao usada para o
ndice de Dice acima, temos
d jk = M /( M + N ) .
Kulczynski
Um ndice de similaridade para dados binrios. Com a mesma notao dada para a
similaridade de Dice acima (com N1 e N2 se referindo s duas colunas), temos
M M
+
M + N1 M + N 2
d jk = .
2
Ochiai
Um ndice de similaridade para dados binrios, comparvel similaridade de coseno
(cosine) para outros tipos de dados:
M M
d jk = .
M + N1 M + N 2
Simpson
O ndice de Simpson definido simplesmente como M/Nmin, onde Nmin o menor dos
nmeros de presenas nas duas linhas. Esse ndice trata as linhas como idnticas caso
uma seja um subconjunto da outra, o que o torna til para dados fragmentrios
(fragmentary data).

38
Bray-Curtis
Bray-Curtis um ndice de similaridade popular para dados de abundncia. O Past
calcula a similaridade de Bray-Curtis da seguinte maneira:
i x ji xki
d jk = 1 .
(x ji + xki )i
Isso algebricamente equivalente frmula dada originalmente por Bray e Curtis (1957):
i min( x ji , xki )
d jk = 2 .
( x ji + xki )
i
Muitos autores usam uma distncia de Bray-Curtis, que simplesmente 1-d.
Cosine
O produto interno das abundncias, cada uma normalizada norma unitria (normalised
to unit norm), i.e. o coseno do ngulo entre os vetores.
i x ji xki
d jk =
x 2ji xki2
i i

Morisita
Para dados de abundncia.
i x ji ( x ji 1)
1 =

i x ji i x ji 1

x i
ki ( x ki 1)
2 =

x x
i
ki
i
1

ki

2 x ji xki
i
d jk = .
(1 + 2 ) x ji xki
i i
Raup-Crick
ndice de Raup-Crick para dados de presena-ausncia. Este ndice (Raup & Crick 1979)
usa um procedimento de aleatorizao (Monte Carlo) comparando o nmero observado
de espcies que ocorrem em ambas as associaes com a distribuio de co-ocorrncias a
partir de 1000 rplicas aleatrias do conjunto (pool) de amostras.
Horn
ndice de sobreposio de Horn para dados de abundncia (Horn 1966).
N j = x ji
i

N k = xki
i

39
[( x
i
ji
i
]
+ xki ) ln( x ji + x ki ) x ji ln x ji xki ln xki
i
d jk = .
( N j + N k ) ln( N j + N k ) N j ln N j N k ln N k
Hamming
Distncia de Hamming para dados categricos codificados como nmeros inteiros (ou
dados de sequncia gentica codificados como CAGT). A distncia de Hamming o
nmero de diferenas (mismatches ou ocorrncias disjuntas), de modo que a distncia
entre (3,5,1,2) e (3,7,0,2) igual a 2. No Past, ela normalizada para a amplitude [0,1], a
qual conhecida por geneticistas como p-distance.
Chord
Distncia Euclideana entre vetores normalizados. Comumente usada para dados de
abundncia. Pode ser escrita como
x i
ji xki
d jk = 2 2 .
x x
i
2
ji
i
2
ki

Manhattan
A somatria das diferenas em cada varivel:
d jk = x ji xki .
i
Jukes-Cantor
Medida de distncia para dados de sequncia gentica (CAGT). Similar distncia p (ou
Hamming), mas leva em conta a probabilidade de reverses (reversals):
3 4
d = ln1 p .
4 3
Kimura
A medida de distncia de 2 parmetros de Kimura para dados de sequncia gentica
(CAGT). Similar distncia de Jukes-Cantor, mas leva em conta diferentes
probabilidades de transies vs. transverses de nucleotdeos (Kimura 1980). Sendo P a
proporo observada de transies e Q o nmero observado de transverses, temos
1 1
d = ln(1 2 P Q ) ln(1 2Q ) .
2 4
Tajima-Nei
Medida de distncia para dados de sequncia gentica (CAGT). Similar distncia de
Jukes-Cantor, mas no assume frequncias iguais de nucleotdeos.

Similaridade definida por usurio (User-defined similarity)


Espera uma matriz simtrica de similaridade ao invs de dados originais. Sem verificao
de erros!

Distncia definida por usurio (User-defined distance)


Espera uma matriz simtrica de distncia ao invs de dados originais. Sem verificao de
erros!

Mixed (mista)

40
Esta opo requer que tipos de dados sejam atribudos s colunas (veja Inserindo e
manipulando dados). Uma janela pop-up ir perguntar a medida de similaridade/distncia
a ser usada para cada tipo de dados. Estas sero combinadas usando uma mdia
ponderada pelo nmero de variveis de cada tipo. As opes-padro correspondem s
sugeridas por Gower, mas outras combinaes podem funcionar melhor. A opo
Gower uma distncia de Manhattan normalizada pela amplitude (range-normalised).

Colunas s com zeros: Algumas medidas de similaridade (Dice, Jaccard, Simpson etc.)
so indefinidas quando linhas contendo apenas zeros so comparadas. Para evitar erros,
especialmente quando fazendo bootstrap em conjuntos de dados com poucos valores, a
similaridades nestes casos definida como zero.

Dados ausentes: A maio parte dessas medidas trata os dados ausentes (codificados por
?) por deleo par-a-par, significando que se um valor est ausente em uma das
variveis de um par de linhas, esta varivel omitida do clculo de distncias entre essas
duas linhas. As excesses so: distncia rho, a qual usa substituio pela mdia da coluna
(column average substitution), e Raup-Crick, que no aceita dados ausentes.

Referncias

Bray, J.R. & J.T. Curtis. 1957. An ordination of the upland forest communities of Southern
Wisconsin. Ecological Monographs 27:325-349.
Horn, H.S. 1966. Measurement of overlap in comparative ecological studies. American Naturalist
100:419-424.
Kimura, M. 1980. A simple model for estimating evolutionary rates of base substitutions through
comparative studies of nucleotide sequences. Journal of Molecular Evolution 16:111-120.
Raup, D. & R.E. Crick. 1979. Measurement of faunal similarity in paleontology. Journal of
Paleontology 53:1213-1227.
Vincenty, T. 1975. Direct and inverse solutions of geodesics on the ellipsoid with application of
nested equations. Survey Review 176:88-93.

Tabela de correlao (Correlation table)


Apresenta uma matriz com os coeficientes de correlao entre todos os pares de colunas.
Valores de correlao so fornecidos no tringulo inferior da matriz, e as probabilidades
bicaudais de que as colunas no estejam correlacionadas (columns are uncorrelated) so
apresentadas no tringulo superior. Coeficientes e testes tanto paramtricos (Pearson)
quanto no-paramtricos (Spearman) so disponveis. Algoritmos seguem Press et al.
(1992), com a excesso de que a significncia do coeficiente de Spearman calculada por
um teste exato para n<=9 (veja a seo sobre correlao de rank/ordinal, abaixo).
O r de Perason dado por
i ( xi x )( yi y )
r=
( xi x ) 2 ( y i y ) 2
i i

A significncia calculada por meio de um teste t bicaudal com 2 graus de liberdade e

41
n2
t=r .
1 r 2
Dados ausentes: suportados por deleo.

Correlao linear parcial


Usando essa opo, calculada, para cada par de colunas, a correlao linear controlando
todas as colunas remanescentes. Por exemplo, com trs colunas A, B, C a correlao AB
controlada para C; AC controlada para B; BC controlada para A. A correlao
parcial linear pode ser definida como a correlao dos resduos depois de calcular a
regresso com a(s) varivel(is) controlada(s). A significncia estimada com um teste t
com n-2-k graus de liberdade, onde k o nmero de variveis controladas:
n2k
t=r
1 r 2
Dados ausentes: suporte por deleo.

Referncia
Press, W.H., S.A. Teukolsky, W.T. Vetterling & B.P. Flannery. 1992. Numerical Recipes in C.
Cambridge University Press.

Var-covar
Apresenta uma matriz simtrica com as varincias e covarincias entre todos os pares de
colunas.

Dados ausentes: suporte por deleo.

Testes F e t (duas amostras) (F and t tests (two samples))


Uma srie de testes paramtricos clssicos e testes para comparo as mdias e varincias
de duas amostras univariadas (em duas colunas). Assume-se distribuio normal.

42
Estatsticas da amostra
Mdia e varincia so estimadas como descrito acima, sob Estatstica univariada. O
intervalo de confiana de 95% para a mdia baseado no erro padro para a estimatitva
de mdia e na distribuio t. Sendo s a estimativa do desvio padro, o intervalo de
confiana
s s
x t ( / 2,n1) , x + t (// 2,n1) .
n n
Aqui, t tem n-1 graus de liberdade, e 1-=0.95 para um intervalo de confiana 95%.
O intervalo de confiana 95% para a diferena entre as mdias aceita tamanhos amostrais
desiguais:

[x y t s , x y + t (/2, gl ) s D ,
(/2, gl ) D ]
onde
SSE = ( xi x ) 2 + ( yi y ) 2
gl = (n1 1) + (n2 1)
MSE = SSE / df
2
nh =
1 / n1 + 1 / n2
2 MSE
sD =
nh

43
O intervalo de confiana calculado para a mdia maior menos a menor, i.e. o centro do
IC sempre deve ser positivo. O intervalo de confiana para a diferena das mdias
tambm estimado por bootstrap, com 9999 replicaes.

Teste F (F test)
O teste F tem como hiptese nula
H0: As duas amostras so tomadas de populaes com varincia igual.
A estatstica F a razo da maior varincia pela menor varincia. A significncia
bicaudal, com n1 e n2 graus de liberdade.

Teste t (t test)
O teste t tem a hiptese nula
H0: As duas amostras so tomadas de populaes com mdias iguais.
A partir do erro padro sD da diferena das mdias dadas acima, a estatstica de teste
xy
t= .
sD
Teste t para varincias desiguais (Unequal variance t test)
O teste t para varincias desiguais tambm conhecido como o teste de Welch. Pode ser
usado como alternativa para o teste t bsico quando as varincias so muito diferentes,
embora pode ser argumentado que o teste para a diferenas nas mdias neste caso
questionvel. A estatstica de teste
xy
t= .
Var ( x) / n1 + Var ( y ) / n2
O nmero de graus de liberdade
2
Var ( x) Var ( y )
+
n1 n2
gl =
[Var( x) / n1 ]2 [Var( y ) / n2 ]2
+
n1 1 n2 1
Teste por permutao (Permutation test)
O teste por permutao para igualdade das mdias usa a diferena absoluta nas mdias
como estatstica do teste. O teste por permutao no-paramtrico com poucas
premissas. O nmero de permutaes pode ser definido pelo usurio. O poder do teste
limitado pelo tamanho amostral significncia no nvel de p<0.05 s pode ser
conseguida para n>3 em cada amostra.

Dados ausentes: suporte por deleo.

Teste t (uma amostra) (t test (one sample))


O teste t de uma amostra (one-sample t test) usado para investigar se provvel que
uma amostra tenha sido retirada de uma populao com uma dada mdia (terica).
O intervalo de confiana de 95% para a mdia calculado por meio da distribuio t.
Dados ausentes: suporte por deleo.

44
Testes F e t a partir de parmetros (F and t tests from parameters)
s vezes, as publicaes no fornecem os dados, mas fornecem valores para tamanhos
amostrais, mdia e varincia de duas amostras. Estes podem ser inseridos manualmente
usando a opo F and t from parameters no menu. Esse mdulo no usa dados da
planilha.

Testes pareados (t, sinal, Wilcoxon) (Paired tests (t, sign, Wilcoxon)
Trs testes estatsticos (um paramtrico, dois no-paramtricos) para duas amostras
(colunas) de dados univariados. Os pontos de dados so pareados, significando que os
dois valores de cada linha so associados. Por exemplo, o teste pode ser usado para
comparar o comprimento o brao esquerdo vs. brao direito de um grupo de pessoas, ou a
diversidade no vero vs. no inverno de uma srie de stios. Controlado por um fator de
rudo (nuisance factor) (pessoa, stio), aumenta-se assim o poder do teste. A hiptese
nula :
H0: A mdia (teste t) ou mediana (teste de sinal, teste de Wilcoxon) da diferena zero.
Todos os valores de p relatados so bicaudais.

45
Teste t (t test)
Testa se a diferena mdia igual a zero por meio de um teste t comum de uma amostra.
Sendo di=xi-yi, temos
1
s=
n 1
(d i d ) 2 ,

d
t= .
s/ n
H n-1 graus de liberdade. O teste assume distribuio normal das diferenas.

Teste de sinal (Sign test)


O teste de sinal (binomial) simplesmente conta o nmero de casos n1 em que xi>yi e n2
em que yi>xi. O valor de p exato, calculado a partir da distribuio binomial. O teste de
sinal tipicamente ter menor poder explanatrio do que os outros testes pareados, mas
apresenta menos premissas.

Teste de ranks com sinal de Wilcoxon (Wilcoxon signed rank test)


Um teste no-paramtrico de ranks que no assume distribuio normal. A hiptese nula
de que no h deslocamente da mediana (sem diferenas).
Inicialmente, todas as linhas com diferena de zero so removidas pelo programa. Ento
os valores absolutos das diferenas |di| so ranqueados (Ri), com ranks mdios atribudos
a valores repetidos (ties). A somatria dos ranks para os pares em que di positivo W+.
A somatria dos ranks para pares em que di negativo W-. A estatstica relatada
W = max(W+,W-)
(repare que existem outras verses deste teste que so equivalentes a esta, mas que
relatam outras estatsticas).

46
Para n grande (digamos n>10), a aproximao do p para grandes amostras (large-sample
approximation to p) pode ser usada. Isso depende da distribuio normal da estatstica de
teste W:
n(n + 1)
E (W ) =
4

n(n + 1)(2n + 1) g
f g3 f g
var(W ) = .
24 48
O ltimo termo uma correo para valores repetidos, onde fg o nmero de elementos
no conjunto de valores repetidos g. O z resultante relatado juntamente com o valor de p.
O valor de significncia de Monte Carlo baseado em 99 999 remanejamentos aleatrios
de valores entre as colunas dentro de cada par. Este valor ser praticamente idntico ao
valor exato do p.
Para n<26, um valor exato de p calculado por enumerao completa de todos os
remanejamentos possveis (h 2n remanejamentos possvel, i.e. mais de 33 milhes
n=25). Este o valor prefervel quando disponvel.

Dados ausentes: suporte por deleo da linha.

Testes de normalidade (Normality tests)


Quatro testes estatsticos para distribuio normal de apenas uma ou de uma srie de
amostras univariadas de dados, fornecidos em colunas. Os dados abaixo foram gerados
por um gerador de nmeros aleatrios com distribuio uniforme.

Para os quatro testes, a hiptese nula


H0: A amostra foi retirada de uma populao com distribuio normal.

47
Se o p(normal) fornecido for menor do que 0.05, distribuio normal pode ser rejeitada.
Dos quatro testes fornecidos, os de Shapiro-Wilk e de Anderson-Darlink so
considerados os mais exatos, e os outros dois testes (Jarque-Bera e um teste por qui-
quadrado (chi-square)) so fornecidos como referncia. Existe um tamanho amostral
mximo de n=5000, enquanto o tamanho amostral mnimo 3 ( claro que os testes tero
poder muito pequeno para um n to baixo).
Lembre-se da questo dos testes mltiplos caso voc analise mais de uma amostra por
esses testes uma correo de Bonferroni ou uma outra pode ser apropriada.

Teste de Shapiro-Wilk (Shapiro-Wilk test)


O teste de Shapiro-Wilk (Shapiro & Wilk 1965) retorna uma estatstica de teste W, que
pequena para amostras no-normais, e um valor de p. A implementao baseada no
cdigo padro AS R94 (Royston 1995), corrigindo uma inacurcia para tamanhos
amostrais grandes no algoritmo interior AS 181.

Teste de Jarque-Bera (Jarque-Bera test)


O teste de Jarque-Bera (Jarque & Bera 1987) baseado na assimetria S e na curtose K. A
estatstica de teste
n ( K 3) 2
JB = S 2 + .
6 4
Neste contexto, a assimetria e a curtose usadas so

S=
1 ( xi x ) 3
,
3
n 1
n ( xi x ) 2
n

K=
1 ( xi x ) .4

4
n 1
n ( xi x )
2


Repare que estas equaes contm estimadores mais simples de G1 e G2 do que os
fornecidos acima, e que a curtose aqui ser igual a 3, no a zero, para uma distribuio
normal.
Assimptoticamente (para tamanhos amostrais grandes), a estatstica de teste tem uma
distribuio de qui-quadrado com dois graus de liberdade, e isso forma a base do valor de
p fornecido pelo Past. Sabe-se que essa abordagem funciona bem apenas para tamnhos
amostrais grandes, e o Past tambm inclui um teste de significncia baseado numa
simulao de Monte Carlo, com 10 000 valores aleatrios tomados de uma distribuio
normal.

Teste de qui-quadrado (Chi-square test)


O teste de qui-quadrado usa uma distribuio normal esperada com quatro classes (bins)
com base na mdia e no desvio padro estimados da amostra, e construda de modo a ter
frequncias esperadas iguais em todas as classes. O limite superior de todas as classes e
as frequncias observadas e esperadas so mostradas. Uma mensagem de aviso dada se
n<20, i.e. frequncia esperada em cada classe menor do que 5. H 1 grau de liberdade.

48
Esse teste questionvel teoricamente e tem baixo poder, e no recomendado.
includo para referncia.

Teste de Anderson-Darling (Anderson-Darling test)


Os dados Xi so ordenados em ordem crescente e normalizados para mdia e desvio
padro:
X
Yi = i .

Sendo F a funo de distribuio cumulativa (cumulative distribution function - CDF) da
normal, a estatstica do teste
1 n
A 2 = n i =1 (2i 1)[ln F (Yi ) + ln(1 F (Yn+1 k ))] .
n
A significncia estimada de acordo com Stephens (1986). Inicialmente, uma correo
para tamanho amostral pequeno aplicada:
0.75 2.25
A*2 = A 2 (1 + + 2 ).
n n
O valor de p estimado por

Dados ausentes: suporte por deleo.

Referncias
Jarque, C. M. & Bera, A. K. 1987. A test for normality of observations and regression residuals.
International Statistical Review 55:163172.
Royston, P. 1995. A remark on AS 181: The W-test for normality. Applied Statistics 44:547-551.
Shapiro, S. S. & Wilk, M. B. 1965. An analysis of variance test for normality (complete samples).
Biometrika 52:591611.
Stephens, M.A. 1986. Tests based on edf statistics. Pp. 97-194 in D'Agostino, R.B. & Stephens,
M.A. (eds.), Goodness-of-Fit Techniques. New York: Marcel Dekker.

Qui^2 (Chi^2)
O Qui-quadrado (Chi-square) espera duas colunas com nmeros de elementos em
diferentes classes (compartimentos). Por exemplo, esse teste pode ser usado para
comparar duas associaes (colunas) com o nmero de indivduos de cada txon
organizado nas linhas. Voc deve ter cautela com esse teste caso alguma(s) das clulas
tenha(m) menos de cinco indivduos (ver teste exato de Fisher abaixo).
H duas opes que devem ser selecionadas ou no para obter resultados corretos.
Sample vs. expected (Amostra vs. esperado) deve ser selecionado se a sua segunda
coluna consiste de valores retirados de uma distribuio terica (valores esperados) com

49
barras de erro iguais a zero. Se seus dados so de duas amostras de contagem, cada uma
com barras de erro, deixe esta caixa desmarcada. Isso no uma correo para amostra
pequena.
One constraint (Uma restrio) deve ser marcada se os valores esperados foram
normalizados para se ajustar ao nmero total de eventos observados, ou se as duas
amostras contadas tm necessariamente os mesmos valores totais (por exemplo, por
serem porcentagens). Isso ir reduzir em um o nmero de graus de liberdade.
Quando a opo one constraint est selecionada, um teste de permutao
disponibilizado, com 10000 rplicas aleatrias. Para Sample vs. expected essas rplicas
so geradas mantendo os valores esperados fixos, enquanto os valores da primeira coluna
so aleatrios com probabilidades relativas como especificado pelos valores esperados e
com somatria constante. Para duas amostras, todas as clulas so aleatrias mas com
somatrias constantes de linhas e colunas.
Veja e.g. Brown & Rothery (1993) ou Davis (1986) para detalhes.
Com uma restrio, o teste exato de Fisher (bicaudal) tambm fornecido. Quando
disponvel, o teste exato de Fisher pode ser muito melhor do que o qui-quadrado. Para
grandes tabelas ou grandes contagens, o tempo de clculo pode ser proibitivo e se
esgotar depois de um minuto. Nesses casos o teste paramtrico provavelmente
aceitvel de qualquer modo. O procedimento complexo e baseado no algoritmo de rede
de Mehta & Patel (1986).

Dados ausentes: Suporte por deleo de linha.


Referncias
Brown, D. & P. Rothery. 1993. Models in biology: mathematics, statistics and computing. John
Wiley & Sons.
Davis, J.C. 1986. Statistics and Data Analysis in Geology. John Wiley & Sons.
Mehta, C.R. & N.R. Patel. 1986. Algorithm 643: FEXACT: a FORTRAN subroutine for Fisher's
exact test on unordered rc contingency tables. ACM Transactions on Mathematical Software
12:154-161.

Coeficiente de variao (Coefficient of variation)


Este mdulo testa se duas amostras, fornecidas em duas colunas, tm coeficiente de
variao igual.

50
O coeficiente de variao (ou variao relativa) definido como a razo do desvio padro
e da mdia em porcentagem, e calculado por:
1
s ( xi x ) 2
CV = 100 = n 1 100 .
x x
Os intervalos de confiana de 95% so estimados por bootstrap, com 9999 rplicas.
A hiptese nula do teste estatstico :
H0: As amostras foram retiradas de populaes com o mesmo coeficiente de variao.
Se o valor de p(same) fornecido for menor do que 0.05, coeficientes de variao iguais
podem ser rejeitados. Donnelly & Kraem (1999) descrevem o coeficiente de variao e
revisam uma srie de testes estatsticos para a comparao de duas amostras. Eles
recomendam o teste de Fligner-Killeen (Fligner & Killeen 1976), como implementado no
Past. Este teste poderoso e relativamente insensvel distribuio dos dados. As
seguintes estatsticas so relatadas:
T: A estatstica de teste de Fligner-Killeen, correspondente somatria das
posies ranqueadas e transformadas da amostra menor dentro da amostra
agrupada (veja Donnelly & Kramer 1999 para detalhes).
E(T): O valor esperado de T.
z: A estatstica z, baseada em T, Var(T) e E(T). Observe que isso uma
aproximao de amostra grande.
p: O valor de p(H0). So fornecidos os valores unicaudal e bicaudal. Para a
hiptese alternatica de diferena em qualquer direa, o valor bicaudal deve ser
usado. No entanto, o teste de Fligner-Killeen j foi usado para comparar a
variao dentro de uma amostra de fsseis com a variao dentro de uma
espcie moderna com parentesco prximo, para testar se havia mltiplas
espcies fsseis (Donnekky & Kramer 1999). Neste caso, a hiptese alternativa
poderia ser a de que o CV maior na populao fssil; neste caso um teste
unicaudal pode ser usado para ter aumentar o poder do teste.

51
A imagem de tela acima reproduz o excemplo de Donnelly & Kramer (1999), mostrando
que a variao relativa dentro de Australopithecus afarensis significativamente maior
do que em Gorilla gorilla. Isso poderia indicar que A. afarensis representa mais de uma
espcie.

Dados ausentes: Suporte por deleo.

Referncias
Donnelly, S.M. & Kramer, A. 1999. Testing for multiple species in fossil samples: An evaluation
and comparison of tests for equal relative variation. American Journal of Physical Anthropology
108:507-529.
Fligner, M.A. & Killeen, T.J. 1976. Distribution-free two sample tests for scale. Journal of the
American Statistical Association 71:210-213.

Teste de Mann-Whitney (Mann-Whitney test)


O teste bicaudal U de Mann-Whitney (Wilcoxon) pode ser usado para testar se as
medianas de duas amostras independentes so diferentes. Ele no assume distribuio
normal, mas assume que as distribuies dos dois grupos tm a mesma forma. A hiptese
nula
H0: As duas amostras foram tomadas de populaes com medianas iguais.

O teste no-paramtrico, o que significa que as distribuies podem ter qualquer forma.
Para cada valor na amostra 1, conte o nmero de valores na amostra 2 que so menores
do que ele (valores repetidos contam como 0.5). O total dessas contagens a estatstica
de teste U (s vezes chamada de T). Se o valor de U for menor quando a ordem das
amostras revertida, este valor escolhido no seu lugar (pode ser mostrado que
U1+U2=n1n2).
Na coluna da esquerda dada uma aproximao assimpttica ao p com base na
distribuio normal (bicaudal), que s vlida para n grandes. Ela inclui uma correo
para continuidade e uma correo para valores repetidos:

52
U n1n2 / 2 + 0.5
z=

n1n2 n 3 n f g3 f g
g
12n(n 1)
onde n=n1n2 e fg o nmero de elementos no conjunto de elementos repetidos (tie) g.
Para n1+n2<=30 (e.g. 15 valores em cada grupo), um valor exato de p fornecido,
baseado em todas as combinaes possveis de realocaes de elementos entre os grupos.
Sempre use este valor exato se ele est disponvel. Para amostras grandes, a aproximao
asimpttica bastante precisa. Um valor por Monte Carlo baseado em 10 000 realocaes
aleatrias tambm fornecido o principal objetivo disso servir de controle ao valor
assimpttico.

Dados ausentes: suporte por deleo.

Kolmogorov-Smirnov
O teste de Kolmogorov-Smirnov um teste no paramtrico que testa se duas
distribuies univariadas apresentam a mesma distribuio geral. Em outras palavras, este
teste no testa especificamente a igualdade de mdia, varincia ou qualquer outro
parmetro. A hiptese nula H0: As duas amostras foram tomadas de populaes com a
mesma distribuio.

Na verso do teste que fornecida no Past, ambas as colunas devem representar


amostras. Voc no pode testar uma amostra contra uma distribuio terica (teste de
uma amostra one-sample test).
A estatstica de teste a diferena absoluta mxima entre duas funes de distribuio
cumulativas empricas:

53
D = max S N1 ( x) S N 2 ( x)
x
O algoritmo baseado em Press et al. (1992), com a significncia estimada de acordo
com Stephens (1970).
Defina a funo

QKS ( ) = 2 (1) j 1 e 2 j .
2 2

j =1

Sendo Ne=N1N2/(N1+N2), a significncia calculada por


([
p = QKS N e + 0.12 + 0.11 N e D . ])
O teste por permutao usa 10 000 permutaes. Use o valor de p por permutao para
N<30 (ou no geral).

Dados ausentes: suporte por deleo.

Referncias
Press, W.H., Teukolsky, S.A., Vetterling, W.T. & Flannery, B.P. 1992. Numerical Recipes in C.
2nd Edition. Cambridge University Press.
Stephens, M.A. 1970. Use of the Kolmogorov-Smirnov, Cramer-von Mises and related statistics
without extensive tables. Journal of the Royal Statistical Society, Series B 32:115-122.

Correlao ordinal/de rank (Rank/ordinal correlation)


Essas correlaes e testes de ordem de rank (rank-order correlations) so usadas para
investigar a correlao entre duas variveis, fornecidas em duas colunas.
O coeficiente de correlao (no-paramtrica) de ordem de rank de Spearman o
coeficiente de correlao linear (r de Pearson) dos ranks. De acordo com Press et al.
(1992), calculado por
6 1 1
1 3 D + ( f k3 f k ) + ( g m3 g m
n n 12 k 12 m .
rs =
( f k3 f k ) ( g m3 g m
k
m

1 3 1 3
n n n n

Aqui, D a soma do quadrado da diferena dos ranks (ranks intermedirios para valores
repetidos):
n
D = ( Ri S i ) 2 .
i =1
Os fk o nmero de valores repetidos no ksimo grupo de valores repetidos entre os Ris,
e os gm so os nmeros de valores repetidos no msimo grupo de valores repetidos entre
os Sis.
Para n>9, a probabilidade de rs diferente de zero (bicaudal) calculada por meio de um
teste t com n-2 graus de liberdade:
n2
t = rs .
1 rs2

54
Para n pequeno, essa aproximao imprecisa, e para n<=9 o programa portanto alterna
automaticamente para um teste exato. Esse teste compara o rs observado com os valores
obtidos com todas as permutaes possveis da primeira coluna.
O teste por Monte Carlo baseado em 9999 amostras aleatrias.
Essas estatsticas tambm esto disponveis no mdulo Correlation, mas sem a opo
de permutao.

Dados ausentes: suporte por deleo.

Correlao poliserial (Polyserial correlation)


Essa correlao s calculada se a segunda coluna consiste de valores inteiros com uma
amplitude menor do que 1000. delineada para correlacionar uma varivel contnua/de
intervalo com distribuio normal (primeira coluna), com uma varivel ordinal (segunda
coluna) cujas classes representam uma varivel de distribuio normal. Por exemplo, a
segunda coluna poderia conter os nmeros 1-3 codificando pequeno, mdio e
grande. Tipicamente, haveria mais valores mdio do que pequeno ou grande
devido distribuio normal de tamanhos que est por trs da amostra.
O Past uso o algoritmo de dois passos de Olsson et al. (1982). Esse algoritmo mais
preciso do que o estimador ad hoc desses autores, e quase to preciso quanto o
algoritmo multivariado de mxima verossimilhana completo (full multivariate ML
algoritm). O algoritmo de dois passos foi escolhido por causa da velocidade, permitindo
um teste por permutao (mas apenas para N<100). Para N maiores, o teste assimpttio
(teste de log-ratio) tem preciso.

Referncias
Olsson, U., F. Drasgow & N.J. Dorans. 1982. The polyserial correlation coefficient.
Psychometrika 47:337-347.
Press, W.H., S.A. Teukolsky, W.T. Vetterling & B.P. Flannery. 1992. Numerical Recipes in C.
Cambridge University Press.

Tabela de contingncia (Contingency table)


Uma tabela de contingncia o input dessa rotina. Linhas representam os diferentes
estados de uma varivel nominal, colunas representam os estados de outra varivel
nominal, e clulas contm as contagens de ocorrncias daquele estado especfico (linha,
coluna) das duas variveis. A significncia da associao entre as duas variveis (com
base em qui-quadrado) ento fornecida, com valores de p a partir de uma distribuio
de qui-quadrado e de um teste por permutao com 9999 replicaes.
Por exemplo, linhas podem representar txons e colunas amostras, como usual (com
contagens de espcimes nas clulas). A anlise da tabela de contingncia ento fornece
informaes se as duas variveis de txon e local esto associadas. Se no estiverem, a
matriz de dados no muito informativa.

55
Duas medidas adicionais de associao so fornecidas. Ambas so transformao do qui-
quadrado (Press et al. 1992). Sendo n a somatria total das contagens, M o nmero de
linhas e N o nmero de colunas:
2
V de Cramer (Cramers V): V=
n min( M 1, N 1)
2
Coeficiente de contingncia C: C=
2 +n
Note que para tabelas nx2, o teste exato de Fisher (Fishers exact test) disponibilizado
no mdulo Chi^2.

No h suporte para dados ausentes.

Referncia
Press, W.H., S.A. Teukolsky, W.T. Vetterling & B.P. Flannery. 1992. Numerical Recipes in C.
Cambridge University Press.

ANOVA Uni-fatorial (One-way ANOVA)

ANOVA (anlise de varincia) unifatorial um procedimento estatstico para testar a


hiptese nula de que uma srie de amostras univariadas (em colunas) so tomadas de
populaes com a mesma mdia. Assume-se que as amostras tm distribuio prxima da
normal e varincias similares. Se os tamanhos amostrais so iguais, essas premissas no
so crticas. Caso as premissas sejam seriamente violadas, o teste no-paramtrico de
Kruskal-Wallis deve ser usado ao invs da ANOVA.

56
Tabela da ANOVA
A soma dos quadrados entre-grupos (between-groups sum of squares) dada por:
SS bg = n g (x g xT ) ,
2

onde ng o tamanho do grupo g e as mtidas so mdias total e de grupo. A soma entre-


grupos tem um nmero associado de graus de liberdade, dfbg, igual ao nmero de grupos
menos 1.
A soma dos quadrados intra-grupos (within-groups sum of squares)
SS wg = (xi x g )
2

g i

onde xi so aqueles do grupo g. A soma dos quadrados intra-grupos tem um nmero


associado de graus de liberdade, dfwg, igual ao nmero total de valores menos o nmero
de grupos.
Os quadrados mdios (mean squares) entre e intra-grupos so dados por
SS bg
MS bg =
df bg
SS w g
MS wg =
df wg
Finalmente, a estatstica F calculada por
MSbg
F=
MS wg
O valor de p baseado no F com dfbg e dfwg graus de liberdade.

Omega quadrado

57
O mega quadrado uma medida da intensidade do efeito (effect size), variando de 0 a 1
(no disponvel para ANOVA de medida repetida):
SS df bg MS wg
2 = bg
SS total + MS wg

Teste de Levene (Levenes test)


Se o teste de Levene significativo, significando que as amostras apresentam varincias
desiguais, pode ser usado a verso de ANOVA para varincias desiguais (Welch), com os
valores correspondentes de F, df e p.

Anlise dos resduos


O boto Residuals abre uma janela para analisar as propriedades dos resduos para
avaliar algumas premissas da ANOVA, tais como uma distribuio normal e
homoscedstica dos resduos.
fornecido o teste de Shapiro-Wilk para distribuio normal, juntamente com alguns
grficos comuns de resduos (probabilidade normal, resduos vs. mdias dos grupos, e
histograma).

Testes par-a-par post-hoc


Se a ANOVA mostra desigualdade significativa das mdias (p pequeno), voc pode partir
para a anlise da tabela de comparaes par-a-par post-hoc, com base na DHS
(Diferena Honestamente Significativa Honestly Significant Difference) de Tukey. A
Studentized Range Statistic Q fornecida no tringulo inferior esquerdo da matriz, e as

58
probabilidades p(igual) so fornecidas no tringulo superior direito. Tamanhos amostrais
no precisam ser iguais para a verso do teste de Tukey utilizada.

ANOVA de medidas repetidas (intra-sujeitos) (Repeated measures (within-subjects)


ANOVA)
Marcando a caxa Repeated measures, seleciona-se um outro tipo de ANOVA, na qual
os valores em cada coluna so observaes do mesmo sujeito. ANOVA de medida
repetida a extenso do teste t pareado para vrias amostras. Cada coluna (amostra)
precisa conter o mesmo nmero de valores.

Valores ausentes: suporte por deleo, exceto para ANOVA de medidas repetidas, na
qual no h suporte para valores ausentes.

ANOVA bifatorial (Two-way ANOVA)


A ANOVA (anlise de varincia) bifatorial uma medida estatstica para testar a
hiptese nula de que uma srie de amostras univariadas tm a mesma mdia em relao a
cada um de dois fatores, e que no h dependncias (interaes) entre fatores. Assume-se
que as amostras tm distribuio prxima da normal e varincias similares. Se os
tamanhos amostrais forem iguais, essas premissas no so crticas. O teste assume um
delineamento de fator fixo (fixed-factor design) (o caso mais comum).
Trs colunas so necessrias. Primeiro, uma coluna com os nveis do primeiro fator
(codificadas como 1, 2, 3 etc), depois uma coluna com os nveis do segundo fator, e
finalmente uma coluna com as medidas dos valores correspondentes.

O algoritmo utiliza mdias ponderadas para delineamentos no-balanceados.

ANOVA de medidas repetida (intra-sujeitos) (Repeated measures (within-subjects)


ANOVA)
Selecionando a caixa Repeated measures seleciona um outro tipo de ANOVA
bifatorial, na qual cada um de uma srie de sujeitos tenha recebido uma srie de
tratamentos. O formato dos dados como acima, mas preciso que todas as medidas do
primeiro sujeito sejam dadas nas primeiras linhas, depois todas as medidas do segundo
sujeito, etc. Cada sujeito deve ter recebido todas as combinaes de tratamentos, e cada
combinao de tratamentos deve ter sido fornecida uma nica vez. Isso significa que
para, por exemplo, dois fatores, com 2 e 3 nveis, cada sujeito deve ocupar exatamente

59
2x3=6 linhas. O programa automaticamente calcula o nmero de sujeitos pelo nmero de
combinaes de nveis e o nmero total de linhas.

Valores ausentes: linhas com valores ausentes so deletadas.

Kruskal-Wallis
O teste de Kruskal-Wallis uma ANOVA no-paramtrica, que compara as mdias de
uma srie de grupos univariados (fornecidos em colunas). Pode ser considerado uma
extenso do teste de Mann-Whitney para vrios grupos (Zar 1996). No assume
distribuio normal, mas assume que todos os grupos tenham a mesma distribuio. A
hiptese nula
H0: As amostras foram tomadas de populaes com medianas iguais.

A estatstica de teste H calculada da seguinte maneira:


12 Tg
2

H= 3(n + 1)
n(n + 1) g n g
sendo ng o nmero de elementos no grupo g, n o nmero total de elementos, e Tg a soma
de ranks no grupo g.
A estatstica de teste Hc ajustada para valores repetidos (ties):
H
Hc =
i f i 3 f i
1
n3 n
onde fi o nmero de elementos no grupo i de elementos repetidos.
Sendo G o nmero de grupos, o valor de p aproximado a partir de Hc por meio da
distribuio de qui-quadrado com G-1 graus de liberdade. A preciso dessa aproximao
menor se algum ng<5.

Testes par-a-par post-hoc (Post-hoc pairwise tests)


Valores de p de testes par-a-par de Mann-Whtney so fornecidos para todos os Np=G(G-
1)/2 pares de grupos, no tringulo superior direito da matriz. O tringulo inferior

60
esquerdo fornece os valores de p correspondentes, mas multiplicados por Np como uma
correo conservativa para testes mltiplos (correo de Bonferroni). Os valores usam a
aproximao assimpttica descrita para Mann-Whitney. Caso as amostras sejam muito
pequenas, pode ser til usar o teste exato disponvel em Mann-Whitney no lugar destas
comparaes.

Dados ausentes: suporte por deleo.

Referncia
Zar, J. H. 1996. Biostatistical analysis. 3a ed. Prentice Hall.

Teste de Friedman (Friedman test)


O teste de Friedman um teste no-paramtrico para igualdade de mdias em uma srie
de grupos univariados com medidas repetidas. Pode ser considerado uma verso no-
paramtrica da ANOVA de medidas repetidas (repeated-measures ANOVA) ou a verso
para medidas repetidas do teste de Kruskal-Wallis. Os grupos (tratamentos) so dados em
colunas, e os sujeitos em linhas.
O teste de Friedman feito de acordo com Bortz et al. (2000). A estatstica de teste
bsica
k
12
2 =
nk (k + 1) j =1
T j2 3n(k + 1) ,

sendo n o nmero de linhas, k o nmero de colunas e Tj as somatrias das colunas da


tabela de dados.
O valor de 2 ento corrigido para valores repetidos (caso existam):
2 2
=
tie m
1
1 2
nk (k 1) i =1
(t i3 t i )

sendo m o nmero total de grupos de valores repetidos e ti o nmero de valores em cada


grupo de valores repetidos.
Para k=2 recomendado usar um dos testes pareados (e.g. testes de sinal ou de
Wilcoxon) ao invs do teste de Friedman. Para conjuntos de dados pequenos com k=3 e
n<10 ou k=4 e n<8, o valor de 2 com correo para valores repetidos encontrado em
um tabela de valores exatos de p. Quando disponvel, o valor de p prefervel.
O valor assimpttico de p (usando a distribuio de 2 com k-1 graus de liberdade)
razoavelmente precisa para conjuntos grandes de dados. Ela calculada a partir de uma
verso de 2 com correo para continuidade:
k 2
n(k + 1)
S = T j
j =1 2
12n(k 1)( S 1)
2 = 2 3
n (k k ) + 24
Este valor de 2 tambm corrigido para valores agrupados usando a equao acima.

61
Os testes post hoc so simplesmente comparaes par-a-par de Wilcoxon, exatos para
n<20 e assimptticos para n>=20. Estes testes tm poder maior do que o teste de
Friedman.

No h suporte para valores ausentes.

Referncia
Bortz, J., Lienert, G.A. & Boehnke, K. 2000. Verteilungsfreie Methoden in der Biostatistik. 2nd
ed. Springer.

ANCOVA unifatorial (One-way ANCOVA)


Testes de ANCOVA (anlise de covarincias) para igualdade de mdias de uma srie de
grupos univariados com ajuste para covarincia com outra varivel. ANCOVA pode ser
comparada a ANOVA, mas tem a caracterstica adicional de que, para cada grupo,
removida a varincia que pode ser explicada por uma covarivel de rudo (x). Este
ajuste pode aumentar substancialmente o poder do teste.
O programa espera dois ou mais pares de colunas, sendo cada para (grupo) um conjunto
de dados correlacionados x-y (mdias so comparados para y, sendo x a covarivel). O
exemplo abaixo usa trs pares (grupos).

O programa apresenta um grfico de disperso e linhas de regresso linear para todos os


grupos. A tabela de resumo, parecida com a tabela da ANOVA, contm soma-de-
quadrados (sum-of-squares) etc., para as mdias ajustadas (efeito entre-grupos) e para o
erro ajustado (intra-grupo within-groups), juntamente com um teste F para as mdias
ajustadas. Um teste F para e igualdade das inclinaes da regresso (como assumido pela
ANCOVA) tambm fornecido. No exemplo, a igualdade das mdias ajustadas nos trs
grupos pode ser rejeitada com p<0.005. Igualdade das inclinaes no pode ser rejeitada
(p=0.21).

62
View groups (Ver grupos) fornece as estatsticas de resumo para cada grupo (mdia,
mdia ajustada e inclinao da regresso).
Premissas incluem inclinaes de regresso (regression slopes) similares em todos os
grupos, distribuies normais, varincia similar e tamanhos amostrais similares.

Dados ausentes: pares x-y com x ou y ausente so descartados.

Estatsticas de sequncia gentica (Genetic sequence stats)


Um nmero de estatsticas simples de dados de sequncia gentica (DNA ou RNA). O
mdulo espera um nmero de linhas, cada uma com uma sequncia. Espera-se que as
sequncias estejam alinhadas e tenham o mesmo comprimento, inclundo vazios (gaps)
(codificados por ?). Algumas destas estatsticas so teis para selecionar medidas de
distncia apropriadas em outros mdulos do PAST.

Comprimento total O comprimento total, incluindo gaps, de uma sequncia


Total length
Gap mdio Average gap O nmero mdio de posies com gaps em todas as
sequncias
Mdia de (Average) A, O nmero mdio de posies contendo cada um dos
T/U, C, G nucleotdeos.
d de Jukes-Cantor mdia A distncia d de Jukes-Cantor entre duas sequncia, sendo
Average Jukes-Cantor d feita a mdia entre todos os pares de sequncias. d = -3ln(1-
4p/3)/4, sendo p a distncia p.
d de Jukes-Cantor A distncia de Jukes-Cantor mxima entre quaisquer duas
mxima Maximal sequncias

63
Jukes-Cantor d
Mdia de transies (P) Nmero mdio de transies (ag, ct, ou seja, dentro de
Average transitions (P) purinas ou pirimidinas)
Transverses mdias (Q) Nmero mdio de transverses (at, ac, cg, tg, ou
Average transversions seja, purina para pirimidina ou pirimidina para purina)
(Q)
R=P/Q A relao transies/transverses

Dados ausentes: Tratados como gaps.

Anlise de sobrevivncia (curvas de Kaplan-Meier, teste log-rank etc)


(Survival analysis (Kaplan-Meier curves, log-rank test etc.)
Anlise de sobrevivncia para dois grupos (tratamentos) com proviso para censura
direita (with provision for right censoring). O mdulo desenha curvas de sobrevivncias
de Kaplan-Meier para os dois grupos e calcula trs testes distintos de equivalncia entre
as curvas. O programa espera quatro colunas. A primeira coluna contm tempos at falha
(morte) ou censura (tempo at o qual a falha no foi observada) para o primeiro grupo, a
segunda coluna indica falha (1) ou censura (0) para os indivduos correspondentes. As
duas ltimas colunas contm dados para o segundo grupo. Tempos at falha devem ser
maiores do que zero.
O programa tambm aceita um nico tratamento (fornecido em duas colunas), ou mais de
dois tratamentos em pares de colunas consecutivos, plotando uma ou vrias curvas de
Kaplan-Meier. Os testes estatsticos, no entanto, comparam apenas os dois primeiros
grupos.

As curvas de Kaplan-Meier e os testes de log-rank, Wilcoxon e Tarone-Ware so


calculados de acordo com Kleinbaum & Klein (2005).

64
Tempo mdio at falha inclui os dados censurados. Risco (hazard) mdio o nmero de
falhas dividido pela soma dos tempos at falha ou censura.
O teste log-rank calculado por qui-quadrado no segundo grupo:
2

(m2 j e2 j )
(O2 E2 ) 2
2
= = j
var(O2 E2 n1 j n2 j (m1 j + m2 j )(n1 j + n2 j m1 j m2 j )

j (n1 j + n2 j )2 (n1 j + n2 j 1)
Aqui, nij o nmero de indivduos sob risco, e mij o nmero de falhas, no grupo i no
tempo de falha j. O nmero esperado de falhas no grupo 2 no tempo de falha j
n2 j (m1 j + m2 j )
e2 j .
n1 j + n2 j
O qui-quadrado tem um grau de liberdade.
Os testes de Wilcoxon e Tarone-Ware so verses ponderadas do teste log-rank, nos
quais os termos nas frmulas de soma para O2-E2 e var(O2-E2) recebem pesos de nj e nj,
respectivamente. Estes testes, portanto, do mais peso a tempos curtos de falha (early
failure times). Eles no so de uso comum se comparados ao teste log-rank.
Este mdulo no estritamente necessrio para anlise de sobrevivncia sem censura
direita o teste de Mann-Whitney pode ser suficiente para este caso mais simples.

Dados ausentes: Pontos de dados com valores ausentes em uma ou ambas as colunas so
desconsiderados.

Referncia
Kleinbaum, D.G. & Klein, M. 2005. Survival analysis: a self-learning text. Springer.

Riscos / probabilidades (Risks / odds)


Este mdulo compara as contagens de um resultado binrio sujeito a dois tratamentos
distintos, com estatsticas que so de uso comum na medicina. Os dados so inseridos em
uma tabela 2x2, com tratamento em linhas e contagens dos diferentes resultados
(outcomes) em colunas.
O exemplo abaixo mostra os resultados de um teste de vacinao em 460 pacientes:
Contraiu influenza No contraiu influenza
Vacina 20 220
Placebo 80 140

No geral, os dados apresentam o seguinte formato:

Resultado 1 Resultado 2
Tratamento 1 d1 h1
Tratamento 2 d0 h0
Sejam n1=d1+h1, n0=d0+h0 e p1=d1/n1, p0=d0/n0. A estatsticas so ento calculadas da
seguinte maneira:

65
Diferena de risco (Risk difference): RD=p1-p0
Intervalo de confiana de 95% para a diferena de risco (qui-quadrado de Pearson):
p1 (1 p1 ) p 0 (1 p 0 )
se = +
n1 n0
Intervalo: RD 1.96 se at RD + 1.96 se.

Teste Z da diferena de risco (bicaudal):


RD
z=
se
Razo de risco (Risk ratio): RR = p1 / p0
Intervalo de confiana de 95% da razo de risco (mtodo delta):
1 1 1 1
se (ln RR) = +
d1 n1 d 0 n0
EF = e1.96 se
Intervalo: RR/EF at RR x EF.
Teste Z da razo de risco (bicaudal):
ln RR
z=
se
d1 / h1
Razo de probabilidades (Odds ratio): OR =
d 0 / h0
Intervalo de confiana de 95% da razo de probabilidades (frmula de Woolf):
1 1 1 1
se (ln OR) = + + +
d1 h1 d 0 h0
EF = e1.96 se
Intervalo: OR / EF at OR x EF.

Repare que atualmente no h correo para continuidade.

Dados ausentes no so permitidos e resultam em mensagem de erro.

Combinar erros (Combine errors)


Um mdulo simples para produzir uma mdia ponderada e seu desvio padro a partir de
uma srie de medidas com erros (um sigma). Espera duas colunas: os dados x e seus erros
um-sigma (one-sigma errors) . A soma das distribuies gaussianas individuais tambm

66
plotada.

A mdia ponderada e seu desvio padro so calculados por


i xi / i2 1
= = .
1 / i
i
2
1 / i2
i

Este o estimador de mxima verossimilhana para a mdia, assumindo que todas as


distribuies individuais so normais com a mesma mdia.

Dados ausentes: Linhas com dados ausentes em uma ou ambas as colunas so deletadas.

67
Multivar menu (Multivariada)
Componentes principais (Principal components)
Anlise de componentes principais (Principal componentes analysis PCA) encontra
variveis hipotticas (componentes) que agregam o mximo possvel da varincia
presente nos seus dados multivariados (Davis 1986, Harper 1999). Estas novas variveis
so combinaes lineares das variveis originais. A PCA pode ser usada para reduzir o
conjunto de dados a apenas duas variveis (os dois primeiros componentes) para fazer
grficos. Tambm pode ser hipotetizado que os componentes mais importantes estejam
correlacionados com outras variveis. Para dados morfolgicos, pode ser o tamanho,
enquanto para dados ecolgicos pode ser um gradiente fsico (e.g. temperatura ou
profundidade). Bruton & Owen (1988) descrevem uma aplicao tpica de PCA para
dados morfomtricos.
O input (entrada) uma matriz de dados multivariados, com itens nas linhas e variveis
nas colunas. No feita centragem (centering) separada dos grupos antes da anlise
portanto, grupos no so levados em conta.
A rotina PCA encontra os autovalores (eigenvalues) e os autovetores (eigenvectors) da
matriz de varincia-covarincia ou da matriz de correlao. Use var-covar se todas as
variveis so medidas nas mesmas unidades (e.g. centmetros). Use correlao (var-covar
normalizada) se as variveis so medidas em unidades diferentes; isso implica normalizar
todas as variveis, dividindo-as por seus desvios padres. Os autovalores fornecem uma
medida da varincia que legava em conta por cada autovalor (componente)
correspondente. As porcentagens da varincia levada em conta por estes componentes
tambm fornecida. Se a maior parte da varincia for levada em conta pelos dois
primeiros componentes, a anlise foi um sucesso, mas se a varincia estiver distribuda de
forma mais ou menos uniforme entre os componentes, a PCA foi, de um certo modo,
pouco bem-sucedida.
Grupos: se grupos forem especificados por cores de linhas, a PCA pode ser
opcionalmente feita dentro-de-grupos ou entre-grupos (within-group ou between-group).
Na PCA dentro-de-grupos, a mdia de cada grupo subtrada antes da auto-anlise
(eigenanalysis), essencialmente removendo as diferenas entre os grupos. Na PCA entre-
grupos, a auto-anlise feita sobre as mdias dos grupos (ou seja, os itens analisados so
os grupos, no as linhas). Para a anlise tanto dentro-de-grupo quanto entre-grupos, os
escores (scores) da PCA so computados usando produtos vetoriais com os dados
originais.
No exemplo abaixo (pontos de referncia de crnios de gorilas), o componente 1 forte,
explicando 45.9% da varincia. Os intervalos de confiana por bootstrap no so
mostrados a no ser que o valor de Boot N seja diferente de zero.

68
O valor de ponto-de-corte de Jolliffe (Jolliffe cut-off value) pode indicar o nmero de
componentes principais significativos (Jolliffe, 1986). Componentes com autovalores
menores do que este valor podem ser considerados insignificantes, mas no deve ser
colocado muito peso neste critrio.
Bootstrap por linhas (row-wise bootsrapping) reaizado se um nmero positivo de
rplicas por bootstrap (e.g. 1000) for fornecido na caixa Boot N. Os componentes
bootstrapados so reordenados e revertidos de acordo com Peres-Neto et al. (2003) para
aumentar a correspondncia com os eixos originais. So fornecidos intervalos de
confiana de 95% por bootstrap para os autovalores.
O Scree plot (grfico simples de autovalores) tambm pode indicar o nmero de
componentes significativos. Depois que esta curva comea a se endireitar, os
componentes podem ser considerados como insignificantes. Intervalos de confiana de
95% so mostrados caso tenha sido feito bootstrap. Os autovalores esperados em um
modelo aleatrio (Broken Stick) podem ser plotados opcionalmente autovalores debaixo
desta curva podem indicar componentes no-significativos (Jackson 1993).

69
No exemplo dos gorilas acima, os autovalores dos 16 componentes (linha azul) ficam
acima dos valores do model broken stick (linha vermelha tracejada) para os primeiros
dois componentes, embora o modelo broken stick esteja dentro do intervalo de 95% do
segundo componente.
A opo View scatter (Ver disperso) mostra todos os pontos de dados (linhas)
plotados no sitema de coordenadas dado por dois dos componentes. Caso voc tenha
linhas coloridas (agrupadas), os grupos sero mostrados com smbolos e cores diferentes.
A rvore de Menor Percurso (Minimal Spanning Tree) o conjunto mais curto possvel
de linhas conectando todos os pontos. Ela pode ser usado como auxlio visual para
agrupar pontos prximos. A MST baseada em medida de distncia Euclideana dos
pontos originais, e tem mais significado quanto todos os pontos usam a mesma unidade.
A opo Biplot mostra uma projeo dos eixos originais (variveis) no grfico de
disperso. Essa outra visualizao dos pesos (loadings) ou coeficientes da PCA - veja
abaixo.
Se a opo Eigenval scale (Escala de autovalor) for selecionada, os pontos de dados
sofrero um reajuste de escala de 1 d k , e os autovetores do biplot de d k - este o
biplot de correlao de Legendre & Legendre (1998). Se esta opo no for selecionada,
os pontos de dados no sofrem reajuste de escala, enquanto os autovetores do biplot so
normalizados para terem o mesmo comprimento (no unitrio, por motivos grficos)
este o biplot de distncia.

70
A opo View loadings (Ver pesos) mostra at que grau as variveis originais
(mostradas na ordem original ao longo do eixo x) entram nos diferentes componentes
(como escolhido no menu de botes ao lado). Os pesos dos componentes so importantes
para tentar interpretar o significado dos componentes. A opo Coeficientes
(Coefficients) fornece os coeficientes dos componentes principais, enquanto a opo
Correlao (Correlation) fornece a correlao entre a varivel e os escores dos
componentes principais. Caso tenha sido feito bootstrap, intervalos de confiana de 95%
so mostrados (apenas na opo Coeficientes).

A opo SVD fora o algoritmo superior de Decomposio em Valores Singulares


(Singular Value Decomposition) no lugar da autoanlise clssica. Os dois algoritmos
normalmente do resultados praticamente idnticos, mas os eixos podem ser invertidos.

71
A opo Shape deform (Deformar forma) foi delineada para dados de posio de
pontos de referncia em 2D. O grfico padro da Deformao de Forma um grfico-
pirulito (lollipop plot), com a forma mdia mostrada como pontos e vetores (linhas)
apontando nas direes dos pesos dos eixos. A opo Grid (Grade) mostra as grades
de deformao suave de placa fina (thin-plate spline deformation grids) correspondentes
aos diferentes componentes. Este , na prtica, uma anlise de deformaes relativas
(relative warps), incluindo o componente uniforme. Para deformaes relativas sem o
componentes uniforme, veja Relative warps no menu Geometry.

possvel lidar com dados ausentes por um de trs mtodos:


1. Imputao do valor mdio (Mean value imputation): Valores ausentes so
substitudos pelas mdias das suas colunas. No recomendado.
2. Imputao interativa (Iterative imputation): Valores ausentes so inicialmente
substitudos pelas mdias das suas colunas. Uma primeira rodada de PCA ento
usada para calcular valores de regresso para dados ausentes. O procedimento
iterado at que hava convergncia. Este normalmente o mtodo indicado, mas
pode causar uma certa superestimativa da fora dos componentes (veja Ilin &
Raiko 2010).
3. Deleo par-a-par (Pairwise deletion): Deleo par-a-par na matriz de var/covar
ou de correlao. Pode funcionar quando o nmero de valores ausentes for
pequeno. Esta opo ir forar o mtodo de decomposio em autovalores (i.e.
no SVD).
Referncias
Bruton, D.L. & A.W. Owen. 1988. The Norwegian Upper Ordovician illaenid trilobites. Norsk
Geologisk Tidsskrift 68:241-258.
Davis, J.C. 1986. Statistics and Data Analysis in Geology. John Wiley & Sons.
Harper, D.A.T. (ed.). 1999. Numerical Palaeobiology. John Wiley & Sons.
Ilin, A. & T. Raiko. 2010. Practical approaches to Principal Component Analysis in the presence
of missing values. Journal of Machine Learning Research 11:1957-2000.
Jackson, D.A. 1993. Stopping rules in principal components analysis: a comparison of heuristical
and statistical approaches. Ecology 74:2204-2214.
Jolliffe, I.T. 1986. Principal Component Analysis. Springer-Verlag.
Peres-Neto, P.R., D.A. Jackson & K.M. Somers. 2003. Giving meaningful interpretation to
ordination axes: assessing loading significance in principal component analysis. Ecology
84:2347-2363.

72
Coordenadas principais (Principal coordinates)
A anlise de coordenadas principais (Principal coordinates analysis PCO) outro
mtodo de ordenao, tambm conhecido como Escalonamento Multidimensional
Mtrico (Metric Multidimensional Scaling). O algoritmo de acordo com Davis (1986).

A rotina PCO encontra os autovalores e autovetores de uma matriz contendo as distncias


ou similaridades entre todos os pontos de dados. A medidade de Gower normalmente ser
usada ao invs de distncia Euclideana, o que d resultados similares PCA. Onze
medidas adicionais de distncia so disponveis estas so explicadas em Anlise de
Agrupamento (Cluster Analysis). Os autovalores, que fornecem uma medida da varincia
que levada em conta pelos autovetores (coordenadas) correspondentes, so fornecidos
para as primeiro coordenadas mais importantes (ou menores casa haja menos do que
quatro pontos de dados). As porcentagens da varincia que cada um destas coordenadas
leva em conta tambm so fornecidas.
Os valores de similaridade/distncia so elevados potncia de c (o Exponente de
transformao) antes da autoanlise (eigenanalysis). O valor padro c=2. Valores mais
elevados (4 ou 6) podem dimuir o efeito ferradura (Podani & Miklos 2002).
A opo View scatter (Ver disperso) permite ver todos os pontos de dados (linhas)
plotados no sistema de coordenadas dado pela PCO. Caso haja linhas coloridas
(agrupadas), os diferentes grupos sero mostrados com diferentes smbolos e cores. A
opo Eigenvalue scaling (Escalonamento de autovalores) muda a escala de cada
eixo usando a raiz quadrada do autovalor (recomendado). A opo de rvore de menor
percurso (minimal spanning tree) baseada no ndice de distncia ou similaridade
escolhido no espao original.
H suporte para dados ausentes por deleo par-a-par (no para ndices de Raup-Crick,
Rho ou definido pelo usurio).
Referncias
Davis, J.C. 1986. Statistics and Data Analysis in Geology. John Wiley & Sons.
Podani, J. & I. Miklos. 2002. Resemblance coefficients and the horseshoe effect in principal

73
coordinates analysis. Ecology 83:3331-3343.

Escalonamento multidimensional no-mtrico (Non-metric MDS)


Escalonamento multidimensional no-mtrico (Non-metric multidimensional scaling
NMDS) baseado em uma matriz de distncia calculada com qualquer uma das 21
medidas de distncia com suporte no Past, como explicado em ndices de Similaridade e
Distncia acima. O algoritmo ento tenta colocar os pontos de dados num sistema bi- ou
tri-dimensional de coordenadas de tal modo que as diferenas ranqueadas sejam
preservas. Por exemplo, se a distncia original entre os pontos 4 e 7 a nona maior de
todas as distncia entre quaisquer dois pontos, pontos 4 e 7 sero idealmente colocados
de tal modo que a distncia Euclideana entre eles no plano 2D ou no espao 3D continua
sendo a nona maior. Escalonamento multidimensional no-mtrico no leva em conta
distncias absolutas.

O programa pode convergir em uma soluo diferente em cada rodada, dependendo das
condies iniciais aleatrias. Cada rodada na verdade uma sequncia de 11 testes, dos
quais escolhido o teste com o menor stress. Um destes testes usa o PCO como condio
inicial, mas isso raramente d a melhor soluo. A soluo automaticamente
rotacionada para os eixos principais (2D e 3D).
O algoritmo implementado no Past, que parece funcionar muito bem, baseado em uma
nova abordagem desenvolvida por Taguchi & Oono (no prelo).
A rvore de menor percurso baseada no ndice de similaridade ou distncia, escolhido
no espao original.
Variveis ambientais (Environmental variables): possvel incluir uma ou mais colunas
iniciais contendo variveis ambientais adicionais para a anlise. Estas variveis no so
includas na ordenao. Os coeficientes de correlao entre cada varivel ambiental e os
escolres do NMDS so apresentados como vetores partindo da origem. O comprimento
dos vetores ajustado a uma escala arbitrria para tornar o biplot visvel, de modo que
apenas suas direes e comprimentos relativos devem ser considerados.

74
Grfico de Shepard (Shepard plot): Este grfico de ranks obtidos versus observados
(alvo) indica a qualidade do resultado. Idealmente, todos os pontos devem ser colocados
em uma linha reta ascendente (x=y). Os valores de R2 so os coeficientes de determinao
entre as distncias ao longo de cada eixo da ordenao e as distncia originais (talvez um
valor sem muito significado, mas ele relatado por outros programas de NMDS e,
portanto, includo tambm no Past).
Dados ausentes: suporte por deleo par-a-par (no para ndices de Raup-Crick, Rho e
definido pelo usurio). Para variveis ambientais, valores ausentes no so includos no
clculo das correlaes.

Anlise de correspondncia (Correspondence analysis)


A anlise de correspondncia (Correspondence analysis CA) mais um mtodo de
ordenao, de certo modo similar PCA, mas para dados de contagem. Para comparar
associaes (colunas) contendo contagens de txons, ou contagens de txons (linhas)
entre associaes, a CA o algoritmo mais apropriado. Alm disso, a CA mais
apropriada se voc espera que as espcies tenham respostas unimodais aos parmetros
subjacentes, ou seja, que elas sejam favorecidas por uma certa faixa de valores do
parmetro, se tornando mais raras para valores mais baixos ou mais altos (em contraste
com a PCA, que assume uma resposta linear).
A rotina da CA encontra os autovalores e autovetores de uma matriz contendo as
distncias de qui-quadrado entre todas as linhas (ou colunas, se for mais eficiente o
resultado o mesmo). O autovalor, fornecendo uma medidade da similaridade que
levada em conta pelo autovetor correspondente, dado para cada autovetor. As
porcentagens de similaridade que so explicadas por estes componentes tambm so
fornecidas.
A opo Ver disperso (View scatter) permite ver todos os pontos de dados (linhas)
plotados no sistema de coordenadas dado pela CA. Caso haja linhas coloridas
(agrupadas), os diferentes grupos sero mostrados usando diferentes smbolos e cores.
Adicionalmente, as variveis (colunas, ou associaes) podem ser plotadas no mesmo
sitema de coordenadas (mode Q), incluindo opcionalmente os nomes das colunas. Se o
seus dados forem bem-comportados, txons tpicos de uma associao devero
aparecer prximos quela associao no grfico.
O PAST atualmente usa escalonamento assimtrico (Benzecri scaling).
Caso haja mais de duas colunas no conjunto de dados, possvel ver um grfico de
disperso dos eixos dois e trs.
Relay plot: um diagrama composto com um grfico por coluna. Os grficos so
ordenados de acordo com os escores das colunas da CA. Cada ponto de dados plotado
com os escores das linhas do primeiro eixo da CA no eixo vertical, e o ponto de dados
original (abundncia) na coluna correspondente no eixo horiontal. Isso pode ser mais til
quando as amostras esto em linhas e os txons em colunas. O relay plot ento ir
mostrar os txons ordenados de acordo com suas posies ao longo dos gradientes, e para
cada txon, o grfico correspondente deve idealmente mostrar um pico unimodal,
parcialmente sobreposto ao pico do prximo txon ao longo do gradiente (ver Hennebert
& Lees 1991 para um exemplo da sedimentologia).
Dados ausentes: suporte por substituio pela mdia da coluna.

75
Referncias
Hennebert, M. & A. Lees. 1991. Environmental gradients in carbonate sediments and rocks
detected by correspondence analysis: examples from the Recent of Norway and the Dinantian of
southwest England. Sedimentology 38:623-642.

Anlise de correspondncia destendenciada (Detrended correspondence


analysis)
O mdulo Correspondncia Destendciada (Detrended Correspondence DCA) usa o
mesmo algoritmo que Decorana (Hill & Gauch 1980), com modificaes de acordo com
Oxanen & Minchin (1997). especializado para ser usado em conjuntos de dados
ecolgicos com dados de abundncia; amostras em linhas, txons em colunas (vice-
versa antes da v. 1.79). Quando a opo Detrending (Destendenciamento)
desligada, uma anlise por Mdia Recproca (Reciprocal Averaging) bsica ser feita. O
resultado, ento, deve ser similar Anlise de Correspondncia (ver acima).

Autovalores para os trs primeiros eixos da ordenao so fornecidos como na CA,


indicando sua importncia relativa na explicao do espalhamento dos dados.
Destendenciamento uma espcie de procedimento de normalizao em dois passos. O
primeiro passo envolve uma tentativa de endireitar pontos que distribudos em arco, um
acontecimento comum. O segundo passo envovle espalhar os pontos de modo a evitar
agrupamento de pontos nas bordas do grfico. Destendenciamento pode parecer um
procedimento arbitrrio, mas pode ser um auxlio til interpretao.
Dados ausentes: suporte por substituio pela mdia da coluna.
Referncias
Hill, M.O. & H.G. Gauch Jr. 1980. Detrended Correspondence analysis: an improved ordination
technique. Vegetatio 42:47-58.

76
Oxanen, J. & P.R. Minchin. 1997. Instability of ordination results under changes in input data
order:explanations and remedies. Journal of Vegetation Science 8:447-454.

Correspondncia cannica (Canonical correspondence)


Anlise de Correspondncia Cannica (Canonical Correspondence Analysis CCA;
Legendre & Legendre 1998) a anlise de correspondncia de uma matriz stio/espcie,
onde cada stio tem valores correspondentes de uma ou mais variveis ambientais
(temperatura, profundidade, tamanho de gros etc). Os eixos da ordenao so
combinaes lineares das variveis ambientais. CCA , portanto, um exemplo de anlise
direta de gradiente, onde o gradiente conhecido a priori e as abundncias (ou
presenas/ausncias) das espcies so consideradas como sendo uma resposta ao
gradiente.
Cada stio deve ocupar uma linha na planilha. As variveis ambientias devem ser
inseridas nas primeiras colunas, seguidas pelos dados de abundncia (o programa ir
perguntar o nmero de variveis ambientais).

A implementao no PAST segue o algoritmo de autoanlise (eigenanalysis) fornecido


por Legendre & Legendre (1998). As ordenaes so dadaos como escores dos stios
escores ajustados de stios atualmente no so disponveis. Ambos os escalonamentos
(scalings) (tipos 1 e 2) de Legendre & Legendre (1998) esto disponveis. Escalonamento
2 enfatiza as relaes entre espcies.
Valores ausentes: suporte por substituio pela mdia da coluna.
Referncia
Legendre, P. & L. Legendre. 1998. Numerical Ecology, 2nd English ed. Elsevier, 853 pp.

77
Anlise de fator CABFAC (CABFAC factor analysis)
Este mdulo implementa o mtodo clssico de Imbrie & Kipp (1971) de anlise de
fatores e regresso ambiental (CABFAC e REGRESS, veja tambm Klovan & Imbrie
1971).
O programa pergunta se a primeira coluna contm dados ambientais. Caso no contenha,
uma anlise simples de fator com rotao Varimax ser calculada em dados normalizados
por linha.
Se dados ambientais forem includos, ser feita uma regresso dos fatores pelas variveis
ambientais usando o mtodo de segunda ordem (parablico) de Imbrie & Kipp, com
termos cruzados. O PAST ento relata a regresso RMA dos valores ambientais originais
contra valores reconstrudos da funo de transferncias. Mtodos diferentes de validao
cruzada (deixe-um-fora e k-vezes leave-one-out e k-fold) so disponveis. Voc tambm
pode salvar a funo de transferncia como um arquivo de texto que pode ser usado
posteriormente para reconstruo do paleoambiente (ver abaixo). O arquivo contm:
Nmero de txons
Nmero de fatores
Escores de fatores para cada txon
Nmero de coeficientes de regresso
Coeficientes de regresso (termos de segunda e primeira ordem, e intercepto)
Valores ausentes: suporte por substituio pela mdia da coluna.
Referncias
Imbrie, J. & N.G. Kipp. 1971. A new micropaleontological method for quantitative
paleoclimatology: Application to a late Pleistocene Caribbean core. In: The Late Cenozoic
Glacial Ages, edited by K.K.
Turekian, pp. 71-181, Yale Univ. Press, New Haven, CT.
Klovan, J.E. & J. Imbrie. 1971. An algorithm and FORTRAN-IV program for large scale Q-mode
factor analysis and calculation of factor scores. Mathematical Geology 3:61-77.

Mnimos quadrados parciais de dois blocos (Two-block PLS)


Mnimos qudrados parciais (partial least squares PLS) de dois blocos podem ser vistos
como um mtodo de ordenao comparvel com a PCA, mas o objetivo maximizar a
covarincia entre dois cojuntos de variveis na mesma linha (espcies, stios). Por
exemplo, dados morfomtricos e ambientias coletados para os mesmos espcimes podem
ser ordenados para estudar a covariao entre os dois.
O programa ir perguntar o nmero de colunas que pertencem ao primeiro bloco. As
colunas restantes sero atribudas ao segundo bloco. H opo para plotar escores PLS
dentro e entre blocos, assim como pesos (loadings) PLS.
O algoritmo segue Rohlf & Corti (2000). Testes de permutao e biplots ainda no esto
implementados.
Particione a matriz de dados nxp Y em Y1 e Y2 (os dois blocos), com p1 e p2 colunas. A
matriz de correlao ou covarinica R de Y pode ento ser parcionada como
R R 12
R = 11
R 21 R 22

78
O algoritmo procede por decomposio em valores singulares (singular value
decomposition) da matriz R12 de correlaes entre os blocos:
R 12 = F1 DF2t .
A matriz D contm os valores singulares i ao longo da diagonal. F1 contm os pesos do
bloco 1, e F2 contm os pesos do bloco 2 (cf. PCA).
O Squared covar % (Quadrado da covar %) uma medida do quadrado da
covarincia geral entre os dois conjuntos de variveis, em porcentagem relativa ao
mximo possvel (todas as correlaes iguais a 1) (Rohlf & Corti p. 741). As % covar
dos eixos so as quantidades de varincia que so explicadas para cada eixo da PLS, em
2i
porcentagem da covarincia total. Eles so calculados como 100 .
i2
Dados ausentes: suporte por substituio pela mdia da coluna.

Referncia
Rohlf, F.J. & M. Corti. 2000. Use of two-block partial least squares to study covariation in shape.
Systematic Biology 49:740-753.

Seriao (Seriation)
Seriao de uma matriz de ausncia-presena (0/1) usando o algoritmo descrito por
Brower & Kile (1988). O mtodo tipicamente aplicado a uma matriz de associao com
txons (espcies) em linhas e amostras em colunas. Para seriao restrita (constrained
seriation ver abaixo), as colunas devem ser ordenadas de acordo com algum critrio,
normalmente nvel estratigrfico ou posio ao longo de um gradiente faunal presumido.

79
A rotina de seriao tenta reorganiar a matriz de dados de tal modo que as presenas
estejam concentradas ao longo da diagonal. H dois algoritmos: otimizao restrita e
irrestrita (contstrained e unconstrained). Em otimizao restrita, apenas as linhas (txons)
podem ser movimentados. Dado que as colunas estejam dispostas em uma certa ordem,
este procedimento encontra a ordem tima das linhas, ou seja, a ordem de txons que
d o grfico de amplitude mais bonito. Alm disso, no modo restrito, o programa roda
uma simulao Monte Carlo, gerando e seriando 30 matrizes aleatrias com o mesmo
nmero de ocorrncias dentro de cada txon, e compara estas matriz original para ver se
a matriz original mais informativa do que uma aleatria (este procedimento gasta muito
tempo para conjuntos grandes de dados).
No modo irrestrito, tanto as linhas quanto as colunas podem ser movidas.
Dados ausentes so tratados como ausncias.
Referncia
Brower, J.C. & K.M. Kile. 1988. Seriation of an original data matrix as applied to palaeoecology.
Lethaia 21:79-93.

Anlise de agrupamento (Cluster analysis)


A rotina de agrupamento hierrquico (hierarchical clustering) produz um dendrograma
mostrando como os pontos de dados (linhas) podem ser agrupados. Para agrupamento de
modo R, colocando peso em agrupamentos de txons, os txons devem ser colocados
em linhas. Tambm possvel encontrar agrupamentos de variveis ou associaes
(modo Q), colocando txons em colunas. A mudana entre os dois modos feita pela
transposio da matriz (no menu Edit).

80
Trs algoritmos distintos so disponveis:
Mdia de pares de grupos no ponderados (Unweighted pair-group average
UPGMA). Grupos so juntados com base na distncia mdia entre todos os
membros dos dois grupos.
Ligao simples ou vizinho mais prximo (Single linkage or nearest neighbour).
Grupos so juntados com base na menor distncia entre os dois grupos.
Mtodo de Ward (Wards method). Grupos so juntados de tal modo que o
aumento da varincia dentro-de-grupo (within-group variance) minimizado.
Um mtodo no necessariamente melhor do que outro, embora a ligao simples no
seja recomendada por alguns. Pode ser til comparar os dendrogramas produzidos por
diferentes algoritmos para verificar informalmente a robustez dos agrupamentos. Caso
um agrupamento seja modificado quando se tenta um outro algoritmo, talvez este
agrupamento no seja confivel.
Para o mtodo de Ward, uma medida de distncia Euclideana inerente ao algoritmo.
Para UPGMA e ligao simples, a matriz de distncia pode ser calculada usando 20
ndices diferentes, como descrito no menu Statistics (ndices de similaridade e distncia).

Dados ausentes: O algoritmo de anlise de agrupamento pode lidar com dados ausentes,
codificados por ponto de interrogao (?). Isso feito usando deleo par-a-par,
mostrando que quando a distncia calculada entre dois pontos, qualquer varivel que
esteja ausente ignorada no clculo. Para Raup-Crick, valores ausentes so tratados
como ausncia. Dados ausentes no tm suporte no mtodo de Ward e nem na medida de
similaridade Rho.

Agrupamento bifatorial (Two-way clustering): A opo two-way permite agrupamento


simultneo nos modos R e Q.

Agrupamento restrito estratigraficamente (Stratigraphically constrained clustering):


Essa opo permite que apenas linhas ou grupos de linhas adjacentes sejam juntadas
durante o procedimento de agrupamento. Isso pode produzir dendrogramas de aparncia
estranha (mas corretos).

Bootstrap: Se um nmero de rplicas para o bootstrap for fornecido (e.g. 100), as colunas
so sujeitas a reamostragem. Pressione Enter depois de atualizar o valor na caixa Boot
N. A porcentagem de rplicas onde cada n ainda tem suporte mostrada no
dendrograma.

Nota sobre o mtodo de Ward: o Past produz dendrogramas de Ward idnticos queles
feitos pelo Stata, mas um tanto diferentes dos produzidos pelo Statistica. A razo desta
discrepncia no conhecida.

Agrupamento de vizinho (Neighbour joining)


Agrupamento Neighbour joining (Saitou & Nei 1987) um mtodo alternativo para
anlise de agrupamento hierrquico. Este mtodo foi originalmente desenvolvido para
anlise filogentica, mas pode ser superior UPGMA tambm para dados ecolgicos.

81
Diferentemente da UPGMA, dois ramos com o mesmo n interno no precisam
necessariamente ter os mesmos comprimentos de ramo. Um filograma (dendrograma
desenraizado (unrooted) com comprimentos proporcionais de ramos) fornecido.

ndices de distncia e bootstrap so como para a outra anlise de agrupamento (ver


acima). Para fazer a anlise de bootstrap, digite um nmero de rplicas bootstrap
requeridas (e.g. 1000, 10000) na casa Boot N e aperte Enter para atualizar o valor.
Comprimentos de brao negativos so forados a zero e transferidos ao brao adjacente,
de acordo com Kuhner & Falsenstein (1994).
A rvore , por definio, enraizada no ltimo brao adicionado durante a construo da
rvore (isso no enraizamento por ponto mdio (midpoint rooting)). Opcionalmente, a
rvore pode ser enraizada na primeira linha da matriz de dados (grupo externo
outgroup).

Dados ausentes recebem suporte por deleo par-a-par.

Referncias
Saitou, N. & M. Nei. 1987. The neighbor-joining method: a new method for reconstructing
phylogenetic trees. Molecular Biology and Evolution 4:406-425.

Agrupamento por K-medias (K-means clustering)


Agrupamento por K-mdias (K-means clustering) (e.g. Bow 1984) um mtodo de
agrupamento no-hierrquico. O nmero de grupos a serem usados especificado pelo
usurio, normalmente de acordo com alguma hiptese tal como a existncia de dois
sexos, quatro regies geogrficas ou trs espcies no conjunto de dados.

82
As atribuies aos grupos incialmente so aleatrias. Em um procedimento iterativo,
tens so ento movidos ao grupo que tem a mdia de grupo mais prxima, e as mdias
dos grupos so atualizadas de acordo. Isso continua at que elementos no mais estejam
se movendo entre grupos. O resultado do agrupamento at um certo nvel dependente
da ordem aleatria inicial, e elementos podem pertencer a diferentes grupos em diferentes
rodadas da anlise. Isso no um erro, e sim comportamento normal do agrupamento por
k-mdias.
As atribuies de elementos a grupos podem ser copiados e colados dentro da planilha
principal, e cores (smbolos) correspondentes podem ser atribudos a eles usando a opo
Numbers to colors no menu Edit.
Dados ausentes: suporte por substituio pela mdia da coluna.

Referncia
Bow, S.-T. 1984. Pattern recognition. Marcel Dekker, New York.

Normalidade multivariada (Multivariate normality)


Normalidade multivariada assumida por uma srie de testes multivariados. o PAST
calcula a assimetria (skewness) e curtose (kurtosis) multivariada de Mardia, com testes
baseados em distribuies de qui-quadrado (assimetria) e normal (curtose). Um poderoso
teste omnibus (geral), de Doornik & Hansen (1994), tambm fornecido. Se ao menos
um destes testes mostrar desvios da normalidade (pequeno valor de p), a distribuio
significativamente no-normal. Tamanho amostral deve ser razoavelmente grande (>50),
embora uma tentativa de correo para tamanho amostral pequeno seja feito no teste de
assimetria.

Dados ausentes: suporte por substituio pela mdia da coluna.

83
Referncias
Doornik, J.A. & H. Hansen. 1994. An omnibus test for univariate and multivariate normality.
W4&91 in Nuffield Economics Working Papers.
Mardia, K.V. 1970. Measures of multivariate skewness and kurtosis with applications. Biometrika
36:519-530.

Discriminantes (Discriminant)/Hotelling
Dados dois conjuntos de dados multivariados, construdo um eixo que maximiza a
diferena entre os conjuntos (e.g. Davis 1986). Os dois conjuntos de dados so ento
plotados ao longo deste eixo por meio de um histograma. O mdulo espera que as linhas
dos dois conjuntos de dados sejam agrupadas em dois grupos, colorindo as linhas, e.g.
com preto (pontos) e vermelho (cruzes).
A igualdade das mdias dos dois grupos testada por um anlogo multivariado do teste t,
conhecido como T-quadrado de Hotelling (hotellings T-squared), e fornecido o valor
de p para esse teste. As variveis precisam ter distribuio normal, e pelo menos duas
vezes mais observaes do que variveis.
Nmero de restries (Number of constraints): Para calcular corretamente o valor de p, o
nmero de variveis dependentes (constraints ou restries) precisa ser especificado.
Normalmente deve ser deixado em 0, mas use 4 (para 2D) ou 6 (para 3D) no caso de
dados de pontos de referncias ajustados por Procrustes.
A anlise de discriminantes pode ser usada para confirmar ou rejeitar visualmente a
hiptese de que duas espcies so morfologicamente distintas. Usando um ponto de corte
(cutoff) de zero (o ponto mdio entre as mdias dos escores de discriminantes para os
dois grupos), uma classificao nos dois grupos mostrada na opo View numbers
(Ver nmeros). A porcentagem de itens classificados corretamente tambm mostrada.
Funo discriminante (Discriminant function): Novos espcimes podem ser classificados
de acordo com a funo discriminante. Pegue o produto interno entre as medidas do novo
espcime e os fatores da funo discriminantes fornecida e subtraia o valor de offset
fornecido.
Deixar um fora (avaliao cruzada) (Leave on out cross-evaluation): Existe a opo de
deixar fora da anlise uma linha (espcime) por vez, re-calcular a anlise de
discriminantes com os espcimes restantes, e classificar de acordo com ela a linha que foi
deixada fora (como ditado pelo valor de escore (Score)).

Dados ausentes: suporte por substituio pela mdia da coluna.

Deformao de pontos de referncia (Landmarks warps)


Esta funo deve ser usada apenas se a anlise foi feita sobre dados de pontos de
referncia em 2D. Permite uma plotagem interativa das deformaes de forma como
funo da posio ao longo do eixo discriminantes, como grficos-pirulito (lollipop-
plots) (vetores para fora das posies mdias dos pontos de referncias) ou como
deformaes suavizadas de placa fina (thin-plate spline deformations). REMOVIDO
TEMPORARIAMENTE (?) POR FALTA DE ESTABILIDADE.

Deformaes (warps) EFA

84
Esta funo deve ser usada apenas se a anlise de discriminantes foi rodada em
coeficientes calculadas pelo mdulo de Anlise Elptica de Fourier (Elliptic Fourier
Analysis). Permite uma plotagem interativa dos contornos como uma funo da posio
ao longo do eixo discriminantes. REMOVIDO TEMPORARIAMENTE (?) POR FALTA
DE ESTABILIDADE.

Referncia
Davis, J.C. 1986. Statistics and Data Analysis in Geology. John Wiley & Sons.

Hotelling pareado (Paired hotelling)


O teste pareado de Hotelling espera dois grupos de dados multivariados, marcados com
cores diferentes. As linhas de cada grupo devem ser consecutivas. A primeira linha do
primeiro grupo pareada com a primeira linha do segundo grupo, a segunda linha
pareada com a segunda, etc.

Sendo n o nmero de pares e p o nmero de variveis:


Yi = X1i X 2i
1
y= Yi
n i
1
Sy =
n 1 i
(Yi y )(Yi y ) T

T 2 = ny T S y1 y
n p 2
F= T
p (n 1)
O F tem p e n-p graus de liberdade.

85
Para n16, o programa tambm calcula um valor exato de p baseado na estatstica T2
avaliada para todas as permutaes possveis.
Dados ausentes: suporte por substituio pela mdia da coluna.

Permutao de dois grupos (Two-group permutation)


Este mdulo espera que as linhas dos dois conjuntos de dados sejam agrupadas em dois
conjuntos colorindo as linhas, e.g. com preto (pontos) e vermelho (cruzes).
Igualdade das mdias dos dois grupos testada por permutao com 2000 rplicas (pode
ser alterado pelo usurio) e a distncia de Mahalanobis elevada ao quadrado medida. O
teste de permutao uma alternativa ao teste de Hotelling quando as premissas de
distribuio com normalidade multivariada e com matrizes de covarincia iguais so
violadas.
Dados ausentes: suporte por substituio pela mdia da coluna.

M de Box (Boxs M)
Teste para equivalncia das matrizes de covarincia de duas amostras multivariadas
marcadas com cores diferentes. um teste de homoscedasticidade, como assumida pela
MANOVA. Voc pode usar duas amostras multivariadas originais, cujas matrizes de
covarincia so calculadas automaticamente, ou duas matrizes de varincia-covarincia.
No ltimo caso voc tambm deve especificar os tamanhos (nmero de indivduos) das
duas amostras.

86
A estatstica M de Box fornecida juntamente com o valor de significncia basedo em
uma aproximao por qui-quadrado. Repare que esse teste supostamente muito
sensvel. Isso significa que um valor alto de p ser um bom, embora informal, indicador
de igualdade, embora um resultado altamente significativo (baixo valor de p) pode ser,
em termos prticos, um indicador um tanto sensvel demais de desigualdade.
A estatstica calculada da seguinte maneira repare que isso igual ao -2 ln M de
alguns textos (Rencher 2002):
M = (n 2) ln S (n1 1) ln S 1 (n2 1) ln S 2 ,
onde S1 e S2 so as matries de covarincia, S a matriz de covarincia agrupada, n=n1+n2
e representa o determinante.
O teste de Monte carlo baseado em 999 permutaes aleatrias.
Dados ausentes: suporte por substituio pela mdia da coluna.
Referncia
Rencher, A.C. 2002. Methods of multivariate analysis, 2nd ed. Wiley.

MANOVA/CVA
MANOVA (ANlise De VArincia Multivariada Multivariate ANalysis Of VAriance)
unifatorial a verso multivariada da ANOVA univariada, que testa se uma srie de
amostras tm a mesma mdia. Caso voc s tenha duas amostras, o teste de T2 de
Hotelling de duas amostras pode ser usado no lugar.

87
Duas estatsticas so fornecidas: lambda de Wilk com seu valor associado F de Rao, e o
trao de Pillai (Pillai trace) com seu F aproximado. O lambda de Wilk provavelmente
mais comumente usado, mas o trao de Pillai pode ser mais robusto.
Nmero de restries (Number of constraints): Para clculo correto dos valores de p, o
nmero de variveis dependentes (restries ou constraints) deve ser especificado.
Normalmente, deve ser deixado em 0, mas para dados de pontos de referncia
(landmarks) com ajuste de Procrustes use 4 (para 2D) ou 6 (para 3D).
Comparae par-a-par (post-hoc): Caso a MANOVA mostre diferena geral
significativa entre os grupos, a anlise pode proceder por comparaes par-a-par. No
PAST, a anlise post-hoc bem simples, feita por testes de Hotelling par-a-par. Na tabela
post-hoc, os grupos so nomeados de acordo com o nome da linha do primeiro item do
grupo. Os seguintes valores podem ser mostrados na tabela:
Valores de p de Hotelling, sem correo para testes mltiplos. Marcados em rosa
se significativos (p<0.05).
Os mesmos valores de p, mas a significncia verificada usando o esquema
sequncia de Bonferroni.
Valores de p corrigidos por Bonferroni (multiplicados pelo nmero de
comparao par-a-par). A correo de Bonferroni resulta em um poder de teste
muito baixo.
Distncias de Mahalanobis elevadas ao quadrado.

Observao:Estas comparaes par-a-par usam a matriz de covarincia intra-grupo


agrupada que abrange todos os grupos envolvidos na MANOVA. Assim, elas podem
diferir dos valores fornecidos pelos mdulos Permutao de dois grupos e

88
Discriminante, os quais agrupam apenas matrizes de covarincia dos dois grupos que
esto sendo comparados.

Dados ausentes: suporte por substituio pela mdia da coluna.

Anlise de Variveis Cannicas (Canonical Variates Analysis)


Uma opo em MANOVA, CVA, produz um grfico de disperso dos espcimes ao
longo dos dois primeiros eixos cannicos, produzindo a separao mxima e segunda
mxima entre todos os grupos (anlise de discriminantes para grupos mltiplos). Os eixos
so combinaes lineares das variveis originais como na PCA, e os autovalores
(eigenvalues) indicam a quantidade de variao que explicada pelos eixos.

Classificador (Classifier)
Classifica os dados, atribuindo cada ponto ao grupo que resulta na menor distncia de
Mahalanobis at a mdia do grupo. A distncia de Mahalanobis calculada a partir da
matriz de covarincia intra-grupo agrupada, fornecendo um classificador discriminante
linear. Os grupos a quais os dados pertencem e aos quais foram atribudos pela anlise
(i.e. grupos dados given e estimados estimated) so listados para cada ponto. Alm
disso, cada grupo validado por um procedimento de validao cruzada deixe-um-de-
fora (jackknife).

Matriz de confuso (Confusion matrix)


Uma tabela com o nmero de pontos de cada grupo (linhas) que so atribudos aos
diferentes grupos (colunas) pelo classificador. Idealmente, cada ponto deve ser atribudo
ao seu respectivo grupo, resultando em uma matriz de confuso diagonal. Contagens fora
da diagonal indicam o grau de falha da classificaco.

Deformaes de pontos de referncia (Landmark warps)


Esta funo s deve ser usada se anlise CVA foi feita sobre dados de pontos de
referncia 2D. Ela permite a plotagem interativa de deformaes de forma (shape
deformations) como uma funo da posio ao longo do eixo discriminante, como
grficos-pirulilo (lollipop plots) (vetores para fora da posio mdia do ponto de
referncia) ou como deformaes suavizadas de placa fina (think-plate spline
deformations).

Deformaes EFA
Esta funo s deve ser usada se a CVA foi rodada em coeficientes calculados pelo
mdulo de Anlise Elptica de Fourier. Ele permite a plotagem interativa de contornos
como funo da posio ao longo do eixo discriminante.

Detalhes computacionais da CVA

Softwares diferentes usam verses diferentes da CVA. O clculo usado pelo Past
fornecido abaixo.

89
Seja B os dados fornecidos, com n itens em linhas e k variveis em colunas, centradas nas
mdias gerais das colunas (subtraindo as mdias das colunas). Seja g o nmero de grupos,
ni o nmero de itens no grupo i. Calcule a matrix gxk das mdias ponderadas dos resduos
intra-grupo, para grupo i e varivel j
X ij = ni B ij ,
onde B ij a mdia da coluna dentro do grupo i. Calcule B2 a partir de B centrando dentro
de grupos. Agora calcule W e a matriz de covarincia intra-grupo normalizada e
agrupada Wcov:
B = B2 B 2
1
Wcov = W.
ng
e e U so os autovalores e autovetores de W; ec e Uc so os autovalores e autovetores de
Wcov. Ento,
ZZ = diag(1 / e)U XXU diag(1 / e) .
a e Aso os autovalores e autovetores de ZZ. Ns pegamos apenas os g-1 primeiros
autovetores (colunas de A), e o resto ser zero. As variveis cannicas agora so
C = U diag(1 / e c ) A .
Os escores da CVA so, ento, BC. A visualizao das deformaes de forma mostrada
ao longo de vetores BcovC.

ANOSIM unifatorial (One-way ANOSIM)


ANOSIM (ANlise De SIMilaridades ANalysis Of SIMilarities) um teste no-
paramtrico de diferena significativa entre dois ou mais grupos com base em uma
medida qualquer de distncia (Clarke 1993). As distncias so convertidas em ranks.
ANOSIM normalmente usada para dados de txons-em-amostras, onde grupos so
amostras que precisam ser comparadas. tens vo em linhas, variveis vo em colunas, e
os grupos devem ser espeficados por diferenes cores de linhas, como usual.

90
Fazendo uma analogia grosseira com a ANOVA, o teste basedo na comparao de
distncias dentro de grupos com as distncias entre grupos, seja rb o rank mdio de todas
as distncias entre grupos, e rw o rank mdio de todas as distncias dentro de grupos. A
estatstica R ento definida por
rb rw
R= .
N ( N 1) / 4
R positivos (at 1) significam dissimilaridades entre os grupos. A significncia unicaudal
calculada por permutao de amostras em grupos, com 9 999 rplicas (pode ser
alterado).
Comparaes ANOSIM par-a-par entre todos os pares de grupos so fornecidas como um
teste post-hoc. Comparaes significativas (em p<0.05) so mostradas em rosa. A
correo opcional de Bonferroni multiplica os valores de p pelo nmero de comparaes.
Esta correo muito conservadora (produz valores elevados de p). A opo sequencial
de Bonferroni (sequential Bonferroni) no mostra os valores corrigidos de p, mas a
significncia decidida com base em Bonferroni sequncia step-down, o qual tem
ligeiramente mais poder do que Bonferroni simples.
Dados ausentes: suporte por deleo (no para distncias de Raup-Crick, Rho e definida
por usurio).
Referncia
Clarke, K.R. 1993. Non-parametric multivariate analysis of changes in community structure.
Australian Journal of Ecology 18:117-143.

ANOSIM bifatorial (Two-way ANOSIM)


O ANOSIM bifatorial no Past usa o delineamento cruzado (crossed design) (Clarke
1993). Para mais informaes, ver ANOSIM unifatorial, mas repare que os grupos
(nveis) no so codificados por cores, e sim com nmeros inteiros nas primeiras duas
colunas.

91
No exemplo acima, a fauna foraminfera significativamente diferente entre as amostras
poluda e no-poluda, mas no significativa entre os substratos.
Referncia
Clarke, K.R. 1993. Non-parametric multivariate analysis of changes in community structure.
Australian Journal of Ecology 18:117-143.

NPMANOVA unifatorial (One-way NPMANOVA)


NPMANOVA (MANOVA No-Paramtrica, tambm conhecida como PERMANOVA)
um teste no-paramtrico para diferena significativa entre dois ou mais grupos, baseado
em qualquer medida de distncia (Anderson 2001). NPMANOVA normalmente usada
para dados ecolgicos de txons-em-amostras, onde grupos de amostras precisam ser
comparados, mas tambm pode ser usada como uma MANOVA no-paramtrica geral.
tens vo em linhas, variveis em colunas, e os grupos devem ser especificados por cores
de linhas, como usual.

92
NPMANOVA calcula valores de F de forma anloga ANOVA. De fato, para conjuntos
de dados univariados e com a medida de distncia Euclideana, NPMANOVA
equivalente ANOVA e d o mesmo valor de F.
A significncia calculada permutando as amostras entre grupos, com 9 999 rplicas
(pode ser alterado pelo usurio).
NPMANOVAs par-a-par entre todos os pares de grupos so fornecidas como um teste
post-hoc. Comparaes significativas (em p<0.05) so mostradas em rosa. A correo de
Bonferroni mostrada no tringulo superior da matriz multiplica os valores de p pelo
nmero de comparaes. Esta correo muito conservadora (produz valores elevados de
p).
Dados ausentes: suporte por deleo par-a-par.

Referncia
Anderson, M. J. 2001. A new method for non-parametric multivariate analysis of
variance. Austral Ecology 26:32-46.

NPMANOVA bifatorial (Two-way NPMANOVA)


A NPMANOVA bifatorial (Anderson, 2001) no PAST usa o delineamento cruzado
(crossed design). O delineamento deve ser balanceado, ou seja, cada combinao de
nveis deve ter o mesmo nmero de linhas. Para mais informaes, ver NPMANOVA
unifatorial, mas repare que grupos (nveis) no so codificados com cores, e sim com
nmeros inteiros nas duas primeiras colunas (como para ANOSIM bifatorial).

Referncia
Anderson, M. J. 2001. A new method for non-parametric multivariate analysis of
variance. Austral Ecology 26:32-46.

93
Teste de Mantel (Mantel test) e teste parcial de Mantel (partial Mantel test)
O teste de Mantel (Mantel 1967, Mantel & Valand 1970) um teste por permutao para
correlao entre duas matrizes de distncia ou similaridade. No PAST, essas matrizes
tambm podem ser calculadas automaticamente a partir de dois conjuntos de dados
originais. A primeira matriz deve ser colocada acima da segunda matriz na planilha, e as
linhas devem ser marcadas com duas cores diferentes. As duas matrizes precisam ter o
mesmo nmero de linhas. Caso sejam matrizes de distncia ou similaridade, elas tambm
precisam ter o mesmo nmero de colunas.
No exemplo abaixo, a primeira matriz consiste de dados de sequncia para quatro
espcies de Macaca e a segunda matriz contm suas coordenadas geogrficas. Os dois
conjuntos de dados parecem estar correlacionados (R=0.82), mas a significncia de
p<0.05 no atingida.

O valor de R simplesmente o coeficiente de correlao parcial de Pearson entre todos os


valores das duas matrizes (como as matrizes so simtricas, s necessrio correlacionar
os tringulos inferiores). Ele varia de -1 a +1. O teste por permutao compara o R
original com o R calculado em e.g. 5000 permutaes aleatrias. O valores de p relatado
unicaudal (one-tailed).

Teste de Mantel parcial


possvel adicionar uma terceira matriz C embaixo das matrizes A e B como descrito
acima. Esta matriz deve ser marcada como acima, e conter o mesmo nmero de linhas
que A e B. Uma terceira medida de similaridade pode ento ser escolhida para a matriz.
Caso uma terceira matriz seja includa, o programa realizar um teste de Mantel parcial

94
para a correlao entre A e B controlado por similares dadas em C (Legendre &
Legendre 1998). Apenas a matriz A permutada, e o valor de R calculado por
R ( AB) R ( AC) R (BC)
R ( AB C) =
1 R ( AC) 2 1 R (BC) 2
onde R(AB) o coeficiente de correlao entre A e B.

Referncias
Legendre, P. & L. Legendre. 1998. Numerical Ecology, 2nd English ed. Elsevier, 853 pp.
Mantel, N. 1967. The detection of disease clustering and a generalized regression
approach. Cancer Research 27:209-220.
Mantel, N. & R. S. Valand. 1970. A technique of nonparametric multivariate analysis.
Biometrics 26:547-558.

SIMPER
O SIMPER (Similarity Percentage Porcentagem de Similaridade) um mtodo simples
para verificar quais txons so os principais responsveis por uma diferena observada
entre grupos de amostras (Clarke 1993). A significncia geral da diferena
frequentemente verificada por meio de ANOSIM. A medida de similaridade de Bray-
Curtis (multiplicada por 100) a mais comumente usada no SIMPER, mas medidas
Euclideana, coseno (cosine) e chord tambm podem ser usadas.
Caso mais de dois grupos sejam selecionados, voc pode comparar dois grupos (par-a-
par) escolhendo na lista de grupos ou voc pode agrupar todas as amostras para realizar
um nico SIMPER geral para grupos mltiplos. Neste ltimo caso, todos os pares
possveis de amostras so comparados usando a medida de Bray-Curtis. A
dissimilaridade geral calculada usando todos os txons, enquanto as dissimilaridades
txon-especficas so calculadas para cada txon individualmente.

95
Amostras vo em linhas, agrupadas por cores, e txons vo em colunas. Neste exemplo,
os trs grupos (cada um com cinco amostras) so comparados. Na tabela de sada
(output), os txons so ordenados em ordem descendente de contribuio para a diferena
entre os grupos. As ltimas trs colunas mostram a abundncia mdia em cada um dos
trs grupos.
Dados ausentes: suporte por substituio pela mdia da coluna.

Referncia
Clarke, K. R. 1993. Non-parametric multivariate analysis of changes in community
structure. Australian Journal of Ecology 18:117-143.

Calibrao a partir de CABFAC (Calibration from CABFAC)


Este mdulo reconstri um (nico) parmetro ambiental a partir de dados de abundncia
de txons-em-amostras. O programa tambm ir pedir um arquivo de funo de
transferncia CABFAC (CABFAC transfer function file), como feito previamente por
anlise fatorial CABFAC (CABFAC factor analysis). O conjunto de txons (colunas)
deve ser indntico na planilha e no arquivo de funo de transferncia.

Calibrao a partir de timos (Calibration from optima)


As trs primeiras linhas podem ser geradas de dados de abundncia e dados ambientais
conhecidos (Recente) na opo Species packing no menu Model. A terceira linha
(abundncia mxima peak abundance) no usada, e a segunda coluna (tolerncia)
usada apenas quando a caixa Equal tolerances (Tolerncias iguais) no marcada.
O algoritmo um clculo de mdia ponderada, com a opo de atribuir pesos por
tolerncia, de acordo com Braak & van Dam (1989).

96
Referncia
ter Braak, C.J.F. & H. van Dam. 1989. Inferring pH from diatoms: a comparison of old
and new calibration methods. Hydrobiologia 178:209-223.

Tcnica de Anlogo Moderno (Modern Analog Tecnhique)


A Modern Analog Technique funciona encontrando stios modernos com associaes de
fauna similar quelas de amostras profundas (downcore). Dados ambientais de stios
modernos so ento usados para estimar o ambiente profundo.
A varivel ambiental (nica), normalmente temperatura, entra nas primeiras colunas, e os
txons nas colunas consecutivas. Todos os stios modernos, com valores conhecidos para
a varivel ambiental, vo nas primeiras linhas, seguidos pelas amostras mais profundas
(estas devem ter pontos de interrogao na coluna ambiental). No exemplo abaixo, as
ltimas cinco linhas visveis contm as primeiras amostras profundas.

Parmetros para ajustar:


Pesos (Weighting): Quando uma srie de anlogos modernos so ligados a uma
amostra profunda, os seus valores ambientais podem receber os mesmos pesos,
podendo ser inversamente proporcional distncia faunal, ou inversamente
proporcional ao rank da distncia faunal.
Medida de distncia (Distance measure): Uma srie de medidas de distncia
comumente usadas no MAT so disponveis. Squared chord tem se tornado a
escolha padro na literatura.

97
Limiar de distncia (Distance threshold): Apenas anlogos modernos prximos a
este limiar so usados. Um valor-padro dado, equivalente ao dcimo percentil
das distncias entre todos os pares de amostras nos dados modernos. O
histograma de Distribuio de dissimilaridade (Dissimilarity distribution)
pode ser til para escolher este limiar.
N analogs: este o nmero mximo de anlogos modernos usados em cada
amostra profunda.
Mtodo de salto (Jump method) (on/off): Para cada amostra profunda, amostras
modernas so ordenadas em distncias ascendentes. Quando a distncia aumenta
mais do que a porcentagem selecionada, os anlogos modernos subsequentes so
descartados.
Repare que uma ou mais destas opes podem ser desligadas ao colocar nelas um nmero
grande. Por exemplo, um limiar de distncia muito grande nunca ser aplicado, ento o
nmero de anlogos ser escolhido apenas pelo valor N analogs e opcionalmente pelo
mtodo de salto.

Validao cruzada (Cross validation)


O grfico de disperso e o valor de R2 mostras os resultados de uma validao cruzada
deixe-um-de-fora (jackknife) aplicada nos dados modernos. A linha y=x mostrada em
vermelho. Isso reflete a qualidade do mtodo apenas parcialmente, j que fornece
pouca informao sobre a acurcia da estimativa para amostras profundas.

Distribuio de dissimilaridade (Dissimilarity distribution)


Um histograma de todas as distncias no dados nos dados superficiais (modernos) (core-
top).

Semivariograma (Semivariogram)
Mostra um semivariograma da varincias na varivel ambiental, como funo da
diferena faunal. Mais de um modelo de semivariograma pode ser ajustado. Este tipo de
grfico familiar da geoestatstica espacial, mas tambm til para MAT porque d uma
boa impresso do grau de rudo nos dados de fauna no que diz respeito predio do
ambiental.

Reconstruo paleoambiental (Pal. reconstruction)


Reconstruo dos valores paleoambientais usando MAT.

98
Model menu (Modelagem)
Linear
Se duas colunas so selecionadas, elas representam valores de x e y respectivamente. Se
uma coluna selecionada, ela representa os valores de y, e tomam-se valores de x de uma
sequncia de nmeros positivos (1, 2, ). Uma linha reta x=ax+b encaixada nos dados.
H quatro algoritmos diferentes disponveis: quadrados mnimos (Ordinary Least
Squares OLS), eixo maior reduzido (Reduced Major Axis RMA), eixo maior (Major
Axis MA) e robusto (Robust). A regresso OLS assume que os valores de x so fixos e
acha a linha que minimiza o quadrado dos erros nos valores de y. Use esta opo se seus
valores de x tm muito pouco erro associado a eles. RMA e MA tentam minimizar os
erros tanto em x quanto em y. O encaixe de RMA/MA e a estimativa do erro padro
segue Warton et al. (2006), no Davis (1986)!

O mtodo Robusto um Modelo I (valores fixos de x) de regresso avanado, robusto a


valores extremos (outliers). Ele, s vezes, d resultados estranhos, mas pode ter muito
sucesso em casos de erros quase normalmente distribudos mas com alguns valores
muito discrepantes. O algoritmo Mnimos Quadrados Aparados (Least Trimmed
Squares) baseado no cdigo FastLTS de Rousseeuw & Driessen (1999). Estimativas
paramtricas de erros no so disponveis, mas o Past fornece intervalos de confiana na
inclinao e intercepto por bootstrap (cuidado isso extremamente lento para conjuntos
grandes de dados).
Os valores tanto de x quanto de y podem ser transformados em log (base 10), encaixando
efetivamente os dados a uma funo alomtrica y=10bxa. Um valor de a por volta de 1
indica que um encaixe de linha reta (isomtrico) pode ser mais aplicvel.

99
So fornecidos os valores de a e b, seus erros, um valor de correlao por qui-quadrado
(no para RMA/MA), coeficiente de correlao de Pearson r, e a probabilidade de que as
duas colunas no so correlacionadas. Note que o r2 simplesmente o quadrado do
coeficiente de Pearson ele no ajustado para o mtodo de regresso.
O clculo dos erros padro para inclinao e intercepto assume distribuio normal dos
resduos e independncia entre as variveis, e a varincia residual. Se estas premissas
forem fortemente violadas, prefervel usar o intervalo de confiana de 95% bootstrap
(2000 rplicas). O nmero de pontos aleatrios selecionados para cada rplica deve
normalmente ser mantido em N, mas pode ser reduzido para aplicaes especiais.
O teste por permutao para a correlao (r2) utiliza 10 000 rplicas.
Faixa de confiana (Confidence band)
Em regresso OLS (mas no RMA/MA/Robusta), disponibilizada uma faixa de
confiana Working-Hotelling de 95% para a linha encaixada (no para os pontos de
dados!). O intervalo de confiana calculado como
21 (x x)2
CI = b + ax t 0.05 / 2,n1 SE ( +
n ( xi x ) 2
reg

onde o quadrado da soma os resduos SEreg 2


= ( yi b axi ) 2 .
Quando o intercepto forado a zero, a faixa de confiana calculada como
2 x2
CI = ax t 0.05 / 2,n1 SE reg .
xi 2
Intercepto zero (Zero intercept)
Fora a linha da regresso por zero. Isso tem implicaes tambm para o clculo da
inclinao e do erro padro da inclinao. Opo disponvel para os quatro mtodos.

Resduos (Residuals)
A janela Resduos (Residuals) relata as distncias de cada ponto at a linha da regresso,
nas direes x e y. Apenas a ltima de interesse quando usamos regresso linear
ordinria ao invs de RMA ou MA. Os resduos podem ser copiados de volta planilha e
inspecionados para distribuio normal e independncia entre a varivel independente e a
varincia residual (homoscedasticidade).

Teste de Durbin-Watson
O teste de Durbin-Watson para autocorrelao positiva dos resduos em y (violando uma
premissa da regresso OLS) fornecido na janela Resduos. A estatstica do teste varia de
zero (autocorrelao positiva total) passando por 2 (sem autocorrelao) at 4
(autocorrelao negativa). Para n 400, um valor exato de p para ausncia de
autocorrelao positiva calculado pelo algoritmo PAN (Farebrother 1980, com
correes mais recentes). O teste no preciso quando usamos a opo Intercepto zero.

Teste de Breush-Pagan
O teste de Breush-Pagan para heteroscedasticidade, ou seja, varincia no-estacionria de
resduos (violando uma premissa da regresso OLS), dado na janela Resduos. A
estatstica do teste LM=nr2, onde r o coeficiente de correlao entre os valores de x e

100
os quadrados dos resduos. A sua distribuio assimpttica de 2 com um grau de
liberdade. A hiptese nula do teste homoscedasticidade.

Funes exponenciais (Exponential functions)


Para encaixar aos seus dados uma funo exponencial y=ebeax, primeiro transforme em
log apenas a sua coluna y (no menu Transform) e depois realize o encaixe de uma linha
reta.

Equaes RMA

Inclinao a = sign(r )
( y y) 2

.
(x x) 2

1 r 2
Erro padro de a = abs (a ) .
n2
Intercepto b = y ax .
s r2
Erro padro de b = + x 2 s a2 , onde sr a estimativa do desvio padro dos resduos e sa
n
o erro padro da inclinao.
Para intercepto zero (b=0), coloque x =0 e y =0 para o clculo da inclinao e do seu
erro padro (incluindo o clculo do r no clculo do r no erro padro), e use n 1 ao invs
de n 2 graus de liberdade no clculo do erro padro

Dados ausentes: suportados por deleo da linha.

Referncias
Davis, J.C. 1986. Statistics and Data Analysis in Geology. John Wiley & Sons.
Farebrother, R.W. 1980. Pan's procedure for the tail probabilities of the Durbin-Watson statistic.
Applied Statistics 29:224227.
Rousseeuw, P.J. & van Driessen, K. 1999. Computing LTS regression for large data sets. Institute
of Mathematical Statistics Bulletin.
Warton, D.I., Wright, I.J., Falster, D.S. & Westoby, M. 2006. Bivariate line-fitting methods for
allometry. Biological Review 81:259-291.

Linear, uma independente, n dependentes (regresso multivariada)


(Linear, onde independent, n dependent (multivariate regression))
Quando voc tem uma varivel independente e uma srie de variveis dependentes, voc
pode ajustar separadamente cada varivel dependente varivel independente usando
regresso linear simples. Este mdulo torna o processo mais conveniente ao apresentar
um boto de rolagem (scroll) que alterna entre as variveis dependentes.
Este mdulo espera duas ou mais colunas de dados mensurados, com a varivel
independente na primeira coluna e as dependentes nas colunas seguintes.

101
Adicionalmente, um teste MANOVA global da regresso multivariada fornecido. A
estatstica de teste, lambda de Wilks, calculada como a razo dos determinantes
E
= ,
E+H
onde E a soma dos quadrados e produtos de erros (resduos) (error (residual) sum of
squares and crossproducts) e H a soma dos quadrados e produtos da hiptese
(predies) (hypothesis (predictions) sum of squares and crossproducts). A estatstica F
de Rao calculada a partir do lambda de Wilks e sujeita a um teste F unicaudal (veja
Linear, n independentes, n dependentes abaixo).
Dados ausentes so suportados por substituio pela mdia da coluna (column average
substitution).

Deformaes de pontos de referncia e deformao EFA (Landmark warps and EFA


deformation)
Se a regresso foi feita sobre pontos de referncia com ajuste de Procrustes (Procrustes-
fitted landmarks) ou com coeficientes Elpticos de Fourier (Elliptic Fourier coefficients)
como as variveis dependentes, a janela permite visualizar as formas como uma funo
da varivel independentes.

Linear, n independentes, uma dependente (regresso mltipla) (Linear, n


independent, one dependente (multiple regression))
Duas ou mais colunas de dados mensurados, com a varivel dependente na primeira
coluna e as variveis independentes nas colunas seguintes.

102
O programa apresentar os coeficientes de regresso mltipla R e R2, juntamento com o
R2 ajustado e um teste global de significncia do tipo ANOVA. (overall ANOVA-type
significance test).
Sendo SSR a soma dos quadrados da regresso, SSE a soma dos quadrados de erro
(residual), n o nmero de pontos e k o nmero de variveis independentes, temos que
R2=SSR/SST,
2 (1 R 2 )(n 1)
Radj = 1 ,
n k 1
SSR / k
F= .
SSE /(n k 1)
Os coeficientes (intercepto, e inclinao para cada varivel independente) so
apresentados juntamente com seus erros padres estimados e testes t.
Dados ausentes suportados por substituio pela mdia da coluna (column average
substitution).

Linear, n independentes, n dependentes (regresso mltipla multivariada)


(Linear, n independent, n dependent (multivariate multiple regression)
Requer duas ou mais colunas de dados mensurados, com as variveis dependentes na(s)
primeira(s) coluna(s) e as independentes nas colunas seguintes. O programa ir perguntar
o nmero de variveis dependentes. A sada (output) consiste de quatro partes principais.
MANOVA global (Overall MANOVA)
Um teste global da significncia da regresso multivariada. A estatstica de teste, lambda
de Wils, calculada como a razo de determinantes

103
E
= ,
E+H
onde E a soma dos quadrados e produtos de erros (resduos) (error (residual) sum of
squares and crossproducts) e H a soma dos quadrados e produtos da hiptese
(predies) (hypothesis (predictions) sum of squares and crossproducts).
A estatstica F de Rao calculada a partir do lambda de Wilks. Sendo n o nmero de
linhas, p o nmero de variveis dependentes e q o nmero de variveis independentes,
ns temos:
1
m = n q ( p q 1)
2
p q2 42
2 2
se p 2 + q 2 5 > 0
p +q 5

=
1 caso contr?io



1 1 / m + 1 pq / 2
F=
1 / pq
O teste F tem pq e m + 1 pq/2 graus de liberdade.

Testes nas variveis independentes


O teste para o efeito global de cada varivel independente (sobre todas as variveis
dependentes) baseado em um desenho similar ao da MANOVA acima, mas
comparando os resduos da regresso com e sem a varivel independente em questo.

Testes nas variveis dependentes


Veja Linear, n independentes, uma dependente acima para detalhes dos testes ANOVA
para o efeito global de todas as variveis independentes em cada varivel dependente.

Coeficientes de regresso e estatsticas


O conjunto completo de coeficientes e suas significncias para todas as combinaes de
variveis dependentes e independentes.

Dados ausentes suportados por substituio pela mdia da coluna.

Regresso polinomial (Polynomial regression)


Duas colunas devem ser selecionadas (valores de x e de y). Um polinmio de at quinta
ordem ajustado aos dados. O algoritmo baseado em um critrio de mnimos quadrados
e decomposio em valores singulares (singular value decomposition) (Press et al. 1992),
com padronizao de mdia e varincia para melhor estabilidade numrica.

104
O polinmio dado por
y = a5 x 5 + a 4 x 4 + a3 x 3 + a 2 x 2 + a1 x1 + ao .
O valor de qui-quadrado uma medida do erro de ajuste valores maiores significam
ajuste pior. O Critrio de Informao de Akaike (Akaike Information Criterium - AIC)
tem uma penalidade para o nmero de termos. O AIC deve ser to baixo quanto possvel
para maximizar o ajuste, mas evitar um ajuste exagerado (overfitting).
R2 o coeficiente de determinao, ou a proporo de varincia que explicada pelo
modelo. Finalmente, um valor de p, baseado em um teste F, d a significncia do ajuste.
Referncia
Press, W.H., S.A. Teukolsky, W.T. Vetterling & B.P. Flannery. 1992. Numerical Recipes in C.
Cambridge University Press.

Regresso sinusoidal (Sinusoidal regression)


Duas colunas devem ser selecionadas (valores de x e de y). Uma soma de at oito
sinusides com perodos especificados pelo usurio, mas com amplitudes e fases
desconhecidas, ajustada aos dados. Isso pode ser til para modelar periodicidades em
sries temporais, como taxas anuais de crescimento ou ciclos climticos, normalmente
em combinao com anlise espectral (spectral analysis). O algoritmo baseado em um
critrio de mnimos quadrados e em decomposio em valores singulares (singular value
decomposition) (Press et al. 1992). Por definio, os perodos so estabelecidos como
sendo a extenso (range) dos valores de x e harmnicos (1/2, 1/3, 1/4, 1/5, 1/6, 1/7 e 1/8
do perodo fundamental). Estes valores podem ser mudados e no precisam estar em
proporo harmnica.

105
O valor de qui-quadrado uma medida do erro de ajuste valores maiores significam
ajuste pior. O Critrio de Informao de Akaike (Akaike Information Criterium AIC)
tem uma penalidade para o nmero de sinusides (a equao usada assume que os
perodos so estimados dos dados). O AIC deve ser o mais baixo possvel para maximizar
o ajuste, mas evitar um ajuste exagerado (overfitting).
R2 o coeficiente de determinao, ou a proporo da varincia que explicada pelo
modelo. Finalmente, um valor de p, baseado em um teste F, d a significncia do ajuste.
Uma funo de busca (search) para cada sinuside ir otimizar a frequncia daquele
sinuside (por toda a extenso significativa (meaningful) de um perodo at a frequncia
de Nyquist), mantendo as frequncias de todos os outros sinusides constantes. O
algoritmo lento, mas muito robusto e quase garantido que ele encontre o timo global.
Para uma anlise espectral cega, encontrando todos os parmetros e um nmero timo
de sinusides, siga este procedimento: Comece com apenas o primeiro sinuside
selecionado. Aperte procurar (search) para otimizar perodo, amplitude e fase. Isso
vai encontrar o sinuside mais forte nos dados. Anote o AIC. Adicione (selecione) o
segundo sinuside, e clique o boto de procura para otimizar todos os parmetros de
ambos os sinusides, exceto o perodo do primeiro sinuside. Isso vai encontrar o
segundo sinuside mais forte. Continue at o AIC parar de diminuir.
No faz sentido (it is not meaningful) especificar periodicidades que so menores do que
o dobro do espaamento tpico dos pontos de dados.
Cada sinuside dado por y = a*cos(2*pi*(x-x0) / T p), onde a a amplitude, T o
perodo e p a fase. x0 o primeiro (menor) valor de x.
Tambm h opes para forar uma srie seno ou coseno pura, ou seja, com fases fixas.
Referncias
Press, W.H., S.A. Teukolsky, W.T. Vetterling & B.P. Flannery. 1992. Numerical Recipes in C.
Cambridge
University Press.

106
Logistic / Bertalanffy / Michaelis-Menten / Gompertz
Visa ajustar a duas colunas de dados x-y um de trs modelos de saturao
(saturation models).
A equao logstica y=a/(1+be-cx). O valor de a primeiro estimado pelo valor mximo
de y. Os valores de b e c so ento estimados um ajuste de linha reta a um modelo
linearizado.
O modelo pode ser melhorado ao usar os valores estimados como um palpite inicial para
a otimizao de Levenberg-Marquardt (Press et al. 1992). Devido instabilidade
numrica, isso pode falhar com uma mensagem de erro, especialmente durante o
bootstrap e para a curva de Gompertz.

O intervalo de confiana de 95% baseado em 2000 rplicas de bootstrap.


A opo von Bertalanffy usa o mesmo algoritmo que acima mas ajusta a equao y=a(1-
be-cx). Esta equao usada para modelar o crescimento de animais multicelulares (em
unidade de comprimento ou largura, no volume).
A opo Michaelis-Menten ajusta a equao y=ax(b+x). O algoritmo usa estimadores de
mxima verossimilhana para a chamada transformao de Eadie-Hofstee (Raaijmakers
1987; Colwell & Coddington 1994). A estimativa normalmente melhora ao usar a
otimizao de Levenberg.
A opo Gompertz ajusta a equao y=x*exp(b*exp(cx)). A estimativa inicial calculada
atravs de regresso em um modelo linearizado.
A equao logstica pode ser usada para modelar crescimento com saturao e foi usada
por Sepkoski (1984) para descrever a estabilizao proposta da diversidade marinha no
Paleozico tardio. Os modelos de crescimento logstico e de von Bertalanffy so
descritos por Brown & Rothery (1993). A curva de Michaelis-Menten pode proporcionar
ajustes precisos a curvas de rarefao, e pode, portanto (com alguma controvrsia), ser

107
usada para extrapolar estas curvas para estimar a biodiversidade (Colwell & Coddington
1994).
O Critrio de Informao de Akaike (Akaike Information Criterium AIC) pode auxiliar
na seleo do modelo. Valores mais baixos ao AIC implicam um ajuste melhor ajustado
ao nmero de parmetros.
Referncias
Brown, D. & P. Rothery. 1993. Models in biology: mathematics, statistics and computing. John
Wiley & Sons.
Colwell, R.K. & J.A. Coddington. 1994. Estimating terrestrial biodiversity through extrapolation.
Philosophical Transactions of the Royal Society of London B 345:101-118.
Press, W.H., S.A. Teukolsky, W.T. Vetterling & B.P. Flannery. 1992. Numerical Recipes in C.
Cambridge University Press.
Raaijmakers, J.G.W. 1987. Statistical analysis of the Michaelis-Menten equation. Biometrics
43:793- 803.
Sepkoski, J.J. 1984. A kinetic model of Phanerozoic taxonomic diversity. Paleobiology 10:246-
267.

Modelo Linear Generalizado (Generalized Linear Model)


Este mdulo calcula uma verso bsica do Modelo Linear Generalizado, para uma nica
varivel explanatria. Requer duas colunas de dados (varivel independente e
dependente)

O GLM (modelo linear generalizado) permite distribuies no-normais e tambm


transformaes do modelo atravs de uma funo de ligao (link function). Algumas
combinaes particularmente teis de distribuio e funo de ligao so:
Distribuio normal & ligao identidade (Normal distribution and the identity link):
equivalente regresso linear dos mnimos quadrados

108
Distribuio normal & ligao recproca (Normal distribution and the reciprocal link):
ajusta a funo y=1/(ax+b)
Distribuio normal ou gamma e ligao log (Normal or gamma distribution and the log
link): ajusta a funo y=exp(ax+b)
Distribuio binomial (Bernoulli) e ligao logit (Binomial (Bernoulli) distribution and
the logit link: Regresso logstica para uma varivel-resposta binria (ver figura acima).
Detalhes tcnicos
O programa utiliza o algoritmo Mnimos Quadrados Repesados Iterativamente
(Iteratively Reweighted Least Squares IRLS) para a estimativa de mxima
verossimilhana.
O parmetro de disperso , o qual usado apenas para a inferncia, no para estimativa
dos parmetros, fixado em =1 a no ser que a opo Estimar fi (Estiamte phi) seja
selecionada; neste caso ele estimado pelo qui-quadrado de Pearson. Tipicamente
assume-se que igual a 1 para as distribuio de Poisson e binomial.
A log-verossimilhana (log-likelihood) LL calculada a partir do desvio D por
D
LL = .
2
O desvio calculado como se segue:
Normal: D = ( yi i ) 2
i

y y i
Gamma: D = 2 ln i + i
i i i
y 1 yi
Bernoulli: D = 2 yi ln i + (1 yi ) ln (o primeiro termo definido como zero
i i 1 i
se yi=0)
y
Poisson: D = 2 yi ln i ( yi i )
i i
A estatstica G a diferena do D de um modelo completo e um modelo GLM adicional
onde apenas o intercepto ajustado. A distribuio de G aproximadamente igual do
qui-quadrado com um grau de liberdade, gerando um valor de significncia para a
inclinao.

Alisamento polinomial (Smoothing spline)


Duas colunas devem ser selecionadas (valores de X e Y). Os dados so ajustados a uma
smoothing spline (algo como uma curva de suavizao), que uma sequncias de
polinmios de terceira ordem contnuos at a segunda derivada. Uma aplicao tpica a
construo de uma curva suave atravs de um conjunto de dados turbulento (noisy). O
algoritmo segue de Boor (2001). Saltos bruscos nos dados podem resultar em oscilaes
na curva, e voc tambm pode obter grandes excurses (excursions) em regies com
poucos pontos de dados. Pontos mltiplos em um mesmo valor de X so colapsados para
um nico ponto atravs do clculo da mdia ponderada (weighted averaging) e de um
desvio padro combinado.

109
Uma terceira coluna opcional especifica os desvios padres dos pontos de dados. Estes
so usados para ponderar os dados. Se no forem especificados, so todos fixados em
10% do desvio padro dos valores de Y.
O valor de suavizao (smoothing value) estabelecido pelo usurio uma verso
normalizada do fator de suavizao (smoothing factor) de de Boor (1 por padro).
Valores maiores resultam em curvas mais suaves. Um valor de 0 ir comear um
segmento da curva em cada ponto. Clicando em Otimizar suavizao (Optimize
smoothing) ir calcular uma suavizao tima por um procedimento de validao
cruzada (crossvalidation procedure).
Ver pontos fornecidos (View given points) fornece uma tabela dos pontos de X, Y e
desvio padro de Y (stdev(Y)), os valores de Y correspondentes na curva (ys) e os
resduos. O teste de qui-quadrado em cada ponto pode ser usado para identificar valores
extremos (outliers). A coluna final sugere um valor de stdev(Y) para ser usado se o valor
de p est sendo forado para 0.5.
Uma quarta coluna, opcional (se usada ento a terceira coluna tambm deve ser
preenchida com valores de desvio padro) pode conter um nmero de valores diferentes
das colunas anteriores. Ela contm valores de X para serem usados para interpolao
entre os pontos de dados. Colunas 5-7, opcionais, contm limites inferior e superior para
os valores de X (distribuio retangular) e devios padres dos valores de Y (distribuio
normal), a serem usados em simulao por bootstrap (Monte Carlo) para fornecer barras
de erro para os valores interpolados. Estas funes so includas principalmente para
calcular idades de limite (boundary ages) para a escala de tempo geolgica.
Referncia
de Boor, Carl. 2001. A practical guide to splines. Springer.

110
Alisamento LOESS (LOESS smoothing)
Duas colunas devem ser selecionadas (valores de x e y). O algoritmo usado LOWESS
(LOcally WEighted Scatterplot Smoothing Suavizao de grfico de Disperso
Ponderada Localmente; Cleveland 1979, 1981), com os seus valores padres de
parmetros recomendados (incluindo duas iteraes de robustez). Dado um nmero de
pontos n e um parmetro de suavizao (smoothing) q especificado pelo usurio, o
programa ajusta os nq pontos ao redor de cada ponto para uma linha reta, com uma
funo de ponderamento que decresce com a distncia. O novo ponto suavizado o valor
da funo linear ajustada na posio original x.
A opo Bootstrap ir estimar uma faixa de confiana de 95% para curva, com base em
999 rplicas aleatrias. Para manter a estrutura original da interpolao, o procedimento
utiliza a reamostragem de resduos, ao invs de reamostrar os pontos originais.

LOESS ou smoothing spline?


quase uma questo de gosto. Compare as curvas acima, para o mesmo conjunto de
dados. A smoothing spline frequentemente d uma curva mais agradvel esteticamente
por causa das suas derivadas contnuas, mas voc corre o risco da curva ser exagerada
(overshooting) perto de curvas abruptas nos dados.
Referncias
Cleveland, W.S. 1979. Robust locally weighted fitting and smoothing scatterplots. Journal of the
American Statistical Association 74:829-836.
Cleveland, W.S. 1981. A program for smoothing scatterplots by robust locally weighted fitting.
The American Statistician 35:54.

Anlise de mistura (Mixture analysis)


A anlise de mistura um mtodo de mxima verossimilhana para estimar os
parmetros (mdio, desvio padro e proporo) de duas ou mais distribuies normais
univariadas com base em uma amostra univariada agrupada. O programa tambm pode
estimar mdia e proporo de distribuies normal e de Poisson. Por exemplo, o mtodo

111
pode ser usado para estudar diferenas entre sexos (dois grupos), ou uma srie de
espcies, ou classes de tamanho, quando nenhuma informao independente sobre
pertencimento a grupos (group membership) est disponvel.
O programa espera uma coluna de dados univariados, e assume-se que tenham sido
tomados de uma mistura de populaes com distribuio normal (ou exponencial ou
Poisson). No exemplo abaixo, os tamanhos de gorilas machos e fmeas foram agrupados
em uma nica amostra. As mdias, desvios padres e propores das duas amostras
originais foram recuperados quase perfeitamente (veja Univariado (Univariate)
acima).

O PAST usa o algoritmo EM (Dempster et al. 1977), o qual pode ficar preso em um
timo local. O procedimento ento feito automaticamente 20 vezes, cada vez posies
iniciais aleatrias novas para as mdias. Os valores iniciais para o desvio padro so
estabelecidos em s/G, onde s o desvio padro agrupado e G o nmero de grupos. Os
valores iniciais das propores so estabelecidos em 1/G. Ainda recomendado que o
usurio rode o programa algumas vezes para verificar a estabilidade da soluo (solues
melhores tm valores menos negativos da log-verossimilhana (log likelihood values)).
O Critrio de Informao de Akaike (Akaike Information Criterium AIC; Akaike 1974)
calculado com uma correo para amostra pequena:
2k (k + 1)
AICc = 2k 2 ln L +
n k 1
onde k o nmero de parmetros, n o nmero de pontos de dados e L a
verossimilhana (likelihood) do modelo com os dados fornecidos. Um valor mnimo do
AIC indica que voc escolheu o nmero de grupos que produz o melhor ajuste sem
ajustar demais (without overfitting).
possvel atribuir cada um dos pontos de dados a um dos grupos a partir de uma
abordagem de mxima verossimilhana. Isto pode ser usado como um mtodo de
agrupamento no-hierrquico para dados univariados. O boto Atribuies
(Assignments) ir abrir uma janela onde o valor de cada funo de probabilidade de
densidade (probability density function) dado para cada ponto de dados. Os pontos de
dados podem ser atribudos ao grupo que mostra o maior valor.

112
Dados ausentes: suporte por deleo.
Referncias
Akaike, H. 1974. A new look at the statistical model identification. IEEE Transactions on
Automatic Control 19: 716-723.
Dempster, A.P., Laird, N.M. & Rubin, D.B. 1977. Maximum likelihood from incomplete data via
the EM algorithm". Journal of the Royal Statistical Society, Series B 39:1-38.

Modelos de abundncia (Abundance models)


Este mdulo pode ser usado para plotar abundncia de txons em ordem ordinal
decrescente de rank em uma escala linear ou logartmica (grfico de Whittaker), ou o
nmero de espcies em classes de abundncia de oitavas (como mostrado ao ajustar
distribuio log-normal). Os txons vo nas linhas. Tambm pode ser usado para ajustar
os dados a um dos quatro modelos padro de abundncia:

Geomtrico, onde a segunda espcie mais abundante deve ter uma contagem de
txon k<1 vezes a da mais abundante, a 3 mais abundante uma conta de txon
igual a ka vezes a 2 mais abundante etc, para um k constante. Sendo nia contagem
do i-simo txon mais abundante, temos ni = n1ki-1. Isto resultar em uma linha
reta descendente no grfico de Whittaker. O ajuste feito por regresso linear
simples nos logaritmos das abundncias.

Log-series, com dois parmetros alfa e x. O algoritmo usado no ajuste de Krebs


(1989). O nmero de espcies com n indivduos (esta esquao no se traduz
diretamente para a representao grfica de Whittaker):
x n
Sn =
n
Broken stick (MacArthur 1957). No h parmetros livres para serem ajustados a
este modelo. Sendo Stot o nmero total de espcies e ntot o nmero total de

113
indivduos:
n Stot i 1
ni = tot .
S tot j =0 S tot j
Log-normal. O algoritmo de ajuste de Krebs (1989). O logaritmo (base 10) da
mdia e varincia ajustadas so dados. As oitavas (octaves) referem-se a classes
de abundncia da potncia de 2:
Oitava Abundncia
1 1
2 2-3
3 4-7
4 8-15
5 16-31
6 32-63
7 64-127
... ...

Um valor de significncia baseado em qui-quadrado fornecido para cada um destes


modelos, mas o poder do teste no o mesmo para os quatro modelos e os valores de
significncia, portanto no devem ser comparados. importante, como sempre,
lembrar que um valor elevado de p no pode ser tomado como implicando um bom
ajuste. Um valor baixo no implica que o ajuste ruim. Note tambm que os testes de
qui-quadrado no PAST parecem no corresponder com alguns outros programas,
possivelmente porque o PAST usa contagens ao invs dos valores log-transformados
dos grficos de Whittaker.

Referncias
Krebs, C.J. 1989. Ecological Methodology. Harper & Row, New York.

114
MacArthur, R.H. 1957. On the relative abundance of bird species. Proceedings of the National
Academy of Sciences, USA 43:293-295.

Empacotamento de espcies (Gaussiano) (Species packing (Gaussian))


Este mdulo ajusta modelos de resposta Gaussianos s abundncias de espcies ao longo
de um gradiente, para uma ou mais espcies. Os parmetros ajustados so: timo (mdia),
tolerncia (desvio padro) e mximo.
Uma coluna de medidas ambientais nas amostras (e.g. temperatura), e uma ou mais
colunas de dados de abundncia (txons em colunas).
O algoritmo baseado em mdia ponderada de acordo com ter Braak & von Dam (1989).

115
Referncia
ter Braak, C.J.F & H. van Dam. 1989. Inferring pH from diatoms: a comparison of old and new
calibration methods. Hydrobiologia 178:209-223.

Espiral logartmica (Logarithmic spiral)


Ajusta um conjunto de pontos no plano a uma espiral logartmica. til para caracterizar
e.g. conchas de moluscos, dentes, garras e chifres. Requer duas colunas de coordenadas
(x e y). Os pontos devem ser dados na sequncia, para dentro ou para fora. So aceitas
espirais voltadas tanto para direita quanto para esquerda.

116
A espiral ajustada em coordenadas polares: r=aeb. A escala a e o expoente b so
fornecidos, juntamente com o ponto central estimado, marcado com uma cruz vermelha.
A taxa de expanso da espiral W (fator de incremento no raio por giro) calculada a
partir do b como W = e2b.
A posio central estimada por otimizao no-linear e a prpria espiral por
linearizao e regresso.

Diversity menu (Diversidade)


ndices de diversidade (Diversity indices)
Essas estatsticas se aplicam a dados de associao, onde o nmero de indivduos
tabulado nas linhas (txons) e possivelmente em mais de uma coluna (associaes). As
estatsticas disponveis so as seguintes, calculadas para cada associao:
Nmero de txons (S)
Nmero total de indivduos (n)

117
Dominncia = 1 ndice de Simpson. Varia de 0 (todos os txons presentes em
iguais quantidades) a 1 (um txon domina completamente a comunidade).
2
n
D = i onde ni o nmero de indivduos do txon i.
i n
ndices de Simpson 1 D. Mede a equitabilidade (evenness) da comunidade,
de 0 a 1. Preste ateno na confuso existente na literatura a dominncia e o
ndice de Simpson so frequentemente trocados!
ndice de Shannon (entropia). Um ndice de diversidade que leva em conta no s
o nmero de txons, mas tambm o nmero de indivduos. Varia de 0 para
comunidades com um nico txon at valores elevados para comunidades com
muitos txons, cada um com alguns indivduos.
ni ni
H = ln
i n n
ndice de equitabilidade de Buzas e Gibson: eH/S
ndice de Brillouin:
ln(n!) ln(ni !)
i
HB =
n
S
ndice de riqueza de Menhinick:
n
ndice de riqueza de Margalef: (S-1) / ln (n)
Equitabilidade. ndice de diversidade de Shannon dividido pelo logaritmo do
nmero de txons. Esta medida representa e equitabilidade com a qual os
indivduos se distribuem entre os txons presentes.
Alfa de Fisher (Fishers alpha) um ndice de diversidade, definido
implicitamente pela frmula S = a*ln(1+n/a), onde S o nmero de txons, n o
nmero de indivduos, e a o alfa de Fisher
Dominncia de Berger-Parker: simplesmente o nmero de indivduos do txon
dominante em relao ao n.
Muitos desses ndices so explicados em Harper (1999).
Intervalos de confiana aproximados para todos estes ndices podem ser calculados
por um procedimento de bootstrap. So produzidas 1000 amostras aleatrias (200
antes da verso 0.87b), cada uma com o mesmo nmero total de indivduos que na
amostra original. As amostras aleatrias so retiradas do conjunto de dados total
(agrupando todas as colunas). Para cada indivduo da amostra aleatria, o txon
escolhido de acordo com as abundncias agrupadas (pooled abundances) originais.
Um intervalo de confiana de 95% ento calculado. Repare que a diversidade das
rplicas frequentemente ser menor, e nunca maior, que a diversidade da amostra
total agrupada (pooled diversity).
Como estes intervalos de confiana so calculados em relao ao conjunto de dados
agrupado (pooled data set), eles no representam intervalos de confiana das
amostras individuais. So teis principalmente para identificar amostras nas quais um
dado ndice de diversidade est fora do intervalo de confiana. Comparao por

118
bootstrap dos ndices de diversidade de duas amostras fornecida no mdulo
Compare diversities (Comparar diversidades).
Referncia
Harper, D.A.T. (ed.). 1999. Numerical Palaeobiology. John Wiley & Sons.

Riqueza quadrtica ou por parcela (Quadrat richness)


Requer duas ou mais colunas, cada um com dados de presena/ausncia (1/0) de
diferentes txons descendo as linhas (abundncia positiva tratada como presena).
So includos no PAST quatro estimadores no-paramtricos de riqueza de espcies:
Chao 2, jackknife de primeira e segunda ordem, e bootstrap. Todos eles requerem dados
de presena/ausncia em duas ou mais parcelas de tamanhos iguais amostradas. Colwell
& Coddington (1994) revisaram estes estimadores e encontraram que Chao2 e jackknife
de segunda ordem apresentam melhor performance.
O output (resultado fornecido) do Past dividido em dois painis. Primeiro, os
estimadores de riqueza e seus desvios-padres analticos (appenas para Chao2 e Jackknife
1) so calculados do conjunto de amostras. A seguir os estimadores so calculados a
partir de 1000 reamostragens aleatrias das amostras com reposio (bootstrap), e suas
mdias e desvios-padres so relatados. Em outras palavras, os desvios-padres relatados
aqui so estimados por bootstrap, no baseados em equaes analticas.

Chao2
O estimador Chao2 (Chao 1987) calculado como no EstimateS, verso 8.2.0 (Colwell
2009), com correo de vis:

119
onde Sobs o nmero total observado de espcies, m o nmero de amostras, Q1 o
nmero de ocorrncias nicas (espcies que ocorrem em precisamente uma amostra) e Q2
o nmero de duplicatas (espcies que ocorrem em precisamente duas amostras).
Se Q1>0 e Q2>0, a varincia estimada por

Se Q1>0 mas Q2=0:

Se Q1=0:

onde M o nmero total de ocorrncias de todas as espcies em todas as amostras.

Jackknife 1
Jackknife de primeira ordem (Burnham & Overton 1978, 1979; Heltsche & Forrester
1983):

onde fj o nmero de amostras que contm j espcies nicas

Jackknife 2
Jackknife de segunda ordem (Smith & van Belle 1984):

120
Nenhuma estimativa analtica da varincia disponvel.

Bootstrap
Estimador por bootstrap (Smith & van Belle 1984):

onde pk a proporo de amostras contendo k espcies. Nenhuma estimativa analtica da


varincia disponvel.

Referncias
Burnham, K.P. & W.S. Overton. 1978. Estimation of the size of a closed population when capture
probabilities vary among animals. Biometrika 65:623-633.
Burnham, K.P. & W.S. Overton. 1979. Robust estimation of population size when capture
probabilities vary among animals. Ecology 60:927-936.
Chao, A. 1987. Estimating the population size for capture-recapture data with unequal
catchability. Biometrics 43, 783-791.
Colwell, R.K. & J.A. Coddington. 1994. Estimating terrestrial biodiversity through extrapolation.
Philosophical Transactions of the Royal Society (Series B) 345:101-118.
Heltshe, J. & N.E. Forrester. 1983. Estimating species richness using the jackknife procedure.
Biometrics 39:1-11.
Smith, E.P. & G. van Belle. 1984. Nonparametric estimation of species richness. Biometrics
40:119-129.

Diversidade beta (Beta diversity)


Duas ou mais linhas (amostras) com dados de presena/ausncia (0/1), com os txons em
colunas.
O mdulo diversidade beta do Past pode ser usado para qualquer nmero de amostras
(no limitado a apenas duas amostras). As oito medidas disponveis so descritas por
Koleff et al. (2003):

Past Koleff et Equao Ref.


al.
Whittaker bw S Whittaker
1 (1960)

Harrison b-1 S Harrison
1 et al.

N 1 (1992)
Cody bc g (H ) + l(H ) Cody
2 (1975)
Routledge bl 1 1 Routledge
log10 (T ) ei log10 (ei ) i log10 ( i ) (1977)
T i T i

121
Wilson- bt g (H ) + l(H ) Wilson &
Shmida 2 Shmida
(1984)
Mourelle bme g (H ) + l(H ) Mourelle
2 ( N 1) &
Ezcurra
(1997)
Harrison 2 b-2 S Harrison
1 et al.
max
(1992)
N 1
Williams b-3 max Williams
1 (1996)
S
S: nmero total de espcies; : nmero mdio de espcies; N: nmero de amostras;
g(H): ganho total de espcies ao longo do gradiente (amostras ordenadas ao longo das
colunas); l(H): perda total de espcies; ei: nmero de amostras que contm a espcie i; T:
nmero total de ocorrncias.

Referncias
Harrison, S., S.J. Ross & J.H. Lawton. 1992. Beta diversity on geographic gradients in Britain.
Journal
of Animal Ecology 61:151-158.
Koleff, P., K.J. Gaston & J.J. Lennon. 2003. Measuring beta diversity for presence-absence data.
Journal of Animal Ecology 72:367-382.
Routledge, R.D. 1977. On Whittakers components of diversity. Ecology 58:1120-1127.
Whittaker, R.H. 1960. Vegetation of the Siskiyou mountains, Oregon and California. Ecological
Monographs 30:279-338.

Distino taxonmica (Taxonomic distinctness)


Uma ou mais colunas, cada uma contendo contagens de indivduos de diferentes txons
descendo as linhas. Alm disso, as linhas da esquerda precisam conter nomes de
gneros/famlias etc (Ver abaixo).
Diversidade taxonmica e distino taxonmica so definidas por Clarke & Warwick
(1998), incluindo intervalos de confiana calculados de 200 rplicas aleatrias retiradas
do conjunto de dados agrupado (pooled dataset) (todas as colunas). Note que a lista
global de Clarke & Warwick no inserida diretamente, mas calculada internamente
pelo agrupamento (somatria) das amostras fornecidas.
Estes ndices dependem de informao taxnomica no s a nveis de espcies, mas
tambm acima dele. Esta informao inserida da seguinte forma: Nomes de espcies
vo na coluna de nomes (coluna fixa da extrema esquerda), nomes de gneros na coluna
1, famlia na coluna 2, etc ( claro que voc pode substituir por outros nveis
taxonmicos, contanto que eles estejam em ordem ascendente). Contagem de espcies
colocada nas colunas seguintes. O programa ir perguntar qual o nmero de colunas
contendo informao taxonmica acima do nvel de espcie.
Para dados de presena-ausncia, diversidade e distino taxonmica sero vlidas, mas
iguais uma outra.

122
A distino taxonmica em uma amostra dada por (repare que existem outras formas
equivalentes):

onde wij so pesos de modo que wij=0 se i e j so da mesma espcie, wij=1 se eles so do
mesmo gnero, etc. Os x so abundncias.
Distino taxonmica:

Referncia
Clarke, K.R. & Warwick, R.M. 1998. A taxonomic distinctness index and its statistical
properties.
Journal of Applied Ecology 35:523-531.

Rarefao individual
Para comparar a diversidade taxonmica entre amostras de diferentes tamanhos. Requer
uma ou mais colunas de contagem de indivduos de diferentes txons (cada coluna
precisa ter o mesmo nmero de valores). Ao comparar amostras: amostras devem ser
taxonomicamente similares, obtidas com amostragem padronizada e amostradas em
hbitats similares.
Dada uma ou mais colunas de dados de abundncia para um nmero de txons, este
mdulo estima quantos txons voc esperaria encontrar em uma amostra com um nmero
total menor de indivduos. Usando anlise de rarefao na sua amostra maior, voc pode
verificar o nmero de txons esperados em qualquer amostra de tamanho menor
(incluindo o tamanho da sua menor amostra). O algoritmo foi retirado de Krebs (1989),
usando uma funo log Gamma para o clculo dos termos combinatrios. Um exemplo
de aplicao para paleontologia pode ser encontrado em Adrain et al. (2000).
Seja N o nmero total de indivduos em uma amostra, s o nmero total de espcies, e Ni o
nmero de indivduos da espcie i. O nmero esperado de espcies E(Sn) em uma amostra
de tamanho n e a sua varincia V(Sn) so dadas por

123
Erros padres (razes quadradas das varincias) so fornecidos pelo programa. No
grfico, estes erros padres so convertidos em intervalos de confiana de 95%.

Referncias
Adrain, J.M., S.R. Westrop & D.E. Chatterton. 2000. Silurian trilobite alpha diversity and the
end-Ordovician mass extinction. Paleobiology 26:625-646.
Krebs, C.J. 1989. Ecological Methodology. Harper & Row, New York.

Rarefao por amostra (Sample rarefaction) (Mao tau)


A rarefao por amostra requer uma matriz de dados de presena-ausncia (abundncias
tratadas como presenas), com txons em colunas e amostras em linhas. Rarefao
baseada em amostras (tambm conhecida como curva de acumulao de espcies)
aplicvel quando uma certa quantidade de amostras disponvel, a partir das quais a
riqueza de espcies estimada como funo do nmero de amostras. PAST implementa a
soluo analtica conhecida por Mao tau, com desvio padro. No grfico, os erros
padres so convertidos em intervalos de confiana de 95%.

124
Ver Colwell et al. (2004) para detalhes.
Com H amostras e Sobs o nmero total de espcies observadas, sejam sj o nmero de
espcies encontradas em j amostras, de modo que s1 o nmero de espcies encontrado
em exatamente uma amostra, etc. O nmero total de espcies esperadas em h H
amostras ento
H
~ (h) = S obs jh s j .
j =1

Os coeficientes combinatoriais so
( H h)!( H j )!
para j + h H
jh = ( H h j )! H !
0 para j + h > H

Estes coeficientes so calculados por meio de uma funo log Gamma. O estimador da
varincia
H
~ 2 (h)
~ 2 = (1 jh ) 2 s j ~
j =1 S
~
onde S um estimador para a riqueza total (desconhecida) de espcies. Seguindo
Colwell et al. (2004), um estimador do tipo Chao2 usado. Para s2 > 0,

125
~ ( H 1) s12
S = S obs + .
2 Hs 2
Para s2 = 0,
~ ( H 1) s1 ( s1 1)
S = S obs + .
2 H ( s 2 + 1)
Para modelar e extrapolar a curva usando uma equao de Michaelis-Mentem, use o
boto Copiar Dados (Copy Data), cole numa nova planilha do Past, e use o mdulo para
encaixe de funes (fitting module) no menu Model (Modelar).
Referncia
Colwell, R.K., C.X. Mao & J. Chang. 2004. Interpolating, extrapolating, and comparing
incidence-based species accumulation curves. Ecology 85:2717-2727.

Anlise SHE (SHE analysis)


A anlise SHE (Hayek & Buzas 1997, Buzas & Hayek 1998) requer uma matriz de dados
inteiros de abundncia (contagens), com txons em linhas e amostras em colunas. O
programa calcula: log abundncia de espcies (ln S), ndices de Shannon (H) e log
equitabilidade (evenness) (ln E = H ln S) para a primeira amostra. Ento a segunda
amostra adicionada primeira e o processo continua. Os perfis cumulativos de SHE
resultantes podem ser interepretados ecologicamente. Se as amostras so retiradas no de
uma populao homognea, mas de um gradiente ou de uma seo estratigrfica, quebras
na curva podem ser usadas para inferir descontinuidades (e.g. limites de biozonas).

Referncias
Buzas, M.A. & L.-A. C. Hayek. 1998. SHE analysis for biofacies identification. The Journal of
Foraminiferal Research 28:233-239.

126
Hayek, L.-A. C. & M.A. Buzas. 1997. Surveying natural populations. Columbia University Press.

Comparar diversidades (Compare diversities)


Espera duas colunas de dados de abundncia, com txons descendo as linhas. Este
mdulo calcula um nmero de ndices de diversidade para duas amostras e ento compara
as diversidades por meio de dois procedimentos diferentes de aleatorizao, como segue.

Bootstrap
As duas amostras A e B so agrupadas. 1000 pares aleatrios de amostras (A, B) so
ento retirados deste grupo, com o nesmo nmero de indivduos que nas duas amostras
originais. Para cada par replicado, so calculados os ndices de diverisdade div(Ai) e
div(Bi). O nmero de vezes que |div(Ai) div(Bi)| maior ou igual que |div(A) div(B)|
indica a probabilidade que a diferena observada possa ter ocorrido por amostragem
aleatria de uma populao parental (parent population) como estimada pela amostra
agrupada.
Ento, um pequeno valor de probabilidade p(same) (p(igual) ou p(mesmo)) indica uma
diferena significativa no ndice de diversidade entre as duas colunas.

Permutao
So geradas 1000 matrizes aleatrias com duas colunas (amostras), cada uma com o
mesmo nmero de linhas e total de colunas que na matriz de dados original. O valor de p
(p value) calculado como no teste por bootstrap.

Teste t de diversidade (Diversity t test)


Comparao dos ndices de diversidade de Shannon de duas amostras, por meio de um
teste t descrito, e.g., por Hutcheson (1970), Poole (1974), Magurran (1988). Esse teste
uma alternativa ao teste por aleatorizao disponvel no mdulo Comparar
diversidadades (Compare diversities). Requer duas colunas de dados de abundncia com
txons descendo as linhas.

127
O ndice de Shannon aqui inclui uma correo de vis e pode diferir levemente das
estimativas no corrigidas calculadas em outros mdulos do PAST, ao menos para
amostras pequenas. Com pi a proporo (0-1) do txon i, S o nmero de txons e N o
nmero de indivduos, o estimador do ndice
S
S 1
H ' = pi ln pi (note que o segundo termo est incorreto em Magurran 1988).
i =1 2N
O estimador da varincia

A estatstica t dada por

Os graus de liberdade para o teste t so

Referncias
Hutcheson, K. 1970. A test for comparing diversities based on the Shannon formula. Journal of
Theoretical Biology 29:151-154.
Magurran, A. 1988. Ecological Diversity and Its Measurement. Princeton University Press.
Poole, R.W. 1974. An introduction to quantitative ecology. McGraw-Hill, New York.

Perfis de diversidade (Diversity profiles)


Este mdulo requer uma ou mais colunas de dados de abundncia com txons descendo
as linhas. O principal objetivo comparar a diversidade em uma srie de amostras.
A validade de comparar diversidades entre amostras pode ser criticada por causa da
escolha arbitrria do ndice de diversidade. Uma amostra pode, por exemplo, conter um
grande nmero de txons, emquanto outra pode ter um ndice de Shannon elevado. Uma
srie de ndices de diversidade podem ser comparados para certificar que a ordem da
diversidade robusta. Um jeito formal de fazer isso definir uma famlia de ndices de
diversidade que dependem de um nico parmetro (Tothmeresz 1995).
O PAST usa a exponencial do chamado ndice de Renyi, a qual de um parmetro . Para
=0 esta funo d o nmero total de espcies. =1 (no limite) d um ndice

128
proporcional ao ndice de Shannon, enquanto =2 d um ndice que se comporta como o
ndice de Simpson.
1 S

exp( H ) = exp ln pi
1 i =1
O programa pode plotar uma srie de perfis ao mesmo tempo. Se os perfis se cruzam, as
diversidades no so comparveis. A opo de bootstrap (fornecendo um intervalo de
confiana de 95%) baseada em 2000 rplicas.

Referncia
Tothmeresz, B. 1995. Comparison of different methods for diversity ordering. Journal of
Vegetation Science 6:283-290.

129
Time series menu (Sries temporais)
Anlise espectral (Spectral analysis)
Como dados paleontolgicos so frequentemente amostrados de forma desigual
(unevenly sampled), mtodos baseados em Fourier podem ser difceis de usar. Por isso o
PAST utiliza o algoritmo do periodograma de Lomb para dados amostrados de forma
desigual (Press et al. 1992), com valores do tempo dados na primeira coluna e os valores
dependentes na segunda coluna. Se apenas uma coluna selecionada, assume-se um
espaamento igual de uma unidade entre os pontos de dados. O periodograma de Lomb
deve ento dar resultados similares ao FFT. Os dados so automaticamente
destendenciados antes da anlise

O eixo da frequncia em unidades de 1/(unidade do x). Se, por exemplo, seus valores de
x esto em milhes de anos, uma frequncia de 0.1 corresponde a um perodo de 10
milhes de anos. O eixo de potncia (power axis) em unidades proporcionais ao
quadrado das amplitudes das sinusides presentes nos dados. Note tambm que o eixo da
frequncia se estende a valores muito altos. Se seus dados foram amostrados
regularmente (evenly sampled), a parte superior do espectro uma imagem-espelho da
metade superior e de pouca serventia. Se algumas regies so amostradas de forma
menos espaada (closely sampled), o algoritmo pode ser capaz de encontrar informao
til at mesmo acima do ponto mdio (frequncia de Nyquist).
O pico mais alto do espectro apresentado com a sua frequncia e seu valor de potncia
(power value), juntamente com a probabilidade de que o pico poderia ocorrer de dados

130
aleatrios. Os nveis de significncia de 0.01 e 0.05 (linhas de barulho branco white
noise lines) so mostradas como linhadas tracejadas vermelhas.
O exemplo acima mostra uma anlise espectral de um istopo de oxignico formico
(foram oxygen isotope) de 1 Ma at Recente, com um espaamento regular de 0.003 Ma
(3 ka). H periodicidades em frequncia de por volta de 9 (pico dividido split peak), 25
e 43 Ma-1, correspondentes a perodos de 111 ka, 40 ka e 23 ka com claro foramento
orbital (clearly orbital forcing).
Referncia
Press, W.H., S.A. Teukolsky, W.T. Vetterling & B.P. Flannery. 1992. Numerical Recipes in C.
Cambridge University Press.

Anlise espectral REDFIT (REDFIT spectral analysis)


Este mdulo uma implementao do procedimento REDFIT de Schulz & Mudelsee
(2002). Uma verso mais avanada do periodograma simples de Lomb descrito acima.
REDFIT incluir uma opo para mdias de segmentos sobrepostos de Welch (Welch
overlapped segment averaging), a qual implica em dividir a srie temporal em um
nmero de segmentos com 50% de sobreposio e usar a mdia dos seus espectros. Isso
reduz o barulho (noise), mas tambm reduz a resoluo espectral. Adicionalmente, a srie
temporal encaixada a um de barulho vermelho AR(1) (AR(1) red noise model), o qual
normalmente uma hiptese nula mais apropriada do que o modelo de barulho branco
(white noise model) descrito acima. As linhas de falso alarme (false-alarm lines)
fornecidas so baseadas tanto em aproximaes paramtricas (qui-quadrado) quanto em
Monte Carlo (usando 1000 realizaes aleatrias de um processo AR(1)).
Os dados devem ser inseridos na forma de duas colunas com valores de tempos e de
dados, ou uma coluna com valores de dados igualmente espaados. Os dados so
destendenciados automaticamente. O encaixe do modelo AR(1) implica que os dados
devem a direo temporal correta (em contraste ao espectrograma simples onde a direo
temporal arbitrria). Espera-se que os valores do tempo sejam eras antes do presente.
Caso contrrio, ser necessrio dar a eles sinais negativos.

131
O valor da superamostragem de frequncia (frequency oversampling value) contra o
nmero de pontos ao longo do eixo da frequncia (mas ter mais pontos no aumenta a
resoluo da frequncia!). Aumentando o nmero de segmentos, vai reduzir o barulho,
mas tambm reduzir a resoluo. A funo de janela (window function) influencia o
trade-off entre resoluo espectral e atenuao dos lobos laterais (attenuation of side
lobes).
O valor (mdio) do tau a escala temporal caracterstica (o parmetro do modelo AR). A
largura de banda (bandwidth) a resoluo espectral, dada como a largura entre os -6dB
pontos.
O encaixe a um modelo AR(1) pode ser verificado pelo valor de corridas (runs value) e
seu intervalo de aceitao de 5%. Este teste disponvel apenas com o Monte Carlo
ligado, superamostragem (oversampling) = 1, segmentos = 1, janela (window) =
retangular (rectangular). Em adio a um conjunto fixo de nveis de falso alarme (90%,
90%, 95% e 99%), o programa tambm fornece o nvel crtico de falso alarme (False-
al) que depende do comprimento do segmento (Thomson 1990).
Importante: por causa do longo tempo de clculo, a simulao Monte Carlo no
executada automaticamente, e os nveis de falso-alarme por Monte Carlo, portanto, no
so disponveis. Quando a opo Monte Carlo ativada, o espectro fornecido pode mudar
levemente porque os resultados do Monte Carlo so, ento, usados para calcular uma
verso com vis corrigido (bias-corrected) (veja Schulz e Mudelsee 2002).
Referncias
Schulz, M. & M. Mudelsee. 2002. REDFIT: estimating red-noise spectra directly from unevenly
spaced paleoclimatic time series. Computers & Geosciences 28:421-426.
Thomson, D.J. 1990. Time series analysis of Holocene climate data. Philosophical Transactions
of the Royal Society of London, Series A 330:601-616.

Anlise espectral de afunilamento mltiplo (Multitaper spectral analysis)


Na anlise espectral tradicional, os dados so frequentemente janelados (windowed)
(multiplicados por uma funo em forma de sino) para reduzir vazamento espectral
(spectral leakage). No mtodo de afunilamento mltiplo, algumas funes de janela
diferentes (ortogonais) so aplicadas e os resultados so combinados. O espectro
resultante tem baixo vazamento, baixa varincia, e retm a informao contida no
comeo e no fim da srie temporal. Adicionalmente, testes estatsticos podem ser
favorecidos pelas mltiplas estimativas espectrais. Uma possvel desvantagem a
resoluo espectral reduzida.
O mtodo de afunilamento mltiplo requer dados espaados regularmente, fornecidos em
uma coluna.
A implementao no Past baseada no cdigo de Lees & Park (1995). O espectro de
afunilamento mltiplo pode ser comparado com um periodograma simples (FFT com
uma janela coseno de 10%) e um periodograma suavizado (smoothed). O nmero de
afunilamentos (tapers) (NWIN) pode ser ajustado em 3, 4 ou 5, para diferentes balanos
(tradeoffs) entre resoluo e reduo da varincia. O produto tempo-largura de banda
(time-bandwidth product) p fixado em 3.0.
O teste F para singnificncia da periodicidade segue Lees & Park (1995). Os nveis de
significncia 0.01 e 0.05 so mostrados como linhas horizontais, baseadas em 2 e
2*NWIN-2 graus de liberdade.

132
Os dados so zero-acolchoados (zero-padded) at a menor potncia de 2 que seja maior
que o comprimento da sequncia. Isto necessrio para produzir os resultados de teste
fornecidos por Lees & Park (1995).

Referncia
Lees, J.M. & J. Park. 1995. Multiple-taper spectral analysis: a stand-alone C-subroutine.
Computers & Geosciences 21:199-236.

Autocorrelao (Autocorrelation)
A autocorrelao (Davis 1986) feita em duas colunas de dados temporais/estratigrficos
amostrados regularmente. Tempo de atraso (lag times) de at n/2, onde n o nmero
total de valores no vetor, so mostrados ao longo do eixo x (apenas tempos de atraso
positivos a funo de autocorrelao simtrica em torno de zero). Uma autocorrelao
predominantemente igual a zero significa dados aleatrios periodicidades aparecem
como picos.

A opo intervalo de confiana 95% (95 percent confidence interval) desenhar


linhas em
1
1.76
n + 3
segundo Davis (1986). Este o intervalo de confiana para pontos aleatrios e
independentes (barulho branco). H duas consideraes: Barulho branco um modelo
no realstico, e o intervalo de confiana s rigorosamente vlido em cada atraso
individual (problema dos testes mltiplos).
H suporte para dados ausentes.

133
Referncia
Davis, J.C. 1986. Statistics and Data Analysis in Geology. John Wiley & Sons.

Correlao cruzada (Cross-correlation)


A correlao cruzada (Davis 1986) feita em duas colunas de dados
temporais/estratigrficos amostrados regularmente. O eixo x mostra o deslocamento da
segunda coluna em relao primeira, o eixo y a correlao entre as duas sries
temporais para um dado deslocamento. A opo p valores (p values) desenhar a
significncia da correlao, segundo Davis (1986).

Para duas sries temporais x e y, o valor da correlao cruzada em um tempo de atraso


(lag time) m

rm =
( xi x )( yim y ) .
( xi x ) 2 ( y i m y ) 2
As somatrias e os valores mdios so tomados apenas nas partes das sequncias que se
sobrepem para um dado tempo de atraso.
A equao mostra que para atrasos positivos, x comparado com um y que foi atrasado
em m amostras. Uma alta correlao em atrasos positivos ento significa que
caractersticas de y esto guiando, enquanto x fica para trs. Um lembrete disso dado
pelo programa.
Um valor de p para um dado m dado por um teste t com n-2 graus de liberdade, sendo n
o nmero de amostras que se sobrepem:
n2
t = rm .
1 rm2

134
importante notar que este teste diz respeito a um m em particular. Plotar p em funo
de todos os m traz a questo de testes mltiplos valores de p menores que 0.05 so
esperados para 5% dos tempos de atraso mesmo em conjuntos de dados totalmente
aleatrios (no correlacionados).
No exemplo acima, os dados de terremotos (earthquakes) parecem se atrasar em
relao aos dados de injeo (injection) com um atraso de 0-2 amostras (neste caso,
meses), onde os valores da correlao so maiores. Os valores de p (curva vermelha)
indicam a significncia nestes atrasos. Curiosamente, parece haver significncia para a
correlao negativa em atrasos positivos e negativos grandes.
H suporte para dados ausentes.
Referncia
Davis, J.C. 1986. Statistics and Data Analysis in Geology. John Wiley & Sons.

Autoassociao (Autoassociation)
A autoassociao anloga autocorrelao, mas para uma sequncia de dados binrios
ou nominais codificados como nmeros inteiros

Para cada atraso (lag), o valor da autoassociao simplesmente a razo entre o nmero
de posies de mesmo valor (matching position) e o nmero total de posies que foram
comparadas. O valor de autoassociao esperado (0.3318 no exemplo acima) para uma
sequncia aleatria (Davis 1986)
m

X
k =1
2
k n
P=
n2 n
onde n o nmero total de posies, m o nmero de estados distintos (3 no exemplo
acima), e Xk o nmero de observaes com o estado k.
Para valores de atraso diferentes de zero, um valor de P computado apenas pelas
posies com sobreposio, e o nmero esperado de correspondncias dado por E=nP.

135
Isso comparado ao nmero observado de correspondncia O para produzir um 2 com 1
grau de liberdade:
2 (O E 1 / 2) 2 (O' E '1 / 2) 2
= +
E E'
com O=n-O e E=n(1-P) os valores observados e esperados de no-correspondncias
(mismatches).
A questo de testes mltiplos surge para o conjunto de valores p.
O teste acima no rigorosamente vlido para sequncias de transio nas quais
repeties no so permitidas (a sequncia no exemplo acima desse tipo). Neste caso,
selecionar a opo sem repeties (No repetitions). Os valos de p sero ento
computados por um teste exato, onde todas as possveis permutaes sem repetio so
computadas e a autoassociao comparada com os valores originais. Este teste demora
muito tempo para rodar para n>30, e a opo no est disponvel para n>40.
H suporte para dados ausentes.
Referncia
Davis, J.C. 1986. Statistics and Data Analysis in Geology. John Wiley & Sons.

Wavelet (Wavelet transform)


Inspeo de sries temporais em diferentes escalas. Requer uma coluna de dados ordinais
ou contnuos com espaamento regular entre os pontos.
A transformao wavelet contnua (continuous wavelet transform CWT) uma forma
de anlise em que os dados podem ser inspecionados simultaneamente em escalas
pequena, intermediria e grande. Pode ser til para detectar periodicidades em diferentes
comprimentos de onde, auto-similaridade (self-similarity) e outras caractersticas. O eixo
vertical no grfico o logaritmo (base 2) da escala de tamanho, com o sinal observado a
uma escala de apenas dois pontos consecutivos no topo e a uma escala de um quarto de
toda a sequncia na base. O topo da figura assim representa uma viso detalhada, de
granulao fina (fine-grained view), enquanto a base representa uma viso geral suave de
tendncias mais longas. O poder do sinal (ou, mais corretamente, o quadrado da fora de
correlao com o wavelet gerador (mother wavelet) daquela escala) mostrada como uma
escala de cinza ou em cor.

136
A forma do wavelet gerador pode ser estabelecida para Morlet (nmero de wavelet
(wavelet number) = 6), Paul (4 ordem) ou DOG (Derivado Do Gaussiano (Derivative Of
Gaussian), 2 e 4 derivadas). O wavelet de Morlet normalmente tem o melhor
desempenho.
O exemplo acima baseada em um registro de istopos de oxignio de foraminferos
(foram oxygen isotope) de 1 Ma at Recente, com um espaamento regular de 0.003 Ma
(3 ka). Uma faixa pode ser vista a uma escala de aproximadamente 25 = 32 amostras, ou
por volta de 100 ka. Uma faixa mais fraca por volta de 23.7=13 amostras corresponde a
uma escala de 40 ka. Isto so periodicidades orbitais (orbital periodicities). Em contraste
com a anlise espectral geral, o escalograma torna visveis as mudanas de fora e
frequncia ao longo do tempo.
O assim chamando cone de influncia (cone of influence) pode ser plotado para
mostrar a regio em que efeitos de fronteira (boundary effects) esto presentes.
O algoritmo baseado na convoluo rpida do sinal com o wavelet em diferentes
escalas, usando o FFT.
Teste de significncia: O nvel de significncia correspondente a p=0.05 pode ser plotado
como um contorno (teste qui-quadrado, de acordo com Torrence & Compo 1998). O
valor de atraso (Lag), como fornecido pelo usurio, especifica a hiptese nula.
Atraso=0 especifica um modelo de barulho branco. Valores de 0 < Atraso < 1
especificam um modelo de barulho vermelho com o dado coeficiente MA(1) de
autocorrelao. Este pode ser estimado usando o mdulo ARMA no menu Time
(especificar zero termos AR (AR terms) e um termo MA (MA term), note que os valores
de MA so dados com sinal negativo).
Se a funo Potncia (Power) for desmarcada, o programa ir mostrar apenas a parte
real do escalograma (sem elevar ao quadrado). Isso mostra o sinal no domnio tempo,
filtrado em diferentes escalas:

Na janela Ver nmeros (View numbers), cada linha mostra uma escala, com o
nmero da amostra (posio) ao longo das colunas.
A transformao wavelet foi usada por Prokoph et al. (2000) para ilustrar ciclos em
curvas de diversidade em foraminferos planctnicos. O cdigo no Past baseado em
Torrence & Compo (1998).
Referncias
Prokoph, A., A.D. Fowler & R.T. Patterson. 2000. Evidence for periodicity and nonlinearity in a
highresolution fossil record of long-term evolution. Geology 28:867-870.
Torrence, C. & G.P. Compo. 1998. A practical guide to wavelet analysis. Bulletin of the
American Meteorological Society 79:61-78.

Transformao de Fourier de tempos curtos (Short-time Fourier


transform)
Anlise espectral usa a transformao de Fourier (Fourier transform FFT), mas divide
o sinal em uma sequncia de janelas que se sobrepe, que so analisadas

137
individualmente. Isso permite desenvolvimento do espectro no tempo, contrastando com
a anlise global fornecida por outros mdulos de anlise espectral. Posio da amostra
mostrada no eixo x, frequncia (em perodos por amostra) no eixo y, e poder em uma
escala logartmica por uma escala de cor ou escala-de-cinza.
A Transformao de Fourier de Tempos curtos (Short-time Fourier transform STFT)
pode ser comparada com anlise de wavelet, mas com uma escala linear de frequncia e
com resoluo temporal constante independente da frequncia.

O tamanho de janela (window size) controla a troca entre resoluo em tempo e


frequncia; janelas pequenas do boa resoluo para tempo mais baixa resoluo para
frequncia. Janelas so acolchoadas em zero (zero-padded) por um fator de oito para dar
uma aparncia mais suave do diagrama ao longo do eixo de frequncias. As funes de
janela (window functions) (Rectangle, Welch, Hanning, Blackman-Harris, afunilamento
mltiplo (multiple taper) com 3, 4 ou 5 tapers) do diferentes trade-offs entre resoluo
de frequncia e rejeio de faixas laterais (sideband rejection).

Transformao de Walsh (Walsh transform)


A transformao de Walsh um tipo de anlise espectral (para encontrar periodicidades)
de dados binrios ou ordinais. Assume espaamento uniforme entre os pontos de dados e
espera uma coluna de dados binrios (0/1) ou ordinais (inteiros).

138
Os mtodos comuns de anlise espectral talvez no sejam timos para dados binrios, j
que eles decompem as sries temporais em sinusides, e no em ondas quadradas. A
transformao de Walsh pode ento ser uma escolha melhor, usando como base funes
que se alternam entre -1 e +1. Estas funes tm frequncias variveis (nmero de
transies dividido por dois), conhecidas como sequncias. No PAST, cada par de
funes bsicas pares (cal) e mpares (sal) combinado em uma potncia usando
cal2+sal2, produzindo um espectro de potncias que comparvel com o periodograma
de Lomb.
No exemplo acima, compare o periodograma de Walsh (topo) ao periodograma de Lomb
(embaixo). O conjunto de dados tem 0.125 perodos por amostra. Ambas as anlises
mostram harmnicos.
A transformao de Walsh ligeiramente extica comparada com a transformao de
Fourier, e os resultados devem ser interpretados com cautela. Por exemplo, os efeitos do
duty cycle (porcentagem de 1s contra a porcentagem de zeros) so um tanto difceis de
entender.
No PAST, os valores de dados so pr-processados multiplicado por dois e subtraindo 1,
trazendo os valores binrios 0/1 para dentro da amplitude -1/+1, tima para a
transformao de Walsh. Os dados so zero-acolchoados (zero-padded) potncia mais
prxima de 2 se necessrio, como requerido pelo mtodo.

Runs test (teste de sries)


O runs test (teste de sries) um teste no-paramtrico para aleatoriedade em uma
sequncia de valores como um srie temporal. No-aleatoriedade pode incluir efeitos
como autocorrelao, tendncia e periodicidade. O mdulo requer uma coluna de dados,
que so convertidos internamente para 0 (x 0) ou 1 (x > 0).

139
O teste baseado na dicotomia entre dois valores (x 0 ou x > 0). Ele conta o nmero de
sries (runs) (grupos de valores consecutivos iguais) e compara este nmero a um valor
terico. O runs test pode portando ser usado diretamente em sequncias de dados
binrios. Tambm h opes por series em torno da mdia (runs about the mean) (o
valor mdio subtrado dos dados antes do teste), e sries para cima e para baixo
(runs up and down) (so tomadas as diferenas entre um valor e o prximo antes do
teste).
Sendo n o nmero total de pontos de dados, n1 o nmero de pontos 0 e n2 o nmero de
pontos >0, o nmero esperado de sries em uma sequncia aleatria e a varincia so
n + 2n1n2
E ( R) = ,
n
2 n n ( 2n n n )
Var ( R ) = 1 2 2 1 2 .
n (n 1)
Sendo R o nmero observado de sries, uma estatstica z pode ser escrita como
R E ( R)
z= .
Var ( R )
O valor de p bicaudal resultante no preciso para n<20. Sendo assim, tambm
includo um procedimento Monte Carlo baseado em 10 000 rplicas aleatrias usando n,
n1 e n2 .

140
Correlograma (e periodograma) de Mantel (Mantel correlogram (and
periodogram)
Este mdulo espera uma srie de linhas de dados multivariados, uma linha por amostra.
Assume-se que as amostras estejam distribudas regularmente no tempo.
O correlograma de Mantel (e.g. Legendre & Legendre 1988) uma extenso multivariada
da autocorrelao e baseado em qualquer medida de similaridade ou distncia. O
correlograma de Mantel no PAST mostra a similaridade mdia entre a srie temporal e
uma cpia atrasada (lagged copy), para atrasos (lags) diferentes.

O periodograma de Mantel um espectro das potncias (power spectrum) da srie


temporal, calculado a partir do correlograma de Mantel (Hammer 2007).

O escalograma de Mantel (Mantel scalogram) um grfico experimental das


similaridades entre todos os pares de pontos ao longo da srie temporal. O pice do

141
tringulo a similaridade entre o primeiro e o ltimo ponto. A base do tringulo mostra
similaridade entre pares de pontos consecutivos.

Referncias
Hammer, . 2007. Spectral analysis of a Plio-Pleistocene multispecies time series using the
Mantel periodogram. Palaeogeography, Palaeoclimatology, Palaeoecology 243:373-377.
Legendre, P. & L. Legendre. 1998. Numerical Ecology, 2nd English ed. Elsevier, 853 pp.

ARMA (e anlise de interveno) (ARMA (and intervention analysis))


Anlise e remoo de correlaes seriais (serial correlations) na srie temporal, e anlise
do impacto de um distrbio externo (interveno) em um dado ponto no tempo. Sries
temporais estacionrias, exceto para uma nica interveno. Uma coluna de dados com
espaamento regular.
Este mdulo poderoso, mas um tanto complicado, implementa anlise ARMA de mxima
verossimilhana e uma verso mnima da anlise de interveno de Box-Jenkins (e.g.
para investigar como uma mudana climtica pode afetar a biodiversidade).
Por padro, uma anlise ARMA simples sem interveno calculada. O usurio
seleciona o nmero de termos AR (auto-regressivos (autoregressive)) e MA (mdia
mvel (movem average)) que sero includos na equao de diferena do ARMA. A log-
verossimilhana (log-likelihood) e o Critrio de Informao de Akaike (Akaike
Information Criterium AIC) so fornecidos. Selecione o nmero de termos que
minimiza o critrio de Akaike, mas leve em conta que os termos AR so mais
poderosos do que os termos MA. Dois termos AR podem modelar uma periodicidade,
por exemplo.
O principal objetivo da anlise ARMA remover correlaes seriais, que caso contrrio
causariam problemas para ajuste de modelos e estatstica. O resduo deve ser
inspecionado para sinais de autocorrelao, por exemplo copiado o resduo da janela de
sada numrica de volta planilha e usando o mdulo de autocorrelao. Repare que para

142
muitos conjuntos de dados paleontolgicos com dados esparsos efeitos que confundem,
uma anlise ARMA adequada (e, portanto, anlise de interveno) ser impossvel.
O programa baseado no algoritmo de verissimilhana de Melard (1984), combinado
com otimizao multivariada no-linear usando busca por simplex (nonlinear
multivariate optimization using simplex search).
A anlise de interveno prossegue assim: Primeiro, faa uma anlise ARMA apenas nas
amostras que precedem a interveno. Para isso, digite o nmero da ltima amostra pr-
interveno na caixa ltima amostra (last samp). Tambm possvel fazer a anlise
ARMA apenas nas amostras que se seguem interveno, ao digitar a primeira amostra
ps-interveno na casa primeira amostra (first samp), mas isso no recomendado
por causa do distrbio ps-interveno. Tambm selecione a caixa Interveno
(Intervention) para ver o modelo de interveno otimizado.
A anlise segue Box e Tiao (1975) ao assumir uma funo indicadora (indicator
function) u(i) que ou um passo unitrio (unit step) ou um pulso unitrio (unit pulse),
como escolhido pelo usurio. A funo indicadora transformada por um processo
AR(1) com um parmetro delta e ento escalonada (scaled) por um magnitude (note que
a magnitude dada no PAST o coeficiente na funo indicadora transformada: primeiro
faa y(i)=delta*y(i-1)+u(i), ento reajuste a escala de y pela magnitude). O algoritmo
baseado na transformao ARMA da sequncia completa, ento uma transformao
ARMA correspondente de y, e finalmente regresso linear para encontrar a magnitude. O
parmetro delta otimizado por busca exaustiva entre [0,1].
Para impactos pequenos em dados com rudo, o delta pode parar em um sub-timo. Tente
as opes tanto de passo (step) quanto de pulso (pulse) e veja qual d o menor erro
padro na magnitude. Tambm inspecione os dados de otimizao do delta (delta
optimization), onde o erro padro da estimativa plotado como funo de delta, para ver
se o valor otimizado pode ser instvel.
O modelo de Box-Jenkins pode modelar mudanas abruptas e permanentes (funo passo
(step) com delta=0, ou pulso com delta=1), abruptas e no-permanentes (pulso com
delta<1), ou graduais e permanentes (passo com delta<0).
Tome cuidado com o erro padro da magnitude ele frequentemente ser subestimado,
especialmente se o modelo ARMA no se ajusta bem. Por esta razo, um valor de p
deliberadamente no calculado (Murtaugh 2002).

143
O conjunto de dados do exemplo (curva azul) a curva de Sepkoski para a taxa de
extino percentual em nvel de gnero, interpolada para produzir um espaamento
regular de ca. 5 milhes de anos. O pico maior a extino no limite entre o Permiano e
o Trissico. O usurio especificou um modelo ARMA(2,0). O resduo plotado em
vermelho. O usurio especificou que os parmetro do ARMA devem ser calculados para
os pontos antes da extino P-T no tempo 37 e uma interveno do tipo pulso (pulse-type
intervention). A anlise parece indicar uma constante temporal (delta) elevada para a
interveno, com o efeito durando at o Jurssico.
Referncias
Box, G.E.P. & G.C. Tiao. 1975. Intervention analysis with applications to economic and
environental problems. Journal of the American Statistical Association 70:70-79.
Melard, G. 1984. A fast algorithm for the exact likelihood of autoregressive-moving average
models. Applied Statistics 33:104-114.
Murtaugh, P.A. 2002. On rejection rates of paired intervention analysis. Ecology 83:1752-1761.

Modelo de insolao (foramento solar) (Insolation (solar forcing) model)


Este mdulo calcula a insolao solar em qualquer latitude e em qualquer tempo de 100
Ma at o Recente (os resultados so menos precisos antes de 50 Ma). O clculo pode ser
feito para uma longitude orbital verdadeira, longitude orbital mdia (correspondente
a uma certa data do ano), com a mdia de um certo ms em cada ano, ou integrada para
um ano inteiro.
A implementao no PAST portada do cdigo de Laskar et al. (2004), por cortesia deste
autores. Por favor, cite Laskar et al. (2004) em qualquer publicao.

144
necessrio especificar um arquivo de dados contendo parmetros orbitais. Baixe o
arquivo http://www.imcce.fr/Equipes/ASD/insola/earth/La2004 e o coloque em qualquer lugar
no seu computador. O PAST ir perguntar a localizao do arquivo na primeira vez que
voc fizer o clculo.
A quantidade de dados pode se tornar excessiva para perodos longos de tempo e
pequenos tamanhos de passo!

Referncia
Laskar, J., P. Robutel, F. Joutel, M. Gastineau, A.C.M. Correia & B. Levrard. 2004. A long-term
numerical solution for the insolation quantities of the Earth. Astronomy & Astrophysics 428:261-
285.

Eventos pontuais (Point events)


Espera uma coluna contendo tempos de eventos (e.g. terremotos ou divergncias de
clado) ou posies ao longo de uma linha (e.g. transecto). Os tempos no precisam estar
em ordem crescente.

145
Teste exp para processo de Poisson
O teste exp (Prahl 1999) para um processo estacionrio de Poisson (eventos aleatrios e
independentes) baseado no conjunto de n tempos de espera ti entre eventos sucessivos
na sequncia ordenada. A estatstica de teste :
1 t
M = 1 i
n t i <T T
onde T o tempo de espera mdio. M ir tender a zero para uma sequncia espaada
regularmente (superdispersa overdispersed) e a 1 para uma sequncia altamente
agrupada. Para a hiptese nula de um processo de Poisson, M tem distribuio
assimptoticamente normal com mdia 1/e /n e um desvio padro /n, onde =0.189
e =0.2427. Esta a base para o teste z fornecido.
Resumindo, se p<0.05 a sequncia no Poisson. Voc pode ento inspecionar a
estatstica M; se ela for menor do que o valor esperado, isso indica regularidade, se for
maior, indica agrupamento.

Tendncia de densidade (teste de Laplace)


O teste de Laplace para uma tendncia na densidade (intensidade) descrito por Cox &
Lewis (1978). Ele baseado na estatstica de teste
L
t
U= 2
1
L
12n
onde t o tempo mdio de evento, n o nmero de eventos e L o comprimento do
intervalo. L estimado como o tempo do primeiro evento ao ltimo, mais o tempo mdio

146
de espera. Na hiptese nula de intensidade constante, U tem distribuio
aproximadamente normal com mdia zero e varincia um. Esta a base para o valor de p
que fornecido.
Se p<0.05, um U positivo indica uma tendncia de aumento na densidade (reduo nos
tempos de espera), enquanto um U negativo indica uma tendncia decrescente. Repare
que se uma tendncia detectada por este teste, a sequncia no estacionria e as
premissas do teste exp acima so violadas.
Referncias
Cox, D. R. & P. A. W. Lewis. 1978. The Statistical Analysis of Series of Events. Chapman and
Hall, London.
Prahl, J. 1999. A fast unbinned test on event clustering in Poisson processes. Arxiv, Astronomy
and Astrophysics September 1999.

Cadeia de Markov (Markov chain)


Este mdulo requer uma nica de coluna contendo uma sequncia de dados nominais
codificados como nmeros. Por exemplo, uma sequncia estratigrfica onde 1 significa
calcrio, 2 significa xisto e 3 significa areia. Uma matriz de transio contendo contagens
ou propores (probabilidades) de transies de estado mostrada. Os estados originais
(de) esto nas linhas e os estados finais (para) esto nas colunas.
Tambm possvel especificar mais de uma coluna, cada uma contendo uma ou mais
transies de estado (dois nmeros para uma transio, n nmeros para uma sequncia
dando n-1 transies).

O teste de qui-quadrado relata a probabilidade de que os dados foram tomados de um


sistema com propores aleatrias de transies (i.e. sem transies preferenciais). As
transies com frequncias anmalas podem ser identificadas comparando as matrizes de
transio observada e esperada.

147
A opo Incorporada (sem repeties) (Embedded (no repeats)) deve ser selecionada
se os dados foram coletados de tal modo que transies para o mesmo estado no so
possveis (pontos de dados s so coletados quando h uma mudana). A matriz de
transio ento ter zeros na diagonal.
Os algoritmos, incluindo um algoritmo iterativo para cadeias de Markov incorporadas,
seguem Davis (1986).
Referncia
Davis, J.C. 1986. Statistics and Data Analysis in Geology. John Wiley & Sons.

Filtrar (Filter)
Filtrar os dados, de modo a deixar certas faixas de frequncia de fora, pode ser til, em
anlise de sries temporais, para suavizar (smooth) uma curva, remover variao lenta ou
enfatizar certas periodicidades (e.g ciclos de Milaknovitch). Espera uma coluna de dados
com espaamento regular. O Past usa filtros FIR, que foram desenhados usando o
algoritmo de Parks-McClellan. Os seguintes tipos de filtro so disponveis: Passe baixo,
passe alto, passa de faixa e parada de faixa (Lowpass, highpass, bandpass & bandstop).

Parmetros do filtro
Algum esforo necessrio para delinear o melhor filtro. As frequncias so
especificadas na faixa de 0-0.5, i.e. T0/T onde T0 o intervalo de amostragem (no
especificado para o computador) e T o perodo requerido. Por exemplo, se o seu
intervalo de amostragem de 1000 anos, uma frequncia correspondente a um perodo de
23000 anos especificada como 1000/23000=0,043.

148
Depois de definir o tipo de filtro, voc deve escolher uma largura de transio (transition)
(ou deixar o valor padro de 0,02). Reduzir a largura da transio vai produzir um filtro
mais preciso (sharper) ao custo de ondulaes maiores (ondas na resposta da
frequncia).
Repare que os valores nos campos do texto no so atualizados at que voc pressione
Enter. Alm disso, se uma combinao invlida for colocada (e.g. faixa de transio
cruzando 0 ou 0.5, ou limite superior menor que o limite inferior) o programa ir reiniciar
alguns valores para evitar erros. Portanto, necessrio inserir os nmeros em uma ordem
para que o filtro sempre seja vlido.
Os tipos de filtro so os seguintes:
1. Passe baixo (lowpass): A frequncia De (From) forada a zero. As frequncias
at a frequncia At (Up) passam pelo filtro. As frequncias de At+Transio at
0.5 so bloqueadas.
2. Passe alto (highpass): A frequncia Para forada para 0.5. Frequncias acima
da frequncia De passam pelo filtro. Frequncias de 0 at De-Transio so
bloqueadas.
3. Passe de faixa (bandpass): Frequncias de De at At passam pelo filtro.
Frequncias abaixo de De-Transio e acima de At+Transio so bloqueadas.
4. Parada de faixa (bandstop): Frequncias de De at At so bloqueadas.
Frequncias de 0 at De-Transio e de At+Transio at 0.5 passam pelo filtro.

Ordem do filtro (Filter order)


A ordem do filtro deve ser grande o suficiente para dar um filtro aceitavelmente preciso
com poucas ondulaes. No entanto, um filtro de ordem n vai dar resultados menos
acurados nas n/2 primeiras e ltimas amostras da srie temporal, o que coloca um limite
prtico na ordem do filtro para sries pequenas.
O algoritmo de Parks-McClennan nem sempre ir convergir. Isso d uma resposta de
frequncia obviamente incorreta, e uma tentativa de aplicar este filtro aos dados d uma
mensagem de aviso. Tente mudar a ordem do filtro (normalmente aumentando-a) para
resolver este problema.

Suavizadores simples (Simple smoothers)


Um conjunto de suavizadores simples para uma nica coluna de dados espaados
regularmente.
H suporte para dados ausentes.
Mdia mvel (Moving average)
Uma mdia mvel simples, centrada, de n pontos (n deve ser mpar). Seu uso comum,
mas tem propriedades indesejveis como uma resposta de frequncia (frequency
response) no-monotnica.
Gaussiana (Gaussian)
Mdia mvel ponderada usando um Kernel Gaussiano com desvio padro de do
tamanho da janela (de n pontos). Este provavelmente, de modo geral, o melhor mtodo
do mdulo.
Mediana mvel (Moving median)

149
Similar mdia mvel, mas usa a mediana ao invs da mdia. Este mtodo mais
robusto em relao a valores extremos (outliers).
AR1 (Exponencial) (AR1 (Exponential))
Filtro recursivo (autoregressivo), yi = yi-1 + (1-)xi com sendo um coeficiente de
alisamento de 0 at 1. Isso corresponde ao clculo de mdias ponderadas com pesos que
decaem exponencialmente. D um atraso de fase e tambm um transitrio (transient) no
comeo da srie. Includo para deixar o mdulo mais completo.

Converso de data/tempo (Date/time conversion)


Ferramenta para converter datas e/ou tempos em uma varivel contnua para anlise. O
algoritmo espera uma ou duas colunas, cada uma contendo datas ou tempos. Se ambas
so fornecidas, o tempo adicionado data para dar o valor final do tempo.
Datas podem ser fornecidas no formato Ano/Ms/Dia ou Dia/Ms/Ano. Anos precisam
de todos os dgitos (um ano inserido como 11 significa 11 d.C., no 2011). H suporte
apenas para datas do calendrio Gregoriano. Anos bissextos so levados em conta.
Tempo pode ser fornecido como Horas:Minutos ou como Horas:Minutos:Segundos
(segundos podem incluir decimais).
A unidade de sada pode ser anos (usando o calendrio mdio Gregoriano de 365.2425
dias), dias (de 86400 segundos), horas, minutos ou segundos.
O tempo inicial (tempo zero) pode ser o menor tempo fornecido, o comeo do primeiro
dia, o comeo do primeiro ano, ano 0 (repare a conveno astronmica onde o ano
antes do ano 1 ano 0), ou o comeo do primeiro dia Juliano (meio-dia, ano -4712).
O programa opera com tempo simples (UT), definido em relao rotao da Terra e
com um nmero fixo de segundos por dia (86400).
Se os dados de entrada consistem de valores separados por espao, como 2011/12/24
18:00:00.00, voc pode ter que usar a funo Importar arquivo de texto (Import text
file) para ler os dados de modo que as datas e os tempos sejam separados em colunas
distintas.
O clculo do dia Juliano (usado para encontrar o nmero de dias entre duas datas) segue
Meeus (1991):

se ms <= 2 comear ano := ano-1; ms := ms +12; fim


A = base4(ano/100);
B = 2 A + base(A/4);
JD = base (365.25(ano+4716)) + base(30.6001(ms+1) + dia + B 1524.5;

Referncia
Meeus, J. 1991. Astronomical algorithms. Willmann-Bell, Richmond.

4
Traduzi floor como base.

150
Geometrical menu
Direes uma amostra (Directions one sample)
Este mdulo plota um diagrama de rosa (rose diagram), ou histograma polar, de direes.
Usado para plotar espcimens orientados a correntes, orientao de caminhos, orientao
de elementos morfolgicos (e.g. linhas de terraceamento), etc.
Uma coluna de dados direcionais (0-360) ou orientacionais (0-180), em graus, esperada.
Dados direcionais ou peridicos em outras formas (radianos, 0-24 horas, etc) devem ser
convertidas em graus usando e.g. o mdulo Evaluate Expression (menu Transform).

Por padro, a conveno matemtica de ngulos anti-horrios a partir do leste


escolhida. Caso voc queria usar a conveno geogrfica de ngulos em sentido horrio
a partir do norte, marque a caixa Geo. convention.
Voc tambm pode escolher se ter abundncias proporcionais ao raio do diagrama de
rosa ou proporcionais rea (equal area).
A opo Densidade Kernel (Kernel density) plota uma estimativa circular da
densidade por Kernel.

Estatstica descritiva
O ngulo mdio (mean angle) leva em conta a circularidade:

= tan 1
sin i (levado ao quadrante certo)
cos i
O intervalo de confiana de 95% da mdia estimado de acordo com Fisher (1983). Ele
assume distribuio normal circular, e no muito preciso para varincias muito grandes
(intervalo de confiana maior do que 45 graus) ou tamanhos amostrais pequenos. O

151
intervalo de confiana de 95% das mdias por bootstrap utiliza 5000 rplicas de
bootstrap. O grfico usa o intervalo de confiana por bootstrap.
O parmetro de concentrao estimado por aproximao iterativa soluo da
equao
I 1 ( )
=R
I 0 ( )
onde I0 e I1 so funes imaginrias de Bessel de ordens 0 e 1, estimadas de acordo com
Press et al. (1992), e o R definido abaixo (ver e.g. Mardia 1972).

Teste de Rayleigh para distribuio uniforme


O valor de R (comprimento mdio resultante mean resultant length) dado por
2 2
n n
R = cos i + sin i n .
i =1 i =1
O R ento testado em relao a uma distribuio aleatria por meio do teste de Rayleigh
para dados direcionais (Davis 1986). Repare que este procedimento assume dados
distribudos de forma uniforme ou unimodal (von Mises) o teste no apropriado para,
por exemplo, dados bimodais. Os valores de p so calculados usando uma aproximao
dada por Mardia (1972):
K = nR 2
2 K K 2 24 K 132 K 2 + 76 K 3 9 K 4
K
p = e 1 + 2

rn 288 n
Teste de espaamento de Rao (Raos spacing test) para distribuio uniforme
O teste de espaamento de Rao (Batschelet 1981) para distribuio uniforme tem a
estatstica de teste
1 n
U = Ti ,
2 i =1
onde =360o/n. Ti = i +1 i para i < n, Tn = 360 o n + 1 . Esse teste no-paramtrico,
e no assume, e.g., distribuio de vone Mises. O valor de p estimado por interpolao
linear a partir das tabelas de probabilidade publicadas por Russel & Levitin (1995).
Um teste de qui-quadrado para distribuio uniforme tambm disponvel, com o
nmero de grupos definido pelo usurio (igual a 4 por padro).

Teste U2 de Watson para qualidade-de-ajuste (goodness-of-fit) da distribuio de


von Mises
Seja f a distribuio de von Mises para os parmetros estimados de ngulo mdio e
concentrao:
e cos( )
f ( ; , ) = .
2I 0 ( )
A estatstica do teste (e.g. Lockhart & Stevens 1985)
2 2
2i 1 1 1
U = zi
2
n z +
2n 2 12n

152
onde
i
z i = f ( ; , )d ,
0
estimado por intergrao numrica. Valores crticos para a estatstica de teste so obtidos
por interpolao linear da Tabela 1 de Lockhart & Stevens (1985). So aceitavelmente
precisos para n>=20.

Dados axiais (Axial data)


A opo Orientations (Orientaes) permite anlise de orientaes lineares (axiais)
(0-180 graus). Os testes de Rayleigh e Watson so ento feitos sobre os ngulos dobrados
(o truqe descrito por Davis 1986); o teste de qui-quadrado usa quatro grupos de 0 a 180
graus; os diagramas de rosa espelham o histograma ao redor da origem.

Referncias
Batschelet, E. 1981. Circular statistics in biology. Academic Press.
Davis, J.C. 1986. Statistics and Data Analysis in Geology. John Wiley & Sons.
Fisher, N.I. 1983. Comment on "A Method for Estimating the Standard Deviation of Wind
Directions". Journal of Applied Meteorology 22:1971.
Lockhart, R.A. & M.A. Stephens 1985. Tests of fit for the von Mises distribution. Biometrika
72:647- 652.
Mardia, K.V. 1972. Statistics of directional data. Academic Press, London.
Russell, G. S. & D.J. Levitin 1995. An expanded table of probability values for Rao's spacing
test.
Communications in Statistics: Simulation and Computation 24:879-888.

Direes duas amostras (Directions two samples)


Teste de Watson-Williams
O teste de Watson-William para ngulo mdio igual em duas amostras um teste
paramtrico, assumindo distribuio de von Mises, mas razoavelmente robusto. O
mdulo espera duas colunas de dados direcionais (0-360) ou orientacionais (0-180) em
graus.
O parmetro de concentrao deve ser maior do que 1.0 para testes precisos.
Adicionalmente, o teste assume varincias angulares (valores de R) similares.

153
As duas amostras e tm n1 e n2 valores. O espalhamento de Rayleigh (Rayleighs
spread) R calculado para cada amostra e para a amostra combinada:
2 2
n1 n1
R1 = cos i + sin i
i =1 i =1
2 2
n2 n2
R2 = cos i + sin i
i =1 i =1
2 2
n1 n2
n1 n2

R = cos i + cos i + sin i + sin i
i =1 i =1 i =1 i =1
A estatstica de teste U calculada por
R + R2 R
U = ( n 2) 1
n ( R1 + R2 )
A significncia calculada inicialmente corrigindo o U de acordo com Mardia (1972a):
U
2 R / n < 0.45
1
1 +
U = 8 n 2
3
1 + U R / n < 0.95
8
onde n=n1+n2. O valor de p ento dado pela distribuio F com 1 e n-2 graus de
liberdade. O parmetro de concentrao combinada (combined concentration parameter)
de mxima-verossimilhana, calculada como descrito em Direes uma amostra
acima.

154
Teste de Mardia-Watson-Wheeler
Esse teste no-paramtrico para igualdade de distribuio calculado de acordo com
Mardia (1972b).
C12 + S 22 C 22 + S 22
W = 2 +
n1 n 2
onde, para a primeira amostra,
n1 n1
C1 = cos(2r1i / N ), S1 = sin(2r1i / N )
i =1 i =1
e de modo similar para a segunda amostra (N=n1+n2). Os r1i so os ranks dos valores da
primeira amostra dentro da amostra agrupada.
Para N>14, W tem distribuio aproximada de qui-quadrado com 2 graus de liberdade.
Referncias
Mardia, K.V. 1972a. Statistics of directional data. Academic Press, London.
Mardia, K.V. 1972b. A multi-sample uniform scores test on a circle and its parametric
competitor. Journal of the Royal Statistical Society Series B 34:102-113.

Correlaes circulares (Circular correlations)


Teste de correlao entre duas variveis direcionais ou orientacionais. Assume um
nmero grande de observaes. Requer duas colunas de dados direcionais (0-360) ou
orientacionais (0-180) em graus.
O mdulo usa o procedimento de correlao circular o teste de significncia paramtrico
de Jammalamadaka & Sengupta (2001).
O coeficiente de correlao circular r entre os vetores de ngulos e
n

sin(
i =1
i ) sin( i )
r=
n

sin
i =1
2
( i ) 2 sin( i )

onde as mdias angulares so calculadas como descrito antes. A estatstica de teste T


calculada como
n n

sin
k =1
2
( k ) sin 2 ( k )
k =1
T =r n

sin
k =1
2
( k ) sin 2 ( k )

Para n grandes, essa estatstica tem distribuio assimptoticamente normal com mdia 0 e
varincia 1 na hiptese nula de correlao nula, constituindo a base para o clculo do p.

Referncia
Jammalamadaka, S. R. & A. Sengupta. 2001. Topics in circular statistics. World
Scientific.

155
Esfrico uma amostra (Spherical one sample)
Este mdulo faz grficos estreos (stereo) de dados esfricos axiais (e.g. medidas
strike-dip em geologia estrutural). Estatsticas esfricas podero ser adicionadas em
verses futuras.

Trs formatos de dados podem ser usados, todos usando a conveno geogrfica de
ngulo (ngulos, sentido horrio a partir do norte):
Tendncia (trend azimute) e imerso (plunge ngulo para baixo a partir da
horizontal) para dados axiais
Azimute da imerso e ngulo da imerso (para baixo a partir da horizontal) para
planos. O eixo (pole vetor normal) do plano plotado.
Golpe (strike) e imerso (dip) para planos, usando a conveno da regra da mo
direita com a impresso para baixo e para a direita do golpe. O eixo do plano
plotado.
O contorno da densidade baseado em um algoritmo modificado do mtodo de Kamb,
por Vollmer (1995). Tanto projees de rea igual (Schmidt) quanto de ngulo igual
(Wulff) so disponveis. Projees so para o hemisfrio inferior. Estimativas de
densidade podem usar rea inversa, rea inversa elevada ao quadrado, ou lei exponencial,
resultados em graus maiores de alisamento (smoothing).
Referncia
Vollmer, F.W. 1995. C program for automatic contouring of spherical orientation data using a
modified Kamb method. Computers & Geosciences 21:31-49.

Anlise de vizinho mais prximo do padro de pontos (Nearest neighbour


point pattern analysis)
Este mdulo testa o agrupamento (clustering) ou superdisperso (overdispersion) de
pontos fornecidos por valores bi-dimensionais de coordenadas. O procedimento assume
que todos os elementos so pequenos em comparao com suas distncias, que o domnio
predominantemente convexo, e n>50. Duas colunas de posies x/y so necessrias.

156
Aplicaes deste mdulo incluem ecologia espacial (braquipodos so agrupados in-
situ?), morfologia (tubrculos de trilobitas so superdispersos?) e geologia (distribuio
de, e.g., vulces, terremotos, nascentes).

O clculo das estatstica de distribuio de pontos usando o vizinho mais prximo de


acordo com Davis (1986), com modificaes. A rea estimada usando ou o menor
retngulo que envolve todos os pontos ou o casco convexo (convex hull), que o menor
polgono convexo que envolve todos os pontos. Ambos so inapropriados para pontos em
domnios muito cncavos. Dois mtodos de ajuste diferentes para efeitos de borda (edge
effects) so disponveis- wrap-around (torus) e correo de Donnelly. Deteco de
borda wrap-around s apropriada em domnios retangulares.
A hiptese nula um processo aleatrio de Poisson, dando uma distribuio exponencial
modificada de vizinho mais prximo (ver abaixo) com mdia
A/ n
=
2
onde A a rea e n o nmero de pontos.
A probabilidade de que a distribuio Poisson fornecida, juntamente com o valor de
R:
d 2d
R= =
A.n
onde d a distncia mdia observada entre vizinhos mais prximos. Pontos agrupados
do R<1, padres de Poisson do R~1, enquanto pontos superdispersos so R>1.
A distribuio esperada (terica) sob a hiptese nula plotada como uma curva contnua
junto com o histograma das distncias observadas. A funo de probabilidade de
densidade esperada em funo da distncia r
g (r ) = 2 r exp( r 2 )
onde = n / A a densidade de pontos (Clark & Evans 1954).
As orientaes (0-180 graus) e comprimentos das linhas entre os vizinhos mais prximos
tambm so includas. As orientaes podem ser sujeitas a anlise direcional para

157
verificar se os pontos esto organizados ao longo de linhas (ver Hammer 2009 para
mtodos mais avanados).
Referncias
Clark, P.J. & Evans, F.C. 1954. Distance to nearest neighbor as a measure of spatial relationships
in populations. Ecology 35:445-453.
Davis, J.C. 1986. Statistics and Data Analysis in Geology. John Wiley & Sons.
Hammer, . 2009. New methods for the statistical analysis of point alignments. Computers &
Geosciences 35:659-666.

Anlise do padro de pontos pelo K de Ripley (Ripleys K point pattern


analysis)
O K de Ripley (Ripley 1979) a densidade mdia de pontos como funo da distncia de
cada ponto. til quando caractersticas do padro de pontos mudam com escala, e.g.
superdisperso em pequenas escalas, mas com agrupamento em grandes escalas. Duas
colunas de coordenas x/y em um domnio retangular so esperadas.

Defina a intensidade estimada do padro de pontos, com n pontos em uma rea A, como
=n/A. A distncia entre os pontos i e j dij. A estimativa do K de Ripley, como funo
de distncia, ento calculada como
1 n
K (d ) = I (d ij d ) ,
n i =1 j 1
onde a funo indicadora I um se o argumento verdadeiro, zero caso contrrio.
A normalizao de K tal que para aleatoriedade espacial completa (complete spatial
randomness CSR), espera-se que K(d) aumente como rea de crculos, i.e. K(d)=d2. A
funo L(d) uma transformao correspondente de K(d):
K (d )
L(d ) =

158
Para CSR, L(d)=d, e L(d)-d=0. Um intervalo de confiana de 95% para CSR estimada
usando 1000 simulaes Monte Carlo dentro do retngulo que delimita a rea (verses
anteriores usaram a aproximao 1.42 A / n ).
A correo de Ripley para bordas (Ripleys edge correction) includa, dando pesos a
contagens dependendo da proporo do crculo que est dentro do domnio retangular.
O exemplo acima mostra localizaes de rvores em uma floresta. L(d)-d fica acima do
intervalo de 95% para CSR, indicando agrupamento. Adicionalmente, as interaes
espaciais parecem ser mais proeminentes em uma escala de aproximadamente 10 m,
acima da qual a curva fica plana de um modo esperado para CSR.

rea
Para que o K de Ripley seja calculado corretamente, a rea deve ser conhecida. Na
primeira rodada, a rea calculada usando o menor retngulo que engloba a rea, mas
isso pode super ou subestimar a rea real. A rea pode ser ajustada pelo usurio. Uma
rea superestimada normalmente ir aparecer como uma forte tendncia linear geral com
inclinao positiva para L(d)-d.

Dimenso fractal (Fractal dimension)


A dimenso fractal (caso exista alguma) pode ser estimada pela inclinao linear
assimpttica em um grfico log-log de K(d). Para CSR, a inclinao log-log deve ser 2.0.
Fractais devem ter inclinaes menores do que 2.

Referncia
Ripley, B. D. Tests of randomness for spatial point patterns. Journal of the Royal
Statistical Society, ser. B 41:368-374.

Densidade Kernel (Kernel density)


Cria um mapa suave da densidade de pontos em 2D. Duas colunas de dados x/y em um
domnio retangular so esperadas. O usurio pode especificar o tamanho da grade
(nmero de linhas e colunas). O valor Radius (Raio) estabelece a escala r do Kernel.
Automaticamente no h uma seleo de raio timo, de modo que este valor deve ser
definido pelo usurio dependendo da escala de interesse.

159
A estimativa de densidade baseada em uma de quatro funes Kernel, com parmetro
de raio r. Sendo d i = ( x xi ) 2 + ( y yi ) 2 :
1 d i2
Gaussiana (padro): f ( x, y ) = i 2r 2
r 2
exp

d i2
3 1 2 d i r
2
Parabolide: f ( x, y ) = r
2r i
0 di > r
di
1
2 d r
Triangular: i r i
f ( x, y ) = 2
r
0 di > r
1 1 d i r
Uniforme: f ( x, y ) = 2
r i 0 d i > r
Este escalonamento fornece uma estimativa do nmero estimado de pontos por rea, no
uma densidade de probabilidade. Os Kernels gaussiano e parabolide (quadrtico)
normalmente tm melhor desempenho. O Kernel uniforme resulta em grficos muito
pouco suaves.

160
Alinhamento de pontos (Point alignments)
Deteco de alinhamentos lineares em um padro de pontos 2D, usando o mtodo dos
setores contnuos (continuous sector method Hammer 2009). Aplicaes tpicas so em
geologia e geografia, para estudar a distribuio de terremotos, vulces, fontes etc,
associadas com falhas ou outras estruturas lineares.

O parmetro Radius (raio) estabelece a escala da anlise. No exemplo acima,


alinhamentos com comprimento de 1200 m (o dobro do raio) so detectados.
Alpha estabelece o nvel de significncia para o teste de Rayleigh usado por este
procedimento. Repare que esta uma significncia ponto-a-ponto, no corrigida para
testes mltiplos de todos os pontos.
O filtro de disperso (Dispersion filter) desativa alinhamentos com distribuio desigual
de pontos ao longo da linha.
View number (Ver nmeros) lista as posies de alinhamentos e suas orientaes, que
ento podem ser sujeitas estatstica circular se necessrio (mdulo Direes).

Referncia
Hammer, . 2009. New methods for the statistical detection of point alignments. Computers &
Geosciences 35:659-666.

Autocorrelao espacial I de Moran (Spatial autocorrelation Morans


I)
Autocorrelao espacial no Past requer trs colunas, contendo coordenadas x e y e valores
correspondentes de dados z para uma srie de pontos. A estatstica de correlao I de
Moran ento calculada dentro de cada uma de uma srie de classes de distncia (classes
ou bins), indo de distncias pequenas a distncias grandes.
O valor crtico unicaudal para p<0.05 pode ser plotado para cada classe. Valores de I de
Moran que excedam o valor crtico podem ser considerados significativos, mas ajuste de
Bonferroni ou algum outro ajuste para testes mltiplos deve ser considerado por causa da
existncia de vrias classes.

161
O clculo de acordo com Legendre & Legendre (1998). Para cada classe de distncia d,
calcule
1 n n
whi (z h z )(zi z )
`W h=1 i =1
I (d ) =
1 n

n i =1
(z i z )2
Aqui, n o nmero total de pontos, W o nmero de pares de pontos com distncias
entre eles dentro da classe de distncia, e whi uma funo de ponderamento (weight
function) tal que whi=1 se os pontos h e i esto dentro da classe de distncia e whi=0 caso
contrrio (delta de Kronecker). Repare que esta equao est incorreta em algumas
publicaes.
Para o nvel crtico unicaudal I0.05, calcule
1 n n
S1 = (whi + hih )
2

2 h =1 i =1
n
S 2 = (wi + + w+i )
2

i =1
n
n ( z i z )
4

i =1
b2 = 2
n
2
(z i z )
i =1

var( I ) =
2
[ ] [
n (n 3n + 3) S1 nS 2 + 3W 2 b2 (n 2 n) S1 2nS 2 + 6W 2]
1
2
(n 1)(n 2)(n 2)W (n 1) 2
I 0.05 = 1.6452 var( I ) k 0.05 (n 1) 1
Aqui, wi+ e w+i so somatrias de linhas e de colunas. O fator de correo k0.05 ajustado
em 10 0.05 = 0.707 se 4(n n ) < W 4(2n 3 n + 1) , caso contrrio k0.05=1.

Referncia
Legendre, P. & Legendre, L. 1998. Numerical Ecology, 2nd English ed. Elsevier, 853 pp.

Gridagem interpolao espacial (Gridding spatial interpolation)


Gridagem (Gridding) a operao de interpolao espacial que produz uma grade
(grid) regular a partir de pontos de dados 2D espalhados. Trs colunas com posio (x,y)
e valores correspondentes so necessrias.
A gridagem permite produzir um mapa mostrando uma estimativa espacial contnua de
alguma varivel tal como abundncia de fsseis ou espessura de uma unidade de rocha,
com base em pontos de dados espalhados. O usurio pode especificar o tamanho da grade
(nmero de linhas e de colunas). A cobertura espacial do mapa gerada automaticamente
como um quadrado cobrindo os pontos de dados. Ao fazer o grfico, isso pode ser
reduzido a um casco convexo (convex hull) dos pontos.

162
Uma superfcie linear de mnimos-quadrados (tendncia) automaticamente ajustada aos
dados, removida antes da gridagem e finalmente adicionada novalmente. Isso til
principalmente para a modelagem de semivariograma (semivariogram modelling) e para
o mtodo de krigagem (kriging).

Validao cruzada (Cross validation): Esta opo ir remover um ponto de dados por vez
e re-calcular a superfcie com base nos pontos remanescentes (jackknife). As
diferenas entre os valores originais e os valores obtidos por validao cruzada indica a
acurcia da preciso do modelo de superfcie. Estas diferenas so relatadas para cada
ponto, junto com o erro quadrado mdio (mean squared error MSE) calculado para
todos os pontos.

Quatro algoritmos de interpolao so disponveis:

Ponderamento pelo inverso da distncia (Inverse distance weighting)


O valor no n da grade apena a mdia dos N pontos mais prximos, como especificado
pelo usurio (o padro usar todos os pontos de dados). Os pontos so ponderados em
uma proporo inversa distncia. Este algoritmo rpido, mas nem sempre dar
resultados bons (suaves). Um artefato tpico o alvo (bulls eyes) em volta dos
pontos de dados. Uma vantagem que os valores interpolados nunca iro exceder a
amplitude (range) dos pontos de dados. Estabelecendo N=1, o algoritmo fica reduzido ao
mtodo do vizinho mais prximo (nearest-neighbour method), que estabelece o valor em
um n da grade igual ao valor do ponto de dados mais prximo.

163
Alisamento polinomial de placa fina (Thin-plate spline)
Interpolador que d a mxima suavidade. Pode produzir valores elevados ou baixos
demais na presena de curvaturas abruptas na superfcie. um mtodo radial com funo
radial bsica (radial basis function) = r ln r.

Multiquadrtico
Funo radial bsica = r. Bastante usado para modelagem de terreno.

Krigagem (Kriging)
necessrio que o usurio estabelea um modelo para o semivariograma, escolhendo um
dos quatro modelos comuns e parmetros correspondentes para ajustar as semivarincias
empricas (a soma dos quadrados residuais residual sum of squares deve ser a menor
possvel. O semivariograma calculado dentro de cada um de um nmero de classes
(bins). Usando a opo histograma, escolha o nmero de bins tal que cada bin (com a
possvel exceo dos da extrema direita) contenha pelo menos 30 distncias.
O parmetro nugget uma constante adicionada ao modelo. Ele implica uma varincia
diferente de zero na distncia zero, e, portanto, permitir que a superfcie no passe
exatamente pelos pontos de dados. O parmetro range controla a extenso da curva ao
longo do eixo das distncias. Nas equaes abaixo, o valor de distncia normalizado h
representa distncia/range. O scale (escala) controla a extenso da curva ao longo do
eixo da varincia.
3h 1 3
nugget + scale h h < 1
Esfrico (Spherical): ( h) = 2 2
nugget + scale h 1

Exponencial (Exponential): (h) = nugget + scale(1 e h )
2
Gaussiano (Gaussian): (h) = nugget + scale(1 e h )
nugget + scale(7 h 2 8.75h 3 + 3.5h 5 0.75h 7 ) h < 1
Cbico (Cubic): ( h) =
nugget + scale h 1

O boto Optimize all (Otimizar todos) ir selecionar o modelo e os parmetros que


do a menor soma de quadrados dos resduos do semivariograma. Isso pode no ser o que
voc quer: por exemplo, voc pode querer usar um modelo especfico ou ter um nugget
igual a zero para garantir uma interpolao exata. Para isso ser necessrio ajustar os
valores manualmente.
O procedimento de krigagem tambm fornece uma estimativa dos erros padro ao longo
do mapa (para isso, o modelo de semivariograma deve ter boa acurcia). Krigagem no
PAST no funciona com semivarincia anisotrpica.
Aviso: Krigagem um processo lento, no tente caso voc tenha mais de
aproximadamente 1000 pontos de dados em uma grade 100x100.

164
Veja e.g. Davis (1986) ou Smith et al. (2009) para mais informao sobre krigagem.

Referncias
Davis, J. C. 1986. Statistics and Data Analysis in Geology. John Wiley & Sons.
de Smith, M. J., M. F. Goodchild & P. A. Longley. 2009. Geospatial Analysis, 3rd ed.
Matador.

Transformao de coordenadas (Coordinate transformation)


Converso entre coordenadas geogrficas em diferentes grades (grids) e datums. O
nmero de colunas de entrada (input) depende dos tipos de dados, como descrito abaixo.

165
Graus decimais (Decimal degrees WGS84)
Duas colunas: Latitude e Longitude, em graus decimais (60.5 60 graus, 30 minutos).
Valores negativos para o sul do equador e a oeste de Greenwich. Referenciado ao datum
WGS84.

Graus, minutos decimais (Deg/ decimal mins WGS84)


Quatro colunas: Graus de latitude, minutos decimais (40.5 40 minutos, 30 segundos),
graus de longitude, minutos decimais. Referenciado ao datum WGS84.

Graus/minutos/segundos (Deg/min/sec WGS84)


Seis colunas: graus de latitude, minutos, segundos, graus de longitude, minutos,
segundos. Referenciado ao datum WGS84.

UTM-ED50 (Intl 1924)


Trs colunas: Leste (Easting) (metros), norte (northing) (metros), e zona. Use nmeros de
zonas negativos para o hemisfrio sul. O tratamento das zonas UTM leva em conta as
situaes especiais de Svalbard e do oeste da Noruega. Referenciado ao datum europeu
ED50 em Potsdam.

166
UTM-WGS84 (WGS84)
Trs colunas: Leste (metros), norte (metros) e zona. Referenciado ao datum WGS84.

UTM-NAD27 (Clarke 1866)


Trs colunas: Leste (metros), norte (metros) e zona. Referenciado ao datum NAD27.
Converso para/de este formato ligeiramente imprecisa (5-6 metros).

UTM-NAD83 (GRS80)
Trs colunas: Leste (metros), norte (metros) e zona. Referenciado ao datum NAD83
(praticamente idntico ao WGS84).

Sweden (RT90)
Duas colunas: Leste (metros) e norte (metros).

As transformaes so baseadas em cdigo gentilmente fornecido por I. Scollar.

Alometria multivariada (Multivariate allometry)


Este mdulo usado para investigar a alometria de um conjunto multivariado de dados
morfomtricos. Espera-se um conjunto multivariado de dados com variveis (medidas de
distncia) em colunas, espcimes em linhas.

Este mtodo para a investigao de alometria em um conjunto multivariado de dados


baseado em Jolicoeur (1963) com extenses por Kowalewski et al. (1997). Os dados so
(automaticamente) transformados em log e sujeitos a uma PCA. O primeiro componente
principal (PC1) ento considerado como eixo de tamanho (size axis) (isso s vlido
caso a variao explicada pela PCA seja grande, digamos mais de 80%). O coeficiente
alomtrico de cada varivel original estimado dividindo o peso (loading) daquela
varivel no PC1 pelo peso mdio de todas as variveis no PC1.

167
Intervalos de confiana de 95% para os coeficientes alomtricos so estimados por
bootstrap dos espcimes. 2000 rplicas de bootstrap so feitas.
Dados ausentes: suporte por substituio pela mdia da coluna.
Referncias
Jolicoeur, P. 1963. The multivariate generalization of the allometry equation. Biometrics 19:497-
499.
Kowalewski, M., E. Dyreson, J.D. Marcot, J.A. Vargas, K.W. Flessa & D.P. Hallmann. 1997.
Phenetic discrimination of biometric simpletons: paleobiological implications of morphospecies
in the lingulide brachiopod Glottidia. Paleobiology 23:444-469.

Forma de Fourier 2D (Fourier shape 2D)


Anlise do contorno da forma de fsseis (2D). Forma apresentvel em coordenadas
polares, nmero suficiente de pontos digitalizados para capturar as caractersticas.
Coordenadas x/y digitalizadas ao redor de um contorno. Espcimes em linhas,
coordenadas de valores alternantes de x e y em colunas (veja Encaixe de Procrustes
Procrustes fitting no menu Transform).
Aceita coordanadas X-Y digitalizadas ao redor de um contorno. Mais de uma forma
(linha) pode ser analisada simultaneamente. Os pontos no precisam ser uniformemente
espaados. A forma deve poder ser expressa como uma funo nica de coordenadas
polares, ou seja, qualquer linha reta irradiando do centro da forma deve cruzar o contorno
uma nica vez.
O algoritmo de acordo com Davis (1986). A origem do sistema de coordenadas polares
encontrada por aproximao numrica do centride. 128 pontos so ento produzidos
em incrementos angulares uniformes ao redor do contorno por interpolao linear. O
centride ento recalculado e os raios so normalizados (de modo que o tamanho
removido da anlise). Os componentes seno e coseno (sine e cosine) so dados para os
vinte primeiros harmnicos, mas repare que apenas N/2 harmnicos so vlidos, onde
N o nmero de pontos digitalizados. Os coeficientes podem ser copiados para a planilha
principal para anlises subsequentes (e.g. por PCA).
O janela Ver forma (Shape view) permite uma visualizao grficas da(s)
aproximao(es) de Fourier.

Referncia
Davis, J. C. 1986. Statistics and Data Analysis in Geology. John Wiley & Sons.

Anlise elptica de forma de Fourier (Elliptic Fourier shape analysis)


Requer coordenadas digitalizadas x/y ao redor de contornos. Espcimes em linhas,
coordenadas de valores alternantes de x e y em colunas. A anlise elptica de forma de
Fourier superior anlise de forma simples de Fourier em diversos aspectos. Uma
vantagem que o algoritmo pode lidar com formas complicadas que podem no ser
expressas como uma funo nica de coordenadas polares. Formas elpticas de Fourier
atualmente um mtodo padro para anlise de contorno. O algoritmo usado no PAST
descrito por Fearson et al. (1985).
Componentes coseno (cosine) e seno (sine) de incrementos x e y ao longo contorno para
os primeiros 30 harmnicos so fornecidos, mas apenas os primeiros N/2 harmnicos

168
deveriam ser usados, sendo N o nmero de pontos digitalizados. Tamanho e translao
posicional (positional translation) so removidos por normalizao e no entram nos
coeficientes. O tamanho (antes da normalizao) fornecido na primeira coluna. A
normalizao opcional para rotao ou ponto inicial (starting point), que segue Fearson et
al., s vezes inverte formas. Isso deve ser verificado com a opo Ver forma (Shape
view) pode ser necessrio remover estes espcimes.
Os coeficientes podem ser copiados para a planilha principal para anlises subsequentes,
como PCA e anlise de discriminantes. Os mdulos PCA e regresso linear (1
independente, n dependentes) contm funes para mostrar os contornos de formas
correspondentes a determinados escores de PCA ou valores da varivel independente.
A janela Ver forma (Shape view) permite visualizar graficamente a aproximao
elptica de forma de Fourier.

Referncia
Ferson S. F., F. J. Rohlf & R. K. Koehn. 1985. Measuring shape variation of two-
dimensional outlines. Systematic Zoology 34:59-68.

Anlise Hangle de forma de Fourier (Hangle Fourier shape analysis)


Requer coordenadas x/y digitalizadas ao redor de contornos. Espcimes em linhas,
coordenadas de valores alternantes de x e y em colunas.
O mtodo Hangle para anlise de contornos fechados, proposto por Haines &
Crampton (2000), um concorrente da Anlise Elptica de Fourier. Hangle tem algumas
vantagens em relao AEF, sendo a mais importante o fato de menos coeficientes serem
necessrios para capturar o contorno com a preciso desejada. Isso importante para

169
testes estatsticos (e.g. MANOVA) e para anlise de discriminantes. A implementao no
Past baseada nos pacotes Hangle/Hmatch/Htree/Hshape de Haines & Crampton
(obrigado aos autores por fornecer o cdigo-fonte).

O output consiste de 46 coeficientes de Fourier, que so os coeficientes coseno e seno dos


24 harmnicos (modos), comeando no harmnico de nmero 2. Cope estes nmeros de
volta planilha do Past para anlises de formula multivariadas subsequentes.

Normalizao do ponto inicial (Starting point normalization)


Normalmente deve ser deixado em todos condizentes (match all), com o mtodo
Hmatch ou (talvez mais indicado) Htree para alinhar todos os contornos. Uma
alternativa selecionar o harmnico 2.-4., o que ir mudar a fase de cada contorno de
acordo com o modo selecionado (ver Haines & Crampton 2000).

Suavizao (Smoothing)
Aumentar o parmetro de smoothing pode reduzir rudo de alta frequncia, mas ao
mesmo tempo pode haver perda de informaes de alta frequncia que podem ser
importantes para a descrio da forma.

Ver forma (Shape view)


Use esta funo para inspecionar as formas reconstrudas a partir dos coeficientes de
Fourier. Verifique se a rotina de matching no rotacionou incorretamente alguma forma.
Alm disso, use esta funo para selecionar o nmero de modos necessrio para capturar
a forma. No exemplo acima, o nmero de modos foi deixado em 14, o que captura
99.88% do poder integrado total (quadrado da amplitude) (total integrated power
amplitude squared) da forma selecionada. O nmero de modos mostrado pela linha
vermelha no espectro de poder tenha certeza de que as principais caractersticas do
espectro estejam esquerda desta linha para todas as formas.

170
Nota: Reconstruo de forma por PCA, regresso e CVA (como para AEF) ainda no foi
implementada para Hangle.

Referncia
Haines, A.J. & J.S. Crampton. 2000. Improvements to the method of Fourier shape analysis as
applied in morphometric studies. Palaeontology 43:765-783

Anlise de autoforma (Eigenshape analysis)


Coordenadas digitalizadas x/y ao redor de uma forma. Espcimes em linhas, coordenadas
de valores alternados de x e y em colunas (veja Encaixe de Procrustes no menu
Transform).
Autoformas so componentes principais de contornos. O grfico de disperso (scatter
plot) dos contornos no espao de componentes principais mostrado, e combinaes
lineares das prprias autoformas podem ser visualizadas.
A implementao no Past baseada parcialmente em MacLeod (1999). Ela encontra o
nmero timo de pontos espaados uniformemente ao redor do contorno por meio de
uma busca iterativa, de modo que os pontos originais no precisam ser espaados
uniformemente. A autoanlise (eigenanalysis) baseada na matriz de covarincia dos
incrementos de giro angular no-normalizados ao longo dos contornos. O algoritmo no
assume uma curva fechada, e os pontos extremos, portanto, no precisam coincidir nas
formas reconstrudas. Autoanlise com registro de pontos de referncia (landmark-
registered eigenanalysis) no includa. Todos os contornos devem comear no
mesmo ponto.
Referncia
MacLeod, N. 1999. Generalizing and extending the eigenshape method of shape space
visualization and analysis. Paleobiology 25:107-138.

Polinmios de placa fina e deformaes (Thin-plate splines and warps)


Coordenadas digitalizadas x/y de pontos de referncia (landmarks). Espcimes em linhas,
coordenadas de valores alternados de x e y em colunas. Padronizao de Procrustes
recomendada.
O primeiro espcime (primeira linha) usado como referncia, como uma grade
quadrada associada. As deformaes de todos os espcimes em relao a este espcime
podem ser visualizadas. Voc tambm pode usar a forma mdia como referncia.
A opo Fatores de expanso (Expansion factors) ir mostrar o fator de expanso
(ou contrao) de rea ao redor de cada ponto de referncia com nmeros amarelos,
indicando o grau de crescimento local. Isso calculado usando a Jacobiana da
deformao. Alm disso, as expanses so codificadas por cores para todos os elementos
da grade, com verde para expanso e prpura para contrao.
Em cada ponto de referncia, as principais tenses (strains) podem ser mostradas, com a
tenso principal mostrada em preto e as tenses maiores mostradas em marrom. Estes
vetores indicam esticamento direcional.
Uma descrio de grades de transformao polinomial de placa fina feita por Dryden &
Mardia (1998).

Deformaes parciais (Partial warps)

171
A partir da janela do polinmio de placa fina, voc pode escolher a visualizao de
deformaes parciais iara uma deformao polinomial particular. A primeira deformao
parcial ir representar alguma deformao de larga escala na grade, enquanto
deformaes de ordens maiores normalmente sero relacionadas e deformaes mais
locais. Os componentes affine da deformao (tambm conhecidos como deformao de
ordem zero zeroth warp) representam translao linear, escalonamento, rotao e
cisalhamento (shearing). Na verso atual do PAST no possvel ver as deformaes
principais.
Ao colocar valores maiores que zero no fator de amplitude, a configurao original dos
pontos de referncia e uma grade sero deformadas progressivamente de acordo com a
deformao parcial escolhida.

Escores das deformaes parciais (Partial warp scores)


A partir da janela do polinmio de placa fina, voc tambm pode ver os escores de
deformao parcial para todos os espcimes. Cada escore de deformao parcial tem dois
componentes (x e y), e os escores so, portanto, apresentados em grficos de disperso.
Referncia
Dryden, I.L. & K.V. Mardia 1998. Statistical Shape Analysis. Wiley.

Deformaes relativas (Relative warps)


Ordenao de um conjunto de formas. Coordenadas digitalizadas x/y de pontos de
referncia. Espcimes em linhas, coordenadas de valores alternados de x e y em colunas.
Recomenda-se usar padronizao de Procrustes.
As deformaes relativas podem ser vistas como os componentes principais de uma srie
de transformaes de placa fina (thin-plate transformations) a partir da forma mdia para
cada forma estudada. Esta anlise fornece uma alternativa para PCA feita diretamente nos
pontos de referncia (ver Shape PCA acima).
O parmetro alpha pode ser ajustado em um de trs valores:
alpha=-1 enfatiza variao de pequena escala.
alpha=0 PCA aplicada diretamente nos pontos de referncia, e equivalente a
Shape PCA (ver acima) mas sem a incluso de um componente affine (uniforme).
alpha=1 enfatiza variao de larga escala.
As deformaes relativas so ordenadas de acordo com a importncia, e a primeira e
segunda deformaes normalmente so as mais informativas. Repare que os valores de
porcentagem dos autovalores so relativos parte total no-affine da transformao
parte affine no includa (veja Shape PCA para deformaes relativas com incluso do
componente affine).
As deformaes relativas so visualizadas com grades de transformao de placa fina. Ao
aumentar o diminuir o fator de amplitude a partir de zero, a configurao original de
pontos de referncia e a grade sofrer deformaes progressivas de acordo com a
deformao selecionada.
Os escores das deformaes relativas de pares de deformaes relativas consecutivas so
mostrados em grficos de disperso, e todos os escores podem ser mostrados em uma
matriz numrica.

172
O algoritmo para o clculo das deformaes relativas tirado de Dryden & Mardia
(1998).
Referncia
Dryden, I.L. & K.V. Mardia. 1998. Statistical Shape Analysis. Wiley.

Tamanho a partir de pontos de referncia 2D ou 3D (Size from landmarks 2D or 3D)


Coordenadas digitalizadas x/y ou x/y/z de pontos de referncia. Espcimes em linhas,
coordenadas com valores alternados de x e y (e z para 3D) em colunas. No devem ser
ajustadas por Procrustes ou normalizadas para tamanho!
Calcula o tamanho do centride para cada espcime (norma Euclideana das distncias de
todos os pontos de referncia at o centride).
Os valores na coluna Normalized so tamanhos de centride divididos pela raiz
quadrada do nmero de pontos de referncia pode ser til para comparar espcimes
com diferentes quantidades de pontos de referncia.

Normalizar tamanho Normalize size


A opo Normalize size no menu Transform permite a remoo do tamanho ao dividir
os valores das coordenadas pelo tamanho do centride de cada espcime. Para dados 2D
tambm podem ser usadas coordenadas de Procrustes, que so tambm normalizadas em
relao ao tamanho.
Veja Dryden & Mardi (1998), p. 23-26.
Referncia
Dryden, I.L. & K.V. Mardia. 1998. Statistical Shape Analysis. Wiley.

Distncia a partir de pontos de referncia 2D ou 3D (Distance from


landmarks 2D or 3D)
Coordenadas digitalizadas x/y ou x/y/z de pontos de referncia. Espcimes em linhas,
coordenadas com valores alternados de x e y (e z para 3D) em colunas. Podem ou no ser
ajustados por Procustes ou normlaizados para tamanho.
Calcula as distncias Euclideanas entre dois pontos de referncia definidos para um ou
muitos espcimes. Voc precisa escolher estes pontos de referncia estes so nomeados
de acordo com a primeira coluna do ponto de referncia (valor de x).

Todas as distncias a partir de pontos de referncia EDMA (All


distances from landmarks EDMA)
Coordenadas digitalizadas x/y ou x/y/z de pontos de referncia. Espcimes em linhas,m
coordenadas com valores alterados de x e y (e z para 3D) em colunas. Podem ou no ser
ajustadas por Procrustes ou normalizadas para tamanho.
A funo ir substituir os dados de pontos de referncia por uma matriz de dados
composta por distncias entre todos os pares de pontos de referncia, com um espcime
por linha. O nmero de pares N(N-1)/2 para N pontos de referncia. A transformao ir
permitir anlise multivariada de dados de distncia, que no so sensveis rotao ou
translao dos espcimes originais, de modo que o ajuste de Procrustes no
indispensvel antes desta anlise. O uso de dados de distncia tambm permite a

173
transformao em logaritmo, assim como anlise ou ajuste da equao alomtrica para
pares de distncia.
Dados ausentes: suporte por substituio pela mdia da coluna.

Ligao de pontos de referncia (Landmark linking)


Esta funo do menu Geomet permite a escolha de qualquer par de pontos de referncia a
ser ligado com linhas nos grficos morfomtricos (polinmios de placa fina, deformaes
parciais e relativas, etc), para melhorar a leitura. Os pontos de referncia devem estar
presentes na planilha principal antes que as ligaes possam ser definidas.
Pares de pontos de referncia so selecionados ou desmarcados clicando na matriz
simtrica. O conjunto de ligaes tambm pode ser salvo em um arquivo de texto. Repare
que h pouca checagem de erros neste mdulo.

174
Strat menu
Associaes unitrias (Unitary associations)
Anlise de Associaes Unitrias (Unitary Associations analysis Guex 1991) um
mtodo de correlao bioestratigrfica (veja Angiolini & Bucher 1999 para uma
aplicao tpica). O input de dados consiste de uma matriz de presena/ausncia com
amostras em linhas e txons em colunas. Amostras pertencentes mesma seo
(localidade) devem ser marcadas com a mesma cora e ordenadas estratigraficamente
dentro de cada seo, de tal modo que a amostra mais profunda seja colocada na ltima
linha da seo. Cores podem ser reutilizadas em conjuntos de dados com um nmero
grande de sees.

Descrio geral do mtodo


O mtodo de Associaes Unitrias lgico, mas um tanto complicado, sendo composto
por uma srie de passos. Para detalhes, veja Guex (1991). A implementao no PAST
inclui grande parte dos aspectos do programa original, chamado BioGraph (Savary &
Guex 1999), e graas a uma colaborao frutfera com Jean Guex o mdulo no Past
tambm inclui uma srie de opes e melhorias que no so encontradas na verso atual
daquele programa.
A idia bsica gerar uma srie de zonas de assembleia (similares s zonas Oppel)
timas, no sentido de que elas do a mxima resoluo estratigrfica com o mnimo de
contradies de superposio (superpositional contradictions). Um exemplo de uma
contradio assim seria uma seo contando a espcie A acima da espcie B, enquanto a
assemblia 1 (que contm a espcie A) fica baixo da assemblia 2 (que contm a espcie
B). PAST (e BioGraph) fazem a anlise pelos seguintes passos:

1. Horizontes residuais mximos (Residual maximal horizons)


O mtodo assume a premissa de range-through, o que significa que se considera que
os txons estiveram presentes em todos os nveis entre a primeira e a ltima apario
em cada seo. A seguir, qualquer amostra com um conjunto de txons que esteja
contido dentro de outra amostra descartada. As amostras restantes so chamadas de
horizontes residuais mximos. A idia por trs do descarte de dados que o txon
ausente na amostra descartada pode simplesmente no ter sido encontrado mesmo que
ele tenha existido originalmente. Assim, ausncias no so to informativas quanto as
presenas.

2. Sobreposio e co-ocorrncia de txons


A seguir, as relaes de superposio entre todos os pares (A,B) de txons so
investigados: A abaixo de B, B abaixo de A, A junto de B, ou desconhecido. Caso A
ocorra abaixo de B em uma localidade e B ocorra abaixo de A em outra localidade,
eles so considerados co-ocorrentes apesar de nunca terem sido encontrados, de fato,
juntos.
As sobreposies e co-ocorrncias de txons podem ser vistos no grfico
bioestratigrfico. Neste grfico, txons so codificados numericamente. Co-
ocorrncias entre pares de txons so mostrados com linhas azuis contnuas.

175
Sobreposies so mostradas como linhas vermelhas tracejadas, com traos longo
para o txon que ocorre acima e traos curtos para o txon que ocorre embaixo.
Alguns txons podem ocorrer nos chamados sub-grficos proibidos (forbidden sub-
graphs), o que indica inconsistncias nas suas relaes de sobreposio. Dois de uma
srie de tipos de grafos como esses podem ser plotados no PAST: ciclos Cn (Cn
cycles), que so ciclos de sobreposio (A->B->C->A), e circuitos S3 (S3 circuits),
que so inconsistncia do tipo A co-ocorrendo com B, C acima de A, e C abaixo de
B. Interpretaes de grafos proibidos so sugeridas por Guex (1991).

3. Cliques mximos (Maximal cliques)


Cliques mximosso grupos de txons co-ocorrentes que no esto contidos dentro de
outro grupo de txons co-ocorrentes. Os cliques mximos so candidatos ao status de
associaes unitrias, mas sofrero processamento adicional subsequente. No PAST,
cliques mximos recebem um nmero e tambm so nomeados por um horizonte
mximo no conjunto de dados originais que seja idntico ao, ou contido no (marcado
com um asterisco) clique mximo.

4. Sobreposio de cliques mximos


As relaes de sobreposio entre cliques mximos so decididas por inspeo de
relaes de sobreposio entre os seus txons constituintes, como calculado no passo
2. Contradies (alguns txons no clique A ocorrem abaixo de alguns txons do
clique B, e vice-versa) so resolvidas por um voto majoritrio. As contradies
entre cliques podem ser visualizadas no PAST.
As sobreposies e co-ocorrncias de cliques podem ser vistas no grafo de cliques
mximos (maximam clique graph). Neste grfico, cliques so codificados por
nmeros. Co-ocorrncias entre pares de cliques so mostradas como linhas azuis
contnuas. Sobreposies so mostradas como linhas vermelhas tracejadas, com
traos longos do clique que ocorre acima e traos curtos do clique que ocorre abaixo.
Alm disso, ciclos entre cliques mximos (ver abaixo) podem ser visualizados como
linhas verdes.

5. Ciclos resolventes (Resolving cycles)


Pode acontecer de os cliques mximos serem ordenados em ciclos: A abaixo de B,
que abaixo de C, que novamente abaixo de A. Isso claramente contraditrio. O
elo mais fraco (relao de sobreposio que recebe suporte do menor nmero de
txons) nestes ciclos destrudo.

6. Reduo para um caminho nico


Neste estgio, idealmente devemos ter um nico caminho (cadeia) de relaes de
sobreposio entre cliques mximos, do topo ao fundo. No entanto, frequentemente
isso no acontece, por exemplo, quando A e B ficam abaixo de C, que fica abaixo de
D, ou se temos caminhos isolados sem relaes (A abaixo de B e C abaixo de D).
Para produzir um nico caminho, necessrio unir cliques de acordo com regras
especiais.

7. Ps-processamento dos cliques mximos

176
Finalmente, uma srie de manipulaes menores so feitas para polir o resultado:
Gerao da propriedade de uns consecutivos (consecutive ones), reinsero de
co-ocorrncias e sobreposies virtuais residuais, e compactao para remover
quaisquer cliques no-mximos que tenham sido gerados. Detalhes sobre estes
procedimentos podem ser encontrados em Guex (1991). Finalmente, agora ns temos
as Associaes Unitrias, que podem ser visualizadas no PAST.
As associaes unitrias tm associado a elas um ndice de similaridade de uma AU
para a prxima, conhecido por D:
Di = |AUi-AUi-1| / |AUi| + |AUi-1-AUi| / |AUi-1|

8. Correlao usando Associaes Unitrias


As amostras originais so agora correlacionadas por meio das associaes unitrias.
Uma amostra pode conter txons que a coloquem unicamente em uma associao
unitria, ou ela pode no ter txons-chave que a diferenciariam entre duas ou mais
associaes unitrias. Neste ltimo caso, s fornecida uma extenso das possveis
associaes unitrias. Estas correlaes podem ser visualizadas no PAST.

9. Matriz de reprodutibilidade (Reproducibility matrix)


Algumas associaes unitrias podem ser identificadas em apenas uma ou poucas
sees, e neste caso pode ser considerada a possibilidade de unir associaes unitrias
para melhorar a reprodutibilidade geogrfica (ver abaixo). A matriz de
reprodutibilidade deve ser inspecionada para identificar associaes unitrias como
essas. A AU que s identificada unicamente em uma seo mostrada como um
quadrado preto, enquanto as extenses de AUs (como dadas na lista de correlaes)
so mostradas em cinza.

10. Grafo de reprodutiblidade (Reproducibility graph) e junes sugeridas de


AUs (biozonao)
O grfico de reprodutibilidade (Gk em Guex 1991) mostra a sobreposio das
associaes unitrias que so de fato observadas nas sees. O PAST ir reduzir
internamente este grafo a um nico caminho mximo (Guex 1991, seo 5.6.3), e
neste processo tambm pode juntar algumas AUs. Estas junes so mostradas como
linhas vermelhas no grafo de reprodutibilidade. A sequncia de AUs nicas e juntadas
pode ser vista como uma biozonao sugerida.

Funcionalidade especial
A implementao do mtodo das Associaes Unitrias no PAST inclui uma srie de
opes e funes que ainda no foram descritas na literatura. Para questes sobre
estas, favor nos contatar.

Referncias
Angiolini, L. & H. Bucher. 1999. Taxonomy and quantitative biochronology of Guadalupian
brachiopods from the Khuff Formation, Southeastern Oman. Geobios 32:665-699.
Guex, J. 1991. Biochronological Correlations. Springer Verlag.
Savary, J. & J. Guex. 1999. Discrete Biochronological Scales and Unitary Associations:
Description of the BioGraph Computer Program. Meomoires de Geologie (Lausanne) 34.

177
Ranqueamento-Escalonamento (Ranking-Scaling)
Ranqueamento-Escalonamento (Agterberg & Gradstein 1999) um mtodo de
bioestratigrafia quantitativa baseado em eventos em uma srie de poos (wells) ou sees
(sections). O input de dados consiste de poos em linhas, com um poo por linha, e
eventos (e.g. FADs e/ou LADs datums de primeiro e ltimo aparecimento) em colunas.
Os valores na matriz so profundidades de cada evento em cada poo, aumentando para
cima (voc pode querer usar valores negativos para conseguir isso). Ausncias so
codificadas por zero. Caso apenas a ordem dos eventos seja conhecida, esta pode ser
codificada como nmeros inteiros crescentes (ranks, com possveis nmeros repetidos
(ties) para eventos co-ocorrentes) dentro de cada poo.
A implementao do ranqueamento-escalonamento no PAST no abrangente, e
usurios avanados podem querer usar os programas RASC e CASC de Agterberg e
Gradstein.

Viso geral do mtodo

O mtodo de Ranqueamento-Escalonamento feito em dois passos:

1. Ranquamento
O primeiro passo do Ranqueamento-Escalonamento produzir uma ordem nica e
abrangente dos eventos, mesmo que os dados contenham contradies (evento A acima
de B em um poo, mas B acima de A em outro) ou ciclos mais compridos (A acima de B
acima de C acima de A). Isso feito por um voto majoritrio, contando o nmero de
vezes que cada evento ocorre acima, abaixo ou junto de todos os outros. Tecnicamente,
isso efeito por Presorting (Pr-ordenamento) seguido pelo Mtodo Modificado de Hay
(Modified Hay Method) (Agterberg & Gradstein 1999).

2. Escalonamento
A anlise bioestratigrfica pode acabar no ranqueamento, mas informaes adicionais
podem ser adquiridas estimando as distncias estratigrficas entre eventos consecutivos.
Isso feito contando o nmero de relaes de sobreposio observadas (A acima ou
abaixo de B) entre cada par (A, B) de eventos consecutivos. Um baixo nmero de
contradies implica uma distncia grande.
Algumas distncias calculadas podem aparecer como negativas, iniciando que a ordem
dada no passo de ranqueamento no foi tima. Caso isso acontea, os eventos so
reordenados e as distncias so recalculadas para certificar que haja apenas distncias
positivas entre eventos.

RASC no PAST

Parmetros
Limiar de poos (Well threshold): O nmero mnimo de poos em que o evento
deve ocorrer para ser includo na anlise.
Limiar de pares (Pair threshold): O nmero mnimo de vezes que uma relao
entre eventos A e B deve ser observada em sequncia para que o par (A,B) seja
includo no passo de ranqueamento

178
Limiar de escalonamento (Scaling threshold): Limiar de pares para o passo de
escalonamento
Tolerncia (Tolerance): usado no passo de ranqueamento (ver Agterberg &
Gradstein)

Ranqueamento
fornecida a ordem dos eventos depois do passo de ranqueamento, com o primeiro
evento no fundo da lista.

Escalonamento
fornecida a ordem dos eventos depois do passo de escalonamento, com o primeiro
evento aparecendo no fundo da lista. Para uma explicao de todas as colunas, ver
Agterberg & Gradstein (1999).

Distribuio de eventos (Event distribution)


Um grfico mostrando o nmero de eventos em cada poo, com os poos ordenados
de acordo com o nmero de eventos.

Grficos de disperso (Scattergrams)


Para cada poo, a profundidade de cada evento no poo plotada em relao
sequncia tima (depois do escalonamento). Idealmente, os eventos devem ser
colocados em uma sequncia ascendente.

Dendrograma
Grfico das distncias entre eventos na sequncia escalonada, incluindo um
dendrograma que pode auxiliar na zonao.

Referncia
Agterberg, F.P. & F.M. Gradstein. 1999. The RASC method for Ranking and Scaling of
Biostratigraphic Events. In: Proceedings Conference 75th Birthday C.W. Drooger, Utrecht,
November 1997. Earth Science Review 46(1-4):1-25.

CONOP (Otimizao Restrita)


Tabela de profunidades/nveis, com poos/sees em linhas e pares de eventos em
colunas: FADs (First Appearance Datums Datums do Primeiro Aparecimento) em
colunas mpares e LADs (Last Appearance Datums Datum do ltimo Aparecimento)
em colunas pares. Eventos faltantes so codificados por zero.
O PAST inclui uma verso simples da Otimizao Restrita (Constrained Optimization
Kemple et al. 1989). Tanto FAD quanto LAD de cada txon devem ser especificados em
colunas alternadas. Usando o assim chamado Arrefecimento Simulado (Simulated
Annealing), o programa procura por uma sequncia global (composta) de eventos que
implique na menor possvel quantidade total do aumento de extenso (range extension)
(penalidade) nos poos/sees individuais. Os parmetros do procedimento de otimizao
inclui uma temperatura inicial de arrefecimento, o nmero de passos de resfriamento, a
razo de resfriamento (porcentagem, menor que 100), e o nmero de testes (trials) por
passo. Para explicao e recomendaes, ver Kemple et al. (1989).

179
A janela de output inclui uma histria de otimizao com a temperatura e a penalidade
em funo do passo de resfriamento, a soluo global composta e as extenses que ela
implica para cada seo individual.
A implementao de CONOP no PAST baseada cdigo de otimizao em FORTRAN
fornecido por Sadler e Kemple.

Referncia
Kemple, W.G., P.M. Sadler & D.J. Strauss. 1989. A prototype constrained optimization solution
to the time correlation problem. In Agterberg, F.P. & G.F. Bonham-Carter (eds), Statistical
Applications in the Earth Sciences. Geological Survey of Canada Paper 89-9:417-425.

Ordenao de Eventos de Aparecimento (Appearance Event Ordination


Ordenao de Eventos de Aparecimento (Alroy 1994, 2000) um mtodo de seriao e
correlao bioestratigrfca. O input de dados no mesmo formato que para Associaes
Unitrias, consistindo de uma matriz de presen/ca/ausncia co amostras em linhas e
txons em colunas. Amostras pertencendo mesma seo (localidade) devem ser
marcadas com a mesma cor, e ordenadas estratigraficamente dentro de cada seo de
modo que a amostra mais profunda seja colocada na linha de baixo. Cores podem ser
reutilizadas em conjuntos de dados com um grande nmero de sees.
A implementao no PAST baseada em cdigo fornecido por John Alroy. Ele inclui
OEA de mxima verossimilhana (Maximum Likelihood AEO) (Alroy 2000)

Referncias
Alroy, J. 1994. Appearance event ordination: a new biochronologic method. Paleobiology
20:191-207.
Alroy, J. 2000. New methods for quantifying macroevolutionary patterns and processes.
Paleobiology 26:707-733.

Curva de diversidade (Diversity curve)


Matriz de abundncia ou presena/ausncia com amostras em linhas (amostra mais
profunda na ltima linha) e txons em colunas.
Encontrado no menu Strat, esta ferramenta simples permite plotar curvas de
diversidade a partir de dados de ocorrncia na coluna estratigrfica. Repare que as
amotras precisam estar em ordem estratigrfica, com a amostra menos profunda (mais
jovem) na linha de cima. Datas so sujeitas premissa ranghe-through (ausncias entre o
primeiro e o ltimo aparecimento so tratadas como presenas). Originaes
(originations) e extines so em nmeros absolutos, no em porcentagem.
A opo de Correo de ponto final (Endpoint correction) atribui primeira ou
ltima ocorrncia (FAD ou LAD) em uma amostra o peso de 0.5 ao invs de 1 naquela
amostra. Um ponto que seja ao mesmo tempo FAD e LAD (singleton) na amostra conta
como 0.33. Veja Hammer & Harper (2006).
Referncia
Hammer, . & Harper, D.A.T. 2006. Paleontological Data Analysis. Blackwell.

180
Intervalos de confiana de extenso (Range confidence intervals)
Estimativa de intervalos de confiana para o primeiro e ltimo aparecimento ou para a
extenso total, para um txon. Assume distribuio aleatria de horizontes fossilferos ao
longo da coluna estratigrfica ou ao longo do tempo. Requer amostragem contnua de
sees.
Assumindo uma distribuio aleatria (Poisson) de horizontes fossilferos, intervalos de
confiana para a extenso estratigrfica de um txon podem ser calculados a partir do
datum (nvel) do primeiro aparecimento, datum do ltimo aparecimento e do nmero
total de horizontes em que este txon encontrado (Strauss & Sadler 1989, Marshall
1990).
Nenhum dado precisa ser inserido na planilha. O programa ir perguntar pelo nmero de
horizontes em que o txon encontrado, e os nveis ou datas da primeira e da ltima
apario. Se necessrio, use valores negativos para certificar que o datum do ltimo
aparecimento tenha um valor numrico mais elevado do que o datum do primeiro
aparecimento. Intervalos de confiana de 80%, 95% e 99% so calculados para o FAD
(datum do primeiro aparecimento) isolado, para o LAD (datum do ltimo aparecimento)
isolado e para a extenso total. O valor de o comprimento do intervalo de confiana
dividido pelo comprimento da extenso observada.
Para o caso de um nico ponto final (endpoint):

= (1 C1 ) 1( H 1) 1 ,
onde C1 o intervalo de confiana e H o nmero de horizontes fossilferos.
Para o caso de pontos terminais juntos (joint endpoint) (extenso total), encontrado
por soluo iterativa da equao
C 2 = 1 2(1 + ) ( H 1) + (1 + 2 ) ( H 1) .
Leve em considerao que a premissa de distribuio uniforme ser violada em muitas
situaes reais.
Referncias
Marshall, C.R. 1990. Confidence intervals on stratigraphic ranges. Paleobiology 16:1-10.
Strauss, D. & P.M. Sadler. 1989. Classical confidence intervals and Bayesian probability
estimates for ends of local taxon ranges. Mathematical Geology 21:411-427.

Intervalos de confiana da extenso livres de distribuio (Distribution-


free range confidence intervals)
Estimativa de intervalos de confiana para o primeiro e ltimo aparecimento. No assume
correlao entre posio estratigrfica e tamanho da lacuna (gap size). Requer
amostragem contnua de sees. Espera uma coluna por txon, com nveis ou datas de
todos os horizontes onde o txon encontrado.
O programa fornece os limites superior e inferior dos comprimentos dos intervalos de
confiana, usando uma probabilidade de 95% de confiana para nveis de confiana de
50, 80 e 95 porcento. Valores que no podem ser calculados so marcados com um
asterisco (ver Marshall 1994).

Referncia

181
Marshall, C.R. 1994. Confidence intervals on stratigraphic ranges: partial relaxation of the
assumption of randomly distributed fossil horizons. Paleobiology 20:459-469.

Diagrama de carretel (Spindle diagram)


Tipo padro de grfico usado na paleontologia para ilustrar a abundncia de txons
fsseis ao longo de uma seo ou um ncleo estratigrfico. Amostras so colocadas em
linhas, txons em colunas. O programa ir perguntar se a primeira coluna contm nveis
estratigrficos (e.g. metros ou anos).
Caso os nveis estratigrficos sejam fornecidos, cada caixa ser desenhado de um dado
nvel at a prxima linha. Assim, uma ltima linha adicional (dummy) deve ser fornecida,
com um nvel estratigrfico final mas com zero para todos os txons. Caso os nveis
sejam apresentados em profundidades ou idades, nmeros negativos devem ser usados
para certificar que a figura esteja orientada de modo correto.
Se os nveis estratigrficos no forem fornecidos, todas as caixas tero a mesma altura. A
amostra mais superior deve ser inserida na primeira linha.

182
Cladistics
Anlise de parcimnia (Parsimony analysis)
Aviso: o pacote Cladistics nos PAST totalmente operacional, mas no tem uma
funcionalidade abrangente. O algoritmo eurstico parece no ter um desempenho to com
como em alguns outros programas (isso est sendo investigado). O pacote cladstico do
PAST adequado para ensino e para explorao inicial dos dados, mas para trabalho
mais srio recomendamos um programa especializado, como o PAUP.
Anlise semi-objetiva das relaes entre txons a partir de evidncia morfolgica ou
gentica.
Matriz de caracteres com txons em linhas, grupo externo (outgroup) na primeira linha.
Para o clculo de ndices de congruncia estratigrfica (stratigraphic congruence
indicies), os datums de primeiro e ltimo aparecimento devem ser dados nas duas
primeiras colunas.
Algoritmos so de Kitching et al. (1998).
Estados de caracteres devem ser codificados usando nmeros inteiros de 0 a 255 ou letras
c, a, g, t, u (maisculas ou minsculas). O primeiro txon tratado como grupo externo e
ser colocado na base da rvore.
Valores ausentes so codificados por ponto de interrogao (?) ou por -1. Repare que o
PAST no colapsa ramos com comprimento zero. Por causa disso, valores ausentes
podem levar a uma proliferao ad nauseam de rvores igualmente curtas, muitas das
quais sero na verdade equivalente.
Quatro algoritmos so disponveis para encontrar as rvores mais curtas:

Branch-and-bound (ramificar e unir)


O algoritmo branch-and-bound garante encontrar todas as rvores mais curtas. O nmero
total de rvores mais curtas relatado, mas um mximo de 10000 rvores so salvas. O
algoritmo branch-and-bound pode consumir muito tempo para conjuntos de dados com
mais de 12 txons.
Exaustivo (Exhaustive)
O algoritmo exaustivo avalia todas as rvores possveis. Como o algoritmo branch-and-
bound, ele ir necessariamente encontrar todas as rvores mais curtas, mas ele muito
lento. Para 12 txons, mais de 600 milhes de rvores so avaliadas! A nica vantagem
que tem em relao ao branch-and-bound a plotagem da distribuio de comprimentos
de rvores. Este histograma pode indicar a qualidade da sua matriz, no sentido de que
deveria haver uma cauda para a esquerda, de tal modo que poucas rovres curtas so
isoladas da massa maior de rvores mais compridas (mas veja Kitching et al. 1998 para
comentrios crticos sobre isso). Para mais de 8 txons, o histograma baseado em um
subconjunto de comprimentos de rvores e pode no ser preciso.

Heurstico, intercmbio de vizinhos mais prximos (Heuristic, nearest neighbour


interchange)
Este algoritmo heurstico adiciona txons sequencialmente na ordem em que eles
aparecem na matriz ao ramo em que isso produzir o menor aumento no comprimento da

183
rvore. Depois da adio de cada txon, todas as rvores vizinhas mais prximas so
permutadas na tentativa de encontrar uma rvore ainda mais curta.
Como todas as buscas heursticas, este algoritmo muito mais rpido do que os
algoritmos acima e pode ser usado para quantidades grandes de txons, mas no h
garantia de que ele encontre todas ou alguma das rvores mais parcimoniosas. Para
reduzir a probabilidade de acabar em um sub-timo local mnimo, um nmero de
reordenamentos (reorderings) pode ser especificado. Para cada reordenamento, a ordem
de entrada dos txons ser permutada aleatoriamente e ser feita uma nova busca
heurstica.
Repare: Por causa da reordenao aleatria, as rvores encontradas pelas buscas
heursticas normalmente sero diferentes em cada rodada. Para reproduzir exatamente
uma busca, voc precisa comear o modo de parcimnia novamente do menu, usando o
mesmo valor para semente aleatria (Random seed). Isso ir reiniciar o gerador de
nmeros aleatrios para o valor da semente.

Heurstico, corte e retransplante de subrvores (Heuristic, subtree pruning and


regrafting)
Este algoritmo (SPR) similar ao acima (NNI), mas com um esquema mais elaborado de
permutao de ramos: Uma subrvore cortada da rvore e replantada em todos os outros
ramos da rvore na tentativa de achar uma rvore mais curta. Isso feito depois da adio
de cada txon e para todas as subrvores possveis. Apesar de mais lento que o NNI, SPR
frequentemente ir encontrar rvores mais curtas.

Heurstico, bisseco e reconexo de rvores (Heuristic, tree bisection and


reconnection)
Este algoritmo (TBR) similar ao acima (SPR), mas com um esquema ainda mais
complexo de permuta de ramos. A rvore dividida em duas partes, e estas so
reconectadas por todos os pares de ramos possveis para encontrar uma rvore mais curta.
Isso feito depois da adio de cada txon e para todas as divises possveis da rvore.
TBR frequentemente ir encontrar rvores mais curtas do que SPR e NNI ao custo de um
maior tempo de clculo.

Critrios de otimizao de carateres (Character optimization criteria)


Trs algoritmos diferentes para de otimizao so disponveis:

Wagner
Caracteres so reversveis e ordenados, significando que 0->2 custa mais do que 0->1,
mas tem o mesmo custo que 2->0.

Fitch
Caracteres so reversveis e no-ordenados, significando que todas as mudanas tm o
mesmo custo. Isso o critrio com o menor nmero de premissas, e, portanto,
normalmente prefervel.

Dollo

184
Caracteres so ordenados, mas a aquisio de um estado de carter (de um valor mais
baixo para um mais alto) pode acontecer uma nica vez. Toda homoplasia representada
por reverses (reversals) secundrias. Assim, 0->1 pode acontecer uma nica vez,
normalmente relativamente prximo base da rvore, mas 1->0 pode acontecer qualquer
nmero de vezes rvore acima. (Essa definio foi debatida na lista de emails do PAST,
especialmente quanto necessidade de ordenao dos caracteres Dollo).

Bootstrap
Bootstrap feito quando o valor de Rplicas bootstrap (Bootstrap replicates)
colocado em um valor diferente de zero. O nmero especificado de rplicas (tipicamente
100 ou at 1000) da sua matriz de caracteres feito, cada um com caracteres recebendo
pesos arbitrrios. Uma rplica fornece suporte ao grupo se o grupo existe na rvore de
consenso majoritrio (majoritary rule consensus tree) das rvores mais curtas feitas pela
rplica.
Aviso: Especificar 1000 rplicas por bootstrap claramente resulta em um tempo de
clculo 1000 vezes maior do que sem bootstrap! Busca exaustiva com bootstrap no
realstica e no permitida.

Plotagem de cladograma (Cladogram plotting)


Todas as rvores mais curtas (mais parcimoniosas) podem ser visualizadas, at um
mximo de 10000 rvores. Caso tenha sido feito bootstrap, um valor de bootstrap dado
na raiz da subrvore que especifica cada grupo.
Estados de caracteres podem ser plotados na rvore, como selecionado pelo boto
Character. Esta reconstruo de caracteres s nica na ausncia de homoplasia. No
caso de homoplasia, mudanas de caracteres so colocadas o mais prximo possvel da
raiz, favorecendo aquisio em um nico tempo com reverso subsequente de um estado
de carter ao invs de mais de uma aquisio independentes (conhecido como
transformao acelerada accelerated transformation).
A opo Filograma (Phylogram) permite plotar rvores onde o comprimento das
linhas verticais (juntando clados) proporcional ao comprimento dos ramos.

ndice de consistncia (Consistency index)


O ndice de consistncia por caractere (per-character consistency index ci) definido
por m/s, onde m o menor nmero possvel de mudanas de caracteres (passos) em
qualquer rvore e s o nmero de passos de fato observado na rvore atual. Este ndice,
portanto, varia de 1 (sem homoplasia) e desce at zero (muita homoplasia). O ndice de
consistncia de assemblia (ensemble consistency index CI) um ndice similar somado
para o conjunto de caracteres.

ndice de reteno (Retention index)


O ndice de reteno por caractere (ri) definido como (g-s)/(g-m), onde m e s so como
definidos para o ndice de consistncia e g o nmero mximo de passos para o caractere
em qualquer cladograma (Farris 1989). O ndice de reteno mede a sinapomorfia da
rvore e varia de 0 a 1.
Repare que no verso atual o ndice de reteno s calculado corretamente quando a
otimizao de Fitch usada.

185
rvore de consenso (Consensus tree)
A rvore de consenso de todas as rvores mais curtas (mais parcimoniosas) tambm pode
ser vista. Duas regras de consenso so implementadas: Estrito (Strict grupos suportados
por todas as rvores) e majoritrio (majority grupos devem ser suportando por mais de
50% das rvores).

Suporte de Bremer (ndice de decaimento) (Bremer support decay index)


O suporte de Bremer para um clado o nmero extra de passos que so necessrios para
construir uma rvore (consistente com os caracteres) sem aquele clado. Existem razes
para dar preferncia a este ndice ao invs do valor de bootstrap. O PAST no calcula
diretamente o suporte de Bremer, mas para conjuntos de dados menores isso pode ser
feito manualmente da seguinte maneira:
Faa uma anlise de parcimnia por busca exaustiva ou branch-and-bound. Anote
os clados e o comprimento N da(s) rvore(s) mais curta(s) (por exemplo 42). Caso
haja mais de uma rvore mais curta, olhe a rvore de consenso estrito. Caldos que
no so mais encontrados na rvore de consenso tm um valor de suporte de
Bremer igual a 0.
Na caixa para rvore mais longa mantida (Longest tree kept), coloque o
nmero N+1 (43 no nosso exemplo) e faa uma nova busca.
Clados adicionais que no so mais encontrados na rvore de consenso estrito tm
um valor de suporte de Bremer igual a 1.
Para rvore mais longa mantida, coloque o nmero N+2 (44) e faa uma nova
busca. Clados que agora desaparecem da rvore de consenso tm um valor de
suporte de Bremer igual a 2.
Continue at que todos os clados tenham desaparecido.
ndice de congruncia estratigrfica (Stratigraphic congruence indices)
Para calcular ndices de congruncia estratigrfica, as duas primeiras colunas na matriz
de dados devem conter os datums de primeiro e ltimo aparecimento, respectivamente,
para cada txon. Estes datums devem ser fornecidos de tal modo que idade mais jovem
(ou o nvel estratigrfico mais alto) tenha o maior valor numrico. Pode ser necessrio
usar valores negativos para conseguir isso (e.g. 400 milhes de anos antes do presente
codificado como -400.0). A boxa FADs/LADs in first columns na caixa de dilogo
Parsimony deve ser marcada.
O ndice de Congruncia Estratigrfica (SCI) de Huelsenbeck (1994) definido como a
proporo de ns estratigraficamente consistentes no cladograma, e varia de 0 a 1. Um n
estratigraficamente consistente quando a primeira ocorrncia mais antiga acima do n
tem a mesma idade ou mais jovem do que a primeira ocorrncia no seu txon (n)
irmo.
O ndice de Completude Relativa (Relative Completeness Index RCI) de Benton &
Storrs (1994) definido como (1-MIG/SRL)x100%, onde MIG (Minimum Iplied Gap
Lacuna Mnima Implcita) a soma das duraes de de extenses-fantasma (ghost
ranges) e SRL a soma das duraes das extenses observadas. O RCI pode ser
negativo, mas normalmente varia de 0 a 100.

186
A Razo de Excesso de Lacunas (Gap Excess Ratio GER) de Wills (1999) definida
por 1-(MIG-Gmin)/Gmax-Gmin) onde Gmin a menor somatria possvel de extenses-
fantasma em qualquer rvore (ou seja, a somatria das distncias entre FADs
consecutivos) e Gmax a maior somatria possvel (ou seja, a somatria das distncias do
primeiro FAD a todos os outros FADs).
Estes ndices so submetidos a um teste de permutao, onde todas as datas so
redistribudas aleatoriamente 1000 vezes entre os diferentes txons. A proporo de
permutaes onde o ndice recalculado excede o ndice original fornecida. Se pequena
(e.g. p<0.05), isso indica um desvio estaticamente significativo da hiptese nula de no
haver congruncias entre o cladograma e a estratigrafia (em outras palavras, a
congruncia significativa). As probabilidades de permutao de RCI e GER so iguais
para qualquer conjunto de permutaes, j que so baseadas no mesmo valor de MIG.

Referncias
Benton, M.J. & G.W. Storrs. 1994. Testing the quality of the fossil record: paleontological
knowledge is improving. Geology 22:111-114.
Farris, J.S. 1989. The retention index and the rescaled consistency index. Cladistics 5:417-419.
Huelsenbeck, J.P. 1994. Comparing the stratigraphic record to estimates of phylogeny.
Paleobiology 20:470-483.
Kitching, I.J., P.L. Forey, C.J. Humphries & D.M. Williams. 1998. Cladistics. Oxford University
Press.
Wills, M.A. 1999. The gap excess ratio, randomization tests, and the goodness of fit of trees to
stratigraphy. Systematic Biology 48:559-580.

187