Sei sulla pagina 1di 4

V Simpsio da Sociedade Brasileira de Melhoramento Animal

8 e 9 de julho de 2004- Pirassununga, SP


INFERNCIA BAYESIANA NA ESTIMAO DE COMPONENTES DE
VARINCIA DE BOVINOS SIMENTAL
1


GILMARA BRUSCHI SANTOS
2
, HENRIQUE NUNES DE OLIVEIRA
3
, GUILHERME JORDO DE MAGAHES
ROSA
4
, LUIS FERNANDO AARO MARQUES
5

1
Parte da dissertao de mestrado do primeiro autor, bolsista da FAPESP
2
Doutoranda em produo animal, Faculdade de Medicina Veterinria e Zootecnia, UNESP, Botucatu
3
Professor da Faculdade de Medicina Veterinria e Zootecnia, UNESP, Botucatu
4
Professor da Universidade de Michigan
5
Professor da Universidade Estadual do Esprito Santo

RESUMO - Os pesos idade de 730 dias foram analisados para verificao da presena de
heterogeneidade de varincia e posterior estimao dos componentes de varincia. O objetivo do
trabalho foi comparar modelos gaussianos e um modelo com distribuio normal contaminada para
estimao dos componentes de varincia. Esta ltima distribuio menos sensvel a observaes
com valores discrepantes e pode gerar predies mais acuradas dos valores genticos. Foi utilizada
uma abordagem Bayesiana para implementao das anlises. Os resultados sugerem que, embora
os clculos sejam um pouco mais trabalhosos para o modelo misto, ele pode apresentar inferncias
mais robustas em situaes tanto com presena de heterogeneidade de varincias quanto com
presena de observaes discrepantes.

PALAVRAS-CHAVE: distribuio normal contaminada, Heterogeneidade de varincias, modelo
robusto

BAYESIAN INFERENCE ON VARIANCE COMPONENTS ESTIMATION OF SIMENTAL CATTLE

ABSTRACT - Weight at day 730 were analysed to account for variance heterogeneity and variance
components estimation. The aim of this study was to compare gaussian and a robust model for
estimation of variance components. This late distribution is less sensible with outliers and have more
accurately predictions of breeding values. It was used a Bayesian approach for analysis. Results
sugest that, athouth calcules are a little more dificult for the mixed model, it may have more robust
inferences either on situations with variance heterogeneity or outliers.

KEYWORDS: contaminated normal distribution, robust model, Variance heterogeneity

INTRODUO
A heterogeneidade de varincias do resduo ou presena de valores discrepantes (outliers)
pode influenciar na distribuio dos dados, o que pode levar a estimativas equivocadas dos
componentes de varincia do modelo adotado. Algumas alternativas podem ser usadas para se
corrigir possveis erros nas estimativas. Entre elas destaca-se a utilizao de modelos robustos que
tm sido aplicados atravs de mtodos Bayesianos.
Entre os modelos para estimao robusta deve-se considerar aqueles que utilizam as
distribuies normal-independentes, que representam um interessante grupo de distribuies de
caudas longas (leptocrticas) (Rogers e Tukey, 1972). Algumas destas distribuies, tais como a
normal contaminada e a t de Student tm sido testadas como alternativas distribuio normal em
modelos mistos (Strandn and Gianola, 1999; Rosa, 1999; Pereira 2001). Ser discutida neste
trabalho a distribuio normal contaminada.
O objetivo deste trabalho foi verificar a aplicabilidade do modelo robusto, utilizando a
distribuio normal contaminada em abordagem Bayesiana, na estimao de componentes de
varincia, na caracterstica peso aos 730 dias de animais da raa Simental.

MATERIAL E MTODOS
Os dados utilizados nas anlises so provenientes dos servios de Genealogia e de Controle
de Desenvolvimento Ponderal, dos arquivos da Associao Brasileira de Criadores da Raa Simental
(ABCRS). O arquivo de pedigree continha 29.872 animais. O arquivo referente ao peso aos 730 dias
continha dados de 3.559 animais, filhos de 526 touros e 1885 vacas, distribudos em 574 grupos de
contemporneos. Estes dados foram submetidos a uma anlise crtica atravs do programa
computacional (Statistical Analysis System), verso 6.12 (SAS, 1996). Procedeu-se assim
V Simpsio da Sociedade Brasileira de Melhoramento Animal



8 e 9 de julho de 2004- Pirassununga, SP

eliminao de registros inconsistentes e formao dos grupos de contemporneos a serem
considerados como efeitos fixos (ambiente) nos modelos estatsticos. Estes grupos foram definidos
como animais de mesmo sexo, nascidos no mesmo ano-estao, criados sob igual regime alimentar,
na mesma fazenda. Em seguida realizou-se a prova de Kolmogorov-Smirnov para verificar a
normalidade das curvas de distribuio dos dados. Para verificao da presena de heterogeneidade
de varincias foi utilizado o teste de Levene, numa modificao originalmente proposta por Brown &
Forsythe (1974). A qual consiste em usar a mediana no lugar da mdia para calcular os desvios, o
que torna o teste bem mais robusto. A estimao dos componentes de varincia foi feita, num
primeiro momento pelo mtodo frequentista REML (restricted maximum likelihood) sendo as anlises
implementadas por meio do software MTDFREML (Multiple Trait Derivative-Free Restricted Maximum
Likelihood) desenvolvido por Boldman et al.(1993). Foi utilizado um modelo animal, supondo-se
distribuio gaussiana dos resduos. No mais do que trs reincios, utilizando-se os resultados da
rodada anterior como valor inicial na rodada subseqente, foram necessrios para garantir a
convergncia a um mximo global. Para representao das anlises por este modelo, a sigla GML foi
utilizada. Para o uso da abordagem bayesiana na estimao dos componentes de (co) varincia sob
modelo animal tambm com distribuio gaussiana dos resduos foi usado o software MTGSAM
(Multiple Trait Gibbs Sampling in Animal Models), desenvolvido por Van Tassel e Van Vleck (1995).
Assumiu-se que as distribuies a priori para os componentes de varincia e efeitos fixos eram
desconhecidas (priores flat ou no informativas). Os valores para iterao na rodada inicial foram
obtidos na literatura. As densidades marginais dos componentes de varincia foram estimadas a
partir das amostras geradas pelo amostrador de Gibbs. A inspeo grfica e o programa Gibanal
(VanKaam, 1998) foram usados para determinar a convergncia. Foram realizadas no total 750.000
iteraes do amostrador de Gibbs. As 1.000 primeiras iteraes foram descartadas para permitir que
a distribuio inicial, fornecida como priori, no interferisse nos resultados; e para evitar a
redundncia das informaes, causada pela correlao serial entre amostras geradas
subseqentemente, foi tomada apenas uma amostra a cada 350 geradas. Para este modelo utilizou-
se a sigla BG para sua representao. Como alternativa aos modelos acima descritos, foi utilizado um
programa de computador especfico para estas anlises com o modelo robusto e distribuio normal
contaminada. Este programa uma modificao efetuada por Pereira (2001) em Fortran 77, a partir
de um programa desenvolvido pelo pesquisador Daniel Sorensen no Instituto Dinamarqus de
Cincia Animal, para anlise Bayesiana com modelos Gaussianos. As mesmas condies usadas
para o modelo gaussiano foram tambm adotadas neste modelo. Para o modelo robusto utilizou-se a
sigla BM para sua representao.

RESULTADOS E DISCUSSO
A representao grfica das distribuies da caracterstica peso aos 730 dias de idade e de
seus desvios em relao mdia dos contemporneos est na Figura 1. Esto apresentadas as
distribuies de freqncia das caractersticas na forma de histogramas e as distribuies normais
esperadas com mdia e varincia iguais s estimadas para as caractersticas na forma de linhas
contnuas. Embora no seja aparente na distribuio da caracterstica observada, fica claro, no caso
em que so apresentados os desvios em relao mdia dos contemporneos a forma leptocrtica
(caudas longas) da distribuio. Em relao distribuio normal nota-se que h um excesso na
regio da moda, o que tpico desta forma de distribuio. Possivelmente existe uma
heterogeneidade de varincias e/ou valores discrepantes na caracterstica estudada. Pode-se inferir,
de acordo com estes resultados que a pressuposio de normalidade pode no ser a mais adequada
para a estimao dos componentes de varincia para a caracterstica. Os valores discrepantes
podem influenciar de maneira muito significativa estes resultados. Encontram-se, na Tabela 1, os
componentes de varincia e herdabilidade estimados com o modelo GML e as mdias posteriores
pelos modelos BG e BM. As estimativas de e para o modelo BM foram 0,2747 e 0,1083. Esta
caracterstica apresentou pequena proporo de indivduos da populao com maior varincia, o que
pode ser devido ao descarte seletivo que tende a homogeneizar os rebanhos, ou ainda excluso de
certos rebanhos onde o cuidado com a coleta de dados menor e onde, possivelmente, as pesagens
so interrompidas mais cedo. A varincia da populao contaminante 9,23 vezes o valor da
populao base. Aproximadamente 28% dos animais apresentaram varincia residual maior. Pereira
(2001), trabalhando com peso ao nascimento de bovinos Simental encontrou diferenas muito
maiores de varincia entre as subpopulaes. Entretanto, o autor atribuiu tal discrepncia baixa
qualidade do conjunto de dados. Mais uma vez, as mdias das distribuies posteriores dos
componentes de varincia do modelo BG diferiram das dos outros dois modelos. O componente de
V Simpsio da Sociedade Brasileira de Melhoramento Animal



8 e 9 de julho de 2004- Pirassununga, SP

varincia gentica foi mais alto e o de varincia residual mais baixo, resultando em herdabilidade bem
mais alta por este modelo. Em cada iterao do amostrador de Gibbs, os animais com registro de
produo so classificados como sendo de uma das subpopulaes. A observao do nmero
proporcional de vezes que o animal foi classificado na populao de varincia mais alta permitiu
identificar erros na formao de grupos de contemporneos para o peso aos 730 dias. Os animais
classificados erroneamente apareciam como observaes discrepantes dentro dos grupos, e nos
modelos gaussianos, parte do desvio em relao aos contemporneos era atribuda ao valor gentico
destes animais. Este dado emprico indica que o modelo BM pode acomodar melhor as observaes
discrepantes do que os modelos gaussianos. Pereira (2001) em estudo de simulao j havia
observado que este modelo bem superior ao modelo gaussiano em situaes em que h
heterogeneidade de varincia no sistemtica.

CONCLUSES
As estimativas de varincias genticas produzidas pelo modelo robusto utilizado no presente
trabalho foram semelhantes s estimativas de mxima verossimilhana restrita em modelo gaussiano,
enquanto que para o resduo foi identificada uma mistura de distribuies normais com diferentes
varincias.

REFERNCIAS BIBLIOGRFICAS
PEREIRA, I. G. Estudo se simulao e aplicao de modelos lineares mistos com distribuio
normal contaminada no melhoramento gentico animal. Botucatu, FMVZ/UNESP, 2001. 91p.
(Tese Doutorado em Zootecnia).
ROGERS, W. H.; TUKEY, J . W. Understanding some long-tailed distributions. Statistica Neerlandia,
v.26, p.211-226, 1972.
ROSA, G. J . M. Anlise bayesiana de modelos lineares mistos robustos via amostrador de
Gibbs. Piracicaba, ESALQ, 1998. 57p. (Tese Doutorado em Estatstica).
SAS . Users Guide: Statistics, Cary: SAS INSTITUTE. 956p., 1996
STRANDN, I. J . Robust mixed effects linear models with t distributions and application to
dairy cattle breeding. Madison, 1996. 176p. Thesis (PhD) University of Wisconsin.
VanKAAM, J . B. C. H. M. (1998). Disponvel em:
<http://www.student.wau.nl/~janthijs/breedingsite/eadgibanal.html>























V Simpsio da Sociedade Brasileira de Melhoramento Animal



8 e 9 de julho de 2004- Pirassununga, SP








FIGURA 1. Distribuio de freqncia do peso aos 730 dias de bovinos Simental ( esquerda) e das
freqncias de seus desvios em relao a media dos contemporneos





TABELA 1. Estimativas dos componentes de varincia e herdabilidade pelo modelo GML e mdias a
posteriori, pelos modelos BG e BM para a caracterstica peso aos 730 dias.
A
Primeira
populao;
B
Segunda populao;
C
Mdia ponderada das duas populaes

MODELO 2
g


2
e


2
h

GML 1586,29 2747,38 0,37
BG 2330,65 2290,33 0,50
BM
A
1428,29 919,42 0,60
BM
B
1428,29 8489,56 0,14
BM
C
1428,29 2998,93 0,32

Potrebbero piacerti anche