Sei sulla pagina 1di 22

PROPOSTA DE TESTE BOOTSTRAP NAO-PARAMETRICO DE DO NUMERO DE COMPONENTES PRINCIPAIS RETENCAO

Deyse Mrcia Pacheco GEBERT1 a Daniel Furtado FERREIRA2

RESUMO: Uma de muitas metas da anlise multivariada a reduao da a e c dimensionalidade, ou seja, a busca por modelos mais parcimoniosos. Neste sentido, uma tcnica utilizada a anlise de componentes principais. Aps a determinaao dos e e a o c componentes principais deve-se denir qual o nmero ideal a ser usado, de modo a u sintetizar a informaao contida nas variveis originais em um modelo mais simplicado. c a Alguns critrios para essa escolha so propostos na literatura, a maioria deles possui e a srias limitaoes, como por exemplo a pressuposiao de normalidade dos dados, sendo e c c essa uma justicativa para esse estudo. O objetivo deste trabalho propor um novo e teste para a determinaao do nmero de componentes principais a serem retidos, onde c u no seja necessrio o conhecimento da distribuiao dos dados originais. A avaliaao a a c c do desempenho desse teste foi feita por meio de simulaoes Monte Carlo. Tal teste foi c comparado com o teste de Fujikoshi. Sob normalidade multivariada o teste de Fujikoshi recomendado, pois apresentou maiores valores de poder e controlou o erro tipo I. Sob e no-normalidade o teste bootstrap no-paramtrico recomendado por ser robusto, sendo a a e e que controlou o erro tipo I e o teste de Fujikoshi no. a PALAVRAS-CHAVE: Anlise Multivariada; componentes principais; teste Bootstrap. a

Introduo ca

Na grande maioria das pesquisas realizadas, mensura-se mais do que uma varivel resposta em cada indiv a duo, objeto ou amostra. Nem sempre esses dados so analisados de forma multivariada. As variveis mensuradas possuem relaes a a co entre si e a estat stica multivariada explora essa relao, levando ` anlises mais ca a a

1 Departamento de Cincias Exatas - DEX, UFLA, Caixa Postal: 3037, CEP: 37200-000, Lavras, e MG, Brasil, E-mail: deyse agro@yahoo.com.br, Bolsista CAPES; 2 Departamento de Cincias Exatas - DEX, Universidade Federal de Lavras - UFLA, Caixa e Postal: 3037, CEP: 37200-000, Lavras, MG, Brasil, E-mail: daniel@dex.ua.br, Bolsista CNPq.

Rev. Bras. Biom., So Paulo, v.28, n.2, p.1-20, 2010 a

robustas e informativas. De modo geral, anlises que envolvem muitas variveis a a tm interpretaes mais complexas. Uma das metas da estat e co stica multivariada a e busca por modelos mais parcimoniosos, com menos variveis. Neste sentido, uma a tcnica utilizada a anlise de componentes principais (ACP). e e a A anlise de componentes principais no somente utilizada no sentido de a a e reduo da dimensionalidade. Muitos pesquisadores a empregam para resolver ca problemas de multicolinearidade em regresso mltipla, deteco de outliers, anlise a u ca a de modelos AM M I (Additive main eects and multiplicative interaction), sendo tambm usada em outras tcnicas multivariadas como: anlise discriminante, e e a anlise fatorial, anlise de correlao cannica, entre outras possibilidades. A ACP a a ca o tambm muito utilizada nas reas de economia (Klein e Mak, 2005) e poluio e e a ca (Zimmermann et al, 2008). A anlise de componentes principais uma transformao linear das variveis a e ca a originais, que so correlacionadas, em novas variveis no correlacionadas. Essa a a a transformao deve ser feita de forma a maximizar a varincia dos componentes ca a e ento organiz-los de forma decrescente. A gerao de componentes principais a a ca (CP) nada mais que a determinao dos autovalores e autovetores da matriz de e ca covarincias. Aps a determinao dos CP deve-se denir qual o nmero ideal a a o ca u ser usado, de modo a sintetizar a informao contida nas variveis originais em um ca a modelo mais simplicado. Muitos critrios para a escolha do nmero ideal de CP so propostos na e u a literatura. Grande parte deles baseada em argumentos emp e ricos, como por exemplo o grco de autovalores, apresentado por Jollie (2002). Neste grco a a so plotados, os autovalores no eixo das ordenadas e a sua ordem k no eixo das a abscissas. Como os primeiros autovalores contm a maior varincia e os ultimos e a uma varincia menor, a aparncia do grco de in uma curva decrescente que a e a e cio depois de um determinado ponto tende a ser paralela ao eixo das abscissas. Sob essas circunstncias o objetivo encontrar o ponto, um valor de k, em que a partir a e dele a curva torna-se quase paralela ao eixo das abscissas, ou seja, a partir de onde quase no existe variao. Na tentativa de reduzir o carter pessoal desta tcnica, a ca a e pode-se ajustar modelos de regresso para determinar esse ponto. Timm (2002), a indica o modelo de regresso no-paramtrico por spline. Modelos de linear response a a e plateau podem tambm atender a esse objetivo (Ferreira, 2008). A desvantagem de e determinar um modelo para o grco de autovalores que a preciso do mtodo a e a e ca a merc da qualidade desse ajuste. Fleck e Bourdel (1998), em um estudo e para comparao de mtodos na determinao do nmero de componentes retidos, ca e ca u vericaram que esse mtodo retm poucos componentes principais. e e Outro critrio muito utilizado, baseado em matrizes de correlao, o de e ca e Kaiser-Guttman descrito por Perez-Neto et al (2005). Ele prope considerar o apenas os autovalores superiores a um, demonstrando que esses seriam os valores estatisticamente signicativos. No entanto, esta condio no suciente. Nem ca a e todos os autovalores superiores a 1 correspondem a componentes com signicado evidente, a ponto de serem retidos. Fleck e Bourdel (1998) salientaram em seu estudo que este mtodo muito conservador, ou seja, retm componentes demais. e e e
2 Rev. Mat. Estat., So Paulo, v.28, n.2, p.1-20, 2010 a

Um outro critrio para determinao do nmero de componentes principais a e ca u serem retidos o teste de hipteses de igualdade dos ultimos autovalores, descrito e o em Ferreira (2008). Para a aplicao deste teste necessrio assumir que a ca e a distribuio dos dados seja normal multivariada, porque um teste baseado na ca e razo de verossimilhanas. A pressuposio de normalidade uma das desvantagens a c ca e deste mtodo, pois geralmente dif de ser atendida nas situaes reais. e e cil co Outro mtodo utilizado na determinao do nmero de componentes principais e ca u retidos no modelo o teste de Fujikoshi (1980). Para sua construo Fujikoshi e ca determinou a distribuio assinttica do estimador de 2 , que a proporo de ca o e ca k explicao dos k primeiros componentes principais, e criou uma estat ca stica, com distribuio normal padro assinttica, para a aplicao do teste. Da mesma forma ca a o ca exige-se que os dados sigam uma distribuio normal. No foram encontrados ca a relatos de avaliao do desempenho desse teste e muito menos de sua robustez. ca Este teste ser descrito na seo Metodologia. a ca Do exposto, pode-se observar que ainda existem lacunas em relao ` ca a necessidade de estudar e construir testes mais adequados para a determinao do ca nmero ideal de componentes principais, como por exemplo, um teste que no tenha u a como pressuposio a normalidade dos dados. ca Sobretudo, tcnicas de reamostragem e de simulao computacionalmente e ca intensiva so alternativas para construo de testes com esse objetivo. Tcnicas de a ca e bootstrap tm sido aplicadas em vrias reas, como psicologia, geologia, econometria, e a a biologia, engenharia, qu mica, etc. (Chernick, 2008). Esse mtodo tem por alicerce o fato de que o pesquisador pode tratar e sua amostra como se ela fosse a populao que deu origem aos dados e usar ca amostragem com reposio da amostra original para gerar pseudo-amostras. A ca partir destas pseudo-amostras, seria poss vel estimar parmetros da populao a ca (Efron e Tibshirani, 1993). De maneira mais geral, seria determinar uma distribuio emp ca rica (ou de bootstrap) para o parmetro de interesse a partir a da amostra inicial de tamanho n, considerando que cada unidade amostral tem probabilidade igual a 1/n de ser sorteado. A idia simplesmente substituir e e a distribuio da populao desconhecida pela distribuio conhecida emp ca ca ca rica, possibilitando assim estimar o parmetro, determinar seu desvio-padro, intervalo a a de conana ou at mesmo testar uma hiptese sobre ele (Davison e Hinkley, 2008). c e o Segundo Chernick (2008), o nmero de reamostragens necessrias para se obter u a boas estimativas, em intervalos de conana e problemas de testes de hipteses, seria c o de pelo menos 1000 repeties bootstrap. Para se fazer estas repeties, existem duas co co maneiras distintas: o mtodo paramtrico e o no-paramtrico. e e a e Quando existe um modelo matemtico particular, com constantes ajustveis ou a a parmetros que determinam totalmente a funo de densidade ou de probabilidade, a ca tal modelo chamado de paramtrico. Mtodos estat e e e sticos baseados neste modelo so mtodos paramtricos. Quando nenhum modelo matemtico usado, a anlise a e e a e a estat stica no-paramtrica, e usa apenas o fato de que as variveis aleatrias e a e a o Yj so independentes e identicamente distribu a das. Mesmo que exista um modelo paramtrico plaus para a situao, uma anlise no paramtrica pode ser usada e vel ca a a e
Rev. Bras. Biom., So Paulo, v.28, n.2, p.1-20, 2010 a 3

para avaliar a robustez das concluses de uma anlise paramtrica (Davison e o a e Hinkley, 2008). Este trabalho teve como objetivo os seguintes pontos: propor um novo teste para a determinao do nmero ideal de componentes ca u principais a serem retidos no modelo, baseado na proporo de explicao da ca ca variao total dos k primeiros componentes, para o qual no seja necessrio ca a a atender a pressuposio de normalidade dos dados; ca comparao do desempenho por meio de simulao Monte Carlo do teste ca ca proposto com o do teste de Fujikoshi. Na seo 2, a seguir, os mtodos utilizados sero apresentados. Primeiramente ca e a ser descrito o teste de Fujikoshi e a nova metodologia de teste proposta, logo a aps ser exposto os mtodos da simulao de Monte Carlo. Na seo 3 sero o a e ca ca a apresentados os resultados obtidos na validao de Monte Carlo dos testes em ca estudo. Esta seo divida em duas partes, a primeira apresenta os resultados ca e da validao dos testes sob normalidade e a segunda os resultados da validao sob ca ca no normalidade. a

Metodologia

Neste trabalho foi proposto um mtodo baseado na tcnica de reamostragem e e bootstrap, para testar a seguinte hiptese: o H0 : 2 2 k k0 contra H1 : 2 < 2 , k k0 em que 0 2 1 um valor hipottico, relativo ` proporo de variao total e e a ca ca k0 explicada pelos k primeiros componentes principais, k p, p o nmero de variveis e u a ca ca 2 a proporo de variao total explicada pelos k primeiros componentes principais k populacionais, isto , e
k

(1)

i 2 k =
i=1 p

, i

i=1

sendo 1 2 . . . p , os autovalores da matriz de covarincia populacional a de uma varivel aleatria Y Rp de uma distribuio qualquer com mdia . a o ca e O estimador da proporo de explicao da variao total dos k primeiros ca ca ca autovalores 2 dado por: k e
4 Rev. Mat. Estat., So Paulo, v.28, n.2, p.1-20, 2010 a

i
2 Rk = i=1 p

, i

(2)

i=1

a em que i so os autovalores, i = 1, 2, . . . , p, da matriz de covarincias amostral S, a dada por: n 1 S= Yj Yj n 1 j=1


n n

Yj , (3)

Yj
j=1 j=1

sendo Y1 , Y2 , . . . , Yj , . . . , Yn , uma amostra aleatria de uma populao qualquer o ca com mdia e covarincia , considerando Yj Rp . e a Alm do teste bootstrap no-paramtrico, que ser proposto a seguir, tambm e a e a e foi aplicado o teste de Fujikoshi (1980), para ns de comparao. O teste de ca Fujikoshi supe que a distribuio de Y seja normal multivariada, alm de ter o ca e a distribuio da estat ca stica do teste como normal padro assinttica. Utilizando o a o 2 resultado, n(Rk 2 ) N (0, 2 ), apresentado por Fujikoshi (1980), em que k 2 = e
k

2tr(2 ) 2 2 [( ) 22 + ], k [tr()]2 k

2 i =
i=1 p

, 2 i

i=1

ento a estat a stica do teste de Fujikoshi, sob H0 , dada por Zc =


2 Rk 2 k0 0 n

(4)

tem distribuio assinttica normal padro. ca o a Utilizando-se estimadores para e , que so respectivamente dados por: a 0 = e
Rev. Bras. Biom., So Paulo, v.28, n.2, p.1-20, 2010 a 5

2tr(S 2 ) 2 2 [( ) 22 + ] k0 [tr(S)]2 k0

2 i , i
2

i=1 p

i=1

o teste em questo pde ser aplicado. A rotina com os comandos do software R a o (R Development Core Team, 2009) para aplicao deste teste est apresentada no ca a Anexo A. O teste bootstrap proposto conforme as etapas descritas na sequncia. A e e partir da amostra original Y1 , Y2 , . . . , Yn foi obtida a matriz de covarincia amostral a S(pxp) utilizando a expresso (3). Em seguida foi estimado 2 utilizando a expresso a a k (2) na amostra original, xado o valor k de interesse. Na sequncia foram realizadas reamostragens com reposio (bootstrap) da e ca amostra original, preservando seu tamanho e a estrutura dos vetores Yj , j = 1, 2, . . . , n. Assim, foi obtida a amostra de bootstrap de tamanho n. Como os vetores de observaes multivariadas so mantidos intactos, a estrutura de covariao das co a ca variveis no alterada. Para essa amostra de bootstrap foram calculados a matriz S a a e utilizando expresso (3), os autovalores, i , utilizando algum mtodo numrico e a a e e porcentagem da explicao da variao total utilizando a expresso (2), sendo nesse ca ca a 2 caso denotado por Rk para indicar a estimativa na -sima amostra de bootstrap. e 2 Esse processo repetido B 1 vezes. O valor original de Rk e os B 1 valores de e bootstrap foram agrupados para formarem a distribuio de bootstrap. ca O valor-p , evidncia contrria ou a favor de H0 dada em (1), foi determinado e a da seguinte forma:
B 2 I(Rk 2 ) k0

valor-p =

=1

(5)

O valor-p obtido em (5) foi confrontado com o valor da signicncia nominal a para a tomada de deciso a respeito da rejeio ou no da hiptese nula (1). Esse a ca a o teste foi denotado por BN P (Teste bootstrap no-paramtrico) e a rotina com os a e comandos do software R (R Development core team, 2009) para sua aplicao est ca a apresentada no Anexo B. Para avaliar o desempenho do teste proposto e o teste assinttico de Fujikoshi o (1980) foram realizadas simulaes Monte Carlo. Foram consideradas as taxas de co erro tipo I e poder na avaliao do desempenho dos dois testes. Para isso foram ca simuladas amostras aleatrias de tamanho n dadas por Y1 , Y2 , . . . , Yn , em que o Yj Rp , com j = 1, 2, . . . , n. Essas amostras foram simuladas de distribuies co com mdia e covarincia (pxp) positiva denida. Foi utilizada a distribuio e a ca normal p-variada nessas simulaes, entretanto, foram consideradas amostras da co distribuio t de Student multivariada para avaliar a robustez de ambos os testes. ca
6 Rev. Mat. Estat., So Paulo, v.28, n.2, p.1-20, 2010 a

Neste trabalho as simulaes de realizaes de variveis aleatrias foram feitas por co co a o meio do software R (R Development Core Team, 2009). Para a realizao das simulaes Monte Carlo foram geradas amostras dessas ca co duas distribuies considerando nmeros de variveis p = 2 e 10 e tamanhos co u a amostrais n = 15, 30 e 100. Tambm foram considerados diferentes valores e para a proporo de explicao dos k primeiros componentes sob a hiptese nula, ca ca o 2 = 0,70 e 0,90, diferentes valores para o nmero de componentes principais, k = 1 u k0 e 3, que explicariam o valor m nimo 2 , da variao total contida nas p variveis ca a k0 originais, k p. Todos os testes foram aplicados a cada uma dessas amostras em cada uma das conguraes formadas pela combinao dos valores de p, n, 2 e k, considerando co ca k0 os n veis de signicncia () de 0,10, 0,05 e 0,01. Em todos os casos foram simuladas a N = 1000 amostras Monte Carlo e as propores de rejeio de H0 foram registradas co ca para cada teste. Foram simuladas amostras de populaes multivariadas com parmetro co a determinado de tal forma que 2 variasse no intervalo entre 0 e 1. Assim, quando k a amostra gerada for proveniente de uma populao em que 2 < 2 , a proporo ca ca k k0 de rejeies de H0 em N simulaes Monte Carlo uma estimativa de poder. Por co co e outro lado, se a amostra gerada for proveniente de uma populao em que 2 2 , ca k k0 a hiptese nula (1) verdadeira e a proporo de rejeies de H0 uma estimativa o e ca co e do erro tipo I. Sem perda de generalidade, xou-se a estrutura de dado por 1 1 , = 2 . . . .. . . . . . . . 1 em que 2 foi tambm xado em 1 e determinado de tal forma que 2 fosse igual e k ao valor previamente escolhido. Para matrizes com essa estrutura, os autovalores so: a 1 = 2 [1 + (p 1)] i = (1 )
2

(6) (7)

em que i = 2, 3, . . . , p. Para que seja uma matriz positiva denida, necessrio que todos os seus e a autovalores sejam maiores do que zero. Observando a equao (7) nota-se que i ca sempre ser positivo, pois varia entre 1 e 1. J na equao (6) podem ocorrer a a ca valores negativos. Assim, fazendo 1 > 0 tem-se: > 1 . (p 1) (8)

Tambm 2 deve ser um valor entre 0 e 1. Assim, utilizando-se (6) e (7) e k obtm-se: e
Rev. Bras. Biom., So Paulo, v.28, n.2, p.1-20, 2010 a 7

1 + 2 k =
i=2

i p =

k + (p k) , p

(9)

como tambm necessrio que 2 seja um valor maior que zero, usando a expresso e e a a k (9) tem-se: > k . (p k) (10)

Se for isolado e expresso em funo de 2 , tambm usando (9), chega-se a: ca e k = p2 k k . pk (11)

Dependendo do valor xado para p em (6) e usando as restries (8) e (10), co ainda podem ocorrer valores negativos para o primeiro autovalor (1 ). A m de evitar esses valores negativos necessrio impor a condio > 0. Dentre as trs e a ca e condies necessrias para que seja positiva denida, a mais forte > 0, ento co a e a usando a expresso (11) tem-se: a 2 > k k . p (12)

Desse modo, imposta a condio (12) para os valores de 2 , os valores de ca k foram determinados por (11). Constru da a matriz , amostras aleatrias o Y1 , Y2 , . . . , Yn em que Yj Rp foram geradas da distribuio normal p-variada ca por Yj = 1/2 Zj + (13)

em que 1/2 a matriz raiz quadrada de , Rp foi xada como o vetor e nulo 0(px1) e Zj Rp , um vetor de variveis aleatrias normais padro e a o a independentemente distribu das, geradas pelo mtodo polar Box-Mller (Press et e u al., 1992), para j = 1, 2, . . . , n. Simuladas as amostras de diferentes tamanhos n, diferentes dimenses p e o diferentes nmeros de componentes principais k explicando a proporo da variao u ca ca total 2 , foram aplicados os dois testes e computadas as propores de rejeies da co co k hiptese nula ao longo das N = 1000 simulaes Monte Carlo para um determinado o co n de signicncia () dado por: vel a
N

I(valor-p ) % rejeies = co
8
=1

(14)

Rev. Mat. Estat., So Paulo, v.28, n.2, p.1-20, 2010 a

em que valor-p o valor-p da -sima amostra Monte Carlo simulada e I(valor-p e e ) a funo indicadora que retorna 1 se a condio for verdadeira ou 0 se for falsa e ca ca na -sima simulao. e ca As taxas de rejeies (14) foram computadas para todos os testes em todas as co conguraes. co

Resultados de Monte Carlo

Nas subsees a seguir esto apresentados os resultados da validao Monte co a ca Carlo dos testes em estudo. O teste de Fujikoshi foi denotado por F j. Duas etapas foram consideradas. Na primeira os testes foram avaliados sob normalidade multivariada. Na segunda, considerou-se a distribuio t multivariada para se ca determinar a robustez.

3.1

Validao dos Testes Sob Normalidade ca

O teste proposto apresentou um excelente desempenho em relao ` velocidade ca a de processamento. Usando um computador da marca Acer modelo Aspire 5610, com processador Intel Core Duo, foram gastos em mdia dois segundos para o e processamento do teste com 1000 reamostragens bootstrap. As curvas de poder dos testes F j e BN P considerando H0 : 2 0,7, para k k = 1, p = 2 e n = 15, sendo = 0,10, 0,05 e 0,01, so praticamente uma linha a coincidente com a abscissa (resultado no apresentado). Essa uma situao de a e ca pequenas amostras, portanto espera-se um baixo desempenho, principalmente pelo fato de o teste F j ser assinttico. Isto conrmado, pois nota-se que os dois testes o e praticamente no rejeitam H0 . Convm salientar que esta uma situao bem a e e ca desfavorvel pois n, p e 2 so pequenos. a a k Na Figura 1 esto as curvas de poder dos testes estudados em situaes a co idnticas a anterior, exceto pelo valor hipottico, que nesse caso igual a 0,90. A e e e linha vertical, paralela ` ordenada no ponto 0,90 representa a separao das regies a ca o sob H1 e sob H0 . As linhas horizontais determinam os n veis de signicncia em a cada caso. O F j apresenta em geral maior poder em relao ao BN P , invertendo ca o resultado para = 0,01. Entretanto, os valores de poder, em relao a situao ca ca anterior, foram muito superiores, pois o valor de 2 est mais distante dos valores a k0 iniciais de 2 facilitando a deteco da diferena existente entre eles. Em relao ao ca c ca k controle do erro tipo I, os teste tiveram excelente desempenho. Todos apresentaram taxas de erro tipo I menores ou iguais aos valores de signicncia () nominais a adotados. Para o n nominal de signicncia de 0,01 (Figura 1 c), as diferenas vel a c relativas em relao ao poder dos testes aumentaram, inclusive com a inverso do ca a desempenho dos testes F j e BN P , conforme salientado anteriormente. Resultados dos desempenhos dos testes nas mesmas conguraes das duas co situaes anteriores, exceto pelo fato de n = 30, mostraram padro semelhante aos co a j apresentados (resultados no apresentados). O que se observou, no entanto, a a e
Rev. Bras. Biom., So Paulo, v.28, n.2, p.1-20, 2010 a 9

1 ,0

F j
0 ,8

B N P

% de rejeies de H0

0 ,6

0 ,4

0 ,2

0 ,0 0 ,5 0 ,6 0 ,7 0 ,8 0 ,9 1 ,0 1 ,1

(a) = 0,10
1 ,0

F j
0 ,8

B N P

% de rejeies de H0

0 ,6

0 ,4

0 ,2

0 ,0 0 ,5 0 ,6 0 ,7 0 ,8 0 ,9 1 ,0 1 ,1

(b) = 0,05

1 ,0

F j
0 ,8

B N P

% de rejeies de H0

0 ,6

0 ,4

0 ,2

0 ,0 0 ,5 0 ,6 0 ,7 0 ,8 0 ,9 1 ,0 1 ,1

(c) = 0,01

Figura - 1: Poder dos testes de Fujikoshi (F j) e bootstrap no paramtrico (BN P ) a e em funo de 2 para H0 : 2 0,90, considerando k = 1 componentes, p = 2 ca k k0 variveis e amostra de tamanho n = 15 para (a) = 0,10, (b) = 0,05 e (c) a = 0,01.
10 Rev. Mat. Estat., So Paulo, v.28, n.2, p.1-20, 2010 a

que houve um aumento nos valores de poder para n = 30 em relao as mesmas ca situaes de n = 15, como j preconizado pela teoria (Mood et al, 1974). co ae Na Figura 2 esto apresentados os resultados do poder e erro tipo I dos dois a testes estudados, para H0 : 2 0,7, k = 1, p = 2 e n = 100. O poder dos dois k testes tendeu a se igualar. Em todos os casos houve controle adequado do erro tipo I. No estudo feito por Amorim (2010) foi apresentado um teste Monte Carlo para a avaliao da unidimensionalidade de painis sensoriais, o T M CU . Este ca e teste tem por base avaliar se a proporo de explicao do primeiro componente ca ca principal igual ou maior a um valor hipottico. O objetivo avaliar se o primeiro e e e componente principal contm quase toda a informao da variabilidade do painel e ca sensorial, o que seria o mesmo que armar que o painel unidimensional. Sendo e assim, foi considerado k = 1 na construo do T M CU , o que uma limitao para ca e ca sua aplicao em outras reas. J o teste proposto no presente trabalho, BN P pode ca a a ser aplicado para qualquer valor de k, desde que k < p. A avaliao do desempenho do T M CU tambm foi feita atravs do estudo das ca e e taxas de erro tipo I e poder. Os resultados encontrados por Amorim (2010) em relao ao erro tipo I foram semelhantes aos resultados do teste aqui proposto. Em ca todas as situaes, sob normalidade, o erro tipo I foi controlado adequadamente, co cando muito prximo ou abaixo do n de signicncia considerado. o vel a Na Figura 3 esto apresentados os resultados de erro tipo I e poder dos dois a testes para n = 100 em situaes similares `s apresentadas na Figura 1. Todos os co a testes apresentaram desempenho extremamente parecidos em relao ao poder e as ca taxas de erro tipo I. Isso um forte ind de que os testes poderiam ser equivalentes e cio e assintoticamente. Para valores 2 entre 0,50 e 0,75 nos trs casos (Figura 3 a, b e k c) os valores de poder foram iguais a 100% para os dois testes comparados. Para valores entre 0,75 e 0,90, os dois testes apresentaram uma queda de poder gradual, a medida que o n de signicncia diminui. vel a Para o caso de p = 10 (resultados no apresentados) nas mesmas situaes j a co a estudadas (Figuras 1, 2 e 3) os dois testes tiveram desempenhos semelhantes, sendo que os valores de poder para o BN P se mantiveram abaixo dos valores de poder do teste F j na maioria das situaes. Comparando o padro de resposta com as co a situaes anteriores (p = 2), verica-se uma grande semelhana, exceto o fato de que co c o aumento do nmero de variveis teve um efeito benco, pois os valores de poder u a e foram superiores e as curvas de rejeies de H0 apresentaram um comportamento co mais adequado em relao ao que se espera, pela teoria, de uma curva de poder. ca No teste apresentado por Amorim (2010), onde o nmero de provadores do painel u sensorial corresponde ao nmero de variveis p, observa-se que o aumento desse u a valor tambm provoca um efeito benco no poder do T M CU . e e Os valores de poder encontrados por Amorim (2010) apresentaram um padro a de comportamento semelhante aos testes aqui estudados, sendo que em situaes co onde o tamanho de amostra menor, os valores de poder tambm so menores. Os e e a tamanhos de amostra, para Amorim (2010), correspondem ao nmero de produtos u degustados pelos provadores, sendo assim, os maiores valores de poder foram
Rev. Bras. Biom., So Paulo, v.28, n.2, p.1-20, 2010 a 11

1 ,0

F j
0 ,8

B N P

% de rejeies de H0

0 ,6

0 ,4

0 ,2

0 ,0 0 ,5 0 ,6 0 ,7 0 ,8 0 ,9 1 ,0 1 ,1

(a) = 0,10

1 ,0

F j B N P
0 ,8

% de rejeies de H0

0 ,6

0 ,4

0 ,2

0 ,0 0 ,5 0 ,6 0 ,7 0 ,8 0 ,9 1 ,0 1 ,1

(b) = 0,05

1 ,0

F j
0 ,8

B N P

% de rejeies de H0

0 ,6

0 ,4

0 ,2

0 ,0 0 ,5 0 ,6 0 ,7 0 ,8 0 ,9 1 ,0 1 ,1

(c) = 0,01

Figura - 2: Poder dos testes de Fujikoshi (F j) e bootstrap no paramtrico (BN P ) a e em funo de 2 para H0 : 2 0,70, considerando k = 1 componentes, p = 2 ca k k0 variveis e amostra de tamanho n = 100 para (a) = 0,10, (b) = 0,05 e (c) a = 0,01.
12 Rev. Mat. Estat., So Paulo, v.28, n.2, p.1-20, 2010 a

1 ,0

F j
0 ,8

B N P

% de rejeies de H0

0 ,6

0 ,4

0 ,2

0 ,0 0 ,5 0 ,6 0 ,7 0 ,8 0 ,9 1 ,0 1 ,1

(a) = 0,10

1 ,0

0 ,8

F j B N P

% de rejeies de H0

0 ,6

0 ,4

0 ,2

0 ,0 0 ,5 0 ,6 0 ,7 0 ,8 0 ,9 1 ,0 1 ,1

(b) = 0,05

1 ,0

F j
0 ,8

B N P

% de rejeies de H0

0 ,6

0 ,4

0 ,2

0 ,0 0 ,5 0 ,6 0 ,7 0 ,8 0 ,9 1 ,0 1 ,1

(c) = 0,01

Figura - 3: Poder dos testes de Fujikoshi (F j) e bootstrap no paramtrico (BN P ) a e em funo de 2 para H0 : 2 0,90, considerando k = 1 componentes, p = 2 ca k k0 variveis e amostra de tamanho n = 100 para (a) = 0,10, (b) = 0,05 e (c) a = 0,01.
Rev. Bras. Biom., So Paulo, v.28, n.2, p.1-20, 2010 a 13

observados em situaes em que o nmero de produtos degustados e o nmero co u u de provadores eram maiores. Nas Figuras 4 e 5 esto apresentados os valores de poder e erro tipo I a semelhantes `s situaes apresentadas nas Figuras 2 e 3, com a exceo do nmero a co ca u de variveis (p) ser igual a 10 e o nmero de componentes principais que explica a u a proporo m ca nima 2 da variao total, k, ser igual a 3. Da mesma forma que ca k ocorreu anteriormente, todos os testes controlaram o erro tipo I. O aumento de 2 k de 0,70 para 0,90 teve o efeito de diminuir a diferena entre os valores de poder dos c dois testes. O teste BN P foi novamente o de pior desempenho geral, sendo que em alguns casos a reduo de seu poder bem drstica em relao ao teste F j. ca e a ca Em amostras menores (resultados no apresentados) houve o mesmo padro a a de resposta.

3.2

Validao dos Testes Sob a t Multivariada ca

Vericou-se o desempenho dos testes em uma situao em que a normalidade ca multivariada foi violada. Optou-se pela distribuio t de Student multivariada com ca grau de liberdade = 1. Com isso pretendeu-se avaliar a robustez dos dois testes, sendo que, apenas o BN P no pressupe normalidade para a sua aplicao. Assim, a o ca antecipa-se que este teste possa ter um melhor desempenho. Na Figura 6, esto apresentados os valores de poder e erro tipo I dos testes F j a e BN P em funo dos valores de 2 , para k = 1, p = 10 e n = 30 com hiptese nula ca o k H0 : 2 = 0,90, considerando ainda = 0,10, 0,05 e 0,01. De maneira geral o que k se observa que o teste F j apresentou fraco desempenho no que tange ao controle e do erro tipo I. Considerando-se todos os n veis nominais de signicncia estudados a (Figuras 6 a, b e c) vericou-se que esse teste foi liberal, principalmente quando o valor paramtrico 2 se situava prximo do valor hipottico 2 (0,90). Na medida e o e k k0 em que o valor de 2 se afasta de 2 , mas continua-se sob H0 , as taxas de erro k k0 tipo I se aproximam do valor nominal ou se tornam inferiores a ele. Assim, este teste passa a controlar adequadamente o erro tipo I quando 2 se aproxima de 1. A k aproximao das taxas de erro tipo I em relao ao valor de signicncia nominal ca ca a mais lenta ` medida que o valor de diminui. e a O teste BN P , por outro lado, apresentou controle adequado do erro tipo I em todos os casos. Como consequncia disso, espera-se que este teste, que e e conservativo, seja menos poderoso que o seu competidor, que foi liberal. Isso realmente aconteceu, como pode ser observado na Figura 6. As perdas relativas mais acentuadas se deram para o n nominal de signicncia de 0,01 (Figura 6 vel a c). Isso tambm era esperado, pois o teste F j foi mais liberal nesse caso. Assim, e conclui-se que o unico teste considerado robusto foi o BN P . Esse resultado j havia a sido antecipado, uma vez que esse teste no pressupe normalidade multivariada. a o Convm salientar que o testeF j apresentou taxas de erro tipo I aproximadamente e iguais a 20%, 17% e 11% para = 0,10, 0,05, e 0,01, respectivamente, quando 2 2 nas simulaes realizadas. co k = k0
14 Rev. Mat. Estat., So Paulo, v.28, n.2, p.1-20, 2010 a

1 ,0

F j
0 ,8

B N P

% de rejeies de H0

0 ,6

0 ,4

0 ,2

0 ,0 0 ,4 0 ,6 0 ,8 1 ,0

(a) = 0,10

1 ,0

F j
0 ,8

B N P

% de rejeies de H0

0 ,6

0 ,4

0 ,2

0 ,0 0 ,4 0 ,6 0 ,8 1 ,0

(b) = 0,05

1 ,0

F j
0 ,8

B N P

% de rejeies de H0

0 ,6

0 ,4

0 ,2

0 ,0 0 ,4 0 ,6 0 ,8 1 ,0

(c) = 0,01

Figura - 4: Poder dos testes de Fujikoshi (F j) e bootstrap no paramtrico (BN P ) a e em funo de 2 para H0 : 2 0,70, considerando k = 3 componentes, p = 10 ca k k0 variveis e amostra de tamanho n = 100 para (a) = 0,10, (b) = 0,05 e (c) a = 0,01.
Rev. Bras. Biom., So Paulo, v.28, n.2, p.1-20, 2010 a 15

1 ,0

F j
0 ,8

% de rejeies de H0

B N P

0 ,6

0 ,4

0 ,2

0 ,0 0 ,4 0 ,6 0 ,8 1 ,0

(a) = 0,10

1 ,0

F j
0 ,8

B N P

% de rejeies de H0

0 ,6

0 ,4

0 ,2

0 ,0 0 ,4 0 ,6 0 ,8 1 ,0

(b) = 0,05

1 ,0

F j
0 ,8

% de rejeies de H0

B N P

0 ,6

0 ,4

0 ,2

0 ,0 0 ,4 0 ,6 0 ,8 1 ,0

(c) = 0,01

Figura - 5: Poder dos testes de Fujikoshi (F j) e bootstrap no paramtrico (BN P ) a e em funo de 2 para H0 : 2 0,90, considerando k = 3 componentes, p = 10 ca k k0 variveis e amostra de tamanho n = 100 para (a) = 0,10, (b) = 0,05 e (c) a = 0,01.
16 Rev. Mat. Estat., So Paulo, v.28, n.2, p.1-20, 2010 a

1 ,0

F j B N P

0 ,8

% de rejees de H0

0 ,6

0 ,4

0 ,2

0 ,0 0 ,0 0 ,2 0 ,4 0 ,6 0 ,8 1 ,0

(a) = 0,10

1 ,0

F j
0 ,8

B N P

% de rejeies de H0

0 ,6

0 ,4

0 ,2

0 ,0 0 ,0 0 ,2 0 ,4 0 ,6 0 ,8 1 ,0

(b) = 0,05

1 ,0

F j B N P
0 ,8

% de rejeies de H0

0 ,6

0 ,4

0 ,2

0 ,0 0 ,0 0 ,2 0 ,4 0 ,6 0 ,8 1 ,0

(c) = 0,01

Figura - 6: Poder dos testes de Fujikoshi (F j) e bootstrap no paramtrico (BN P ) a e em funo de 2 para H0 : 2 0,90, considerando k = 1 componentes, p = 10 ca k k0 variveis e amostra de tamanho n = 30 para (a) = 0,10, (b) = 0,05 e (c) a = 0,01.
Rev. Bras. Biom., So Paulo, v.28, n.2, p.1-20, 2010 a 17

Na Figura 7 esto os valores de poder e erro tipo I dos testes com n = 100, nas a mesmas conguraes apresentadas na Figura 6. O que se observa nesse caso, o co e mesmo padro de resposta encontrado para n = 30. O que foi mais surpreendente a e que o carter liberal do teste F j se acentuou com o aumento do tamanho amostral. a No houve grandes ganhos de poder do teste BN P quando n aumentou de 30 para a 100. O aumento do poder do teste F j pode ser atribu ao aumento das taxas de do erro tipo I. Como o desempenho dos testes em estudo variou em funo da distribuio de ca ca probabilidade de onde a amostra foi retirada, necessrio que se aplique um teste e a de normalidade multivariada aos dados amostrais (Cirilo, 2003) (Royston, 1983b) antes de se decidir qual teste recomendar. Sob normalidade multivariada o teste F j recomendado e em caso contrrio, o teste BN P indicado. e a e

Concluses o
O presente trabalho tem as seguintes concluses: o Sob normalidade multivariada o teste de Fijukoshi F j recomendado, pois e apresentou os maiores valores de poder e controlou o erro tipo I; sob no-normalidade o teste Bootstrap no-paramtrico BN P recomendado a a e e por ser robusto, uma vez que controlou adequadamente o erro tipo I;

GEBERT, D. M. P.; FERREIRA, D. F.; On nonparametric Bootstrap Test for the Retained Number of Principal Components. Rev. Bras. Biom. So Paulo, v. a 28, n.2, p. 1-20, 2010.
ABSTRACT: One of the many goals of the multivariate analysis is to reduce dimensionality, i.e., search for more parsimonious models. In this sense, the technique of principal component can be used. After the principal components were determined one should choose the ideal number of components to be retained in order to synthesize the information contained in the p original variates in a simplied model. Some criteria for this choice are proposed in the literature, most of them have serious limitations that were used as justication for this study. The aim of this study was to propose a new test for determining the optimal number of principal components to be retained, based on the proportion of explanation of the total variation of the k rst components (k < p). The evaluation of type I error rates, power and robustness of these tests was made by Monte Carlo simulations. This test were compared with Fujikoshis test. Under multivariate normality the Fujikoshis test is recommended, since it showed the highest power and controlled the type I error. Under non-normality the non-parametric bootstrap test was considered robust, since it controled the type I error and should be recommended. KEYWORDS: Multivariate analysis; principal components; test bootstrap.

18

Rev. Mat. Estat., So Paulo, v.28, n.2, p.1-20, 2010 a

1 ,0

F j B N P
0 ,8

% de rejeies de H0

0 ,6

0 ,4

0 ,2

0 ,0 0 ,0 0 ,2 0 ,4 0 ,6 0 ,8 1 ,0

(a) = 0,10

1 ,0

F j B N P
0 ,8

% de rejeies de H0

0 ,6

0 ,4

0 ,2

0 ,0 0 ,0 0 ,2 0 ,4 0 ,6 0 ,8 1 ,0

(b) = 0,05

1 ,0

F j B N P
0 ,8

% de rejeies de H0

0 ,6

0 ,4

0 ,2

0 ,0 0 ,0 0 ,2 0 ,4 0 ,6 0 ,8 1 ,0

(c) = 0,01

Figura - 7: Poder dos testes de Fujikoshi (F j) e bootstrap no paramtrico (BN P ) a e em funo de 2 para H0 : 2 0,90, considerando k = 1 componentes, p = 10 ca k k0 variveis e amostra de tamanho n = 100 para (a) = 0,10, (b) = 0,05 e (c) a = 0,01.
Rev. Bras. Biom., So Paulo, v.28, n.2, p.1-20, 2010 a 19

Referncias e
AMORIM, I. S.; FERREIRA, E. B.; LIMA, R. R.; PEREIRA, R. G. F. A. Monte Carlo based test for inferring about the unidimensionality of a brazilian coee sensory panel. Food Quality and Preference, Barking, v. 21, n 3, p. 319-323, 2010. CHERNICK, M. R. Bootstrap Methods: a guide for practitioners and researchers 2 ed. Newtown: Wiley-Interscience, 2008. 369 p. CIRILLO, M. A.; FERREIRA, D. F. Extenso do teste para normalidade univariado a baseado no coeciente de correlao quantil-quantil para o caso multivariado. ca Revista de Matemtica e Estat a stica, Mar lia, v. 21, n.3, p. 57-75, 2003. DAVISON, A. C.; HINKLEY, D. V. Bootstrap methods and their application Cambridge: Cambridge University, 2008. 582 p. EFRON, B.; TIBSHIRANI, R. J. An introdution to the bootstrap. Boca Raton: Chapman & Hall, 1993. 436 p. FERREIRA, D. F. Estat stica multivariada. Lavras: UFLA, 2008. 662p. FLECK, M. P. A.; BOURDEL. M. C. Mtodo de Simulao e Escolha de Fatores e ca na Anlise dos Principais Componentes. Revista de Sade Pblica, So Paulo, v. a u u a 32, n. 3, p. 267-272, Jun. 1998. FUJIKOSHI, Y. Asymptotic expansions for the distributions of the sample roots under nonnormality. Biometrika, London, v. 67, n. 1, p. 45-51, 1980. JOLLIFFE, I. T. Principal Components Analysis. 2.ed. New York: Springer Verlag, 2002. 487p. KLEIN, L.; MAK, W. Initial Steps in High- Frequency Modeling of China. Business Economics, Washington, v.40, n.1, p.11-14, 2005. MOOD, A. M.; GRAYBILL, F. A.; BOES, D. C. Introduction to the theory of statistics. 3.ed. Singapore: McGraw-Hill, 1974. 564p. PEREZ-NETO, P.R; JACKSON, D. A.; SOMERS, K. M. How many principal components? Stopping rules for determining the number of non-trivial axes revisited. Computacional Statistics & Data Analysis, Toronto, v. 49, n. 4, p. 974-997, June. 2005. PRESS, W. H.; FLANNERY, B. P.; TEUKOLSKY, S. A.; VETTERLING, W. T. Numerical recipes in fortran: the art of scientic computing. Cambridge: Cambridge University, 1992. 994p. R DEVELOPMENT CORE TEAM. R: a language and environment for statistical computing. Vienna: R Foundation for Statistical Computing, 2009. Dispon em: vel http://www.R-project. org. Acesso em: 20 dez. 2009. ROYSTON, J. P. Some technoiques for assessing multivariate normality based on the Shapiro - Wilk W. Journal of the Royal Statistical Society: Series C, Applied Statistics, London, v. 32, n. 2, p. 121-133, Jan. 1983b.
20 Rev. Mat. Estat., So Paulo, v.28, n.2, p.1-20, 2010 a

TIMM, N. H. Applied multivariate analysis.. New York: Springer Verlag, 2002. 693 p. ZIMMERMANN, C. M.; GUIMARAES, O. M.; PERALTA-ZAMORA, P. G. Avaliao da qualidade do corpo h ca drico do Rio Tibagi na regio de Ponta Grossa. a Qu mica Nova, So Paulo, v.31, n.7, p.1727-1732, 2008. a

Recebido em 26.03.2010. Aprovado aps reviso em 07.07.2010. o a

Rev. Bras. Biom., So Paulo, v.28, n.2, p.1-20, 2010 a

21

ANEXOS

ANEXO A:
# # # # # #

Rotina no R utilizada para a aplicao do teste de Fujikoshi. ca

A fun~o deve receber: ca k: nmero almejado dos primeiros componentes principais; u rho2k0: valor hipottico para o percentual de explica~o dos e ca k primeiros componentes; n: tamanho da amostra; Y: matriz de dados (n x p).

Fujikoshi <- function(k, rho2k0, n, Y) { p <- ncol(Y) if (k >= p) stop("K deve ser menor que p!") S <- var(Y) eig <- eigen(S) betah <- sum(eig$values[1:k]*eig$values[1:k])/ sum(eig$values*eig$values) w0 <- 2 * sum(eig$values^2)/sum(eig$values)^2 * (rho2k0^2 - 2 * betah * rho2k0 + betah) w0 <- w0^0.5 R2k <- sum(eig$values[1:k])/sum(eig$values) Zc <- sqrt(n) * (R2k - rho2k0) / w0 valor.p <- pnorm(Zc) return(list(R2k = R2k, Zc = Zc, valor.p = valor.p))}

ANEXO B: paramtrico. e
# # # # # # #

Rotina no R utilizada para a aplicao do teste bootstrap noca a

A fun~o deve receber: ca k: nmero almejado dos primeiros componentes principais; u rho2k0: valor hipottico para o percentual de explica~o dos e ca k primeiros componentes; n: tamanho da amostra; B: nmero de simulaoes bootstrap; u c~ Y: matriz de dados (n x p)

PCBootNP <- function(k, rho2k0, n, B, Y) { p <- ncol(Y) if (k >= p) stop("K deve ser menor que p!") S <- var(Y) eig <- eigen(S) R2k <- sum(eig$values[1:k])/sum(eig$values) R2kb <- R2k for (ib in 1:(B-1)) { rowy <- sample(1:n,replace = T) Yfake <- Y[rowy,] Sfake <- var(Yfake) eigfake <- eigen(Sfake) R2kfake <- sum(eigfake$values[1:k])/sum(eigfake$values) R2kb <- rbind(R2kb, R2kfake)} valor.p <- length(R2kb[R2kb >= rho2k0]) / B return(list(R2k=R2k, valor.p=valor.p))}

22

Rev. Mat. Estat., So Paulo, v.28, n.2, p.1-20, 2010 a

Potrebbero piacerti anche