Sei sulla pagina 1di 10

Universidade Federal de São Carlos

Universidade de São Paulo

Relatório 2 de Tópicos de Pesquisa 1:

O modelo CUB e uma aplicação na Indústria alimentícia

Aluno: Sérgio Mendes Orientador: Prof. Dr. Carlos Alberto Ribeiro Diniz

– Junho de 2014 –

1

Introdução

Desde o ano de 2003, um grupo de pesquisadores italianos, liderados pelo Prof. Dome-

nico Piccolo, publicam artigos relacionados à utilização de modelos mistos para a análise

de dados ordenados (ranking).

Dados de rankings são encontrados em várias situações: em particular, eles são muito

utilizados para expressar a preferência/avaliação de um grupo a respeito de um ou mais

itens/serviços. Nestas situações, vários modelos probabilísticos e ferramentas estatísticas

vem sendo propostos e desenvolvidos para descrever o processo de ordenação ou análise

destes dados.

Em um artigo de 2005, pela primeira vez, D’Elia e Piccolo utilizaram o MUB (Mix-

ture of Uniform and Binomial), que é uma mistura das distribuições uniforme discreta

e binomial truncada, para análise de dados de preferência (este foi o objeto da nossa 1 a

apresentação na disciplina de Tópicos de Pesquisa 1). Neste artigo, os autores mencionam

a ótima qualidade alcançada no ajuste do modelo a dados reais.

A partir de 2003, D’Elia apresenta em seus artigos modelos mistos com a inclusão

de covariáveis (como por exemplo, sexo, idade, profissão, etc); e a partir de 2009 estes

passam a ser denominados por CUB (Covariates in the mixture of Uniform and shifted

Binomial distributions), em artigos da própria autora e de outros membros do grupo de

pesquisa italiano.

Neste contexto, nossa proposta neste relatório é apresentar o modelo CUB e verificar

seu desempenho em uma aplicação recente na indústria de alimentos. Piccolo et al 2011

analisam as preferências dos entrevistados quanto as diversas variedades de Café Italiano.

Para tanto as covariáveis avaliadas foram três dos cinco sentidos humanos: visão, olfato

e

paladar.

2

Os modelos MUB e CUB

Seja r a posição (rank ) dada por um avaliador a um certo item dentre m. Seguindo um

critério de comparação emparelhada, D’Elia (2000) propõe considerar r como a realização

de uma variável aleatória binomial deslocada R SB(ξ, m), com função de probabilidade:

P(R = r) =

m 1

r 1

  (1 ξ) r1 ξ mr ,

1

r = 1, 2,

, m

(1)

e média e variância:

E(R) = ξ + m(1 ξ),

V ar(R) = (m 1)ξ(1 ξ).

(2)

Assumindo que R = 1 significa “mais preferido”, e R = m significa “menos preferido”,

é fácil mostrar que o parâmetro ξ [0, 1] cresce com a preferência pelo item. Além

disso, a V ar(R) é máxima quando ξ = 1 2 , quando há maior incerteza em classificar o

item. Nota-se que a incerteza assume um papel de grande importância no processo de

eleição, especialmente quando os jurados classificam itens para os quais estes não tem

fortes sentimentos de preferência.

Uma característica importante da variável aleatória SB é que esta permite a presença

de um modo intermediário, isso resulta numa boa ferramenta para representar resultados

de dados empíricos de preferência.

Por outro lado, se considerarmos a ocasião em que há uma espécie de indiferença

ou sentimento de equipreferência para um determinado item, então pode ser apropriado

modelar posições (ranks) por meio de uma distribuição discreta e uniforme: U U d(m),

com função de probabilidade: P (U = r) = m , r = 1, 2,

Isso significa assumir que um item tem igual probabilidade de receber qualquer posição

(rank ) r [1, m]. É claro que isso acontece se houver total incerteza com relação a

preferência por um item.

Assumimos que a posição (rank ) dada a um certo item pode ser considerada como a re-

alização de uma mistura das distribuições uniformes e binomial truncada, sem covariáveis

(MUB) ou com covariáveis (CUB).

1

, m.

P (R = r) = πp B (r) + (1 π)p U (r),

r = 1, 2,

, m.

(3)

em que p B (r) e p U (r) representam a função de probabilidade das variáveis aleatórias

SB e Ud, respectivamente.

Logo, definimos R MUB(m, π, ξ) ou R CUB(m, π, ξ) se:

P(R = r) = π

m 1

r 1

(1 ξ) r1 ξ mr + (1 π)

2

1

m ,

r = 1, 2,

, m.

(4)

Os dois componentes da nossa distribuição tem pesos que dependem de π e (1 π),

respectivamente, com π [0, 1].

Em particular, temos os seguintes casos:

π 0: então, R tende a se comportar como uma distribuição uniforme, e a posição

(rank ) dada a um determinado item depende apenas do número m de itens. Este é

o caso de incerteza total, ou sentimento de "equipreferência";

π 1: então, R tende a se comportar como uma distribuição binomial deslocada e

suas características dependem apenas do parâmetro ξ. Este caso é análogo àquele

em que as ordens de preferências surgem de critérios de comparação emparelhada;

π (0, 1): então, (1 π) mede como a incerteza afeta o mecanismo de ordenamento

(elicitação) e, como consequência, o ranking.

Sejam µ B e µ U os valores médios dos dois componentes da mistura, o valor médio da

distribuição MUB ou CUB é:

E(R) = πµ B + (1 π)µ U = π(m 1) 1

2 ξ + m + 1

2

1

o que se reduz a E(R) = m + 1/2 quando ξ = 2 (distribuição simétrica).

(5)

No que diz respeito a variância do mistura, temos:

V ar(R) = πσ B + (1 π)σ U + π(1 π)(µ B µ U ) 2

2

2

= (m 1) πξ(1 ξ) + (1 π) m + 1

12

+ π(1 π) (m 1)(2ξ 1) 2

4

que se reduz a V ar(R) = (m 1) [π/4 + (1 π)(m + 1)/12], para ξ = 1

2 .

(6)

As principais características da distribuição MUB ou CUB são:

a presença de compartilhamento de incerteza, medido por (1 π)/m, torna as ex-

tremidades das distribuições mais acentuadas;

quando ξ = 2 , a distribuição MUB ou CUB tem uma forma simétrica, sendo uma

combinação linear convexa de duas distribuições simétricas; o sinal de assimetria

depende de ξ

1

1 2 ;

3

o modelo MUB ou CUB é reversível: isto é, se R CUB(m, π, ξ) então (mR+1) CUB(m, π, 1 ξ).

3 Aplicação

A aplicação escolhida refere-se a um estudo de caso resultante de uma análise sensorial

de diversos tipos de Café Italiano. Levou-se em consideração a análise de três atributos

principais:

Visual: levou-se em conta a cor (intensidades entre claro e escuro), a textura do café (intensidades entre fino e denso) e a consistência do creme (encorpado ou não);

Olfativa: levou-se em conta a intensidade do cheiro (agradável e intenso) e o aroma (chocolate, floral, etc);

Gustativa: levou-se em conta o sabor (doce, ácido, etc) e o gosto (permanência).

A pesquisa foi produzida e os dados foram analisados pelo CSA - Centro de Estudos

Assaggiatori - sediado em Bréscia, importante cidade italiana.

As informações pertinentes a pesquisa foram as seguintes:

Foram analisados 43 diferentes tipos de café;

Para cada variedade de café foram selecionadas no mínimo 1 e no máximo 421 pessoas entre 1650;

Todas as pessoas selecionadas emitiram suas opiniões a respeito dos atributos prin- cipais;

Foi utilizada a escala de Likerty (a mais utilizada em pesquisas de opinião), com- posta neste caso por 9 itens, que vão desde não concordo totalmente até concordo totalmente;

Removeu-se as variedades de café avaliadas por menos de 60 pessoas;

A análise dos dados se deu com 36 variedades de café com um contigente total de 7604 julgamentos em relação aos atributos principais;

4

Cada uma das 1650 pessoas experimentou no mínimo 1 e no máximo 11 variedades de café;

Mais de 78% das pessoas experimentaram exatamente 5 variedades de café;

O modelo CUB foi ajustado para cada uma das 36 variedades de café em relação aos 3 atributos (visual, olfativo e gustativo).

CUB foi ajustado para cada uma das 36 variedades de café em relação aos 3 atributos

5

A figura 1 nos traz as seguintes informações:

Os box plot referentes a cada um dos atributos, dentro dos limites explicados pelo

modelo CUB, seguem uma certa simetria em relação ao valor médio;

Os gráficos de probabilidade estimada versus frequência relativa observada, com a

variável aleatória R variando de 1 até m, mostram que o ajuste do modelo CUB

explicam entre 85% e 97% dos dados.

ˆ

F 2 é dado por: 1

r=1 |f r p r θ |, e normaliza a medida que compara a proba-

bilidade estimada e a frequência relativa observada. Portanto, pode ser interpretado

como a proporção que o ajuste do modelo CUB explica dos dados analisados. Neste

caso, o valor varia entre 85% e 97%.

1

2 m

proporção que o ajuste do modelo CUB explica dos dados analisados. Neste caso, o valor varia

6

A figura 2 nos traz as seguintes informações:

Gráficos da incerteza versus satisfação para cada um dos atributos avaliados, dentre os 36 tipos de café;

Em geral se percebe uma variação maior no quesito satisfação quando o atributo avaliado é o paladar; e uma homogeneidade maior quando o queisto avaliado é o visual;

Gráfico global (overall) dos três atributos agrupados, tendo-se incerteza versus sa- tisfação para cada um dos 36 tipos de café.

(overall) dos três atributos agrupados, tendo-se incerteza versus sa- tisfação para cada um dos 36 tipos

7

A figura 3 nos traz as seguintes informações:

Gráficos individuais para cada tipo de café (dentre os 36 avaliados), onde consta o modelo estimado para os três atributos (visual, olfativo e gustativo);

A percepção gustativa, em geral, apresenta maior incerteza;

Observa-se, cruzando-se os gráficos da percepção gustativa da figura 2 com os gráfi- cos individuais da figura 3, que os tipos de café 34 e 35 são os que apresentam maior incerteza (V, G e O mais a direita no eixo x) em sua avaliação.

4 Desenvolvimentos futuros

Modelos CUB tem sido aplicados com sucesso em vários campos do conhecimento:

linguística, análise de risco, marketing, avaliação de professores, medicina, sociologia, turismo, análise quantitativa, etc.

A proposta inicial é utilizar os conhecimentos adquiridos no estudo dos modelos MUB

e CUB para avaliar diferentes combinações coerentes de distribuições. Para tanto, atribui- remos às duas componentes da mistura, a preferência (gostar/não gostar) e a incerteza do processo de escolha, outras distribuições discretas (Binomial Negativa, Poisson, Poisson Generalizada, etc.).

A proposta se resume em construção dos novos modelos, estimação, interpretações,

diagnósticos, simulações e aplicações.

5 Conclusão

Evidências empíricas de diferentes conjuntos de dados (aqui foi apresentado somente um deles) confirmam o ótimo ajuste do modelo CUB à dados reais.

Referências

[1] D’Elia, A., Piccolo, D. (2005). A mixture model for preference data analysis, Com- putational Statistic & Data Analysis, 49, 917-934.

8

[2] Piccolo, D. (2006). Observed information matrix for MUB models, Quaderni di Sta- tistica, 8, 33-78.

[3] Manisera, M., A., Piccolo, D., Zuccolotto, P. (2011). Analyzing and modelling rating data for sensory analysis in food industry, Quaderni di Statistica, 13, 69-82.

9