Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Redes Neuronais
Padgett e Cottrell [36], 1996 - - - - 86%
Stathopoulou e
Tsihrintzis [46], 2004 - - - - 98,4%
Regras
Pantic e Rothkrantz [38], 2000 - - - - 8692%
Sequncia de Imagens
Modelos
Eisert e Girod [11], 1997 - - - - -
Essa e Pentland [16], 1997 - - - - 98%
Regras
Black e Yacoob [3], 1995 e [4], 1997 - - - - 88%
f=1
HP
f
TP
f
, (3.1)
em que L
c
a verosimilhana da classe c, HP
f
o nmero de hits positivos para a caracterstica f
e TP
f
o nmero total de amostras de treino positivas para a caracterstica f.
Limitaes do Mtodo
Este mtodo de classicao tem uma desvantagem relativamente relevante, que se prende com o
facto de as caractersticas terem um carcter contnuo e no discreto.
Por exemplo, ao serem utilizados intervalos discretos, existe a possibilidade de a maior das amostras
de treino pertencer a um dado intervalo k e a um outro intervalo k + 2 mas nenhuma estar situada no
49
intervalo k + 1. No entanto, empiricamente sabemos que se a maioria das amostras se situa nos
intervalos k a k + 2, a probabilidade de se situarem amostras no intervalo k + 1 tambm bastante
elevada.
Como tal, de modo a traduzir para o classicador aquilo que se verica empiricamente, optou-se
pela modelao de um conjunto innito de amostras de treino atravs de uma gaussiana, ou seja, de
uma aproximao distribuio normal.
3.5.2 Classicadores Bayesianos Gaussianos
Estimao de Valores de Amostras
Um classicador Bayesiano Gaussiano , no seu funcionamento intrnseco, em tudo anlogo ao classi-
cador de Bayes com Intervalos de Deciso Discretos.
No entanto, no utiliza directamente os valores obtidos atravs das amostras de treino para fa-
zer a classicao, mas sim uma estimao dos valores obtidos para innitas amostras, assumindo
que estas seguem uma distribuio normal. Como tal, considerando o conjunto de valores discretos
{3, 4, 4, 4, 6, 6, 6, 7}, para o caso anterior a probabilidade associada ao valor 5 seria 0. No entanto, se
estimarmos a gaussiana associada a estes valores e obtivermos a verosimilhana do valor 5 verica-
mos que esta bastante alta. Em testes empricos, vericou-se que os valores das amostras seguem
efectivamente este comportamento.
Assim, a verosimilhana de um determinado valor pertencer a uma dada classe calculada a partir
da f.d.a. da distribuio Gaussiana gerada a partir dos valores das amostras de treino. As distribuies
Gaussianas so estimadas atravs da utilizao da mdia e do desvio padro das amostras de teste.
A f.d.a. obtida respeitando a equao:
fda (x) =
1
2
_
1 + erf
_
x
2
__
(3.2)
em que a mdia dos valores das amostras e o desvio padro das mesmas e erf(z) a
funo de erro associada integrao da forma normalizada da funo Gaussiana, denida por
erf(z) =
2
_
z
0
e
t
2
dt, (3.3)
Treino
O treino do classicador mais uma vez efectuado recorrendo tanto a amostras positivas como a amos-
tras negativas, de modo a ser possvel a determinao da verosimilhana de uma amostra pertencer
ou no a uma dada classe.
Nesta fase, so armazenados os seguintes valores para cada caracterstica:
A soma dos valores de todas as amostras, usada no clculo do valor mdio das amostras.
De notar que medida que se faz o treino, e uma vez que o nmero de amostras neste contexto
arbitrrio, no se dispe do valor do divisor. Este valor apenas obtido aquando da classicao.
50
A soma dos quadrados dos valores das amostras, valor que vai ser usado no clculo do desvio-
padro das amostras.
Pela mesma razo do anterior, s pode calcular-se o desvio padro na fase da classicao.
Opta-se, assim, por somar os quadrados dos valores a cada iterao. Para tal, adoptada a
frmula
=
_
_
1
N
N
i=1
x
2
i
_
x
2
=
_
_
1
N
N
i=1
x
2
i
_
_
1
N
N
i=1
x
i
_
2
=
1
N
_
N
_
N
i=1
x
2
i
_
_
N
i=1
x
i
_
2
,
(3.4)
em que N o nmero de amostras, x
i
o valor da amostra i e x a mdia dos valores das amostras
consideradas.
A ttulo de exemplo, para os valores {1, 2, 3, 4} seriam armazenados os valores 1 + 2 + 3 + 4 = 10 e
1
2
+ 2
2
+ 3
2
+ 4
2
= 29.
A gura 3.31 ilustra esquematicamente a representao interna das estruturas de dados adoptadas.
!"#$ &$ '()*$'+,$)-( . '/"##$ '
0
'"1"'-$12#3'"4 '"1"'-$12#3'"0 '"1"'-$12#3'" )
5
+
5
+
4
6
+
6
+
4
!
!
!"#$ &$ '()*$'+,$)-( . '/"##$ '
)
!
"
!
"
!
"
!
"
Figura 3.31: Estruturas de dados preenchidas na fase de treino do classicador Bayesi-
ano Gaussiano
Classicao
O processo de classicao de uma amostra inicia-se atravs do clculo da verosimilhana de cada
caracterstica pertencer a uma dada classe. Este clculo efectuado atravs da obteno do valor da
f.d.a. em relao a uma distribuio normal gerada a partir da mdia e do desvio-padro das amostras
de treino.
51
Alm do clculo da verosimilhana de uma amostra pertencer a uma classe, determinado tambm
o valor da verosimilhana dessa amostra no pertencer a essa classe.
Uma vez obtidos estes dois valores, feita a diviso do primeiro pelo segundo. Este valor representa
quo mais provvel a amostra pertencer classe do que no pertencer a essa mesma classe.
ento multiplicada a verosimilhana de cada caracterstica, sendo assim obtida a verosimilhana
total associada a todas as caractersticas da amostra em causa. A classicao termina com a atribui-
o da amostra classe que apresenta maior verosimilhana.
O processo de classicao traduz-se na frmula
L
c
=
N
f=1
0,5 fda
_
Z
_
x
f
,
p
f
,
p
f
__
0,5 fda
_
Z
_
x
f
,
n
f
,
n
f
__, (3.5)
onde que L
c
a verosimilhana da classe c, x
f
o valor da caracterstica f relativa amostra x,
p
f
a mdia do valor da caracterstica f para as amostras positivas,
p
f
o desvio padro dos valores da
caracterstica f para as amostras postivas,
n
f
a mdia do valor da caracterstica f para as amostras
negativas,
n
f
o desvio padro dos valores da caracterstica f para as amostras negativas e Z(x, , )
o ajuste normal padro obtida com recurso frmula
Z =
X
(3.6)
O classicador associa a amostra classe c cujo valor de L
c
seja maior para essa mesma amostra.
A etapa de classicao naliza o processo de categorizao de expresses. O conjunto de m-
dulos descritos acima compe uma parte fulcral do trabalho desenvolvido uma vez que, a partir desta
implementao, possvel desenvolver um conjunto de aplicaes que tirem partido da classicao
de expresses faciais.
52
Captulo 4
Demonstradores
O cdigo correspondente s funcionalidades desenvolvidas, descritas no captulo 3, foi encapsulado
numa Dynamic-link Library (DLL) reutilizvel e verstil, de modo a possibilitar a utilizao dos algoritmos
desenvolvidos no contexto de diversas aplicaes.
Esta DLL exporta uma interface que permite a utilizao do classicador, bem como a manipulao
da base de conhecimento do mesmo, por qualquer aplicao externa. Para tal so exportadas as
seguintes funes:
std::string get_features(char
*
image_name, int _debug): esta funo permite, a
partir da indicao do path de uma imagem, a obteno de uma string com as features extradas
da imagem;
std::string get_features(IplImage
*
image, int _debug): sendo idntica ante-
rior, esta funo permite obter a mesma string a partir de uma imagem do tipo IplImage denido
no OpenCV;
void init_db(char
*
db_file_name, int _debug): atravs desta funo, possvel ini-
cializar uma nova base de conhecimento;
void add_to_db(char
*
db_file_name, char
*
class_name, bool match,
std::string features, int _debug): esta funo permite adicionar uma nova amostra
base de conhecimento. Para alm de receber o path para a base de conhecimento a utilizar,
recebe tambm o nome da classe a treinar, um booleano indicando se a amostra positiva ou
no e uma string com as caractersticas da amostra, obtida atravs da funo get_features;
void print_db(char
*
db_file_name, int _debug): esta funo permite a visualizao
do contedo de uma base de conhecimento;
std::string classify(char
*
db_file_name, std::string features,
int _debug): esta funo permite a classicao de uma amostra denida pelo parmetro
features, que representa um conjunto de caractersticas de uma amostra, obtido atravs da
funo get_features, em relao base de conhecimento db_file_name.
Recorrendo a estas funes possvel, alm da classicao de amostras, a anlise de determina-
dos passos intermdios da classicao como, por exemplo, a extraco de caractersticas faciais.
Com o intuito de demonstrar o funcionamento desta biblioteca, foram criados trs prottipos. Estes
foram desenvolvidos com recurso linguagem de programao Python e utilizao, alm da biblio-
53
teca desenvolvida no contexto desta tese, dos mdulos wxPython (para o desenvolvimento da interface
grca), pyHook (para a intercepo de eventos globais na plataforma Windows) e pywin32 (para inte-
raco com outras janelas e aplicaes na plataforma Windows.
4.1 Classicao de Expresses Faciais
Este demonstrador ilustra o resultado do processamento da expresso do rosto do utilizador, conside-
rando as expresses passveis de corresponderem ao mesmo. Consiste em dois elementos fundamen-
tais: a captura de vdeo em tempo real e um boto que permite invocar a classicao de expresses.
Quando este evento accionado, capturado um conjunto de imagens e feita a classicao da ex-
presso, sendo apresentado o emoticon correspondente mesma. Adicionalmente, apresentado um
conjunto de grcos correspondentes probabilidade de o rosto apresentar cada uma das expresses
possveis.
Este prottipo permite tambm a indicao, por parte do utilizador, do sucesso ou insucesso da
classicao. O resultado desta, o feedback do utilizador e as imagens capturadas, so armazenados
para posterior anlise. O seu funcionamento exemplicado na gura 4.1.
Figura 4.1: Demonstrador do classicador de expresses faciais
A principal motivao para a criao deste demonstrador prendeu-se com a execuo de testes com
utilizadores para avaliar o funcionamento e o desempenho do classicador.
A sua implementao foi efectuada em Python, tendo-se utilizado a biblioteca desenvolvida no con-
texto desta tese para todo o processo de classicao das expresses faciais.
54
4.2 Insero de Emoticons na Janela Activa
O objectivo deste demonstrador essencialmente ilustrar a funcionalidade do Facial Emoticons de
modo a que seja possvel ao utilizador colocar um emoticon numa qualquer janela que se encontre
activa. O demonstrador corre em background, permitindo a visualizao de uma janela com a captura
de vdeo correspondente cmara do utilizador.
Quando o utilizador pretende inserir um emoticon na janela activa, apenas tem de premir a tecla
F12. O demonstrador efectua a classicao da imagem capturada atravs da cmara do utilizador,
com recurso biblioteca desenvolvida no contexto desta tese, sendo enviada para a aplicao activa a
combinao de teclas necessria para criar o emoticon correspondente emoo detectada.
A gura 4.2 ilustra esta funcionalidade durante a utilizao de uma aplicao de instant messaging.
No entanto, a integrao deste demonstrador com qualquer outra aplicao transparente, tal como
pode vericar-se na gura 4.3.
Este prottipo, extremamente minimalista, pretende demonstrar a possibilidade de uma interaco
simplicada, tirando partido apenas da captura de vdeo e de uma instruo do teclado, permitindo
assim ao utilizador colocar o seu emoticon no cran sem necessidade de saber os atalhos ou percorrer
a lista de emoticons disponveis.
Tal como nos restantes demonstradores, a aplicao apenas implementa a interface e a captura de
vdeo. Todo o processo de classicao da imagem capturada feito de uma forma simples atravs da
interface disponibilizada pela biblioteca.
4.3 E-motional Jukebox
No contexto da disciplina de Interfaces Multimodais Inteligentes, foi desenvolvido um projecto que con-
siste na utilizao de modalidades no convencionais para interaco com um tocador udio. Foi criada
uma interface multimodal que consiste na utilizao de gestos para controle das funes bsicas de u-
dio (como pausa, paragem, navegao entre faixas, etc.), e no reconhecimento de expresses faciais
para classicao de msicas, com o objectivo de dotar a aplicao de um comportamento inteligente.
Esta aplicao utiliza duas cmaras para captar simultaneamente a mo e a face do utilizador. O
reconhecimento gestual efectuado com recurso biblioteca HandVU [25].
O reconhecimento das expresses faciais efectuado atravs da biblioteca desenvolvida no con-
texto deste estudo. No entanto, visto que, no mbito do presente demonstrador no surgiu necessidade
de reconhecimento de expresses que no as de alegria e tristeza, a base de conhecimento usada
com esta aplicao apenas contempla as emoes mencionadas. Contudo, a biblioteca exactamente
a mesma, visto que esta independente do nmero de expresses a reconhecer. Com efeito, a bi-
blioteca limita-se a reconhecer as expresses presentes na base de conhecimento de acordo com os
parmetros existentes na mesma tornando-se, deste modo, extremamente verstil.
Recorrendo s duas expresses supracitadas, possivel a classicao das msicas em 5 grupos
(muito agradvel, agradvel, mdia, desagradvel e muito desagradvel). A expresso facial captada
de 5 em 5 segundos e classicada cumulativamente, por forma a traduzir-se numa apreciao global
ao longo de toda a msica.
55
Figura 4.2: Insero de emoticons na janela activa
56
Figura 4.3: Insero de emoticons na janela activa
57
Figura 4.4: E-motional Jukebox
58
Captulo 5
Avaliao e Resultados Experimentais
Findo o processo de desenvolvimento e implementao do sistema de classicao de expresses
faciais e subsequentes demonstradores, procedeu-se esquematizao e elaborao de um conjunto
de testes que permitisse a obteno de mtricas quantitativas de desempenho.
Ekman e Friesen, nos estudos [14] e [15], deniram seis expresses bsicas alm da expresso
neutra: alegria, tristeza, ira, medo, repulsa e surpresa. No mbito deste estudo, no entanto, as emoes
foram separadas em cinco classes: alegria, tristeza, ira, surpresa e neutra, tentando na generalidade
adoptar as expresses propostas pelos autores supracitados. A principal razo para a excluso das
expresses de repulsa e medo foi o facto de estas serem facilmente confundveis com as restantes.
De facto, em testes preliminares, a expresso de repulsa confundia-se com a expresso de tristeza,
uma vez que activa as AUs 14 e 20, presentes muitas vezes nesta. Igualmente a expresso de medo
denida em parte pelas AUs 1 e 2, presentes tambm na expresso de surpresa.
Foi dada especial relevncia s expresses de alegria e tristeza, devido sua especicidade e s
inmeras aplicaes prticas associadas. Com efeito, o prprio classicador utiliza duas caractersticas
distintas (distncia vertical mdia dos cantos da boca ao centro dos olhos e distncia vertical mdia
entre a altura dos cantos da boca e o centro da mesma) com o propsito de distinguir estas duas
expresses faciais.
Por forma a averiguar o comportamento do sistema, e com o intuito de optimizar o desempenho
do mesmo, foram feitos alguns testes automatizados. Estes testes foram realizados quer com recurso
a imagens existentes numa base de dados facial (testsets), quer com recurso a imagens recolhidas
em ambientes aleatrios de interaco. Alm dos testes ao sistema, foram tambm feitos testes de
referncia, em que a classicao foi efectuada por humanos.
5.1 Avaliao com testsets
O primeiro conjunto de testes, efectuado com o intuito de averiguar o sucesso do classicador de-
senvolvido no mbito do presente estudo, foi realizado com recurso a uma base de dados facial da
Universidade de Dallas [33], qual foi requisitado acesso. Foram utilizadas, assim, imagens de indiv-
duos de idades compreendidas entre os 18 e os 93 anos, pertencentes a diversas etnias (causasiana,
africana e asitica). As 503 amostras subdividem-se em 30 para expresses de ira, 203 de alegria, 54
59
de tristeza, 67 de surpresa, e 237 para a expresso neutra.
Foram considerados dois cenrios de classicao. Um dos cenrios considera a classicao entre
as cinco expresses consideradas no estudo e o outro apenas as expresses de alegria e tristeza.
Para o treino do classicador foram seleccionadas, de forma aleatria, 10 amostras (de utilizado-
res pertencentes base de dados supracitada), correspondentes a cada classe de expresso facial a
considerar no contexto deste estudo (neutra, feliz, triste, irada e surpreendida). As restantes amostras
foram posteriormente utilizadas para a aferio da qualidade do classicador. Assim, para estes tes-
tes, foram consideradas 203 amostras representativas da classe feliz, 41 amostras representativas da
classe irada, 570 amostras representativas da classe neutra, 55 amostras representativas da classe
triste e 67 amostras representativas da classe surpreendida.
A m de optimizar os resultados da classicao, estes testes foram realizados diversas vezes ao
longo das vrias fases de desenvolvimento do sistema. Foram cruciais no que diz respeito ao processo
de deciso acerca das caractersticas a seleccionar para a classicao, uma vez que permitiram en-
contrar o compromisso entre o nmero de caractersticas e o desempenho.
Atravs da classicao e vericao automatizada destas amostras de teste, foi possvel obter m-
tricas representativas da evoluo do classicador. Os valores nais destas mtricas so apresentados
na seco 5.1.1.
A principal mtrica utilizada a taxa de acerto do classicador. Este valor inicialmente calculado
atravs da diviso entre o total de classicaes correctas e o total de classicaes. No entanto, e
visto que para algumas classes existem mais amostras do que para outras, esta taxa de acerto passou
a ser calculada atravs da mdia das taxas de acerto de cada classe, de forma a impedir que o peso
de uma classe no resultado nal fosse muito maior do que o das restantes. Como tal, a taxa de acerto
referida nestes resultados sempre a mdia no ponderada das taxas de acerto parciais de cada
classe considerada.
5.1.1 Resultados obtidos com testsets
Nesta fase preliminar de testes, cujo objectivo foi avaliar o desempenho do classicador atravs de ima-
gem esttica, os resultados para o cenrio com expresses de alegria e tristeza foram os apresentados
na tabela 5.1.
Tabela 5.1: Taxas de acerto para as expresses triste e feliz no contexto dos testsets
Classicao
Feliz Triste Total %Acerto
Feliz 150 52 202 74,26
Triste 7 48 55 87,27
Mdia 80,76
O classicador, de um total de 202 rostos com expresses felizes, classicou 150 como sendo
efectivamente felizes e 52 como expresses tristes. Por outro lado, de um total de 55 rostos tristes, 48
foram correctamente classicados.
60
As percentagens de classicao resumem-se na gura 5.1.
Estes grcos ilustram a divergncia na classicao correcta de caras tristes e alegres. De facto,
aquando da classicao de uma cara triste, obteve-se uma taxa de acerto bastante mais elevada do
que na classicao de um rosto alegre.
Estes resultados ilustram alguma tendncia para a classicao com a classe triste. Tal facto deve-
se essencialmente qualidade das amostras de treino visto que, ao longo do desenvolvimento do
presente estudo, e como apresentado mais frente, com diferentes amostras de treino assim se
obtm diferentes tendncias do classicador para uma ou outra classe.
Os resultados globais da classicao das expresses feliz e triste so ilustrados na gura 5.1.
Como pode vericar-se, a taxa mdia de acerto de cerca de 81%.
!" $!" %!" &!" '!" (!!"
)*+,-
./,01*
")*+,-
"./,01*
(a) Distribuio por classes
!"
"$
%&'(()*+'
%,-*'(()*+'
(b) Taxa de acerto
Figura 5.1: Resultados percentuais para classes feliz e triste com testsets
Analisando os motivos das classicaes incorrectas dividiram-se estas falhas em duas categorias:
Erros na deteco correcta das caractersticas do rosto;
Erros na classicao aps uma extraco correcta das caractersticas.
A distribuio destas falhas para o caso anterior apresentada na gura 5.2.
!"
$$
%&'(')*+(,-.)'- /01
2+*+)*'2'-
%&3'--45)'601 +(('2'
Figura 5.2: Causas de classicaes incorrectas para classes feliz e triste com testsets
Foi feito tambm o treino e classicao para todas as classes de emoes. Os resultados so
apresentados na tabela 5.2 e resumidos na gura 5.3.
Como ilustrado, o classicador tem neste caso uma tendncia para classicar a expresso feliz com
61
uma maior frequncia. No entanto, e apesar deste facto se vericar, para cada grupo de amostras a
classe predominante correspondeu emoo correcta.
Tabela 5.2: Taxas de acerto para todas as classes de expresses no contexto dos test-
sets
Classicao
Irado Feliz Neutro Triste Surp. Total %Acerto.
Irado 17 4 2 4 3 30 56,67
Feliz 5 177 12 6 3 203 87,19
Neutro 19 49 145 14 10 237 61,18
Triste 5 13 8 24 4 54 44,44
Surp. 9 21 10 7 20 67 29,85
Mdia 55,87
!" $!" %!" &!" '!" (!!"
)*+,-
./012
3/45*-
6*175/
84*9*:
")*+,-
"./012
"3/45*-
"6*175/
"84*9:
(a) Distribuio por classes
!"
$$
%&'(()*+'
%,-*'(()*+'
(b) Taxa de acerto
Figura 5.3: Resultados percentuais para todas as classes de expresses com testsets
As causas para a classicao incorrecta encontram-se apresentadas na gura 5.4.
!"
"$
%&'(')*+(,-.)'- /01
2+*+)*'2'-
%&3'--45)'601 +(('2'
Figura 5.4: Causas de classicaes incorrectas para todas as classes de expresses
com testsets
Tendo em conta os resultados no que diz respeito ao treino e classicao com recurso a testsets,
considera-se que uma taxa de acerto de cerca de 81% para o caso em que temos apenas duas classes
62
representa umresultado bastante satisfatrio, embora passvel de melhorias. No caso emque se dispe
de cinco classes de emoes, uma taxa de acerto de cerca de 56% representa tambm um resultado
positivo, tendo em conta o maior nmero de classes entre as quais o classicador tem de optar.
5.2 Avaliao com utilizadores
Neste estudo, torna-se imperativa a compreenso da viabilidade do demonstrador no contexto da sua
utilizao. Trata-se da situao em que o utilizador direcciona a sua expresso facial a uma web-
cam comum, sem preocupaes de maior no que diz respeito postura do rosto, a outros elementos
existentes na imagem ou a condies no ptimas de luminosidade ambiente, esperando uma resposta
rpida por parte do sistema em relao expresso facial que apresenta. O mbito de aplicabilidade
deste estudo tem em conta a interaco em condies normais, isto , sem que haja uma preocupao
acrescida em relao a possveis restries de utilizao. Nos testes concretizados, tentou simular-
se este tipo de situaes, recorrendo a ambientes com condies de luminosidade bastante variveis
(desde salas com fraca iluminao at ambientes exteriores), posicionamento varivel de utilizadores
perante a cmara e indiferenciao entre utilizadores com e sem culos.
Tanto para o levantamento de amostras de treino como para a recolha de informao relativa aos
testes, foi utilizado o demonstrador descrito na seco 4.1. Esta aplicao, em termos gerais, classica
a expresso facial, associando a esta um emoticon, e regista os dados iconogrcos (imagens faciais
de todos os registos expressivos dos utilizadores) e quantitativos (percentagem de verosimilhana para
cada expresso, classe expressiva predominante e informao acerca da correco do classicador)
para posterior tratamento e anlise.
5.2.1 Protocolo de recolha de dados
Foram explicados, a cada utilizador, os objectivos e o contexto do estudo. De seguida, foi pedido a
cada indivduo que, em frente cmara, tentasse aproximar o seu rosto das expresses neutra, feliz,
triste, irada e surpreendida. Ao mesmo tempo que os utilizadores exibiam as expresses, era dada a
instruo de classicao ao demonstrador. Este, aps processamento da imagem recolhida aquando
da gerao do evento, procedia representao iconogrca da expresso. Pediu-se aos utilizado-
res que, aps a categorizao dos dados e conseguente apresentao do emoticon correspondente
expresso predominante, dessem feedback acerca da correco da avaliao, atravs do boto cor-
respondente a correcto ou incorrecto. Este processo repetiu-se para todas as expresses de cada
utilizador.
A recolha de dados para treino e testes foi realizada em ambientes distintos, tanto exteriores como
interiores, com condies de luminosidade variveis. Foi, ainda, dada liberdade aos utilizadores quanto
postura relativamente cmara. Estes factores so importantes na simulao de um cenrio de
utilizao real. No entanto, tal como a qualidade varivel das webcam, implicam um impacto negativo
nos resultados obtidos.
Numa primeira sesso de recolha de dados, foi feito o levantamento de amostras para 30 utiliza-
dores. A cada uma destas pessoas foi feita a recolha de dados referentes s seis expresses faciais
supracitadas. O objectivo era usar a informao correspondente para dotar a base de dados de treino
63
de amostras representativas de um universo de estudo mais abrangente.
Na segunda sesso, obteve-se informao facial de teste referente a 37 utilizadores, sendo regis-
tados os dados para posterior anlise e tratamento. A metodologia foi anloga seguida na primeira
sesso de levantamento de amostras.
Por forma a minimizar qualquer tendncia nos resultados, todos os participantes de ambas as ses-
ses so distintos.
No entanto, aps os primeiros resultados, apresentados na seco 5.2.2, optou-se por estudar o
comportamento do classicador reduzindo o nmero de amostras de treino para 10. Aps estes testes
decidiu tambm estudar-se a evoluo dos resultados mantendo o mesmo nmero de amostras de
treino mas, desta vez, utilizar para treino as amostras da base de imagens correspondente aos testsets
[33], e no as obtidas atravs da captura de vdeo.
O nmero total de amostras recolhidas foi de 67 para cada expresso. As amostras de teste utili-
zadas foram sempre a totalidade das que restavam aps a subtraco das necessrias para o treino.
importante no entanto referir que nem todas as amostras de treino surgem indicadas nos resultados
nais. A discrepncia, embora pequena, deve-se a imagens nas quais no foi possvel, por parte do
sistema, a identicao de um rosto para classicao.
Posteriormente foram tambm capturadas 10 amostras extra para cada expresso com o objectivo
de efectuar novos testes. Estes testes tiveram como objectivo o estudo da possibilidade de recorrer a
vrios frames para a classicao da expresso facial. Como tal, cada uma destas amostras consistiu
na captura de 10 frames. A captura foi efectuada em condies idnticas s capturas anteriores no
sentido de simular situaes reais.
5.2.2 Resultados da Avaliao com Utilizadores
Os resultados aqui apresentados tentam estudar e ilustrar o funcionamento do classicador numa si-
tuao de utilizao real com recurso a uma webcam tradicional. Tal como na seco anterior, foram
efectuados testes com o intuito de classicar expresses felizes e tristes e tambm testes com o objec-
tivo de classicar expresses nas cinco variantes anteriormente mencionadas.
Resultados com 30 amostras de treino
Os primeiros testes foramefectuados comuma base de conhecimento populada atravs de 30 amostras
de treino para cada expresso. No caso da classicao entre as expresses feliz e triste, os resultados
so sumarizados na tabela 5.3 e ilustrados gracamente na gura 5.5.
64
Tabela 5.3: Taxas de acerto para as expresses feliz e triste em testes com utilizadores
usando 30 amostras de treino
Classicao
Feliz Triste Total %Acerto
Feliz 25 12 37 67,57
Triste 13 24 37 64,86
Mdia 66,22
!" $!" %!" &!" '!" (!!"
)*+,-
./,01*
")*+,-
"./,01*
(a) Distribuio por classes
!!
#$
%&'(()*+'
%,-*'(()*+'
(b) Taxa de acerto
Figura 5.5: Resultados percentuais para as classes feliz e triste em testes com utilizado-
res, usando 30 amostras de treino
Neste contexto no j vericada a tendncia para a classicao na classe feliz que existia
aquando dos testes realizados com recurso aos testsets. Com efeito, os resultados so mais equili-
brados mas, embora se tenha obtido uma taxa de sucesso prxima dos 70%, no so, globalmente,
to satisfatrios como os correspondentes aos testsets. Tal deve-se ao facto de as fotograas utilizadas
para a classicao padecerem de falta de qualidade, questo que elaborada nos testes seguintes.
No caso dos testes efectuados para todas as expresses faciais consideradas, os resultados so
apresentados na tabela 5.4 e resumidos na gura 5.6.
65
Tabela 5.4: Taxas de acerto para todas as expresses faciais em testes com utilizadores,
usando 30 amostras de treino
Classicao
Irado Feliz Neutro Triste Surp. Total %Acerto.
Irado 1 0 25 2 9 37 2,70
Feliz 1 0 32 1 3 37 0,00
Neutro 1 1 27 2 6 37 72,97
Triste 3 0 28 2 4 37 5,41
Surp. 0 0 32 1 4 37 10,81
Mdia 18,38
!" $!" %!" &!" '!" (!!"
)*+,-
./012
3/45*-
6*175/
84*9*:
")*+,-
"./012
"3/45*-
"6*175/
"84*9:
(a) Distribuio por classes
!"
"$
%&'(()*+'
%,-*'(()*+'
(b) Taxa de acerto
Figura 5.6: Resultados percentuais para todas as expresses faciais em testes com utili-
zadores, usando 30 amostras de treino
Neste caso, torna-se claro que a maior parte das amostras foram classicadas como neutras, prova-
velmente devido a uma sobre-especializao do classicador. De facto, comparado a um classicador
aleatrio, que classicaria 20% de amostras em cada classe, o resultado obtido inferior.
Resultados com 10 amostras de treino
Com o intuito de solucionar o problema da sobre-especializao do classicador foram tambm efec-
tuados testes com apenas 10 amostras de treino. Os resultados obtidos com estes testes para a
classicao de expressoes feliz e triste podem ser consultados na tabela 5.5 e na gura 5.7.
66
Tabela 5.5: Taxas de acerto para as expresses feliz e triste em testes com utilizadores,
usando 10 amostras de treino
Classicao
Feliz Triste Total %Acerto
Feliz 31 25 56 55,36
Triste 22 33 55 60,00
Mdia 57,66
!" $!" %!" &!" '!" (!!"
)*+,-
./,01*
")*+,-
"./,01*
(a) Distribuio por classes
!"
$%
&'())*+,(
&-.+())*+,(
(b) Taxa de acerto
Figura 5.7: Resultados percentuais para as expresses alegre e triste em testes com
utilizadores, usando 10 amostras de treino
No caso da classicao com todas as expresses consideradas, o resultado apresentado na
tabela 5.6 e resumido na gura 5.8.
Tabela 5.6: Taxas de acerto para todas as expresses faciais em testes com utilizadores,
usando 10 amostras de treino
Classicao
Irado Feliz Neutro Triste Surp. Total %Acerto.
Irado 12 11 10 6 16 55 21,82
Feliz 9 7 14 5 21 56 12,50
Neutro 8 6 14 6 20 54 25,93
Triste 5 6 18 11 15 55 20,00
Surp. 9 6 17 5 20 57 35,09
Mdia 23,07
Aps a alterao do nmero de amostras de treino deu-se uma melhoria nos resultados. No entanto,
estes no so ainda considerados satisfatrios.
67
!" $!" %!" &!" '!" (!!"
)*+,-
./012
3/45*-
6*175/
84*9*:
")*+,-
"./012
"3/45*-
"6*175/
"84*9:
(a) Distribuio por classes
!"
$$
%&'(()*+'
%,-*'(()*+'
(b) Taxa de acerto
Figura 5.8: Resultados percentuais para todas as expresses faciais em testes com utili-
zadores, usando 10 amostras de treino
Resultados com 10 amostras de treino dos testsets
Com o intuito de melhorar os resultados, foi feito o treino do utilizador com recurso s amostras existen-
tes na base de dados dos testsets, visto estas serem de melhor qualidade. A utilizao destas amostras
para treino, que se traduziu num impacto signicativo no resultado nal, provou a relevncia da quali-
dade das imagens de treino para melhor desempenho do classicador. Os resultados para o caso da
classicao de expresses de alegria e tristeza so apresentados na tabela 5.8 e na gura 5.9. Foram
tambm analisadas as percentagens de falhas provocadas pela m deteco de caractersticas faciais
e pela m classicao aps a deteco correcta das caractersticas. Os resultados obtidos para este
caso podem ser consultados na gura 5.10.
Tabela 5.7: Taxas de acerto para as expresses feliz e triste em testes com utilizadores,
usando 10 amostras de treino da base de dados dos testsets
Classicao
Feliz Triste Total %Acerto
Feliz 42 14 56 75,00
Triste 16 39 55 70,91
Mdia 72,95
68
!" $!" %!" &!" '!" (!!"
)*+,-
./,01*
")*+,-
"./,01*
(a) Distribuio por classes
!"
$!
%&'(()*+'
%,-*'(()*+'
(b) Taxa de acerto
Figura 5.9: Resultados percentuais para as expresses alegre e triste em testes com
utilizadores, usando 10 amostras de treino da base de dados dos testsets
!"
"$
%&'(')*+(,-.)'- /01
2+*+)*'2'-
%&3'--45)'601 +(('2'
Figura 5.10: Causas de classicaes incorrectas para classes feliz e triste em testes
com utilizadores
Para o caso da classicao das cinco emoes consideradas, os resultados so ilustrados na
tabela 5.8 e sumarizados na gura 5.11. A anlise dos motivos para as classicaes incorrectas
encontra-se apresentada na gura 5.12.
Tabela 5.8: Taxas de acerto para todas as expresses faciais em testes com utilizadores,
usando 10 amostras de treino da base de dados dos testsets
Classicao
Irado Feliz Neutro Triste Surp. Total %Acerto
Irado 21 19 7 2 4 53 39,62
Feliz 9 28 8 5 6 56 50,00
Neutro 14 12 20 4 4 54 37,04
Triste 10 13 11 16 5 55 29,09
Surp. 9 17 10 2 19 57 33,33
Mdia 37,82
69
!" $!" %!" &!" '!" (!!"
)*+,-
./012
3/45*-
6*175/
84*9:
")*+,-
"./012
"3/45*-
"6*175/
"84*9:
(a) Distribuio por classes
!"
$%
&'())*+,(
&-.+())*+,(
(b) Taxa de acerto
Figura 5.11: Resultados percentuais para todas as expresses faciais em testes com uti-
lizadores, usando 10 amostras de treino da base de dados dos testsets
!"
$%
&'()(*+,)-./*(. 012
3,+,*+(3(.
&'4(..56*(712 ,))(3(
Figura 5.12: Causas de classicaes incorrectas para todas as classes de expresses
em testes com utilizadores
Resultados com 10 frames por expresso
Decidiu-se tambm uma abordagem alternativa no sentido de atingir nveis de performance mais eleva-
dos. Esta abordagem consiste na utilizao de vrios frames da captura vdeo para a classicao da
expresso. Esta classicao baseou-se na classicao de cada frame individual, considerando-se a
expresso maioritria como a classe a que pertence o conjunto de frames.
Neste sentido foram feitos testes adicionais para vericar a viabilidade desta abordagem. Utilizou-se
para a classicao uma sequncia de 10 frames. Embora esta abordagem possa por em causa os re-
quisitos de tempo-real, considerou-se que seria pelo menos interessante vericar qual o seu contributo
para a melhoria da qualidade do classicador.
Para estes testes apenas foi possvel ter disponvel um conjunto de 10 amostras para cada classe a
classicar, pelo que dever ser considerada uma margem de erro nos resultados obtidos.
Os resultados obtidos para a classicao das expresses de alegria e tristeza encontram-se na
tabela 5.9 e resumidos na gura 5.13.
70
Tabela 5.9: Taxas de acerto para as expresses feliz e triste em testes com utilizadores,
usando 10 frames por expresso
Classicao
Feliz Triste Total %Acerto
Feliz 8 2 10 80,00
Triste 1 9 10 90,00
Mdia 85,00
!" $!" %!" &!" '!" (!!"
)*+,-
./,01*
")*+,-
"./,01*
(a) Distribuio por classes
!"
$"
%&'(()*+'
%,-*'(()*+'
(b) Taxa de acerto
Figura 5.13: Resultados percentuais para as expresses alegre e triste em testes com
utilizadores, usando 10 frames por expresso
Mesmo considerando uma eventual margem de erro, os resultados obtidos para este caso so
bastante promissores. Para o caso da classicao aplicada a todas as classes de expresses os
resultados obtidos podem ser consultados na tabela 5.10 e na gura 5.14.
Tabela 5.10: Taxas de acerto para todas as expresses faciais em testes com utilizado-
res, usando 10 frames por expresso
Classicao
Irado Feliz Neutro Triste Surp. Total %Acerto
Irado 5 1 0 3 1 10 50,00
Feliz 1 7 0 1 1 10 70,00
Neutro 2 3 2 1 2 10 20,00
Triste 1 1 0 6 2 10 60,00
Surp. 0 1 0 3 6 10 60,00
Mdia 59,09
71
!" $!" %!" &!" '!" (!!"
)*+,-
./012
3/45*-
6*175/
84*9*:
")*+,-
"./012
"3/45*-
"6*175/
"84*9:
(a) Distribuio por classes
!"
$%
&'())*+,(
&-.+())*+,(
(b) Taxa de acerto
Figura 5.14: Resultados percentuais para todas as expresses faciais em testes com uti-
lizadores, usando 10 frames por expresso
Tambm neste caso se vericou uma melhoria considervel dos resultados, ainda que custa de
alguma latncia na classicao, visto que o algoritmo, ao classicar 10 frames, efectivamente 10
vezes mais lento. Em termos de taxas de sucesso, apenas o reconhecimento da classe neutra se
revelou algo frgil, uma vez que as taxas de acerto nas restantes classes so bastante promissoras.
5.2.3 Anlise de Resultados
De uma forma geral, os resultados obtidos na sequncia dos testes efectuados foram satisfatrios e
encontram-se dentro dos objectivos traados para este estudo. Atingiu-se uma taxa de acerto de cerca
de 81% para uma distino entre as expresses feliz e triste, e uma taxa de acerto de cerca de 56%
para uma distino entre cinco estados emocionais distintos.
, no entanto, notrio que estes resultados esto muito dependentes do treino efectuado e da quali-
dade das amostras usadas, quer no processo de treino, quer no processo de classicao. Com efeito,
vericou-se que os resultados obtidos com as imagens dos testsets so sempre superiores aos obtidos
nos testes com utilizadores. Vericou-se tambm que, na impossibilidade de se efectuar a classicao
com imagens de boa qualidade, a utilizao de imagens de boa qualidade para o treino do classicador
permite, s por si, uma melhoria signicativa dos resultados nais.
A comparao dos resultados obtidos atravs da utilizao de:
amostras de fraca qualidade para teste e treino;
amostras de fraca qualidade para teste e boa qualidade para treino; e
amostras de boa qualidade para teste e treino,
mostra que a qualidade das amostras tem um impacto signicativo nos resultados obtidos.
Existem alguns outros factores que restringem os resultados a valores menos favorveis, dicul-
tando o processo de classicao. Alguns exemplos destas variveis, como um posicionamento exage-
radamente lateral do indivduo perante a cmara, iluminao deciente ou transposio incorrecta da
expresso pretendida, so ilustrados na gura 5.15.
Foram tambm efectuados testes nos sentido de vericar a hiptese de efectuar uma classicao
ao longo de vrias frames de vdeo. Estes testes apresentaram resultados promissores sendo que para
72
(a) Posicionamento lateral (b) Fraca iluminao (c) Expresso zangado pouco realista
Figura 5.15: Factores de inuncia na classicao
o caso da classicao de feliz e triste a taxa de acerto foi de 85% e no caso de todas as expresses
foi de cerca de 60%.
Quanto ao nmero de amostras utilizadas para o treino do classicador, os resultados globais no
so conclusivos. Se, no caso da classicao com cinco classes de emoes, parece ter existido
uma clara sobre-especializao do classicador por excesso de amostras de treino, eventualmente
devido a alguma falta de qualidade das mesmas, no caso da classicao com apenas duas emoes,
os resultados com 30 amostras de treino foram superiores aos resultados com apenas 10 amostras
de treino. Ainda assim, verica-se que mais importante que a quantidade de amostras de treino a
qualidade das mesmas.
tambm evidente, a partir dos resultados obtidos, que uma melhoria dos processos de deteco
das caractersticas faciais pode representar uma evoluo muito acentuada da qualidade nal do classi-
cador, visto que entre 60% a 80% das falhas de classicao caram a dever-se a falhas na deteco
das caractersticas faciais.
Verica-se tambm que, em funo das amostras utilizadas para o treino, o classicador pode de-
monstrar uma maior tendncia para classicar mais amostras como pertencendo a determinadas clas-
ses. Este problema vericou-se desde o incio dos testes e, apesar de no ter sido aprofundado, parece
ter que ver com o desvio-padro das normais utilizadas na classicao. Assim, e tendo em conta que,
de acordo com o algoritmo utilizado, cada classe representada no classicador como um conjunto
de gaussianas, classes cujas gaussianas tenham desvios-padro muito maiores que as restantes re-
presentam tendncias do classicador. Como tal, em casos mais prximos da fronteira de deciso, o
classicador ter tendncia para optar pelas classes com maiores desvios-padro.
5.3 Testes de Referncia
Com o intuito de contextualizar os resultados obtidos atravs do mdulo de classicao automtica de
expresses faciais, foram feitos alguns testes com utilizadores. Durante estes testes, foram apresen-
tadas as imagens faciais correspondentes recolha de amostras, efectuada no contexto do presente
estudo, a um conjunto de 10 pessoas. As imagens adoptadas consistem num conjunto de 67 rostos
de indivduos distintos por expresso facial. Os utilizadores zeram a classicao de cada uma das
imagens independentemente, sendo estas apresentadas por ordem aleatria. Por forma a seguir a me-
73
todologia adoptada no contexto dos testes, tambm neste caso foi feita a classicao em dois cenrios
distintos: expresses de alegria e tristeza e todas as expresses consideradas neste trabalho.
Os resultados dos testes para o primeiro caso so apresentados na tabela 5.11 e sumarizados na
gura 5.16.
Tabela 5.11: Taxas de acerto para as expresses feliz e triste em testes com utilizadores,
usando 10 frames por expresso
Classicao
Feliz Triste Total %Acerto
Feliz 8 651 670 97,16
Triste 36 634 670 94,63
Mdia 95,89
!" $!" %!" &!" '!" (!!"
)*+,-
./,01*
")*+,-
"./,01*
(a) Distribuio por classes
!"
$
%&'(()*+'
%,-*'(()*+'
(b) Taxa de acerto
Figura 5.16: Resultados percentuais para as expresses alegre e triste em testes com
utilizadores, usando 10 frames por expresso
Estes testes conrmam a facilidade inerente ao ser humano em distinguir a expresso de alegria da
expresso de tristeza, da qual ser desejvel uma aproximao por parte de umsistema computarizado.
No entanto, e como pode vericar-se atravs da observao da tabela 5.12 e da gura 5.17, tal no
ocorre com uma taxa de sucesso to elevada para todas as expresses.
74
Tabela 5.12: Taxas de acerto para todas as expresses faciais em testes com utilizado-
res, usando 10 frames por expresso
Classicao
Irado Feliz Neutro Triste Surp. Total %Acerto
Irado 392 12 116 145 5 670 58,51
Feliz 38 465 62 27 78 670 69,40
Neutro 146 52 336 99 37 670 50,15
Triste 46 17 156 451 0 670 67,31
Surp. 72 43 13 34 508 670 75,82
Mdia 64,24
!" $!" %!" &!" '!" (!!"
)*+,-
./012
3/45*-
6*175/
84*9:
")*+,-
"./012
"3/45*-
"6*175/
"84*9:
(a) Distribuio por classes
!"
$!
%&'(()*+'
%,-*'(()*+'
(b) Taxa de acerto
Figura 5.17: Resultados percentuais para todas as expresses faciais em testes com uti-
lizadores, usando 10 frames por expresso
Efectivamente, no caso em que utilizadores humanos classicaram rostos correspondentes a todas
as expresses consideradas no mbito deste estudo, a taxa de sucesso ronda os 64%. No grco da -
gura 5.18 so resumidos os resultados dos testes para o classicador e os testes em que as expresses
foram classicadas por humanos. 65% de sucesso para todas as expresses face aos 59% obtidos pelo
classicador, constata-se um desempenho quantitativo por parte do sistema correspondente a cerca de
92% do desempenho do ser humano. J para o caso de alegria versus tristeza, os resultados rondam
os 89% comparativamente ao ser humano.
75
!" $!" %!" &!" '!" (!!"
)*+,- ,- ./01.--2.-
34.516, 7-8 )16-9.:,
;<=,>*-
?4,--6@A,+*1
Figura 5.18: Resultados comparativos entre a classicao automtica e a classicao
por utilizadores
76
Captulo 6
Concluses e Trabalho Futuro
A motivao principal para o presente estudo prendeu-se essencialmente com o desenvolvimento de
um mtodo de interaco que permitisse o reconhecimento e classicao de expresses faciais com
o objectivo de criar um novo canal de interaco entre o utilizador e o sistema computacional.
Para tal, foi necessrio encontrar uma soluo de reconhecimento e classicao facial que se tradu-
zisse numa taxa de acerto signicativa, penalizando ao mnimo a uidez da interaco entre utilizador e
a mquina. Esta necessidade traduziu-se na procura de algoritmos sucientemente leves, de um ponto
de vista computacional, mas que ainda assim permitissem resultados que no comprometessem o seu
funcionamento.
Neste contexto foi desenvolvida uma biblioteca que permite a incluso de toda a funcionalidade
de reconhecimento de expresses faciais em qualquer aplicao com um mnimo de esforo. Esta
biblioteca responsvel, quer pelo treino do classicador e consequente preenchimento da base de
conhecimento, quer pela classicao de amostras. Permite ainda a consulta da base de conhecimento
e a obteno de informao sobre o funcionamento interno do classicador.
Com o intuito de exemplicar o funcionamento desta biblioteca, bem como no sentido de efectuar
testes com utilizadores, foram desenvolvidos trs demonstradores que fazem uso da mesma. O pri-
meiro, que foi utilizado nos testes, permite a classicao automtica de expresses faciais, bem como
a indicao dos nveis de verosimilhana de cada uma das expresses, e a indicao por parte do
utilizador da correco desta classicao. A segunda aplicao consiste na insero de emoticons,
gerados automaticamente a partir do reconhecimento facial efectuado pela aplicao a correr em se-
gundo plano, na janela activa, como seja, a ttulo de exemplo, uma aplicao de instant messaging. Por
m, o terceiro demonstrador, foi criado no contexto de um projecto para a disciplina de Interface Multi-
modais Inteligentes e consiste num tocador udio que permite a classicao automtica de msicas
atravs da anlise peridica da expresso facial do utilizador.
Posteriormente foram efectuados testes com utilizadores, bem como testes automatizados com re-
curso a bases de dados de imagens, que permitiram a obteno de mtricas referentes ao desempenho
do classicador utilizado.
77
6.1 Concluses nais e discusso
Este estudo explora uma possibilidade de interaco entre a pessoa e o sistema computarizado, base-
ada no reconhecimento de expresses faciais como modalidade no convencional de interaco.
O desenvolvimento de uma biblioteca de fcil utilizao permite a adopo, por qualquer tipo de
aplicaes, das funcionalidades aqui apresentadas.
No caso da distino entre um utilizador feliz e triste conseguiram-se taxas de acerto de mais de
80%. No caso em que se tenta distinguir entre cinco expresses diferentes (irado, feliz, neutro, triste e
surpreendido) esta taxa de sucesso ronda os 55%.
Apesar de o cdigo desenvolvido no se encontrar optimizado e de a prpria biblioteca ter sido
gerada sem qualquer tipo de optimizaes ao nvel do compilador, os algoritmos implementados so
leves e permitem um bom desempenho temporal. Com a actual implementao conseguiram-se clas-
sicaes bem sucedidas em menos de 1 segundo. Com a optimizao do cdigo e do processo de
compilao estes valores caro certamente bastante prximos do tempo-real, se se considerar acei-
tvel um atraso de resposta de poucas dcimas de segundo.
Nos testes efectuados com a classicao de vrias frames foi obtida uma taxa de acerto de 85%
para a classicao entre feliz e triste e de cerca de 60% para a classicao com todas as classes.
Estes testes foram efectuados com 10 frames consecutivas. No entanto, dependendo do desempenho
temporal do classicador optimizado, este processo pode ser demasiado lento. Tendo em conta os
resultados promissores que foram obtidos, ser interessante o aprofundamento futuro deste estudo e a
avaliao do desempenho do classicador com recurso a menos frames, por forma a maximizar o seu
desempenho temporal sem comprometer as taxas de sucesso.
Existem, no entanto, aspectos que carecem de melhorias futuras. Ser desejvel posteriormente
atingir taxas de sucesso para uma distino entre duas expresses faciais que se aproximem mais dos
90%. Para tal ser necessrio colmatar alguns dos aspectos que, durante o desenvolvimento deste
estudo, se revelaram mais frgeis. Dentro do processo de extraco de caractersticas do rosto, as
etapas que apresentam menor abilidade so a deteco dos olhos atravs das cascatas de Haar
implementadas pela biblioteca OpenCV e o processo de deteco dos contornos da boca.
No primeiro caso, a soluo poder passar por um novo treino das cascatas de Haar. Este processo,
sendo de certa forma moroso, encontra-se fora do mbito deste estudo tendo sido utilizada uma base
de treino disponvel livremente na Internet.
Quanto ao segundo caso ser certamente necessrio melhorar o mecanismo utilizado para a detec-
o dos contornos da boca. Com efeito, no presente estudo, esta deteco baseou-se principalmente
nas arestas detectadas atravs de um algoritmo de deteco de arestas. No entanto poder ser interes-
sante abordar a deteco dos contornos da boca com recurso a outro tipo de informao como sejam
variaes de cr ou de luminosidade. Tal aproximao poder tambm permitir uma maior robustez em
relao existncia de plos faciais, factor que pode inuenciar o detector de arestas.
Tambm fora do mbito deste trabalho cou a utilizao dos diferenciais da face associados a uma
captura de vdeo. Com efeito, todo o processo de classicao baseia-se actualmente na informao
presente numa nica imagem ou num conjunto de imagens. A utilizao da informao referente
alterao dos elementos faciais ao longo do vdeo pode permitir, no s diminuir o processamento ne-
cessrio extraco de caractersticas numa determinada imagem, mas tambm fornecer informao
adicional ao classicador e, consequentemente, melhorar o seu desempenho.
78
Uma abordagem interessante que poderia introduzir melhorias na qualidade da classicao e na
sua ecincia temporal, acelerando o processo, passaria pela atribuio de diferentes pesos s carac-
tersticas, dependendo da expresso a ser analisada. Para a atribuio destes pesos, poderia usar-se
uma PCA, que permitiria a obteno das caractersticas com maior contributo para cada classicao
especca, de uma forma automatizada.
Para melhoria de desempenho em termos qualitativos, poderia considerar-se uma aproximao re-
levante ao treino do classicador que passaria por um treino adaptado a cada utilizador especco. Esta
situao faz sentido no principal cenrio de interaco considerado, em que o utilizador interage com
o sistema a partir do seu prprio computador. Com efeito, uma adaptao da base de conhecimento a
cada utilizador pode permitir ganhos de desempenho bastante signicativos.
79
80
Bibliograa
[1] M. Bartlett, G. Littlewort, B. Braathen, T. Sejnowski, and J. Movellan. A prototype for automatic
recognition of spontaneous facial actions. In Advances in Neural Information Processing Systems,
volume 15, pages 12711278. MIT Press, 2003.
[2] J. Bassili. Facial motion in the perception of faces and of emotional expression. In J. Experimental
Psychology, volume 4, pages 373379, 1978.
[3] M. Black and Y. Yacoob. Tracking and recognizing rigid and non-rigid facial motions using local
parametric models of image motions. In Proc. International Conf. Computer Vision, pages 374
381, 1995.
[4] M. Black and Y. Yacoob. Recognizing facial expressions in image sequences using local para-
metrized models of image motion. In International J. Computer Vision, volume 25, pages 2348,
1997.
[5] V. Bruce. Recognizing Faces. Lawrence Erlbaum Associates, London, 1988.
[6] J. Cao and C. Tong. Facial expression recognition based on lbp-ehmm. In Congress on Image and
Signal Processing, 2008. CISP 08, pages 371375. IEEE, 2008.
[7] I. Cohen, N. Sebe, F. Cozman, and T. Huang. Semi-supervised learning for facial expression
recognition. In MIR 03: Proceedings of the 5th ACM SIGMM international workshop on Multimedia
information retrieval, pages 1722, New York, NY, USA, 2003. ACM Press.
[8] J. Cohn, A. Zlochower, J. Lien, and T. Kanade. Feature-point tracking by optical ow discriminates
subtle differences in facial expression. In Proc. International Conf. Automatic Face and Gesture
Recognition, pages 396401, 1998.
[9] G. Donato, M. Bartlett, J. Hager, P. Ekman, and T. Sejnowski. Classifying facial actions. IEEE Trans.
Pattern Anal. Mach. Intell., 21(10):974989, 1999.
[10] G.J. Edwards, T.F. Cootes, and C.J. Taylor. Face recognition using active appearance models. In
Proc. European Conf. Computer Vision, volume 2, pages 581695, 1998.
[11] P. Eisert and B. Girod. Facial expression analysis for model-based coding of video sequences. In
Proc. Picture Coding Symposium, pages 3338, 1997.
[12] P. Ekman. Emotion in the human face. Cambridge University Press, 1982.
[13] P. Ekman. Strong evidence for universals in facial expressions: a reply to russels mistaken critique.
In Psycological Bulletin, volume 115, pages 268287, 1994.
[14] P. Ekman and W. Friesen. Unmasking the Face. Prentice-Hall, 1975.
[15] P. Ekman and W. Friesen. Facial Action Coding System (FACS): Manual. Palo Alto: Consulting
Psychologists Press, 1978.
[16] I. Essa and A. Pentland. Coding, analysis interpretation, recognition of facial expressions. In IEEE
Trans. Pattern Analysis and Machine Intelligence, volume 19, pages 757763, July 1997.
81
[17] R. Feitosa, M. Vellasco, D. Oliveira, D. Andrade, and S. Maffra. Facial expression classication
using rbf and back-propagation neural networks. In Proc. International Conference on ISAS, pages
7377, 2000.
[18] H. Hong, H. Neven, and C. Von der Malsburg. Online facial expression recognition based on
personalized galleries. In Proc. International Conf. Automation Face and Gesture Recognition,
pages 354359, 1998.
[19] C. Huang and Y. Huang. Facial expression recognition using model-based feature extraction and
action parameters classication. In J. Visual Comm. and Image representation, volume 8, pages
278290, 1997.
[20] F. Hlsken, F. Wallhoff, and G. Rigoll. Facial expression recognition with pseudo-3d hidden markov
models. In Proceedings of the 23rd DAGM-Symposium on Pattern Recognition, pages 291297.
Springer-Verlag, 2001.
[21] S. Kaiser, T. Wehrle, and S. Schmidt. Emotional episodes, facial expressions, and reported feelings
in human-computer interactions. In Proceedings of the Xth Conference of the International Society
for Research on Emotions, pages 8286, 1998.
[22] A. Khanam, M. Shaq, and M. Akram. Fuzzy based facial expression recognition. In Proc. Congress
on Image and Signal Processing (CISP), IEEE, pages 598602, 2008.
[23] S. Kimura and M. Yachida. Facial expression recognition and its degree estimation. In Proc. Com-
puter Vision and Pattern Recognition, pages 295300, 1997.
[24] H. Kobayashi and F. Hara. Facial interaction between animated 3d face robot and human beings.
In Proc. International Conf. Systems, Man, Cybernetics, pages 37323737, 1997.
[25] M. Kolsch and M. Turk. Robust hand detection. In Proc. IEEE Intl. Conference on Automatic Face
and Gesture Recognition, 2004.
[26] I. Kotsia, N. Nikolaidis, and I. Pitas. Facial expression recognition in videos using a novel multi-class
support vector machines variant. In IEEE Trans. Image Process, 2007.
[27] K. Lam and H. Yan. An analytic-to-holistic approach for face recognition based on a single frontal
view. In IEEE Trans. Pattern analysis and machine intelligence, volume 20, pages 673686, 1998.
[28] G. Littlewort, M. Bartlett, C. Fasel, T. Kanda, H. Ishiguro, and J. Movellan. Towards social robots:
Automatic evaluation of human-robot interaction by face detection and expression classication. In
Proc. Advances in neural information processing systems, MIT Press., volume 16, 2000.
[29] H. Lu, Y. Huang, Y. Chen, and D. Yang. Real-time facial expression recognition based on pixel-
pattern-based texture feature. In Proc. Electronic Letters, pages 916918, 2007.
[30] M. Lyons, J. Budynek, and S. Akamatsu. Automatic classication of single facial images. In IEEE
Trans. Pattern Analysis and Machine Intelligence, volume 21, pages 13571362, 1999.
[31] M. Malciu and F. Preteux. Tracking facial features in video sequences using a deformable model-
based approach. In Proceedings of the SPIE, volume 4121, pages 5162, 2000.
[32] J. Marques. Reconhecimento de Padres, Mtodos Estatsticos e Neuronais. IST Press, 2005.
[33] M. Minear and D. Park. A lifespan database of adult facial stimuli. In Behavior research methods,
instruments and computers, 2004.
[34] E. Osuna, R. Freud, and F. Girosi. Training support vector machines: an application to face detec-
tion. In Proc. Computer Vision and Pattern Recognition, pages 130136, 1997.
[35] T. Otsuka and J. Ohya. Spotting segments displaying facial expression from image sequences
using hmm. In Proc. International Conf. Automatic Face and Gesture Recognition, pages 442447,
1998.
82
[36] C. Padgett and G.W. Cottrell. Representing face images for emotion classication. In Proc. Conf.
Advances in Neural Information Processing Systems, pages 894900, 1996.
[37] I. Pandzic and R. Forchheimer, editors. MPEG-4 Facial Animation: The Standard, Implementation
and Applications. John Wiley & Sons, Inc., New York, NY, USA, 2003.
[38] M. Pantic and L.J.M. Rothkrantz. Expert system for automatic analysis of facial expression. In
Image and vision computing J., volume 18, pages 881905, 2000.
[39] A. Pentland, B. Moghaddam, and T. Starner. View-based and modular eigenspaces for face recog-
nition. In Proc. Computer Vision and Pattern Recognition, pages 8491, 1994.
[40] L. Personnaz, I. Guyon, and G. Dreyfus. Collective computational properties of neural networks:
New learning mechanisms. Phys. Rev. A, 34(5):42174228, Nov 1986.
[41] T. Pham, M. Worring, and A. Smeulders. Face detection by aggregated Bayesian network classi-
ers. Lecture Notes in Computer Science, 2123:249262, 2001.
[42] I. Rish. An empirical study of the naive bayes classier. In IJCAI 2001 Workshop on Empirical
Methods in Articial Intelligence, 2001.
[43] H. Rowley, S. Baluja, and T. Kanade. Neural network-based face detection. IEEE Transactions on
Pattern Analysis and Machine Intelligence, 20(1):2338, 1998.
[44] M. Rydfalk. Candide, a parameterized face. Technical Report LiTH-ISY-I-0866, Linkoping University,
1987.
[45] E. Saber and A. Tekalp. Frontal-view face detection and facial feature extraction using color, shape
and symmetry based cost functions. In Pattern Recognition Letters, volume 19, pages 669680,
1998.
[46] I. Stathopoulou and G. Tsihrintzis. An improved neural-network-based face detection and facial
expression classication system. In SMC (1), pages 666671, 2004.
[47] K. Sung and T. Poggio. Example-based learning for view-based human face detection. IEEE
Transactions on Pattern Analysis and Machine Intelligence, 20(1):3951, 1998.
[48] H. Tao and T. Huang. Connected vibrations: A modal analysis approach for non-rigid motion trac-
king. In Proc. IEEE Comput. Vision and Pattern Recognition, 1998.
[49] D. Terzopoulos and K. Waters. Analysis and synthesis of facial image sequences using physical
and anatomical models. In IEEE Trans. Pattern Analysis and Machine Intelligence, volume 15,
pages 569579, 1993.
[50] Y. Tian, T. Kanade, and J.F. Cohn. Recognizing action units for facial expression analysis. In IEEE
Transactions on Pattern Analysis and Machine Intelligence, volume 23, pages 97115, 2001.
[51] U. Turhal, A. Duysak, and M. Gulmezoglu. A two stage algorithm for face recognition: 2dpca and
within-class scatter minimization. In Proc. Signal Processing, Pattern Recognition, and Applicati-
ons, 2007.
[52] V. Vezhnevets. Method for localization of human faces in color-based face detectors and trackers.
In Proc. Third International Conference on Digital Information Processing And Control In Extreme
Situations, 2002.
[53] V. Vezhnevets, S. Soldatov, A. Degtiareva, and I. Park. Automatic extraction of frontal facial features.
In Proceedings of the Sixth Asian Conference on Computer Vision, 2004.
[54] P. Viola and M. Jones. Robust real-time object detection. Technical report, University of Cambridge,
2001.
[55] M. Wang, Y. Iwai, and M. Yachida. Expression recognition from time-sequential facial images by use
of expression change model. In Proc. International Conf. Automatic face and gesture recognition,
pages 324329, 1998.
83
[56] J. Yang, D. Zhang, A. Frangi, and J. Yang. Two-dimensional pca: a new approach to appearance-
based face representation and recognition. In Proc. IEEE Trans. Patterns Anal. Machine Intelli-
gence, volume 26, pages 131137, 2004.
[57] M. Yoneyama, Y. Iwano, A. Ohtake, and K. Shirai. Facial expressions recognition using discreet
hopeld neural networks. In Proc. International Conf. Information Processing, volume 3, pages
117120, 1997.
[58] C. Zhan, W. Li, P. Ogunbona, and F. Safaei. Facial expression recognition for multiplayer online
games. In Proc. of the 3rd Australasian Conf. on Interactive Entertainment, volume 207, pages
452458, 2006.
[59] Z. Zhang, M. Lyons, M. Schuster, and S. Akamatsu. Comparrison between geometry-based and
gabor wavelets-based facial expression recognition using multi-layer perceptron. In Proc. Internati-
onal Conf. Automatic face and gesture recognition, pages 454459, 1998.
[60] J. Zhao and G. Kearney. Classifying facial emotions by backpropagation neural networks with fuzzy
inputs. In Proc. Conf. Neural information processing, volume 1, pages 454457, 1996.
84