Sei sulla pagina 1di 100

Facial Emoticons

Reproduo de Informao Associada a Expresses Faciais por Via do


seu Reconhecimento
Sandra Vanessa Pereira Gama do Rosrio
Dissertao para obteno do Grau de Mestre em
Engenharia Informtica e de Computadores
Jri
Presidente: Prof. Joaquim Armando Pires Jorge
Orientador: Prof. Daniel Jorge Viegas Gonalves
Vogal: Prof. Maria Teresa Caeiro Chambel
Setembro de 2008
Agradecimentos
Ao Professor Daniel Gonalves, que me indicou sempre o caminho certo a seguir, e cuja motivao me
levou a percorr-lo at ao m.
Ao Professor Joaquim Jorge pelas sugestes e crticas. Pelo esprito aberto e vasto conhecimento
que serviram de constante inspirao.
Ao Eng. Filipe Dias pelo interesse e apoio com que incansavelmente acompanhou este trabalho.
Aos meus pais, pelo modelo de competncia e equilbrio. Pelo to largo espectro de emoes que
percorreram comigo, invariavelmente, a cada etapa. Pela delegao de uma insacivel procura por um
horizonte mais amplo.
Ao Carlos, pelo porto de abrigo e constante disponibilidade. Pela motivao inerente procura de
um novo motivo de orgulho. Por tudo, tambm.
Aos meus amigos, em especial Estela Kakoo, pelo entusiasmo e motivao constantes. Pela
presena nos momentos em que necessria uma pausa para, logo a seguir, se ir em frente com
coragem redobrada.
A todos os membros do VIMMI pelo debate de ideias e partilha de conhecimento. Pela forma como
acolheram este projecto.
A todas as pessoas que participaram nas sesses de recolha de amostras. Ao "darem a cara",
forneceram um precioso contributo para este trabalho.
i
ii
Resumo e palavras-chave
Resumo A expresso facial uma forma de comunicao no verbal muito eciente para partilha de
emoes entre seres humanos. Efectivamente, muitas destas expresses so universalmente
compreensveis.
Actualmente, no panorama ciberntico, tenta colmatar-se a escassez de formas no verbais de
comunicao atravs dos denominados emoticons.
A deteco facial e reconhecimento automtico de expresses baseia-se no processamento de
imagem e reconhecimento de padres. O desenvolvimento nestas reas potencialmente resultar
em avanos multidisciplinares, desde a interaco pessoa-mquina medicina.
O objectivo deste estudo a gerao de emoticons atravs do reconhecimento de expresses
faciais e reproduo desta informao numa interface utilizador.
Para tal, necessrio fazer a localizao facial, que recorre biblioteca Open Computer Vision
(OpenCV), atravs do uso de um classicador de Haar em cascata, obtendo-se uma imagem
facial. Esta imagem processada para deteco de caractersticas, igualmente com recurso
biblioteca supracitada, passando tambm pelo desenvolvimento de uma metodologia de deteco
de arestas adaptada imagem facial. Finalmente, a partir das caractersticas do rosto, feita a
classicao, baseada em classicadores Bayesianos.
Em funo dos resultados obtidos considera-se que, apesar de haver uma grande margem para
evoluo, uma interface que utilize o reconhecimento automatizado de padres para efectuar a
ponte entre a expresso facial e a representao da mesma em forma de emoticons extrema-
mente vivel e que uma metodologia baseada em algoritmos com baixo custo computacional,
como deteco de arestas e classicadores Bayesianos, permite obter resultados bastante satis-
fatrios, com latncias reduzidas.
Palavras-chave: reconhecimento facial, emoticons, expresses faciais, reconhecimento de padres,
interfaces utilizador
iii
iv
Abstract and keywords
Abstract Facial expressions are highly efcient non-verbal means to share emotions among human
beings. Many of those expressions are universally understandable. Nowadays, people use emoti-
cons as surrogate facial expressions to compensate for the lack of non-verbal forms of expression
in electronic-mediated communication.
Facial detection and automatic expression recognition systems are based on image processing
and pattern recognition. Developments in these elds will potentially result in multidisciplinary
advances, ranging from human-machine interaction to medicine. The main objective of our study
is to generate emoticons through facial recognition, as a way to more easily and naturally interact
with computers.
To do so, face tracking is done through the use of the OpenCV library, which relies on a Haar
cascade classier. The result is a facial image that is further processed for feature detection.
Bayesian classiers are used on a nal stage to infer the expression on the users face. While our
methodology requires relatively low computational power, such as edge detection and Bayesian
classiers, it yields good results with low-latency rates.
Our results show that, despite of some room for improvement, facial-expression-based interaction
is viable. While the recognition rate is not perfect, it is comparable to that of humans. This was
good enough to allow us to create interfaces that generate emoticons from facial expressions and
use these as a means of communication.
Keywords: facial recognition, emoticons, facial expressions, pattern recognition, user interfaces
v
vi
ndice
Agradecimentos i
ndice vi
Lista de guras ix
Lista de tabelas xii
Lista de siglas e abreviaturas xv
1 Introduo 1
1.1 Objectivos e Contribuies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Organizao do Documento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 Trabalho Relacionado 5
2.1 Deteco Facial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2 Extraco de Caractersticas Faciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3 Classicao de Expresses Faciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3.1 Imagens Estticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.2 Sequncias de Imagens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3.3 Anlise Global . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3 Trabalho Desenvolvido 25
3.1 Deteco Facial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2 Normalizao da Imagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.3 Extraco de Caractersticas Faciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3.1 Caractersticas Consideradas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3.2 Modelo de Caractersticas Faciais . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.3 Deteco das Caractersticas Faciais . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4 Transformao de Caractersticas para Classicao . . . . . . . . . . . . . . . . . . . . . 41
3.4.1 Distncia entre os olhos e as sobrancelhas . . . . . . . . . . . . . . . . . . . . . . 42
3.4.2 Abertura dos olhos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.4.3 Abertura da boca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.4.4 Largura da boca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.4.5 Distncia mdia entre os cantos da boca e os olhos . . . . . . . . . . . . . . . . . 45
3.4.6 Distncia mdia entre a altura dos cantos da boca e o centro da boca . . . . . . . 46
3.5 Classicao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.5.1 Classicadores Bayesianos com Intervalos de Deciso Discretos . . . . . . . . . . 48
3.5.2 Classicadores Bayesianos Gaussianos . . . . . . . . . . . . . . . . . . . . . . . . 50
vii
4 Demonstradores 53
4.1 Classicao de Expresses Faciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2 Insero de Emoticons na Janela Activa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3 E-motional Jukebox . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5 Avaliao e Resultados Experimentais 59
5.1 Avaliao com testsets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.1.1 Resultados obtidos com testsets . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.2 Avaliao com utilizadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.2.1 Protocolo de recolha de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.2.2 Resultados da Avaliao com Utilizadores . . . . . . . . . . . . . . . . . . . . . . . 64
5.2.3 Anlise de Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.3 Testes de Referncia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
6 Concluses e Trabalho Futuro 77
6.1 Concluses nais e discusso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
Bibliograa 79
viii
Lista de Figuras
2.1 Metodologia bsica para o reconhecimento de expresses faciais . . . . . . . . . . . . . 6
2.2 Expressoes Bsicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3 AAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4 Exemplos tpicos de faces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.5 Filtros de Gabor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.6 GFK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.7 Parmetros de aco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.8 pca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.9 Grelha - Imagem Facial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.10 Support Vector Machine (SVM) - Margem mxima entre os vectores de dados . . . . . . 14
2.11 Rede Neuronal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.12 Rede de Hopeld . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.13 Funo Sigmide . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.14 Ajustamento ao olho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.15 Amplitude de expresso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.16 Expresses em sequncias de imagens . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.17 Otsuka - motion deformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.18 Piecewise Bzier Volume Deformation (PBVD) . . . . . . . . . . . . . . . . . . . . . . . . 20
2.19 Modelo Candide . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.1 Estrutura de Mdulos da Biblioteca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2 OpenCV para deteco de rostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.3 Haar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.4 Aces unitrias que recorrem a outras caractersticas faciais . . . . . . . . . . . . . . . . 31
3.5 Rostos mdios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.6 Rosto hbrido mdio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.7 Modelo de pontos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.8 Parmetros do rosto para animao (Moving Picture Experts Group Layer-4 Video (MPEG-
4)) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.9 Comparao entre o rosto mdio e os parmetros do (MPEG-4) . . . . . . . . . . . . . . 35
3.10 Metodologia genrica para a deteco de caractersticas faciais . . . . . . . . . . . . . . 35
3.11 Aplicao de Gaussian Blur a uma imagem . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.12 Aplicao de Gaussian Blur a uma imagem facial . . . . . . . . . . . . . . . . . . . . . . . 38
3.13 Aplicao do operador Canny a uma imagem . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.14 Aplicao de um operador Canny a uma imagem facial . . . . . . . . . . . . . . . . . . . 39
3.15 Processamento da imagem durante o processo de deteco de caractersticas . . . . . . 40
3.16 Deteco de caractersticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.17 Utilizao do modelo para estimao do posicionamento da boca . . . . . . . . . . . . . 41
ix
3.18 Distncia entre os olhos e as sobrancelhas . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.19 Variao da distncia entre os olhos e as sobrancelhas . . . . . . . . . . . . . . . . . . . 42
3.20 Abertura dos olhos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.21 Variao da abertura dos olhos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.22 Abertura da boca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.23 Variao da abertura da boca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.24 Largura da boca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.25 Variao da largura da boca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.26 Distncia mdia entre os cantos da boca e os olhos . . . . . . . . . . . . . . . . . . . . . 45
3.27 Variao da distncia entre os cantos da boca e os olhos . . . . . . . . . . . . . . . . . . 46
3.28 Distncia mdia entre a altura dos cantos e o centro da boca . . . . . . . . . . . . . . . . 46
3.29 Variao da distncia entre a altura dos cantos e o centro da boca . . . . . . . . . . . . . 47
3.30 Estruturas de dados, preenchidas na fase de treino do classicador de Bayes com Inter-
valos de Deciso Discretos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.31 Estruturas de dados preenchidas na fase de treino do classicador Bayesiano Gaussiano 51
4.1 Demonstrador do classicador de expresses faciais . . . . . . . . . . . . . . . . . . . . . 54
4.2 Insero de emoticons na janela activa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.3 Insero de emoticons na janela activa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.4 E-motional Jukebox . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.1 Resultados percentuais para classes feliz e triste com testsets . . . . . . . . . . . . . . . 61
5.2 Causas de classicaes incorrectas para classes feliz e triste com testsets . . . . . . . . 61
5.3 Resultados percentuais para todas as classes de expresses com testsets . . . . . . . . 62
5.4 Causas de classicaes incorrectas para todas as classes de expresses com testsets 62
5.5 Resultados percentuais para as classes feliz e triste em testes com utilizadores, usando
30 amostras de treino . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.6 Resultados percentuais para todas as expresses faciais em testes com utilizadores,
usando 30 amostras de treino . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.7 Resultados percentuais para as expresses alegre e triste em testes com utilizadores,
usando 10 amostras de treino . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.8 Resultados percentuais para todas as expresses faciais em testes com utilizadores,
usando 10 amostras de treino . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.9 Resultados percentuais para as expresses alegre e triste em testes com utilizadores,
usando 10 amostras de treino da base de dados dos testsets . . . . . . . . . . . . . . . . 69
5.10 Causas de classicaes incorrectas para classes feliz e triste em testes com utilizadores 69
5.11 Resultados percentuais para todas as expresses faciais em testes com utilizadores,
usando 10 amostras de treino da base de dados dos testsets . . . . . . . . . . . . . . . . 70
5.12 Causas de classicaes incorrectas para todas as classes de expresses em testes
com utilizadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.13 Resultados percentuais para as expresses alegre e triste em testes com utilizadores,
usando 10 frames por expresso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.14 Resultados percentuais para todas as expresses faciais em testes com utilizadores,
usando 10 frames por expresso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.15 Factores de inuncia na classicao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.16 Resultados percentuais para as expresses alegre e triste em testes com utilizadores,
usando 10 frames por expresso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
x
5.17 Resultados percentuais para todas as expresses faciais em testes com utilizadores,
usando 10 frames por expresso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.18 Resultados comparativos entre a classicao automtica e a classicao por utilizadores 76
xi
xii
Lista de Tabelas
2.1 Anlise comparativa de mtodos de classicao de expresses faciais. . . . . . . . . . . 23
3.1 Action Unit s (AUs) do sistema Facial Action Coding System (FACS) . . . . . . . . . . . . 30
5.1 Taxas de acerto para as expresses triste e feliz no contexto dos testsets . . . . . . . . . 60
5.2 Taxas de acerto para todas as classes de expresses no contexto dos testsets . . . . . . 62
5.3 Taxas de acerto para as expresses feliz e triste em testes com utilizadores usando 30
amostras de treino . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.4 Taxas de acerto para todas as expresses faciais em testes com utilizadores, usando 30
amostras de treino . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.5 Taxas de acerto para as expresses feliz e triste em testes com utilizadores, usando 10
amostras de treino . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.6 Taxas de acerto para todas as expresses faciais em testes com utilizadores, usando 10
amostras de treino . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.7 Taxas de acerto para as expresses feliz e triste em testes com utilizadores, usando 10
amostras de treino da base de dados dos testsets . . . . . . . . . . . . . . . . . . . . . . 68
5.8 Taxas de acerto para todas as expresses faciais em testes com utilizadores, usando 10
amostras de treino da base de dados dos testsets . . . . . . . . . . . . . . . . . . . . . . 69
5.9 Taxas de acerto para as expresses feliz e triste em testes com utilizadores, usando 10
frames por expresso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.10 Taxas de acerto para todas as expresses faciais em testes com utilizadores, usando 10
frames por expresso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.11 Taxas de acerto para as expresses feliz e triste em testes com utilizadores, usando 10
frames por expresso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.12 Taxas de acerto para todas as expresses faciais em testes com utilizadores, usando 10
frames por expresso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
xiii
xiv
Lista de siglas e abreviaturas
2DPCA Two-Dimensional PCA
AU Action Unit
AAM Active Appearance Model
AP Action Parameters
CDSSS Classication Driven Stochastic Structure Search
DLL Dynamic-link Library
EHMM Embedded Hidden Markov Model
EM Expectation Maximization
FACS Facial Action Coding System
f.d.a. Funo Distribuio Acumulada
FDP Facial Denition Parameters
FSLP Feature Selection via Linear Programming
GFK General Face Knowledge
HMM Hidden Markov Model
HSV Hue, Saturation, Value
LBP Local Binary Pattern
LDA Linear Discriminant Analysis
MPEG-4 Moving Picture Experts Group Layer-4 Video
MU Motion Unit
NB Naive Bayes
OpenCV Open Computer Vision
PBVD Piecewise Bzier Volume Deformation
PDM Point Distibution Model
PCA Principal Components Analysis
PPBTF Pixel-Pattern-Based Texture Feature
RBF Radial Basis Functions
SDAM Simple Direct Appearance Models
SVM Support Vector Machine
TAN Tree-Augmented Naive Bayes
xv
Captulo 1
Introduo
O ser humano tem uma grande facilidade em reconhecer e distinguir expresses faciais. Muitas des-
tas expresses tm caractersticas que as tornam universalmente compreensveis entre pessoas de
diferentes provenincias e culturas. A expresso facial , assim, um dos mtodos mais poderosos e
ecientes para partilha de emoes e intenes entre as pessoas.
Actualmente, no universo da comunicao escrita pela internet, a ausncia de linguagem corporal,
mais especicamente de expresses faciais que enfatizem a mensagem a transmitir, deu origem aos
denominados emoticons.
Estas expresses no verbais de comunicao tm-se tornado, ao longo dos anos, amplamente
utilizadas para reforar o signicado de mensagens textuais. Com efeito, ocorrem maioritariamente
em situaes em que emissor e destinatrio comunicam remotamente atravs de mensagens escritas.
Hoje em dia, com a globalizao e massicao da internet, torna-se bastante comum este tipo de
comunicao, apelando-se cada vez mais a uma representao grca, sendo atravs de cone ou
texto, de uma dada expresso facial. Para tal, necessrio:
Procurar umemoticon numa lista - neste caso, a aplicao onde pretende utilizar-se este elemento
tem de dispor de um conjunto de imagens pr-denidas que possam corresponder expresso
desejada; ou
Utilizar a combinao de vrios elementos iconogrcos do teclado de modo a simular a expres-
so.
Numa situao ideal, este tipo de comunicao seria o mais aproximada possvel de uma interaco
pessoa-pessoa. Como tal, o computador deveria ser dotado de mecanismos automticos que permitis-
sem a reproduo do emoticon correspondente expresso facial do utilizador sem a necessidade de
uma indicao explcita.
Desde os primrdios da computao, dotar a mquina de um comportamento inteligente tem vindo
a ser um objectivo pluridisciplinar estimulante entre as diversas reas de conhecimento a nvel das
tecnologias de informao. Conferir aos sistemas computacionais um comportamento humano , alm
de uma meta nal extraordinariamente fascinante, um percurso que tem passado pelo desenvolvimento
de inmeros estudos para obteno de avanos que, embora graduais, so bastante motivantes.
A deteco facial e reconhecimento automtico de expresses surge como um desao interessante
na sequncia de estudos realizados no mbito da anlise de imagem e reconhecimento de padres.
1
O desenvolvimento destes estudos pode trazer melhorias signicativas na rea da interaco pessoa-
mquina, tornando-se ao mesmo tempo um precioso contributo para a cincia comportamental, psico-
logia e medicina.
Na rea das interfaces utilizador, dada a natureza da sua aplicabilidade, necessrio implementar
uma soluo que tenha um desempenho perto da resposta a tempo real. Torna-se ento essencial
encontrar um compromisso entre o sucesso na classicao de expresses e uma boa rapidez de
resposta por parte do sistema.
1.1 Objectivos e Contribuies
O principal objectivo deste trabalho encontrar uma forma de permitir o reconhecimento de expresses
faciais e reproduo desta informao numa interface utilizador.
O processamento da imagem, que consiste na deteco do rosto, extraco de caractersticas de
interesse e classicao da expresso, tem em conta diversos estudos relevantes na rea. Com efeito,
tenta adaptar os aspectos de interesse de vrios trabalhos de investigao ao problema em estudo,
atravs de uma combinao de metodologias que visa atingir bons resultados atravs da utilizao de
algoritmos potencialmente leves.
Opresente estudo prope uma nova modalidade de interaco para insero de emoticons na janela
activa. Esta modalidade baseia-se na recolha de imagem e consequente processamento da mesma por
forma a avaliar a expresso do utilizador, sendo reproduzida a informao resultante sob a forma de
emoticon.
Neste contexto foi necessrio desenvolver um conjunto de prottipos que permitissem aplicar os
algoritmos desenvolvidos a situaes reais, com o objectivo de avaliar a sua ecincia. Como tal, foram
criados trs demonstradores cujas funcionalidades se encontram descritas em detalhe no captulo 4.
Estes prottipos permitem, respectivamente:
A captura e classicao detalhada de expresses faciais, com informao adicional relativa
classicao;
A insero de emoticons em qualquer janela activa;
A classicao de msicas, no contexto de um tocador udio, de acordo com as expresses do
utilizador.
Foi tambm desenvolvido um conjunto de testes automatizados com o intuito de aferir, de uma forma
mais objectiva, o desempenho do classicador.
Consideram-se os resultados como sendo satisfatrios caso estes demonstrem uma clara distin-
o entre a expresso correspondente emoo exprimida pelo utilizador e as restantes classes de
expresses.
1.2 Organizao do Documento
Este documento organizado da seguinte forma:
2
No captulo 2 analisado o trabalho que tem vindo a ser desenvolvido nos ltimos anos na rea
em estudo. So tidos em conta os vrios passos na deteco de expresses faciais, desde
a deteco do rosto numa imagem arbitrria at extraco de elementos faciais relevantes e
subsequente classicao da expresso correspondente. So explorados trabalhos que utilizam
imagem esttica e dinmica (vdeo) e estudadas as diversas abordagens classicao. feito
um estudo comparativo do trabalho que tem vindo a ser desenvolvido nesta rea de modo a
procurar uma direco a tomar de acordo com os requisitos para o trabalho a implementar.
O captulo 3 apresenta o trabalho realizado e as decises de implementao que foram tomadas
na sua concretizao, discutindo as diversas alternativas existentes. descrito em detalhe o
processo de deteco e normalizao facial, bem como a forma como efectuada a extraco
das caractersticas necessrias classicao da expresso. , tambm, devidamente exposto
o processo de classicao, sendo feita uma comparao entre os dois mtodos de classicao
adoptados.
No captulo 4 so descritos os prottipos que foram desenvolvidos com o intuito de demonstrar
algumas aplicaes prticas dos algoritmos propostos no contexto deste trabalho.
O captulo 5 apresenta os resultados obtidos no contexto do presente estudo. So expostas
as mtricas adoptadas para medir o desempenho do classicador, bem como os resultados dos
vrios testes efectuados. tambm feita uma anlise dos resultados destes testes.
No captulo 6 so enunciadas as concluses do presente trabalho, tal como os seus pontos fortes
e fracos, sendo apontada uma direco para futuro trabalho de investigao que poder advir
deste.
3
4
Captulo 2
Trabalho Relacionado
Desde o incio da histria da computao, tem vindo a tentar adaptar-se um determinado conjunto
de respostas e capacidades humanas aos sistemas computacionais. No entanto, no contexto do
boom tecnolgico recente que tm surgido inmeros estudos que procuram imbuir a mquina de um
comportamento inteligente. Para tal, tm vindo a ser exploradas vrias reas de conhecimento com o
objectivo de dotar os sistemas computacionais de um comportamento aproximadamente humano.
O reconhecimento de expresses faciais uma modalidade que visa aumentar a familiaridade da
comunicao com os utilizadores, em que idealmente estes interagem com um sistema computacional
como se de uma interaco pessoa-pessoa se tratasse.
Dado o potencial expressivo de um rosto humano, esta rea tem vindo, principalmente ao longo da
ltima dcada, a ser amplamente explorada.
Para o ser humano, reconhecer expresses um processo simples, rpido e pouco propcio a
erros. Com efeito, logo nos primeiros anos de vida aprendemos a avaliar a emoo que se traduz nos
elementos do rosto.
No caso de um sistema computacional, este processo envolve uma srie de restries e, conse-
quentemente, implica a adopo de um conjunto de tcnicas e algoritmos relativamente complexos.
O reconhecimento automtico de expresses faciais deve ter em conta factores como a luminosi-
dade do meio ambiente, a posio do utilizador em relao cmara e as caractersticas do prprio
utilizador como a presena de plos faciais e culos. Os objectivos da sua aplicabilidade determinam
outros requisitos, nomeadamente requisitos de desempenho a nvel temporal e quantizao da imagem,
que determina se os dados de input consistem em vdeo ou quadros individuais.
Para que uma expresso facial seja reconhecida, necessrio seguir uma metodologia coerente.
Os trabalhos desenvolvidos na rea sub-dividemo reconhecimento facial emtrs fases genricas, como
ilustrado na gura 2.1:
Deteco do rosto numa imagem arbitrria O utilizador encontra-se normalmente perante
uma cmara num ambiente relativamente controlado. No entanto, plausvel que estejam pre-
sentes diversos artefactos exteriores ao rosto. Para que o processamento seja ecaz e eciente,
necessrio eliminar informao desnecessria. Esta fase identica uma zona como sendo a
regio da face do utilizador, aps o que apenas esta rea ser processada nas fases seguintes;
Deteco das caractersticas faciais Este passo consiste em, dada uma imagem facial, extrair
5
as caractersticas que so relevantes classicao da expresso. Normalmente, dada mais
nfase s sobrancelhas, olhos, nariz e boca.
Classicao da expresso Tendo disponvel a informao correspondente localizao das
caractersticas faciais do rosto na imagem, possvel proceder classicao da expresso. Esta
fase, que pode basear-se em diversos mtodos de classicao, desde os mais simples aos mais
complexos, abordada em detalhe na seco 2.3 deste captulo.
"#$%&' $(
)(*(+,-' ./+0/&
"#$%&' $(
12*3/+,-' $(
4/3/+*(3567+/6
"#$%&' $(
4&/6608+/,-'
1293(66-' ./+0/&
:;/<(; ./+0/&
4/3/+*(3567+/6
9/3/ 4&/6608+/,-'
:;/<(; =3>0*3?30/
Figura 2.1: Metodologia bsica para o reconhecimento de expresses faciais
Uma vez que este estudo se centra maioritariamente na classicao de expresses faciais, os
outros pontos, j amplamente estudados e analisados, so aqui referidos a ttulo contextual. Assim,
numa base introdutria, so apresentadas algumas das principais abordagens aos problemas.
2.1 Deteco Facial
O ser humano tem facilidade em reconhecer uma face mesmo nos casos em que a iluminao des-
favorvel ou a pessoa a reconhecer se encontra a uma grande distncia. A maior parte dos estudos
realizados neste campo feita em ambientes controlados, com luminosidade constante e em que a
face apresentada frontalmente e a uma distncia constante da cmara. Na presente abordagem,
considera-se que a face poder ter sido sujeita a alguma rotao, uma vez que se pretende a simula-
o de condies o mais realistas possvel. Os sistemas de deteco facial existentes seguem diversas
abordagens. No caso do ser humano, segundo Bruce [5], a presena de caractersticas e a relao
destas entre si muitas vezes mais importante do que as caractersticas individuais. O modelo mental
6
humano segue uma abordagem holstica, na medida em que a face vista como um todo e no como
um conjunto de caractersticas individuais, como acontece no caso da aproximao analtica.
Existem numerosos estudos que exploram este problema. No que diz respeito deteco de um rosto
em imagens faciais, Huang e Huang [19], bem como Pantic e Rothkrantz [38], seguem abordagens
holsticas. O primeiro estudo obtm a estimativa da localizao da face atravs de um detector de con-
tornos e opta pela adopo de um modelo representativo da face, enquanto que o segundo utiliza duas
vistas do utilizador (de frente e de perl), detectando o contorno facial atravs da deteco de perl e da
utilizao de modelos de cor. Uma abordagem analtica, proposta por Kimura e Yachida [23], consiste
em localizar o centro dos olhos e da boca, utilizando estes pontos-ncora para normalizar a imagem e
modelar a face.
Em termos da deteco facial em sequncias de imagens, podemos sub-dividir os estudos realizados
em dois grandes grupos: baseada em caractersticas e baseada em aparncia. No primeiro caso,
utiliza-se essencialmente a cor do rosto como caracterstica de interesse. De facto, mesmo entre dife-
rentes grupos tnicos, a tonalidade da tez acaba por localizar-se num intervalo relativamente apertado
de valores. O estudo de Saber e Tekalp [45] dene regies de pele atravs de um classicador que
assinala os pixis candidatos a pertencerem a uma regio do rosto, adaptando posteriormente um
modelo elptico a cada regio disjunta. Vezhnevets [52] prope a aglomerao de pixis segundo a
probabilidade de pertencerem a um rosto, agrupando-os numa regio aproximadamente elptica, a que
posteriormente aplica um modelo deformvel ou adaptativo at obter a imagem facial. No caso da
deteco baseada em aparncia, o rosto encarado como um padro em termos de intensidades de
pixis, como referem Sung e Poggio [47]. Neste tipo de abordagem, os padres faciais so distinguidos
de padres no faciais atravs da sub-diviso de uma imagem em janelas de menor dimenso. Os
estudos de Rowley et al. [43] e Pham et al. [41] realizam deteco facial atravs de redes neuronais em
imagens em escala de cinzentos. Viola e Jones [54] propem a utilizao do algoritmo AdaBoost, que
selecciona as caractersticas mais representativas num grande espao de amostragem e sub-divide a
imagem em janelas, sendo estas sujeitas a testes em cascata em que so rejeitadas caso no corres-
pondam a imagens faciais. Neste mtodo baseiam-se os estudos de Bartlett et al. [28] e Zhan et al.
[58], que tm desempenho em tempo real, sendo que o primeiro utiliza funes de Haar, computacio-
nalmente leves, e o segundo serve-se de uma combinao eciente de classicadores extremamente
simples (mtodo de amplicao ou boosting). Mais recentemente, tambm o estudo de Cao e Tong
[6] e de Lu et al. [29] adoptam, para a deteco do rosto, o mtodo proposto por Viola e Jones [54]. A
biblioteca Open Source Open Computer Vision (OpenCV), da Intel, centra-se essencialmente na viso
computacional em tempo-real. Permite a identicao de objectos, bem como o rastreamento de mo-
vimentos e o reconhecimento facial, entre outros. Esta implementao baseia-se tambm no mtodo
proposto por Viola e Jones [54]. Existem aproximaes deteco facial em sequncias de imagens
que no se incluem nos grupos anteriores. O mtodo proposto por Pentland et al. [39] baseia-se na
obteno de blobs de movimento, em que cada blob passvel de representar uma cabea humana
avaliado como uma imagem nica. Ainda, Hong et al. [18] exploram um sistema PersonSpotter para fa-
zer o rastreamento da cabea de um indivduo, baseando-se em ltros preditivos para estimar a cabea
e respectiva velocidade num dado instante.
7
2.2 Extraco de Caractersticas Faciais
Existem trs aproximaes principais a este problema: holstica, analtica e uma combinao de ambas,
que resulta numa aproximao hbrida. Os mtodos baseados em modelos adequam-se s abordagens
holsticas, enquanto que os mtodos baseados em caractersticas so maioritariamente usados con-
juntamente com abordagens analticas. Terzopoulos e Waters [49], bem como Black e Yacoob [4],
representam a face como uma estrutura com uma dada textura ou um modelo espacio-temporal de
movimento. Mtodos baseados em modelos esto intimamente relacionados com este tipo de aproxi-
mao.
Em termos de imagens estticas, o estudo de Hong et al. [18], baseado em modelos, utiliza a
framework PersonSpotter, que se baseia em dois grafos distintos, um mais esparso e outro mais denso,
para localizar a face e suas caractersticas, respectivamente. Vezhnevets et al. [53] propem um
mtodo tambm baseado em modelos, em que se obtm as posies dos olhos atravs da anlise de
variaes dos canais de vermelho da imagem e dos lbios atravs de modelos iterativos de cor e de
pele.
Os estudos realizados por Bassili [2] e Bruce [5], baseados em caractersticas, sugerem que a
descrio dos movimentos de pontos relacionados com os principais elementos faciais e anlise das
relaes entre estes podem claricar as propriedades principais de uma dada face. Estes resulta-
dos incentivaram uma srie de trabalhos de investigao que seguiram uma aproximao analtica do
problema, dos quais o estudo de Padgett e Cottrell [36] um dos percursores. Kobayashi e Hara [24]
estudam a distribuio de brilho na face, cruzando linhas verticais entre os principais pontos da mesma.
Saber e Tekalp [45] localizam os olhos atravs de algoritmos de cor, utilizando estes dados para apro-
ximar, atravs de funes de custo, a posio dos outros elementos do rosto. Pantic e Rothkrantz [38]
utilizam uma aproximao bi-dimensional da face, atravs do uso das vistas frontal e de perl, sendo
usados mltiplos detectores para cada caracterstica facial e decidido o melhor destes. Yang et al. [56]
exploram uma implementao bi-dimensional do algoritmo Principal Components Analysis (PCA) para
representar imagens faciais, o que implica a criao de uma matriz de covarincias a partir das matri-
zes originais da imagem, cujos vectores prprios so usados na extraco de caractersticas. Turhal et
al. [51] propem um algoritmo em duas etapas que consiste numa evoluo do anterior, baseando-se
numa decomposio da matriz de covarincias, em que se obtm os vectores e valores prprios, sendo
que a extraco de caractersticas faciais feita atravs do uso de N vectores prprios correspondentes
aos N maiores valores prprios.
Existem ainda solues hbridas, em que um conjunto de pontos faciais determina a posio inicial
para uma template que modela a face, como refere o estudo de Lam e Yan [27]. Yoneyama et al.
[57] calculam o uxo ptico entre imagens atravs da aplicao de uma grelha rectangular sobre a
imagem normalizada de uma dada face, determinando o uxo para cada uma das regies da grelha e
comparando as imagens sucessivas, localizando assim as caractersticas faciais.
No que diz respeito a sequncias de imagens, o estudo de Black e Yacoob [4] baseia-se em diversos
modelos parametrizados de uxo para estimar movimento, sendo que os parmetros resultantes so
tratados recorrendo a um esquema de regresso baseado no brilho da imagem. Malciu e Preteux [31]
seguem uma aproximao baseada em modelos deformveis para fazer o rastreamento da boca e dos
olhos em sequncias arbitrrias de vdeo, consistindo a deformao dos modelos em mapeamentos
geomtricos bi-dimensionais. Mais recentemente, Cao e Tong [6] apostam na utilizao de um operador
Local Binary Pattern (LBP) para a deteco de caractersticas faciais. Este operador, denido como a
8
medida de textura invariante em escala de cinzentos, obtido atravs da textura numa dada regio
e sua vizinhana. Alm de apresentar invarincia a alteraes monotnicas de nveis de cinzento,
computacionalmente simples, permitindo bons desempenhos temporais.
Alguns dos mtodos baseados em caractersticas so o estudo de Cohn et al. [8] e de Zhan et
al. [58]. O primeiro dene pontos volta das principais caractersticas faciais que possibilitam o cl-
culo, atravs das alteraes entre as vrias imagens, de vectores de uxo que permitem localizar as
caractersticas-chave. O segundo serve-se da aplicao de ltros de Gabor, que consistem em sinu-
soidais complexas modeladas por funes Gaussianas bidimensionais, a um conjunto de pontos de
referncia (normalizados a partir de testes efectuados sobre um conjunto de imagens faciais), para ex-
trair os elementos-chave do rosto. Mais recentemente, o estudo de Lu et al. [29] assenta numa nova
representao de caractersticas, Pixel-Pattern-Based Texture Feature (PPBTF). Este mtodo discri-
minativo baseado em aparncia para extraco de elementos faciais tem por base a utilizao de um
mapa de padres. Este mesmo mapa gerado a partir de uma dada imagem, sendo que cada pixel das
arestas e do fundo associado a uma dada classe de padres-modelo, o que permite encarar imagens
faciais como uma composio de micro-padres. Este mtodo, alm de rpido, robusto a condies
de iluminao variveis.
Emtermos de abordagens hbridas, o estudo proposto por Essa e Pentland [16] combina a extraco
de caractersticas prprias atravs do algoritmo PCA aplicao de modelos de uxo para estimar o
movimento facial. Kimura e Yachida [23] obtm um campo de potencial correspondente a uma dada
imagem, ao qual aplicam um modelo cuja deformao permite localizar os principais elementos faciais.
2.3 Classicao de Expresses Faciais
Em relao classicao de expresses, estudamos nesta seco o desempenho de sistemas que
consideram imagens e o de sistemas que exploram sequncias de imagens.
O problema da classicao da expresso facial encarado fazendo a distino entre imagens ou
sequncias de imagens. No primeiro caso, encontram-se abordagens baseadas em modelos, redes
neuronais ou regras. No ltimo, existem mtodos baseados em modelos, em regras ou hbridos. So
ainda apresentadas algumas consideraes a ter em conta neste contexto.
Na seco 2.3.3 apresentado um comparativo entre as caractersticas de cada uma das apro-
ximaes, tentando tornar claros os elementos que possam ser relevantes no presente estudo. So,
ainda, resumidas as caractersticas desejveis de um sistema a implementar no que diz respeito a uma
soluo na rea das interfaces utilizador.
Ekman e Friesen, nos estudos [14] e [15], dividiram as expresses faciais em seis grandes classes
de emoes bsicas: alegria, tristeza, surpresa, repugnncia, clera e medo, ilustradas na gura 2.2.
Alguns autores consideram o estado neutro como uma stima classe de emoes. Cada emoo
bsica denida tendo em conta a expresso facial que caracteriza essa emoo univocamente. No
entanto, esta representao tornou-se bastante limitativa. Efectivamente comum, para o ser humano,
a manifestao de vrias emoes em simultneo o que, consequentemente, resulta numa mistura
entre vrias destas expresses bsicas.
De modo a tentar vencer este problema, Ekman e Friesen desenvolveram um sistema, o Facial
Action Coding System (FACS) [15], que permite a especicao precisa da morfologia e dinmica de
9
(a) Alegria (b) Tristeza (c) Surpresa (d) Repugnncia (e) Clera (f) Medo
Figura 2.2: As seis expresses faciais bsicas. Fonte: Ekman e Friesen [15]
movimentos faciais. Baseado em conhecimentos de anatomia, vdeos e fotograas ilustrativos de como
a contraco de cada msculo facial desempenha um papel na alterao de expresso de um dado
indivduo, este sistema tornou-se uma das maiores referncias nesta rea. O FACS dene 46 Action
Unit s (AUs), que correspondem a um conjunto de msculos que denem um dado movimento indepen-
dente da face. Cada expresso pode ser sub-dividida em N AUs, tendo cada uma destas um signicado
associado. As diferentes combinaes de diversas AUs leva a uma vastssima quantidade de expres-
ses faciais a serem caracterizadas e estudadas, sendo possvel ento obter, atravs do uso do FACS,
bastante informao. No entanto, tem vindo a ser executado manualmente, recorrendo a peritos deste
sistema, o que leva a um gasto exacerbado de recursos. Algumas das tentativas na rea do reconheci-
mento de expresses faciais tm como objectivo uma automatizao deste processo, como os estudos
realizados por Cohn et al. [8], Essa e Pentland [16] e Pantic e Rothkrantz [38]. Contudo, muitos des-
tes centraram-se numa automatizao parcial, em que so seleccionadas manualmente as principais
caractersticas faciais para reconhecimento, como os estudos de Donato et al. [9] e Kaiser et al. [21].
Segundo Ekman [12], uma caracterstica ainda no explorada pelos sistemas de reconhecimento
automtico de expresses faciais o facto de o ser humano atribuir diferentes pesos aos diversos
grupos musculares da face. As expresses correspondentes aos msculos superiores prevalecem
sobre as expresses da parte inferior da face quando esta avaliao feita por um ser humano.
Algumas questes a resolver tm que ver com a capacidade de um sistema:
Reconhecer expresses faciais independentemente de caractersticas sionmicas;
Ser robusto caracterizao de expresses tendo em conta que a intensidade de demonstrao
de um dado sentimento varia de indivduo para indivduo.
Neste passo do reconhecimento de expresses existe uma clara distino entre o tratamento de
imagens estticas e de sequncias de imagens. Uma sequncia de imagens minimiza o erro associado
a este processo, uma vez que possvel visualizar uma expresso desde o estado neutro at sua
maior amplitude, regressando expresso neutra.
2.3.1 Imagens Estticas
Mtodos baseados em Modelos
Edwards et al. [10] apresentam uma framework que utiliza Active Appearance Model s (AAMs) para
reconhecimento facial, cujo objectivo identicar o indivduo independentemente da posio e lumino-
sidade. Um AAM contm um modelo estatstico da forma e aparncia de nvel de cinzento do objecto.
10
Para ajustar o modelo imagem a analisar, necessrio procurar parmetros que minimizem a dife-
rena entre ambos, o que implica alguma diculdade, dado o nmero potencialmente elevado de par-
metros existentes. Normalmente, o ajustamento feito em dois passos: numa fase de treino, o AAM
sintetiza um modelo linear correspondente relao entre desfasamentos de parmetros e resduos
induzidos; na fase de procura, mede os resduos e usa este modelo para corrigir os parmetros actuais,
melhorando iterativamente a adaptao do modelo. Um exemplo do funcionamento de algoritmos base-
ados em AAM pode observar-se na gura 2.3. Considerando que um conjunto de parmetros pode ser
o suciente para descrever e interpretar uma dada imagem, neste estudo cria-se uma template porme-
norizada de uma face-objectivo, de modo a modelar essa mesma face o mais realisticamente possvel.
Obtiveram-se resultados de 40,6% de taxa de sucesso para reconhecimento de expresses faciais em
imagens com diferentes condies de luminosidade e posies do rosto, como as da gura 2.4.
Figura 2.3: Ajuste de AAM em trs iteraes a partir da posio inicial. Fonte: Edwards
et al. [10]
Figura 2.4: Exemplos tpicos de faces utilizadas no estudo de Edwards et al. [10]
Hong et al. [18] utilizam uma galeria para auxiliar a caracterizao de uma dada expresso. Uma
galeria pessoal caracteriza-se pela existncia de imagens de um dado indivduo relativas s seis ex-
presses bsicas, conjuntamente com a expresso neutra. A face da pessoa a analisar associada
mais semelhante que existe na galeria, sendo esta utilizada para caracterizar a expresso da face-
objectivo. Parte do princpio que duas pessoas com sionomias aproximadamente similares tm uma
maneira semelhante de expressar a mesma emoo. Este mtodo combina ltros de Gabor com o
mtodo Elastic Graph Matching, que consiste num processo simples para comparar grafos com ima-
gens e gerar novos grafos para descrever as caractersticas visuais bsicas de uma imagem. Um ltro
de Gabor enquadra-se na categoria de ltros lineares, em que a resposta impulsiva denida pela
combinao de uma funo harmnica com uma funo Gaussiana. As Gabor Wavelets, sinusides
moduladas atravs de Gaussianas, so usadas nos ltros de Gabor para representar dilataes e ro-
taes, resultando num espao de Gabor. Os ltros de Gabor so bastante ecientes para detectar a
localizao de linhas e arestas em imagens, como pode observar-se na gura 2.5. Esta aproximao
provou ser eciente independentemente de variaes de luminosidade do meio. Foram ainda usadas
estruturas de General Face Knowledge (GFK), que constituem uma pequena galeria de imagens cujos
grafos so criados atravs de ns colocados em pontos-chave da imagem, como ilustrado na gura 2.6.
Quando o grafo da face objectivo criado, este comparado com os da galeria at ser encontrada a
11
face que melhor corresponde inicial. Este mtodo tem uma taxa de sucesso de cerca de 89%. O
tempo para reconhecimento da expresso facial de 0,5 segundos. No entanto, o tempo associado ao
processo total no contexto do estudo realizado rondou os 8s, o que acaba por ser pouco satisfatrio.
(a) Imagem original (b) Resultado
Figura 2.5: Exemplo da aplicao de ltros de Gabor a uma imagem
Figura 2.6: Exemplo da aplicao de GFK ao rosto. Fonte: Hong et al. [18]
Huang e Huang [19] descrevem 10 Action Parameters (AP), que se baseiam no diferencial entre
uma face neutra e uma face com uma dada expresso. Estas AP substituem ou so conjugaes de
algumas AUs do sistema FACS, como representado na gura 2.7.
Figura 2.7: Parmetros de aco sugeridos por Huang et al. Fonte: Huang e Huang [19]
aplicado o algoritmo PCA a esses parmetros a m de reduzir a dimensionalidade para 2, o que
se traduz numa simplicao do processo de reconhecimento. A PCA um mtodo que permite re-
duzir a dimensionalidade de um conjunto de dados atravs da anlise de covarincia entre factores.
12
Assim sendo, o algoritmo que implementa a PCA extrai a direco de maior extenso de uma nuvem
de valores em espao multi-dimensional. Esta direco o componente principal. A direco ortogonal
a esta ser encontrada de seguida, como ilustrado na gura 2.8, reduzindo-se a nuvem a um espao
bi-dimensional. O processo de reconhecimento realizado em duas etapas: a primeira reconhece a
expresso atravs do uso dos APs existentes no conjunto de treino e a segunda consiste na utilizao
do perl dos APs de uma dada expresso desconhecida para identicao. usada uma funo de
avaliao para determinar o grau de semelhana entre uma expresso desconhecida e uma das seis
expresses bsicas. Este sistema tem uma taxa de sucesso de cerca de 84,5% nos casos estuda-
dos. No entanto, no pode prever-se o seu desempenho na anlise de expresses de indivduos no
conhecidos pelo sistema.
Figura 2.8: Reduo de dimensionalidade atravs da implementao de PCA. Fonte: Hu-
ang e Huang [19]
O estudo proposto por Lyons et al. [30] utiliza uma grelha que consiste em 34 ns posicionados
manualmente sobre uma imagem facial, como ilustrado na gura 2.9. posteriormente calculada a
transformada de Gabor para cada um desses ns e combinados os dados num vector. Os vectores
deste tipo so submetidos a um algoritmo PCA, sendo posteriormente analisados atravs de Linear
Discriminant Analysis (LDA) e agrupados segundo os atributos faciais. A LDA um mtodo estats-
tico que procura a combinao linear das caractersticas que melhor classicam uma dada imagem,
reduzindo a dimensionalidade do problema. Uma imagem que no seja classicada positivamente em
nenhuma das categorias considerada neutra. Este mtodo foi testado, tendo-se obtido um desempe-
nho de 92% em termos de classicao correcta das expresses faciais para utilizadores conhecidos,
enquanto que para novos indivduos o sucesso de cerca de 75%.
Figura 2.9: Posicionamento de grelha sobre imagem facial. Fonte: Lyons et al. [30]
Mais recentemente, Lu et al. [29] adoptam Support Vector Machines (SVMs) para a classicao
de expresses faciais. As SVMs consistem num mtodo para treino de amostras que se baseia num
princpio de minimizao do risco estrutural, que minimiza, assim, o erro de generalizao [34]. Sendo
que os dados podem ser vistos como dois conjuntos de vectores num espao de dimenso N, o SVM
divide esse espao atravs de umhiperplano que maximiza a margementre os dois conjuntos de dados,
13
como ilustrado na gura 2.10, sendo consequentemente denominado classicador de margem mxima.
Com efeito, uma larga margem entre os valores correspondentes aos vectores dos dois sub-conjuntos
de dados implica um risco de generalizao minimizado do classicador.
Figura 2.10: SVM - Margem mxima entre os vectores de dados. Fonte: Lu et al. [29]
Mtodos Baseados em Redes Neuronais
Uma rede neuronal, como representado na gura 2.11, representada por ligaes entre elementos
de processamento a que se atribuem pesos, que consistem nos parmetros que denem a funo
no-linear efectuada pela rede neuronal. A determinao destes parmetros denominada de treino
(training) ou aprendizagem (learning), sendo as redes neuronais adaptativas.
Figura 2.11: Exemplo de Rede Neuronal
No estudo realizado por Kobayashi e Hara [24], aplicada uma rede neuronal de propagao inversa
(Back-Propagation Neural Network). Este o tipo mais comum de redes neuronais e caracteriza-se
pela existncia de camadas de entrada e de sada e ainda de uma camada "escondida", que torna
possvel o mapeamento de relaes de entrada na sada do modelo. Antes de qualquer informao
ter passado pela rede, os valores dos ns so aleatrios. So chamadas de Back-Propagation Neural
Networks uma vez que, ao serem treinadas, quando uma classicao atribuda, esta comparada
com a classicao actual dos ns. O valor da classicao propagado de novo na rede, o que faz
14
com que os ns da camadas escondida e da camada de sada ajustem os seus valores em resposta a
um eventual erro de classicao. A entrada da rede neuronal consiste nos dados relacionados com a
distribuio de brilho extrados de uma dada imagem facial. O resultado corresponde a uma categoria
de emoo. Usou-se uma amostra de treino da mesma dimenso da amostra de teste, tendo-se obtido
resultados na ordem dos 85% de taxa de sucesso num tempo de aproximadamente 66,7ms.
Yoneyama et al. [57], consideram quatro tipos de expresses: tristeza, surpresa, clera e alegria. No
reconhecimento destas expresses, utilizado um par de bits para representar o valor dos parmetros
e duas redes de Hopeld discretas. Uma rede de Hopeld baseia-se num conjunto de neurnios e um
conjunto correspondente de unidades de atraso, formando um sistema de realimentao mltiplo, como
pode ver-se na gura 2.12. As redes so treinadas utilizando a regra de aprendizagem de Personnaz
[40]. Para cada imagem examinada, o resultado da primeira rede combinado com os exemplos de
treino para esta rede, calculando-se as distncias Euclideanas e decidindo-se se a categoria da expres-
so ou no determinada. Caso no o seja, o resultado da segunda rede de Hopeld combinado
com os exemplos usados para treino desta rede de modo a decidir a categoria da expresso. Neste
estudo, a taxa de sucesso de 92%.
Figura 2.12: Exemplo de Rede de Hopeld com 4 neurnios. Fonte: Yoneyama et al. [57]
Padgett e Cottrell [36] aplicam tambm uma rede neuronal de propagao inversa, em que o input
consiste na projeco normalizada de blocos de pixis correspondentes aos principais componentes do
espao prprio de blocos de pixis da imagem. aplicada uma funo de activao de Sigmoid, que
consiste numa funo montona crescente que permite uma transio contnua e diferencivel entre os
nveis 0 e 1 da sada. Uma escolha comum para esta funo exemplicada na gura 2.13. O resultado
uma das seis expresses bsicas ou, alternativamente, a expresso neutra. Foram treinadas 12 redes
neuronais. A taxa de sucesso de 86%.
Zhang et al. [59] utilizam uma rede neuronal para atribuir uma das seis expresses bsicas, ou
a expresso neutra, a uma dada imagem facial. A rede neuronal recebe a posio geomtrica dos
principais pontos faciais, para alm dos coecientes de wavelets de Gabor de cada um desses mesmos
pontos. A rede reduz a dimensionalidade dos dados de entrada e infere estatisticamente o grupo em
15
Figura 2.13: Exemplo de uma funo de activao de Sigmoid. Fonte: Padgett e Cottrell
[36]
que classica a expresso dada. Oresultado consiste numa estimao da probabilidade de a expresso
pertencer categoria em que inserida. A taxa de sucesso de cerca de 90,1% para indivduos
conhecidos do sistema, no tendo sido testado noutros casos.
No estudo realizado por Zhao e Kearney [60], usada uma rede neuronal de propagao inversa
para classicao de uma imagem facial numa das seis categorias bsicas. Os dados de entrada
desta rede neuronal consistem num conjunto de intervalos, que resultam do tratamento estatstico das
distncias normalizadas entre vrios pontos da face. O resultado consiste numa das seis expresses
faciais bsicas. A taxa de sucesso de 100% para indivduos conhecidos, enquanto que no se prev
o resultado para indivduos novos para o sistema.
O estudo proposto por Stathopoulou e Tsihrintzis [46] apresenta um mtodo de extraco de carac-
tersticas baseado em aparncia, utilizando o vector de elementos faciais como input para uma rede
neuronal, que classica o padro da janela num de trs grandes grupos: surpresa, alegria ou estado
neutro. O facto de a rede neuronal no ser aplicada directamente a toda a face mas a pequenas pores
do rosto provou ser mais eciente temporalmente. A taxa de sucesso de 98,4%.
Feitosa et al. [17] estudam a utilizao de duas diferentes redes neuronais no reconhecimento
das seis principais expresses faciais. A primeira uma rede neuronal de propagao inversa, que
dene um mtodo sistemtico de actualizar os pesos de redes multinvel. Devido ao facto de o treino
destas redes ser bastante demorado, abordaram-se neste estudo as redes neuronais baseadas em
Radial Basis Functions (RBF). Estas redes so constitudas por trs camadas: a de input, uma camada
escondida, que utiliza uma funo de activao radialmente simtrica, e a camada de output, com uma
funo de activao linear. So de treino simples e rpido, uma vez que se baseiam no princpio de
que uma funo arbitrria pode ser aproximada atravs da sobreposio de um conjunto de funes
bsicas localizadas. Os resultados obtidos em termos de taxa de sucesso so de 71,8% atravs da
utilizao de uma rede neuronal de propagao inversa e de 73,2% com redes baseadas em RBF.
Mtodos Baseados em Regras
Pantic e Rothkrantz [38] dividem o reconhecimento facial em vrias etapas. Depois de calculados os
pontos principais da face, as caractersticas-modelo so extradas e calculada a diferena entre estas
e as mesmas caractersticas-modelo da face neutra do mesmo indivduo, como se pode ver na gura
2.14 em relao aos olhos.
16
Figura 2.14: Ajustamento ao olho: caractersticas-modelo. Fonte: Pantic e Rothkrantz
[38]
A deformao do modelo, conjuntamente com o FACS, permitem a classicao da expresso na
classe correspondente. A taxa de sucesso de 92% para a metade superior da face e de 86% para a
metade inferior.
O estudo recente de Khanam et al. [22] apresenta um sistema fuzzy Mamdani-type, baseado em
regras, para reconhecimento de expresses faciais. Esta implementao utiliza uma base de conhe-
cimento dividida em dois componentes principais: base de dados e base de regras. A primeira
composta pelo input do sistema, que consiste em vrios estados das diversas caractersticas faciais,
e expresso de output, que corresponde a uma das sete expresses bsicas. A base de regras
constituda por regras fuzzy, sendo estas maiores ou menores. As primeiras so as que classicam
as expresses faciais bsicas do rosto, representando o estado tpico de cada emoo. As segun-
das permitem uma ligeira sobreposio entre expresses (como, por exemplo, alegria-surpresa, que
comummente se verica), possibilitando uma transio suave entre as expresses bsicas e tendo,
logicamente, um menor peso na classicao. A taxa de sucesso varia dos 70% aos 100%, sendo o
valor mdio de 87,5%.
2.3.2 Sequncias de Imagens
Mtodos baseados em Modelos
Cohn et al. [8] aplicam classicadores distintos nas diversas partes do rosto. Os preditores so os
deslocamentos dos pontos faciais ao longo de uma sequncia de imagens. Como pode observar-se
na gura 2.15, uma dada expresso determinada pela sequncia de imagens desde o estado neutro
at sua amplitude mxima. A classicao baseou-se em matrizes de varincia-covarincia. Este
sistema tem algumas restries, principalmente no que diz respeito iluminao (pelo que o ambiente
deve ser de luminosidade constante), bem como no existncia de culos ou plos faciais por parte
do indivduo a analisar. A melhor classicao, na zona das sobrancelhas, de 92%, enquanto que
nas regies dos olhos e do nariz e boca as taxas de sucesso so de 88% e 83%, respectivamente.
O estudo realizado por Essa e Pentland [16] extrai a energia relacionada com o movimento no plano
espacio-temporal da sequncia recebida, relacionando os valores obtidos com os modelos de energia
bi-dimensionais do plano espacio-temporal para as expresses-padro, como mostrado na gura 2.16.
calculada a norma Euclideana da diferena entre ambas, sendo esta usada como classicador para
a semelhana com uma dada expresso bsica. A taxa de sucesso deste mtodo ronda os 98%.
Kimura e Yachida [23] estudam a adequao de uma rede de potencial a cada quadro da sequn-
cia. O padro da rede deformada comparado com o padro extrado de uma face que apresenta a
expresso neutra, sendo a variao da posio dos ns da rede usada para processamento posterior.
17
Figura 2.15: Sequncia de imagens demonstrativa dos passos seguidos at amplitude
mxima de uma dada expresso. As linhas que partem dos pontos chave do
rosto representam alterao de posio destes devido existncia de uma
expresso facial. O comprimento das mesmas representa a intensidade da
expresso. Fonte: Cohn et al. [8]
(a) Expresses de surpresa e alegria
(b) Expresses de surpresa e alegria
(modelo)
(c) Energia espacio-temporal relacio-
nada com o movimento
Figura 2.16: Determinao de expresses em sequncias de imagens. Fonte: Essa e
Pentland [16]
18
Este estudo no teve sucesso em indivduos desconhecidos.
Eisert e Girod [11] propem um algoritmo baseado num modelo tridimensional que especica a
forma e a textura da cabea de uma pessoa, cuja superfcie modelada por B-Splines. Partindo do
princpio de que uma expresso facial resulta da combinao de movimentos locais, como denido
no sistema FACS, so localizadas as deformaes do modelo, classicando uma dada expresso na
classe correspondente. O movimento obtido atravs de um mtodo hierrquico baseado na anlise
de uxo ptico. No conhecido o tempo necessrio ao processo. A taxa de sucesso classicada
qualitativamente como sendo bastante satisfatria mas no se conhecem mtricas quantitativas.
Otsuka e Ohya [35] usam um Hidden Markov Model (HMM) que modela a expresso, desde o
estado neutro inicial at ao estado neutro nal. Para tal, recorrem estimao do movimento na rea
que circunda o olho direito e a boca atravs de algoritmos de uxo (como ilustrado na gura 2.17),
aps o que procedem extraco de caractersticas e fazem corresponder a sequncia temporal do
vector de caractersticas aos modelos que representam cada expresso facial. Este sistema permite
o reconhecimento de mltiplas sequncias de imagens. usado o algoritmo de Baum-Welch para
calcular a probabilidade de transio entre estados. No se conhece uma taxa de sucesso quantitativa
deste mtodo.
Figura 2.17: Estimao do movimento atravs de algoritmos de uxo. Fonte: Otsuka e
Ohya [35]
Wang e Yachida [55] exploram grafos com arestas com um determinado peso para representar a
face, em que algumas destas so representadas para reconhecer expresses. Para cada uma de trs
categorias de emoes clera, alegria e surpresa associada uma curva B-spline que descreve a
relao entre a alterao de expresso e o deslocamento da aresta correspondente. Existem restries
existncia de culos ou plos faciais e a iluminao deve ser constante para a aplicao deste mtodo.
A taxa de sucesso ronda os 95%.
Hulsken et al. [20] utilizam uma evoluo de HMM para processar ecientemente sequncias de
imagens, que consiste em modelos HMM Pseudo-tridimensionais (P3DHMM), gerados a partir da en-
capsulao dos super-estados correspondentes a HMM bidimensionais. Para melhorar o desempenho,
os super-estados so partidos em quatro HMM didimensionais, reduzindo-se assim a complexidade
temporal. Nesta aproximao usa-se o algoritmo de Baum-Welch para treinar as amostras e o algoritmo
de Viterbi na classicao. Conseguiram-se taxas de sucesso na ordem dos 90% para reconhecimento
19
independente da pessoa a ser analisada. No referido quantitativamente o tempo inerente a este
processo.
Outra evoluo, mais recente, dos modelos baseados em HMM o trabalho de Cao e Tong [6],
que estuda a utilizao de Embedded Hidden Markov Model (EHMM). Estes modelos baseiam-se na
expanso de cada estado do HMM principal para um novo HMM, obtendo-se assim um super-estado,
correspondente ao modelo exterior, e um estado embebido, correspondente ao estado do modelo inte-
rior. Tem-se, assim, um super-estado por caracterstica, sendo que um estado embebido no pode ser
transferido de um super-estado para outro.
O estudo de Cohen et al. [7] visa construir um sistema em tempo-real que classique imagens fa-
ciais a partir de dados de vdeo. Baseia-se no tracker desenvolvido por Tao e Huang [48] denominado
Piecewise Bzier Volume Deformation (PBVD), que se serve de um modelo tridimensional da imagem
facial, ajustado ao rosto a analisar, para acompanhar os movimentos dos principais elementos faciais
(gura 2.18). Os movimentos so denidos em termos de parmetros de controlo de volume de Bzier
e so denominados de Motion Unit (MU). Utilizam-se classicadores de redes Bayesianas, aplicando
estimaes de mxima verosililhana para aprender os parmetros da rede. O algoritmo Expectation
Maximization (EM) utilizado para maximizar a funo de verosimilhana quando os dados esto in-
completos. Neste estudo explorado o uso dos classicadores Naive Bayes (NB) e Tree-Augmented
Naive Bayes (TAN). O primeiro assume os elementos como independentes dado o rtulo da classe. O
seu desempenho aceitvel muitas vezes devido necessidade de aprendizagem de poucos parme-
tros. O segundo constri uma rvore atravs da organizao hierrquica dos elementos faciais. Estes
classicadores permitem obter bons resultados, sendo de 77,70% no melhor caso para o NB e 80,40%
para o classicador TAN. ainda explorado o classicador Classication Driven Stochastic Structure
Search (CDSSS), que permite obter resultados melhores que os anteriores, com uma taxa de sucesso
mxima de 83,62%. De notar que este sistema opera em tempo real.
(a) Volumes do PBVD (b) Representao de sorriso
Figura 2.18: Utilizao de PDVD para acompanhar movimentos faciais. Fonte: Cohen et
al. [7]
Bartlett et al. [1] exploram um sistema que lida com rotao facial associada a aces faciais espon-
tneas. Esta aproximao ajusta um modelo tridimensional da face e normaliza a mesma, colocando-a
numa vista frontal. Este processo, contudo, no totalmente automtico, uma vez que os pontos-chave
da face so marcados manualmente de modo a aplicar o modelo tridimensional. O desempenho do
classicador atingiu um sucesso de 98%.
20
Tambm recentemente, Kotsia et al. [26] utilizam, alm de informao geomtrica obtida atravs de
informao relacionada com o movimento dos msculos faciais, uma evoluo de SVM para a classi-
cao de expresses. O mtodo que estudam sugere a adopo do Candide [44], um modelo facial
denido por aproximadamente 100 polgonos (e portanto computacionalmente leve), controlado pelas
vrias AUs, que ilustrado na gura 2.19.
Figura 2.19: Modelo Candide. Fonte: Kotsia et al. [26]
Este modelo semi-automaticamente ajustado face do utilizador no primeiro quadro de vdeo e
acompanhada at ao nal do mesmo, enquanto a expresso facial vai sofrendo evolues. No m, o
algoritmo produz a grelha Candide deformada que corresponde expresso facial com maior intensi-
dade. O deslocamento geomtrico de cada ponto da grelha, denido pela diferena entre a posio
inicial e nal, utilizado como input para o sistema SVM. Este sistema evoluiu para incorporar informa-
o estatstica acerca das classes a examinar, obtendo um aumento de cerca de 6% relativamente ao
SVM convencional. Com efeito, o melhor resultado em termos de desempenho de 98,2%.
Mtodos baseados em Regras
Os estudos realizados por Black e Yacoob [4], [3] utilizam modelos de movimento para representar
movimentos rgidos da cabea e movimentos no rgidos na zona facial. Os parmetros extrados
desses modelos, denominados de regras, so usados para derivar as caractersticas que permitem
identicar o movimento de dada zona facial. O nmero de aces faciais identicveis atravs deste
mtodo desconhecido. No entanto, para cada uma das seis expresses bsicas, desenvolvido um
modelo identicado por um conjunto de regras para detectar o incio e o m de cada expresso facial.
Nos testes realizados pelos autores, a taxa de sucesso de aproximadamente 88%. Contudo, existe
ainda alguma confuso de expresses, provavelmente devido ao facto de as regras usadas para a
classicao no estarem sucientemente optimizadas.
2.3.3 Anlise Global
A tabela 2.1 apresenta um resumo dos vrios mtodos de classicao de expresses faciais, em
termos de aspectos signicativos numsistema que implementa algumtipo de interface pessoa-mquina.
21
As caractersticas de valor consistem na capacidade do sistema de responder a tempo real, de suportar
sequncias de imagens ou imagens estticas, a sua robustez a variaes de luminosidade, plos faciais
e culos e rotao facial e a taxa de sucesso de classicao (no melhor caso).
No que diz respeito aos sistemas que suportam imagens estticas, os baseados em modelos pa-
recem apresentar uma maior robustez a variaes de luminosidade e artefactos adicionais, embora
alguns destes estudos tenham algumas limitaes em termos de desempenho. O mais relevante o
proposto por Lu et al. [29], que apresenta uma taxa de sucesso bastante satisfatria e opera em tempo
real, mesmo sob condies variveis de luminosidade, embora no exista informao relativamente
robustez a rotao e artefactos faciais adicionais. Ainda, o estudo de Zhao et al. [60] destaca-se entre
os mtodos baseados em redes neuronais, apresentando uma taxa de sucesso de 100% para indiv-
duos conhecidos, embora no se saiba o resultado para indivduos novos ao sistema. No entanto, no
mbito desta abordagem, no se dispe de informao suciente para averiguar a robustez dos siste-
mas s condicionantes consideradas. O mesmo acontece no que diz respeito aos mtodos baseados
em regras, embora estes paream ser promissores no que diz respeito ao trabalho de Khanam et al.
[22], uma vez que possvel a obteno de desempenhos de 100%.
Em particular, embora os estudos de Lyons et al. [30], Yoneyama et al. [57], Zhang et al. [59],
Stathopoulou e Tsihrintzis [46], e Pantic e Rothkrantz [38] apresentem tambm taxas de sucesso ex-
tremamente satisfatrias (acima dos 90%), no se conhecem as restries impostas em termos de
robustez existncia de plos faciais ou culos, bem como rotao facial ou, em vrios casos, varia-
es de luminosidade. Os sistemas propostos por Hong et al. [18], Huang e Huang [19], Feitosa et al.
[17], e Padgett e Cottrell [36] no so particularmente interessantes no presente contexto, uma vez que
esto sujeitos s mesmas incertezas em termos de robustez a factores externos e apresentam taxas
de sucesso menos favorveis.
Os sistemas que suportam sequncias de imagens so maioritariamente baseados em modelos. No
entanto, muitos dos estudos no suportam variaes de luminosidade, bem como existncia de plos
faciais ou culos. De facto, os sistemas propostos por Cohn et al. [8], Wang e Yachida [55] e Hulsken
et al. [20] apresentam taxas de sucesso bastante elevadas, mas tornam-se pouco interessantes no
presente contexto dada a sua baixa robustez a condies aleatrias de interaco. No que diz respeito
aos estudos de Eisert e Girod [11], Kimura e Yachida [23] e Otsuka e Ohya [35], existe alguma falta de
informao no s no que diz respeito robustez dos sistemas em termos de restries ambientais e
contextuais, mas tambm no que concerne as taxas de desempenho, sendo estas mencionadas como
sendo aceitveis ou bastante positivas, embora no existam mtricas quantitativas. Os estudos que
satisfazem as restries impostas para um sistema desejvel so os de Cohen et al. [7] e de Cao e
Tong [6], uma vez que ambos operam em tempo real. O segundo, embora apresente uma taxa de
acerto menos elevada, robusto a condies variveis de luminosidade.
De um modo geral, a classicao de expresses atravs de mtodos baseados em modelos, am-
plamente explorada e com resultados promissores, adequa-se ao presente estudo. Adicionalmente, a
utilizao de aspectos-chave referentes a outros mtodos para a classicao, como a utilizao de
regras, apresenta mais-valias potenciais para a classicao.
22
Tabela 2.1: Anlise comparativa de mtodos de classicao de expresses faciais.
tempo variaes robustez a robustez a tx. mx.
Mtodo real de luz plos/culos rotao sucesso
Imagem Esttica
Modelos
Huang e Huang [19], 1997 - - - - 84,5%

Edwards et al. [10], 1998 - S - S 40,6%

Hong et al. [18], 1998 N S - N 89%

Lyons et al. [30], 1999 - - - - 92%



, 75%

Lu et al. [29], 2007 S S - - <98,2%

Redes Neuronais
Padgett e Cottrell [36], 1996 - - - - 86%

Zhao et al. [60], 1996 - - - - 100%



Kobayashi e Hara [24], 1997 S - - - 85%

Yoneyama et al. [57], 1997 - - - - 92%

Zhang et al. [59], 1998 - - - - 90,1%



Feitosa et al. [17], 2000 - - - - 71,873,2%

Stathopoulou e
Tsihrintzis [46], 2004 - - - - 98,4%

Regras
Pantic e Rothkrantz [38], 2000 - - - - 8692%

Khanam et al. [22], 2008 - - - - 70-100%

Sequncia de Imagens
Modelos
Eisert e Girod [11], 1997 - - - - -
Essa e Pentland [16], 1997 - - - - 98%

Kimura e Yachida [23], 1997 - - - - -


Cohn et al. [8], 1998 - N N - 8392%

Otsuka e Ohya [35], 1998 - - - - -


Wang e Yachida [55], 1998 - N N - 95%

Hulsken et al. [20], 2001 - N N - 90%



Bartlett et al. [1], 2003 - - - S 98%

Cohen et al. [7], 2003 S - - - 83,62%

Kotsia et al. [26], 2007 - - - - 98,2%

Cao e Tong [6], 2008 S S - - 79,3%

Regras
Black e Yacoob [3], 1995 e [4], 1997 - - - - 88%

pessoas conhecidas do sistema pessoas desconhecidas do sistema



ignora-se contacto prvio dos utilizadores com o sistema
23
24
Captulo 3
Trabalho Desenvolvido
Na sequncia dos trabalhos de investigao analisados no captulo anterior, referentes classicao
de expresses faciais, decidiu seguir-se a aproximao geralmente adoptada no contexto deste tipo de
sistemas, isto , uma abordagem da base para o topo. Assim, o problema principal foi segmentado em
trs sub-problemas principais que visam sua simplicao e resoluo:
Deteco Facial: a localizao do rosto na imagem e extraco dos pontos correspondentes
posio deste;
Extraco de Caractersticas Faciais: a determinao, a partir da imagem facial, do posiciona-
mento das caractersticas principais do rosto;
Classicao: a utilizao das caractersticas faciais para a determinao da expresso corres-
pondente.
O funcionamento interno da arquitectura concebida divide-se em cinco mdulos principais, como
ilustrado na gura 3.1.
1. Mdulo de Deteco Facial: nesta fase, recebida a imagem inicial, arbitrria, e feita a deteco
do rosto;
2. Mdulo de Normalizao: as imagens do rosto, que podem ter dimenses bastante variadas de
acordo com a resoluo da imagem inicial e com o tamanho do rosto em relao imagem, so
normalizadas de modo a possibilitar um processamento mais eciente nas fases seguintes;
3. Mdulo de Extraco de Caractersticas: a imagem normalizada do rosto sujeita a proces-
samento atravs de uma srie de algoritmos que devolvem as coordenadas das caractersticas
principais do rosto;
4. Mdulo de Transformao de Caractersticas: as coordenadas das caractersticas que denem
a expresso (olhos, sobrancelhas e boca) so transformadas num conjunto de coordenadas mais
adequadas ao classicador;
5. Mdulo de Classicao: o conjunto de coordenadas transformadas passado ao classicador,
que devolve a expresso correspondente imagem original, completando assim o processo de
classicao da expresso.
25
"#$%&' $(
)(*(+,-' ./+0/&
"#$%&' $(
1'23/&04/,-'
"#$%&' $(
56*2/+,-' $(
7/2/+*(289:+/9
"#$%&' $(
;2/<9='23/,-' $(
7/2/+*(289:+/9
"#$%&' $(
7&/990>+/,-'
56?2(99-' ./+0/&
@3/A(3 ./+0/&
7/2/+*(289:+/9 ?/2/ 7&/990>+/,-'
@3/A(3 B2C0*2D20/
@3/A(3 ./+0/& 1'23/&04/$/
7''2$(</$/9 $( 7/2/+*(289:+/9
Figura 3.1: Estrutura da abordagem ao problema do Reconhecimento de Expresses Fa-
ciais
3.1 Deteco Facial
No mbito do presente estudo, o utilizador encontra-se num ambiente arbitrrio, servindo-se apenas de
uma webcam para interagir com o sistema. Consequentemente, foi denido que a soluo a apresentar
deveria ter a capacidade de processar imagens independentemente do seu contexto, isto , que deveria
processar coerentemente no s imagens meramente faciais, mas tambmimagens emque gurassem
quaisquer outros elementos que no rostos humanos.
Como tal, era necessrio encontrar uma forma de detectar o rosto numa imagem arbitrria.
Como referido no captulo 2, existem diversos mtodos para atingir este objectivo, desde a utilizao
26
de blobs de movimento (Pentland et al. [39]) at utilizao de algoritmos de cor e posterior adaptao
de modelos (Saber e Tekalp [45]), ao uso de ltros preditivos para estimar a posio da cabea do
indivduo (Hong et al. [18]) e redes neuronais (Rowley et al [43] e Pham et al. [41]).
Contudo, o mtodo de Viola e Jones [54], que subdivide a imagem em janelas que so processa-
das por classicadores em cascata computacionalmente leves, permitiu a outros investigadores, como
Bartlett et al. [28] e Zhan et al. [58], desenvolver sistemas com resposta em tempo real. Este mtodo
utilizado tambm na biblioteca OpenCV da Intel. Esta biblioteca, que consiste numa srie de algo-
ritmos que solucionam questes relacionadas com a viso computorizada em tempo real, apresenta
diversas vantagens. Efectivamente, a biblioteca resolve o problema da deteco facial de um modo
temporalmente eciente e bastante preciso.
Uma vez que o foco do trabalho no era dar especial nfase deteco do rosto na imagem, alm
de ser necessrio no s que a face fosse localizada numa imagem arbitrria como tambm que tal
ocorresse em tempo real, a deteco facial foi feita com recurso a esta biblioteca.
O detector integrado na biblioteca OpenCV usa o mtodo proposto por Viola e Jones [54], que
consiste em treinar um classicador com algumas centenas de:
Imagens faciais, denominadas exemplos positivos, uma vez que se trata da caracterstica de
interesse para o classicador;
Imagens no faciais arbitrrias, s quais se chamam exemplos negativos, uma vez que se afas-
tam da caracterstica de interesse.
O classicador consiste na combinao de uma srie de outros classicadores que utilizam carac-
tersticas de Haar atravs do mtodo de amplicao ou boosting [54]. As caractersticas de Haar, que
consistem na categorizao de imagens atravs da soma de pixeis para cada regio rectangular da
imagem, so usadas para codicar os contrastes intrnsecos ao rosto humano e as relaes espaciais
correspondentes s caractersticas faciais.
O mtodo de amplicao ou boosting consiste na estruturao de uma srie de classicadores
computacionalmente leves em cascata. Consequentemente, cada um destes classicadores mais sim-
ples aplicado subsequentemente a uma regio da imagem at que essa mesma regio candidata
seja rejeitada ou aceite. O processo repetido para todas as janelas em que a imagem principal
subdividida, permitindo localizar todos os rostos presentes, como ilustrado na gura 3.2.
Na gura 3.3 resume-se este processo de classicao para a deteco de um rosto, que o
utilizado na biblioteca OpenCV.
Dada a necessidade de recorrer a largas centenas de imagens faciais para treinar um classicador
em cascata, foi usado um classicador treinado disponvel para download
1
.
A aproximao utilizada para a deteco facial na biblioteca OpenCV permite extrair todos os rostos
existentes numa dada imagem. No entanto, dado o tipo de interface que se pretende, em que apenas
um utilizador interage com o sistema, apenas tido em conta um rosto. Diminui-se assim o peso
computacional da deteco de todos os rostos numa imagem, consequentemente reduzindo ao mximo
a latncia correspodente a este mdulo do trabalho.
1
http://aleReimondo.no-ip.org/OpenCV
27
Figura 3.2: Utilizao da biblioteca OpenCV para deteco de rostos numa imagem arbi-
trria. Fonte: http://www.intel.com
3.2 Normalizao da Imagem
Dispondo da rea de interesse a analisar, ou seja, a rea correspondente face do utilizador na ima-
gem, detectada na fase anterior do processo, tornou-se necessrio ter em ateno um conjunto de
especicidades.
Para que o sistema possa ser usado por qualquer utilizador que possua uma webcam, e uma vez
que os dispositivos apresentam diferentes resolues e os utilizadores se podem encontrar a diferentes
distncias da cmara, preciso ter em conta que as imagens de input tero dimenses variadas.
Para permitir uma extraco o mais precisa possvel das caractersticas do rosto, e uma vez que al-
guns algoritmos so sensveis dimenso dos elementos a recolher, tornou-se necessria e pertinente
a normalizao da imagem.
Como esta fase se segue deteco do rosto numa imagem arbitrria, somente esta rea sofre
normalizao, por forma a maximizar recursos. A imagem passa a apresentar dimenses-padro antes
de ser processada para extraco das caractersticas faciais.
Consequentemente, e como ser referido em mais detalhe no captulo 3.3.2, foi utilizado um modelo
na deteco das caractersticas faciais. Este modelo consiste nas caractersticas de uma face conside-
rada mdia e usado como base para inferir valores indeterminados na classicao. A normalizao
da imagem original que recebida como input no sistema feita tendo em conta as dimenses do
modelo adoptado, por forma a permitir maior coerncia e exibilidade. Assim, se o modelo for alterado,
a dimenso da imagem acompanhar essa modicao.
28
lnlclo: reglo acuva
r = 1
classlcador acuvo
k = 1
corre classlcador
acuvo
classlcador
acuvo: k++
reglo
acelLe?
m dos
classlcadores?
reglo a processar:
r++
llM. 8eglo de
lnLeresse: r
slm
no
no
slm
Figura 3.3: Funcionamento do classicador Haar em cascata
3.3 Extraco de Caractersticas Faciais
Uma vez dispondo de uma imagem que obedece a dimenses-padro, procedeu-se extraco de
caractersticas do rosto, necessrias ao processo de classicao.
3.3.1 Caractersticas Consideradas
A norma tcnica FACS, criada em 1978 por Ekman e Friesen [15], permite a categorizao de compor-
tamentos faciais tendo em conta os msculos que produzem as aces correspondentes. Este mtodo
dene uma srie de AUs, que consistem nas aces unitrias correspondentes a movimentos de um
ou mais msculos do rosto, resultando na alterao de aparncia do indivduo. Atravs da utilizao
de combinaes de diferentes AUs, possvel a denio de um largo espectro de expresses faciais.
Este sistema permite, assim, decompor uma expresso nas vrias AUs responsveis pelo movimento
com vista classicao da expresso correspondente. Citando os autores, este sistema tem em conta
29
as aces unitrias ilustradas na tabela 3.1.
Tabela 3.1: AUs do sistema FACS
Referncia Aco
1 Elevao da parte interior das sobrancelhas
2 Elevao da parte exterior das sobrancelhas
4 Depresso das sobrancelhas
5 Elevao da plpebra superior
6 Elevao da bochecha
7 Compresso das plpebras
9 Enrugamento do nariz
10 Elevao do lbio superior
11 Aumento de profundidade da regio nasolabial
12 Alongamento dos cantos da boca
13 Cantos da boca ligeiramente repuxados para cima
14 Cantos da boca ligeiramente repuxados para baixo
15 Depresso dos cantos da boca
16 Depresso do lbio inferior
17 Elevao do queixo
18 Contraco extrema de ambos os lbios
20 Alongamento extremo, rabaixado, dos lbios
22 Compresso dos lbios mostrando os dentes
23 Compresso da boca
24 Presso compressiva dos lbios
25 Separao entre os lbios
26 Maxilar aberto
27 Boca amplamenta aberta
28 Lbios comprimidos para o interior da boca
41 Ppebras superiores descontradas
42 Plpebras semicerradas
43 Plpebras cerradas
44 Sobrolho franzido
45 Piscar de olhos
46 Piscar de um s olho
De acordo com esta norma, existe um conjunto bastante vasto de parmetros a ter em conta. Estes
esto predominantemente relacionados com os olhos, as sobrancelhas e a boca.
Efectivamente, de entre todas as AUs consideradas no FACS, apenas as aces 6, 9, 11 e 17 tm
componentes que no so totalmente descritveis atravs dos movimentos da boca, olhos e sobrance-
30
lhas, como ilustrado na gura 3.4. Apesar de serem mencionadas pelo FACS, pode fundamentar-se
que estas AUs no so estritamente necessrias, uma vez que:
(a) AU 6 (b) AU 9 (c) AU 9 (d) AU 17
Figura 3.4: Aces unitrias que recorrem a caractersticas faciais alm das sobrance-
lhas, olhos e boca (adaptado de Ekman e Friesen [15])
Aco 6: A elevao da regio da bochecha implica um ligeiro semicerrar de olhos (aco 42);
Aco 9: O enrugamento do nariz provoca compresso nas plpebras (aco 7);
Aco 11: O aumento de profundidade da regio nasolabial provoca um movimento de alonga-
mento dos cantos da boca (aco 12) ; e
Aco 17: A elevao do queixo implica a depresso dos cantos da boca (aco 20).
Ainda, por acrscimo, algumas das aces apresentam certas limitaes no que diz respeito
deteco. No caso da aco 6, no trivial detectar a elevao das bochechas. Efectivamente, mtodos
como o usado por Cohn et al. [8], em que calculado o uxo ptico para detectar alteraes de
granularidade bastante elevada na expresso facial, conseguem faz-lo, embora neste caso no sejam
mencionados os recursos temporais necessrios a este processamento. No que diz respeito aco
11, a profundidade da regio nasolabial como aco unitria apresenta algumas questes no que diz
respeito a pessoas com idade mais avanada, casos em que este aspecto muitas vezes se verica
independentemente da expresso facial.
Muitos dos estudos considerados no captulo 2 consideram a norma FACS como base, como as
publicaes de Cohn et al. [8], Pantic e Rothkrantz [38], Zhang e Ji [59], Donato et al. [9] e Kaiser et al.
[21].
O primeiro destes estudos [8] aponta para a utilizao das AUs relacionadas com as sobrancelhas,
olhos e boca, estabelecendo um novo conjunto de aces unitrias denidas por uma ou vrias AUs
consideradas na norma FACS. Neste estudo, caractersticas faciais como o queixo e o nariz no so
consideradas particularmente relevantes.
A investigao de Zhang e Ji [59] faz a subdiviso das AUs em dois conjuntos: aces unitrias
primrias e auxiliares, no intuito de adaptar a informao fornecida pelo FACS s seis expresses-base
que considera: alegria, tristeza, repulsa, surpresa, ira e medo. As aces unitrias primrias tm um
peso preponderante no rumo da deciso quanto classicao, enquanto que as auxiliares acabam
por desempenhar um papel de suporte.
De facto, como referido pelos autores, uma expresso facial no mais do que uma combinao
de AUs. Assim sendo, apresentado o conjunto de expresses e as AUs que as caracterizam, dividido
nos dois subconjuntos denidos.
de particular interesse o facto de que, na esmagadora maioria das situaes, os olhos, a boca
e as sobrancelhas so as caractersticas a ter em conta no que diz respeito ao conjunto primrio de
aces que determinam uma expresso. O nariz e o queixo no desempenham, mais uma vez, um
papel de relevo.
31
Este conjunto de factores forneceu umsuporte slido deciso de seleco das sobrancelhas, olhos
e boca como caractersticas a adoptar. Considerou-se que a expressividade destas caractersticas
dispensa a utilizao de outras como o nariz e o queixo.
3.3.2 Modelo de Caractersticas Faciais
De modo a maximizar o desempenho de deteco das caractersticas faciais de interesse, e com o
intuito de fornecer um conjunto de valores de referncia para a extraco de caractersticas, optou-se
pelo desenvolvimento de um modelo do rosto humano. Este modelo possibilita, alm da restrio da
rea de interesse, a estimao da localizao de determinadas caractersticas do rosto quando estas
no so detectadas pelo sistema, seja devido a condies de luminosidade extraordinariamente fracas,
rotao exagerada do rosto ou ocultao de partes da face.
Desta forma, o modelo ajustado dinamicamente aos elementos que vo sendo identicados e,
caso no seja possvel obter uma dada caracterstica na imagem do rosto, usada a caracterstica cor-
respondente disponvel no modelo. Como tal, consegue garantir-se o funcionamento do classicador,
ainda que com menor desempenho, em situaes em que a informao disponvel seja apenas parcial.
O processo de elaborao do modelo exposto de seguida.
Rostos mdios
Investigadores da universidade alem de Regensburg consideram dois rostos mdios para os seus
estudos na rea da psicologia; um rosto masculino e um feminino, como ilustrado na gura 3.5.
(a) Rosto mdio masculino (b) Rosto mdio feminino
Figura 3.5: Rostos mdios (Universitat Regensburg). Fonte: http://www.
uni-regensburg.de
Estes rostos resultaram da mdia de dois conjuntos de amostras, disponveis nas universidades
supracitadas.
32
Fuso de rostos mdios
Uma vez que no presente estudo no se tem em conta o sexo do utilizador, foi criado um modelo hbrido
atravs da fuso de ambos os modelos, recorrendo utilizao de um sofware web
2
. O objectivo
deste modelo foi uniformizar ainda mais as caractersticas faciais, criando um ponto de partida realista
e melhor adaptado s necessidades do estudo. O resultado pode ver-se na gura 3.6.
Figura 3.6: Rosto hbrido mdio criado a partir das imagens mdias masculina e feminina.
Construo do modelo
O modelo desenvolvido consiste num vector de pontos, que denem as caractersticas faciais menci-
onadas na seco 3.3.1. Esse vector de pontos, correspondentes s coordenadas das caractersticas
faciais, ento preenchido de acordo com as dimenses-padro do rosto mdio mencionado acima. O
resultado encontra-se na gura 3.7.
Figura 3.7: Modelo de pontos
O objectivo do modelo facilitar a deteco, uma vez que fornece uma mtrica respectivamente
localizao de caractersticas faciais num rosto.
2
http://www.faceresearch.org/
33
Este elemento apresenta um comportamento elstico, uma vez que se adapta progressivamente s
caractersticas faciais que vo sendo localizadas.
Adicionalmente, a utilizao do modelo como forma de melhorar a deteco baseia-se na substi-
tuio de coordenadas no caso de estas no serem correctamente detectadas, prevenindo possveis
erros. Nestes casos, e uma vez que se trata de um modelo elstico, as coordenadas correspondentes
s caractersticas no detectadas tero o valor que o modelo apresenta partida.
Comparao Modelo da Norma MPEG-4 e Parmetros Faciais
A norma Moving Picture Experts Group Layer-4 Video (MPEG-4) permite a animao fotorealstica do
rosto e expresso facial. Para tal, estabelece um conjunto de mtricas (Facial Denition Parameterss
(FDPs)) que permitem a denio de um conjunto de normas para representao e animao do rosto,
com base nos parmetros do rosto humano [37]. O modelo ilustra-se na gura 3.8.
Figura 3.8: Parmetros do rosto para animao em MPEG-4. Fonte: Pandzic e Forchhei-
mer [37]
Foi feita a comparao do rosto mdio com os parmetros denidos de acordo com a norma MPEG-
4, vericando-se que so praticamente coincidentes nos pontos considerados como caractersticas
de interesse, como exemplicado na gura 3.8. Este factor refora a credibilidade do rosto mdio
considerado e torna este passvel de ser usado como ponto de partida para a construo do modelo de
pontos.
3.3.3 Deteco das Caractersticas Faciais
De um modo genrico, a metodologia utilizada na deteco das vrias caractersticas faciais deu-se em
cinco fases principais, como ilustrado na gura 3.10:
1. Deteco de uma regio de interesse: adoptado um classicador de Haar em cascata, com
recurso biblioteca OpenCV para obter esta rea. Este passo permite a diminuio do peso
34
Figura 3.9: Comparao entre o rosto mdio e os FDPs considerados no vdeo MPEG-4.
Figura 3.10: Metodologia genrica para a deteco de caractersticas faciais
35
computacional necessrio aos passos subsequentes, eliminando elementos irrelevantes;
2. Converso da imagem para escala de cinzentos: Este passo tem como objectivo um pr-
processamento para a aplicao do operador Canny, que manipula uma imagem servindo-se de
apenas um canal. Permite tambm a simplicao do processamento associado ao Gaussian
Blur, uma vez que aplicar a matriz de convoluo correspondente a este algoritmo a apenas um
canal mais eciente do que a sua aplicao aos trs canais de cor;
3. Aplicao de um ltro Gaussian Blur: Este algoritmo permite a eliminao de rudo e outros
artefactos potencialmente desprezveis, tendo como objectivo a extraco de contornos da ima-
gem atravs do operador Canny correspondente fase seguinte da metodologia adoptada. Este
operador, por denio, aplica um Gaussian Blur que visa eliminar rudo inerente a pixeis isola-
dos. No entanto, no caso especco da anlise facial, verica-se que existem inmeros artefactos
de dimenso signicativa no sendo estes, como tal, eliminados pelo Gaussian Blur do Canny.
Conrmou-se experimentalmente, em testes preliminares, que a aplicao de um Gaussian Blur
adicional melhorou signicativamente os resultados obtidos aps a aplicao do operador Canny.
4. Invocao de um algoritmo Canny para deteco de contornos: Esta fase tem como objectivo
uma identicao mais precisa das caractersticas faciais a analisar;
5. Extraco dos pontos exactos da caracterstica facial detectada: Analisando os resultados
obtidos na fase anterior, este passo traduz-se na obteno dos valores correspondentes carac-
terstica detectada.
Deteco de uma regio de interesse - OpenCV
Olhos: So tidos em conta quatro pontos fundamentais em relao deteco do olho: os dois
pontos extremos horizontais e os dois pontos extremos verticais. Estes quatro pontos permitem
obter a largura do olho e a abertura do mesmo, dados fundamentais para a distino entre expres-
ses, de acordo com o que foi discutido na seco 3.3.1. O classicador em cascata foi obtido
atravs de download
3
.
Sempre com o intuito de minimizar o peso computacional das operaes, foi tido em conta que
invariavelmente os olhos se encontram na metade superior do rosto, o que permitiu reduzir para
metade o processamento da imagem.
Sobrancelhas: Alm de que foi impossvel encontrar um classicador treinado para a localizao
das sobrancelhas, o processamento destas pareceu, a priori, plausvel de ser efectuado apenas
com uma extraco de contornos, pelo que este passo no se aplicou no caso desta caracterstica
facial.
No entanto, antes de se implementar a deteco propriamente dita, e mais uma vez de modo a
reduzir ao mximo o peso computacional, deniu-se como regio de interesse, para a deteco de
sobrancelhas, a rea imediatamente acima do ponto extremo vertical mximo do olho esquerdo.
Em suma, tirou-se partido das propriedades de simetria do rosto para maximizar a ecincia de
processamento.
Zhang e Ji [59] mencionam no seu estudo a utilidade das propriedades de simetria do rosto,
apesar de usarem esta informao para obter informao facial redundante.
A deciso de utilizar as propriedades de simetria do rosto como uma medida de simplicao foi
ponderada. Efectivamente, retirada alguma robustez ao sistema no caso em que os utilizadores
padeam de alguma limitao fsica que lhes iniba a movimentao do msculo frontalis (o ms-
3
http://aleReimondo.no-ip.org/OpenCV
36
culo que permite erguer as sobrancelhas) do lado esquerdo do rosto ou em casos de condies de
iluminao que no permitam detectar caractersticas numa das metades do rosto. No entanto,
dado o objectivo de propor um mtodo leve, simples e rpido para a deteco de expresses
faciais, concluiu-se que esta opo seria interessante.
Boca: No caso da boca, os pontos considerados como sendo mais importantes foram, mais uma
vez, os pontos extremos, tanto horizontal como verticalmente. Esta escolha teve em conta os
FDPs relativos ao MPEG-4, alm de que se baseia numa verso simplicada dos pontos que
foram considerados no estudo de Tian et al. [50].
Como tal, e tambm por forma a evitar um processamento mais complexo e pesado, estes pontos
so, tambm neste estudo, considerados necessrios e sucientes para predizer a abertura da
boca e a curvatura dos lbios, possibilitando a classicao de expresses faciais.
A deteco da boca seguiu os mesmos parmetros que a deteco dos olhos, tendo tido um
uxo de desenvolvimento em tudo semelhante. No entanto, o classicador, que se obteve da
mesma fonte que o utilizado para os olhos, no apresentava um desempenho sucientemente
satisfatrio. Com efeito, sem processamento prvio, este classicador encontrava a boca em
locais pouco plausveis do rosto como, por exemplo, o queixo.
Chegou a considerar treinar-se um novo classicador em cascata. No entanto, este processo
implicava a necessidade de um demorado perodo para recolha e treino de amostras, pelo que se
abandonou esta alternativa.
Decidiu, assim, usar-se o classicador disponvel como base para deteco da boca. Neste caso,
teve-se especial cuidado em denir a regio de interesse da boca com base no modelo elstico
referido no captulo 3.3.2.
Aps esta fase, encontrou-se um conjunto de coordenadas, correspondente a uma aproximao da
localizao dos pontos extremos dos olhos e da boca. No entanto, e uma vez que no se conseguiu o
acesso a um classicador que permitisse a deteco exacta dos pontos extremos dos olhos, foi neces-
srio proceder a um conjunto de mtodos adicionais para uma deteco precisa destas caractersticas.
Converso para escala de cinzentos
As pores de imagem correspondentes s caractersticas a detectar foram convertidas para escala de
cinzentos, por forma a permitir o processamento da imagem pelo algoritmo Canny.
Aplicao de um ltro Gaussian Blur
Uma imagem facial, normalmente, alm das caractersticas principais que a descrevem, denida por
uma srie de caractersticas secundrias como rugas ou olheiras. Estes elementos dicultam bas-
tante a tarefa de deteco de caractersticas principais. Torna-se ento necessrio tentar, tanto quanto
possvel, e por forma a no perder informao crucial, atenuar esses aspectos.
O Gaussian Blur um ltro passa-baixo que utiliza uma funo gaussiana para calcular a transfor-
mao a aplicar a cada pixel da imagem. O resultado traduz-se na reduo dos componentes de alta
frequncia da imagem, ou seja, na atenuao das transies abruptas que possam existir entre pixeis,
como pode ver-se na gura 3.11. No caso do rosto humano, um resultado da aplicao deste ltro
ilustrado na gura 3.12.
37
Embora seja de alguma relevncia no caso das sobrancelhas em casos pontuais de muitas linhas
nessa regio do rosto, ou outros elementos faciais, este ltro tem especial importncia na regio dos
olhos (presena de olheiras ou rugas) e da boca, uma vez que no contexto especco deste estudo
conveniente no ter em linha de conta, na fase de deteco, o trao de juno dos lbios ou dentes,
no caso em que a boca esteja aberta, j que foram denidos como pontos de interesse os extremos da
boca.
(a) Antes (b) Depois
Figura 3.11: Aplicao do ltro Gaussian Blur a uma imagem
(a) Antes (b) Depois
Figura 3.12: Aplicao do ltro Gaussian Blur a uma imagem facial para eliminao de
rudo e outros artefactos que possam dicultar o processo de extraco e
classicao. Imagem original: base de dados facial da Universidade de
Dallas [33]
Invocao de um algoritmo Canny para deteco de contornos
O objectivo do algoritmo Canny prende-se com a extraco de contornos de uma dada imagem.
Para tal, este processo baseia-se no clculo do gradiente dessa mesma imagem. A hiptese assu-
mida que um ponto com um valor mais elevado de gradiente tem maior probabilidade de corresponder
a uma aresta do que um de valor mais reduzido. O processo Canny utiliza dois limiares de gradientes
com propsitos distintos. Um primeiro limiar, mais elevado, permite isolar um conjunto de pontos que
tenham uma elevada probabilidade de corresponderem a partes de arestas. Estes elementos so pos-
teriormente prolongados atravs de pontos cujo valor de gradiente esteja acima de um segundo limiar.
38
assim estabelecida a ligao entre os vrios segmentos, obtendo-se um conjunto de arestas que me-
lhor correspondam a fortes candidatos a caractersticas relevantes do rosto. Um exemplo do resultado
da invocao deste operador encontra-se na gura 3.13. O resultado da aplicao do algoritmo Canny
a um rosto humano ilustrado na gura 3.14.
(a) Antes (b) Depois
Figura 3.13: Aplicao do operador Canny a uma imagem
(a) Antes (b) Depois
Figura 3.14: Aplicao do operador Canny a uma imagem facial para deteco de ares-
tas. Imagem original: base de dados facial da Universidade de Dallas [33]
A opo de utilizar o algoritmo Canny prendeu-se com as seguintes consideraes:
Pretendia utilizar-se um algoritmo que fosse implementado pela biblioteca OpenCV. Visto que
esta biblioteca suporta alguns algoritmos de deteco de arestas (Canny, Sobel e Laplace), no
se considerou interessante a implementao de um novo algoritmo;
O algoritmo a adoptar deveria ser relativamente rpido. Neste ponto, todos os disponibilizados
apresentaram resultados bastante bons;
O algoritmo deveria ser minimamente resistente a rudo. Os algoritmos de Sobel e Laplace pre-
sentes na biblioteca apresentavam grande susceptibilidade a rudo nas imagens;
A posio das arestas detectadas deveria ser o mais precisa possvel. Tambm neste ponto o
algoritmo Canny apresenta melhores resultados do que os algoritmos de Sobel ou Laplace.
Extraco dos pontos exactos da caracterstica facial detectada
Aps a invocao do algoritmo Canny, so obtidos todos os pontos correspondentes extraco de
contornos. O processamento geomtrico e ou estatstico desses valores permite obter os pontos de
39
interesse a serem usados na classicao.
No caso dos olhos, os pontos extremos so calculados com base nos pontos mximos e mnimos
encontrados e normalizados de modo a que o resultado nal tenha uma forma simtrica, o que se
consegue atravs da mdia dos pontos.
Em relao boca, o processamento bastante semelhante. Os pontos extremos denem os m-
ximos nos dois eixos e a mdia entre os valores de cada eixo permitem compor uma forma geomtrica.
Finalmente, no que diz respeito s sobrancelhas, calculado o ponto mdio deste elemento, uma
vez que a altura o factor mais importante, aps o que se aproxima o resto da forma desta caracterstica
com base no modelo elstico referido no captulo 3.3.2.
Processo de deteco de caractersticas
A gura 3.15 ilustra as imagens resultantes de cada um dos passos seguidos no mbito desta metodo-
logia.
Figura 3.15: Processamento da imagem durante as cinco fases do processo de deteco
de caractersticas
O grau de preciso de deteco das caractersticas atravs deste mtodo foi bastante satisfatrio,
alm de demonstrar robustez a variaes de condies de luminosidade e expresso facial, como
ilustrado na gura 3.16
Figura 3.16: Deteco de caractersticas
Aps o processamento dos resultados do algoritmo Canny vericou-se que os resultados eram, de
facto, satisfatrios no que diz respeito deteco da boca, como pode ver-se na gura 3.16, com excep-
o de alguns casos de pessoas que apresentavam plos faciais, erro este provavelmente propagado
a partir da prpria funo de deteco da biblioteca OpenCV. A razo inerente a este comportamento
prende-se essencialmente com o facto de o treino do classicador da boca no contar com casos su-
cientes de pessoas com esta caracterstica facial como exemplos positivos.
40
De salientar que este algoritmo apresenta algumas limitaes no que diz respeito deteco da
boca em indivduos de etnia africana. Esta situao explica-se pelo facto de estarmos a utlizar um
detector de contornos para determinar os contornos dos lbios; uma vez que estes indivduos apresen-
tam um menor contraste entre as tonalidades da pele e dos lbios, o algoritmo nem sempre consegue
fazer a deteco com sucesso, utilizando por isso os valores-padro do modelo por impossibilidade de
adaptar este s caractersticas encontradas. Esta situao ilustrada na gura 3.17.
(a) Imagem facial em que a boca
no localizada
(b) Pontos do Modelo (c) Inferncia dos contornos da
boca atravs de adaptao do mo-
delo s caractersticas do rosto lo-
calizadas
Figura 3.17: Utilizao do modelo para estimao do posicionamento da boca
O mesmo acontece quando, perante fracas condies de luminosidade, o utilizador apresenta as so-
brancelhas de uma cor muito semelhante cor da pele. Mais uma vez, nos casos em que a sobrancelha
no detectada, so utilizados os pontos do modelo.
No nal desta fase, dispe-se de um conjunto de coordenadas, que correspondem aos pontos rela-
tivos aos elementos faciais considerados.
3.4 Transformao de Caractersticas para Classicao
Aps a extraco dos elementos principais do rosto, e uma vez que a escolha de caractersticas um
dos pontos mais importantes no sentido de procurar um classicador satisfatrio [32], foi necessrio
seleccionar um conjunto de caractersticas que permitisse maximizar a informao relevante para a
classicao.
De acordo com a norma FACS [15], a expresso num rosto humano determinada a partir de um
conjunto de aces unitrias.
Se, por um lado, os elementos faciais so extremamente expressivos, por outro podem confundir-
se entre si. Como ilustrado na gura 3.21, os olhos semicerrados tanto podem corresponder a uma
expresso de alegria como de ira.
Tal como os olhos, tambm as sobrancelhas e a boca podem transmitir isoladamente diferentes ex-
41
presses. Deste modo, necessrio recorrer, como denido por Ekman e Friesen [15], a combinaes
de diferentes AUs para denir uma dada expresso facial.
De modo a promover uma classicao satisfatria, e a partir das caractersticas mencionadas na
seco 3.3.1, foi feita a transformao para um novo conjunto de caractersticas faciais a ter em conta.
Inicialmente, foram denidas como caractersticas para classicao a distncia entre os olhos e as
sobrancelhas, a abertura dos olhos, a abertura da boca e a largura da mesma.
Aps uma fase de testes preliminares vericou-se a necessidade de introduzir novas caractersticas,
por forma a aumentar a robustez e o sucesso de classicao. Foram ento consideradas a distncia
mdia entre os cantos da boca e os olhos e a distncia mdia entre a altura dos cantos da boca e o
centro deste mesmo elemento.
As vrias caractersticas tidas em conta so abordadas de seguida.
3.4.1 Distncia entre os olhos e as sobrancelhas
Esta caracterstica, denida pela diferena entre o ponto vertical mximo do primeiro olho detectado e
o ponto mdio das sobrancelhas, como ilustrado na gura 3.18, permite determinar a elevao (AUs 1
e 2) ou depresso (AU 4) deste elemento facial.
Figura 3.18: Distncia entre os olhos e as sobrancelhas
A distncia entre os olhos e as sobrancelhas disponibiliza, assim, informao importante para a
classicao das expresses de surpresa, ira e tristeza, como pode vericar-se na gura 3.19
(a) Neutro (b) Surpresa (c) Tristeza (d) Ira
Figura 3.19: Variao da distncia entre os olhos e as sobrancelhas
42
3.4.2 Abertura dos olhos
A abertura dos olhos dene-se pela distncia no eixo dos yy entre o ponto mximo e o ponto mnimo
detectado no olho, de acordo com a gura 3.20.
Figura 3.20: Abertura dos olhos
Esta caracterstica, denida pelas AUs 5, 7, 41, 42 e 43, um factor importante a ter em conta em
vrias expresses; a surpresa normalmente associada a uma abertura pronunciada das plpebras
enquanto que, nos casos da alegria e da ira, estas se encontram semicerradas (em sorrisos muito
acentuados, as plpebras chegam a encontrar-se cerradas), como ilustrado na gura 3.21
(a) Neutro (b) Alegria (c) Ira (d) Surpresa
Figura 3.21: Variao da abertura dos olhos
3.4.3 Abertura da boca
Denida pela distncia vertical (no eixo dos yy) entre os pontos mximo e mnimo detectados na boca,
ilustrados na gura 3.22, esta caracterstica disponibiliza um contributo interessante no que diz respeito
identicao das expresses de surpresa e ira, como apresentado na gura 3.23.
Enquanto que, aquando de uma manifestao de surpresa, os lbios se encontram separados (AUs
25, 26 e 27), apresentando esta caracterstica um valor mais elevado do que na expresso neutra, no
caso de um rosto que exiba a expresso de ira, os lbios esto mais apertados (AUs 24 e 28) do que
no estado neutro.
43
Figura 3.22: Abertura da boca
(a) Neutro (b) Ira (c) Surpresa
Figura 3.23: Variao da abertura da boca
3.4.4 Largura da boca
A largura da boca caracterizada pela variao horizontal mxima detectada para este elemento, ou
seja, a distncia mxima entre os dois extremos da boca no eixo dos xx, de acordo com a gura 3.24.
Figura 3.24: Largura da boca
Permite a diferenciao de vrias expresses, principalmente tristeza/alegria e ira, como ilustrado
na gura 3.25.
Em rostos que exprimem alegria e tristeza verica-se uma distenso dos lbios (AU 13 no caso da
alegria e AUs 14 e 20 na expresso de tristeza). A ira, por sua vez, traduz-se numa compresso da
44
(a) Neutro (b) Alegria (c) Tristeza (d) Ira
Figura 3.25: Variao da largura da boca
boca (AU 23).
Embora esta mtrica disponibilize dados que auxiliem a distino das expresses de tristeza e
alegria das restantes, no permite uma clara diferenciao entre ambas, uma vez que apenas mede a
distncia entre os cantos da boca e no a sua curvatura.
3.4.5 Distncia mdia entre os cantos da boca e os olhos
Esta caracterstica, como apresentado na gura 3.26, denida pela distncia vertical (no eixo dos yy)
entre os cantos da boca e os olhos. considerado o centro do olho como referncia, uma vez que este
ponto o elemento que menos oscila com a abertura e fecho das plpebras. Ainda, com o intuito de
simplicar o processamento, so utilizados valores mdios. Deste modo, calculado o ponto mdio
entre o centro dos dois olhos e o valor mdio dos cantos da boca, aps o que calculada a diferena
entre as ordenadas destes pontos para obteno do valor a utilizar na fase de classicao.
Figura 3.26: Distncia mdia entre os cantos da boca e os olhos
As caractersticas anteriormente abordadas no permitiam distinguir, com um grau de certeza su-
cientemente satisfatrio, as expresses de alegria e tristeza, essenciais para um bom desepenho do
sistema. Como tal, a distncia mdia entre os cantos da boca e os olhos foi adoptada com o intuito de
melhorar o comportamento do classicador no que diz respeito, principalmente, diferenciao entre
45
as expresses supracitadas.
Consequentemente, esta caracterstica fornece um forte contributo para o discernimento entre uma
expresso de alegria, em que os cantos da boca se encontram a uma distncia mais reduzida dos
olhos (AU 13), de uma expresso de tristeza, em que, pelo facto de os cantos da boca sofrerem uma
depresso, o valor da distncia entre estes e os olhos mais elevado (AUs 14 e 20), como ilustrado na
gura 3.27.
(a) Neutro (b) Alegria (c) Tristeza
Figura 3.27: Variao da distncia entre os cantos da boca e os olhos
3.4.6 Distncia mdia entre a altura dos cantos da boca e o centro da boca
A distncia mdia entre a altura dos cantos da boca e o centro da mesma calculada verticalmente no
eixo dos yy, como exposto na gura 3.28.
Figura 3.28: Distncia mdia entre a altura dos cantos e o centro da boca
Esta caracterstica utilizada para reforar a diferenciao entre as expresses de alegria e tristeza,
baseando-se no princpio de curvatura ascendente dos lbios associada, mais uma vez, AU 13 e na
curvatura descendente destes com depresso dos cantos da boca que est ligada s AUs 14 e 20. O
valor para esta caracterstica calculado recorrendo diferena entre o ponto mdio no eixo dos yy
dos cantos da boca e o valor do centro da boca. Para uma expresso de alegria, este valor negativo,
enquanto que para uma expresso de tristeza positivo, como ilustrado na gura 3.29.
O resultado do processamento por este mdulo consiste num conjunto de caractersticas conside-
rado relevante e que possibilita uma subsequente classicao da expresso facial correspondente.
46
(a) Neutro (b) Alegria (c) Tristeza
Figura 3.29: Variao da distncia entre a altura dos cantos e o centro da boca
3.5 Classicao
A classicao consiste na associao de um determinado padro classe em que se enquadra com
recurso a um dado conjunto de parmetros que denem o classicador. O objectivo primordial de um
classicador a inferncia de uma deciso o mais correcta possvel atravs da informao recolhida no
decorrer do processo de treino. A anlise dos resultados obtidos recorrendo a um conjunto de padres
de teste permite, aps tratamento estatstico, averiguar a qualidade do classicador.
Um classicador Bayesiano [42] permite muitas vezes a obteno de resultados bastante bons ape-
sar de ter um peso computacional bastante reduzido.
Este tipo de classicador baseia-se no teorema de Bayes com o pressuposto de que as caracters-
ticas so independentes. Desta forma, a partir do conhecimento, obtido atravs do treino do classica-
dor, de que uma dada caracterstica tem uma determinada probabilidade de surgir ao treinar uma dada
classe, possvel inferir a verosimilhana de, dada essa mesma caracterstica, a amostra pertencer ou
no a uma classe. Visto que assumido que as caractersticas so independentes, no havendo desta
forma qualquer correlao entre a verosimilhana de uma caracterstica e a de outra, o clculo de a
verosimilhana de uma amostra pertencer a uma dada classe apenas necessrio analisar indepen-
dentemente as vrias caractersticas.
Estes classicadores encontram-se geralmente associados a um treino supervisionado. Com efeito,
a classe que gerou cada padro de treino conhecida. A denominao de treino supervisionado tem
que ver com o facto de ser possvel fornecer ao classicador uma estruturao dos padres de treino.
Assim, este no tem de inferir uma estrutura nos dados e utilizar essa nova informao para os dividir
em classes.
No presente trabalho, foram tidos em conta dois tipos de classicadores. Inicialmente, usou-se a
aproximao mais convencional ao classicador Bayesiano. Neste caso o classicador lida com valores
discretos. Visto que os valores associados s caractersticas so contnuos, necessrio associar
estes a um conjunto nito de intervalos de valores. Como tal, so denidos intervalos aos quais so
associados os valores das caractersticas das amostras e todo o processo de classicao feito com
base neste conjunto discreto de intervalos.
No entanto, e uma vez que o ndice de desempenho no estudo que se desenvolveu no se apresen-
tou sucientemente satisfatrio, optou-se posteriormente por um classicador Bayesiano Gaussiano.
47
Neste tipo de classicador, os intervalos so substitudos por um conjunto de Gaussianas (neste caso,
apenas uma por cada caracterstica) que representam os valores de treino das caractersticas.
Desta forma, os valores das probabilidades que so utilizados no primeiro caso so, no segundo,
substitudos pelos valores da Funo Distribuio Acumulada (f.d.a.) de cada Gaussiana.
3.5.1 Classicadores Bayesianos com Intervalos de Deciso Discretos
Amostras de Referncia
O processo de classicao iniciou-se com a realizao de testes a vrias imagens faciais para a obten-
o de valores de referncia para as caractersticas. Este processo permitiu compreender a distribuio
destes valores ao longo do seu domnio.
Segmentao em Intervalos
A partir dos valores obtidos, estimou-se que 5 intervalos seriam o suciente para discretizar o domnio
dos valores de referncia para posterior classicao Bayesiana. Estes intervalos foram criados por
forma a que em cada intervalo estivessem situadas 20% das amostras de referncia supracitadas.
Tendo-se tentado ajustar o nmero de intervalos de modo a avaliar o impacto desta alterao nos
resultados obtidos vericou-se que, com menos intervalos, a qualidade do classicador diminua e que
o aumento do nmero destes no se traduzia em melhorias consistentes.
Treino
Nesta fase so, para cada classe de emoes (alegria, tristeza, neutro, etc.), seleccionadas 10 amostras
pertencentes, e 10 amostras no pertencentes, a essa mesma classe.
Cada uma destas amostras introduzida no mdulo de treino do classicador juntamente com
dados adicionais, constitudos pela denominao da classe a treinar e informao que identica as
amostras como sendo positivas ou negativas. Considera-se como amostra positiva uma que, sendo
classicada no contexto de uma determinada classe, pertence efectivamente a essa classe, e como
amostra negativa aquela que, sendo classicada no contexto de uma dada classe, no pertence de
facto a essa classe.
O mdulo de treino do classicador utiliza esta informao para preencher, para cada classe de
emoo, um conjunto de estruturas de dados que representam a sua base de conhecimento. Estas es-
truturas contabilizam o nmero de amostras positivas e negativas que se enquadram em cada intervalo
de cada caracterstica.
Como tal, se uma determinada caracteristica de uma amostra tem um valor que pertence a deter-
minado intervalo da base de conhecimento, caso a amostra em causa seja positiva incrementado o
nmero de amostras positivas associadas a esse intervalo. Caso contrrio, incrementado o nmero
de amostras negativas associadas ao intervalo em causa.
A distribuio das vrias amostras pelos diversos intervalos de caractersticas traduz-se posterior-
mente nas probabilidades que so apresentadas ao classicador de Bayes. Desta forma, se considerar-
48
mos apenas dois intervalos, com 4 e 6 amostras respectivamente, podemos dizer que a probabilidade
associada ao primeiro de 40% e a associada ao segundo de 60%.
Na gura 3.30 apresentada uma viso esquemtica da representao interna das estruturas de
dados utilizadas.
O processo de treino foi automatizado com recurso a uma aplicao desenvolvida para o efeito.
!"#$ &$ '()*$'+,$)-( . '/"##$ '
0
'"1"'-$12#3'"4 '"1"'-$12#3'"0 '"1"'-$12#3'" )
5,(#-1"#
6(#+37"#
5,(#-"#
)$8"37"#
9)-$17"/( 0
9)-$17"/( 4
:
9)-$17"/( )
*6
0
*6
4
:
*6
)
*)
0
*)
4
:
*)
)
!
!
!"#$ &$ '()*$'+,$)-( . '/"##$ '
)
Figura 3.30: Estruturas de dados preenchidas na fase de treino do classicador de Bayes
com Intervalos de Deciso Discretos
Classicao
A classicao consiste em calcular a verosimilhana de cada caracterstica da amostra a classicar
corresponder a uma dada emoo (pertencer classe correspondente de emoo).
Esta verosimilhana calculada atravs da multiplicao das verosimilhanas de cada caracters-
tica. Consequentemente, para cada caracterstica so calculadas as verosimilhanas dividindo-se o
nmero de hits na classe que pertence caracterstica pelo nmero total de amostras de treino positi-
vas, o que se traduz por
L
c
=
N

f=1
HP
f
TP
f
, (3.1)
em que L
c
a verosimilhana da classe c, HP
f
o nmero de hits positivos para a caracterstica f
e TP
f
o nmero total de amostras de treino positivas para a caracterstica f.
Limitaes do Mtodo
Este mtodo de classicao tem uma desvantagem relativamente relevante, que se prende com o
facto de as caractersticas terem um carcter contnuo e no discreto.
Por exemplo, ao serem utilizados intervalos discretos, existe a possibilidade de a maior das amostras
de treino pertencer a um dado intervalo k e a um outro intervalo k + 2 mas nenhuma estar situada no
49
intervalo k + 1. No entanto, empiricamente sabemos que se a maioria das amostras se situa nos
intervalos k a k + 2, a probabilidade de se situarem amostras no intervalo k + 1 tambm bastante
elevada.
Como tal, de modo a traduzir para o classicador aquilo que se verica empiricamente, optou-se
pela modelao de um conjunto innito de amostras de treino atravs de uma gaussiana, ou seja, de
uma aproximao distribuio normal.
3.5.2 Classicadores Bayesianos Gaussianos
Estimao de Valores de Amostras
Um classicador Bayesiano Gaussiano , no seu funcionamento intrnseco, em tudo anlogo ao classi-
cador de Bayes com Intervalos de Deciso Discretos.
No entanto, no utiliza directamente os valores obtidos atravs das amostras de treino para fa-
zer a classicao, mas sim uma estimao dos valores obtidos para innitas amostras, assumindo
que estas seguem uma distribuio normal. Como tal, considerando o conjunto de valores discretos
{3, 4, 4, 4, 6, 6, 6, 7}, para o caso anterior a probabilidade associada ao valor 5 seria 0. No entanto, se
estimarmos a gaussiana associada a estes valores e obtivermos a verosimilhana do valor 5 verica-
mos que esta bastante alta. Em testes empricos, vericou-se que os valores das amostras seguem
efectivamente este comportamento.
Assim, a verosimilhana de um determinado valor pertencer a uma dada classe calculada a partir
da f.d.a. da distribuio Gaussiana gerada a partir dos valores das amostras de treino. As distribuies
Gaussianas so estimadas atravs da utilizao da mdia e do desvio padro das amostras de teste.
A f.d.a. obtida respeitando a equao:
fda (x) =
1
2
_
1 + erf
_
x

2
__
(3.2)
em que a mdia dos valores das amostras e o desvio padro das mesmas e erf(z) a
funo de erro associada integrao da forma normalizada da funo Gaussiana, denida por
erf(z) =
2

_
z
0
e
t
2
dt, (3.3)
Treino
O treino do classicador mais uma vez efectuado recorrendo tanto a amostras positivas como a amos-
tras negativas, de modo a ser possvel a determinao da verosimilhana de uma amostra pertencer
ou no a uma dada classe.
Nesta fase, so armazenados os seguintes valores para cada caracterstica:
A soma dos valores de todas as amostras, usada no clculo do valor mdio das amostras.
De notar que medida que se faz o treino, e uma vez que o nmero de amostras neste contexto
arbitrrio, no se dispe do valor do divisor. Este valor apenas obtido aquando da classicao.
50
A soma dos quadrados dos valores das amostras, valor que vai ser usado no clculo do desvio-
padro das amostras.
Pela mesma razo do anterior, s pode calcular-se o desvio padro na fase da classicao.
Opta-se, assim, por somar os quadrados dos valores a cada iterao. Para tal, adoptada a
frmula
=

_
_
1
N
N

i=1
x
2
i
_
x
2
=

_
_
1
N
N

i=1
x
2
i
_

_
1
N
N

i=1
x
i
_
2
=
1
N

_
N
_
N

i=1
x
2
i
_

_
N

i=1
x
i
_
2
,
(3.4)
em que N o nmero de amostras, x
i
o valor da amostra i e x a mdia dos valores das amostras
consideradas.
A ttulo de exemplo, para os valores {1, 2, 3, 4} seriam armazenados os valores 1 + 2 + 3 + 4 = 10 e
1
2
+ 2
2
+ 3
2
+ 4
2
= 29.
A gura 3.31 ilustra esquematicamente a representao interna das estruturas de dados adoptadas.
!"#$ &$ '()*$'+,$)-( . '/"##$ '
0
'"1"'-$12#3'"4 '"1"'-$12#3'"0 '"1"'-$12#3'" )
5
+
5
+
4
6
+
6
+
4
!
!
!"#$ &$ '()*$'+,$)-( . '/"##$ '
)
!
"
!
"
!
"
!
"
Figura 3.31: Estruturas de dados preenchidas na fase de treino do classicador Bayesi-
ano Gaussiano
Classicao
O processo de classicao de uma amostra inicia-se atravs do clculo da verosimilhana de cada
caracterstica pertencer a uma dada classe. Este clculo efectuado atravs da obteno do valor da
f.d.a. em relao a uma distribuio normal gerada a partir da mdia e do desvio-padro das amostras
de treino.
51
Alm do clculo da verosimilhana de uma amostra pertencer a uma classe, determinado tambm
o valor da verosimilhana dessa amostra no pertencer a essa classe.
Uma vez obtidos estes dois valores, feita a diviso do primeiro pelo segundo. Este valor representa
quo mais provvel a amostra pertencer classe do que no pertencer a essa mesma classe.
ento multiplicada a verosimilhana de cada caracterstica, sendo assim obtida a verosimilhana
total associada a todas as caractersticas da amostra em causa. A classicao termina com a atribui-
o da amostra classe que apresenta maior verosimilhana.
O processo de classicao traduz-se na frmula
L
c
=
N

f=1
0,5 fda
_
Z
_
x
f
,
p
f
,
p
f
__
0,5 fda
_
Z
_
x
f
,
n
f
,
n
f
__, (3.5)
onde que L
c
a verosimilhana da classe c, x
f
o valor da caracterstica f relativa amostra x,
p
f
a mdia do valor da caracterstica f para as amostras positivas,
p
f
o desvio padro dos valores da
caracterstica f para as amostras postivas,
n
f
a mdia do valor da caracterstica f para as amostras
negativas,
n
f
o desvio padro dos valores da caracterstica f para as amostras negativas e Z(x, , )
o ajuste normal padro obtida com recurso frmula
Z =
X

(3.6)
O classicador associa a amostra classe c cujo valor de L
c
seja maior para essa mesma amostra.
A etapa de classicao naliza o processo de categorizao de expresses. O conjunto de m-
dulos descritos acima compe uma parte fulcral do trabalho desenvolvido uma vez que, a partir desta
implementao, possvel desenvolver um conjunto de aplicaes que tirem partido da classicao
de expresses faciais.
52
Captulo 4
Demonstradores
O cdigo correspondente s funcionalidades desenvolvidas, descritas no captulo 3, foi encapsulado
numa Dynamic-link Library (DLL) reutilizvel e verstil, de modo a possibilitar a utilizao dos algoritmos
desenvolvidos no contexto de diversas aplicaes.
Esta DLL exporta uma interface que permite a utilizao do classicador, bem como a manipulao
da base de conhecimento do mesmo, por qualquer aplicao externa. Para tal so exportadas as
seguintes funes:
std::string get_features(char
*
image_name, int _debug): esta funo permite, a
partir da indicao do path de uma imagem, a obteno de uma string com as features extradas
da imagem;
std::string get_features(IplImage
*
image, int _debug): sendo idntica ante-
rior, esta funo permite obter a mesma string a partir de uma imagem do tipo IplImage denido
no OpenCV;
void init_db(char
*
db_file_name, int _debug): atravs desta funo, possvel ini-
cializar uma nova base de conhecimento;
void add_to_db(char
*
db_file_name, char
*
class_name, bool match,
std::string features, int _debug): esta funo permite adicionar uma nova amostra
base de conhecimento. Para alm de receber o path para a base de conhecimento a utilizar,
recebe tambm o nome da classe a treinar, um booleano indicando se a amostra positiva ou
no e uma string com as caractersticas da amostra, obtida atravs da funo get_features;
void print_db(char
*
db_file_name, int _debug): esta funo permite a visualizao
do contedo de uma base de conhecimento;
std::string classify(char
*
db_file_name, std::string features,
int _debug): esta funo permite a classicao de uma amostra denida pelo parmetro
features, que representa um conjunto de caractersticas de uma amostra, obtido atravs da
funo get_features, em relao base de conhecimento db_file_name.
Recorrendo a estas funes possvel, alm da classicao de amostras, a anlise de determina-
dos passos intermdios da classicao como, por exemplo, a extraco de caractersticas faciais.
Com o intuito de demonstrar o funcionamento desta biblioteca, foram criados trs prottipos. Estes
foram desenvolvidos com recurso linguagem de programao Python e utilizao, alm da biblio-
53
teca desenvolvida no contexto desta tese, dos mdulos wxPython (para o desenvolvimento da interface
grca), pyHook (para a intercepo de eventos globais na plataforma Windows) e pywin32 (para inte-
raco com outras janelas e aplicaes na plataforma Windows.
4.1 Classicao de Expresses Faciais
Este demonstrador ilustra o resultado do processamento da expresso do rosto do utilizador, conside-
rando as expresses passveis de corresponderem ao mesmo. Consiste em dois elementos fundamen-
tais: a captura de vdeo em tempo real e um boto que permite invocar a classicao de expresses.
Quando este evento accionado, capturado um conjunto de imagens e feita a classicao da ex-
presso, sendo apresentado o emoticon correspondente mesma. Adicionalmente, apresentado um
conjunto de grcos correspondentes probabilidade de o rosto apresentar cada uma das expresses
possveis.
Este prottipo permite tambm a indicao, por parte do utilizador, do sucesso ou insucesso da
classicao. O resultado desta, o feedback do utilizador e as imagens capturadas, so armazenados
para posterior anlise. O seu funcionamento exemplicado na gura 4.1.
Figura 4.1: Demonstrador do classicador de expresses faciais
A principal motivao para a criao deste demonstrador prendeu-se com a execuo de testes com
utilizadores para avaliar o funcionamento e o desempenho do classicador.
A sua implementao foi efectuada em Python, tendo-se utilizado a biblioteca desenvolvida no con-
texto desta tese para todo o processo de classicao das expresses faciais.
54
4.2 Insero de Emoticons na Janela Activa
O objectivo deste demonstrador essencialmente ilustrar a funcionalidade do Facial Emoticons de
modo a que seja possvel ao utilizador colocar um emoticon numa qualquer janela que se encontre
activa. O demonstrador corre em background, permitindo a visualizao de uma janela com a captura
de vdeo correspondente cmara do utilizador.
Quando o utilizador pretende inserir um emoticon na janela activa, apenas tem de premir a tecla
F12. O demonstrador efectua a classicao da imagem capturada atravs da cmara do utilizador,
com recurso biblioteca desenvolvida no contexto desta tese, sendo enviada para a aplicao activa a
combinao de teclas necessria para criar o emoticon correspondente emoo detectada.
A gura 4.2 ilustra esta funcionalidade durante a utilizao de uma aplicao de instant messaging.
No entanto, a integrao deste demonstrador com qualquer outra aplicao transparente, tal como
pode vericar-se na gura 4.3.
Este prottipo, extremamente minimalista, pretende demonstrar a possibilidade de uma interaco
simplicada, tirando partido apenas da captura de vdeo e de uma instruo do teclado, permitindo
assim ao utilizador colocar o seu emoticon no cran sem necessidade de saber os atalhos ou percorrer
a lista de emoticons disponveis.
Tal como nos restantes demonstradores, a aplicao apenas implementa a interface e a captura de
vdeo. Todo o processo de classicao da imagem capturada feito de uma forma simples atravs da
interface disponibilizada pela biblioteca.
4.3 E-motional Jukebox
No contexto da disciplina de Interfaces Multimodais Inteligentes, foi desenvolvido um projecto que con-
siste na utilizao de modalidades no convencionais para interaco com um tocador udio. Foi criada
uma interface multimodal que consiste na utilizao de gestos para controle das funes bsicas de u-
dio (como pausa, paragem, navegao entre faixas, etc.), e no reconhecimento de expresses faciais
para classicao de msicas, com o objectivo de dotar a aplicao de um comportamento inteligente.
Esta aplicao utiliza duas cmaras para captar simultaneamente a mo e a face do utilizador. O
reconhecimento gestual efectuado com recurso biblioteca HandVU [25].
O reconhecimento das expresses faciais efectuado atravs da biblioteca desenvolvida no con-
texto deste estudo. No entanto, visto que, no mbito do presente demonstrador no surgiu necessidade
de reconhecimento de expresses que no as de alegria e tristeza, a base de conhecimento usada
com esta aplicao apenas contempla as emoes mencionadas. Contudo, a biblioteca exactamente
a mesma, visto que esta independente do nmero de expresses a reconhecer. Com efeito, a bi-
blioteca limita-se a reconhecer as expresses presentes na base de conhecimento de acordo com os
parmetros existentes na mesma tornando-se, deste modo, extremamente verstil.
Recorrendo s duas expresses supracitadas, possivel a classicao das msicas em 5 grupos
(muito agradvel, agradvel, mdia, desagradvel e muito desagradvel). A expresso facial captada
de 5 em 5 segundos e classicada cumulativamente, por forma a traduzir-se numa apreciao global
ao longo de toda a msica.
55
Figura 4.2: Insero de emoticons na janela activa
56
Figura 4.3: Insero de emoticons na janela activa
57
Figura 4.4: E-motional Jukebox
58
Captulo 5
Avaliao e Resultados Experimentais
Findo o processo de desenvolvimento e implementao do sistema de classicao de expresses
faciais e subsequentes demonstradores, procedeu-se esquematizao e elaborao de um conjunto
de testes que permitisse a obteno de mtricas quantitativas de desempenho.
Ekman e Friesen, nos estudos [14] e [15], deniram seis expresses bsicas alm da expresso
neutra: alegria, tristeza, ira, medo, repulsa e surpresa. No mbito deste estudo, no entanto, as emoes
foram separadas em cinco classes: alegria, tristeza, ira, surpresa e neutra, tentando na generalidade
adoptar as expresses propostas pelos autores supracitados. A principal razo para a excluso das
expresses de repulsa e medo foi o facto de estas serem facilmente confundveis com as restantes.
De facto, em testes preliminares, a expresso de repulsa confundia-se com a expresso de tristeza,
uma vez que activa as AUs 14 e 20, presentes muitas vezes nesta. Igualmente a expresso de medo
denida em parte pelas AUs 1 e 2, presentes tambm na expresso de surpresa.
Foi dada especial relevncia s expresses de alegria e tristeza, devido sua especicidade e s
inmeras aplicaes prticas associadas. Com efeito, o prprio classicador utiliza duas caractersticas
distintas (distncia vertical mdia dos cantos da boca ao centro dos olhos e distncia vertical mdia
entre a altura dos cantos da boca e o centro da mesma) com o propsito de distinguir estas duas
expresses faciais.
Por forma a averiguar o comportamento do sistema, e com o intuito de optimizar o desempenho
do mesmo, foram feitos alguns testes automatizados. Estes testes foram realizados quer com recurso
a imagens existentes numa base de dados facial (testsets), quer com recurso a imagens recolhidas
em ambientes aleatrios de interaco. Alm dos testes ao sistema, foram tambm feitos testes de
referncia, em que a classicao foi efectuada por humanos.
5.1 Avaliao com testsets
O primeiro conjunto de testes, efectuado com o intuito de averiguar o sucesso do classicador de-
senvolvido no mbito do presente estudo, foi realizado com recurso a uma base de dados facial da
Universidade de Dallas [33], qual foi requisitado acesso. Foram utilizadas, assim, imagens de indiv-
duos de idades compreendidas entre os 18 e os 93 anos, pertencentes a diversas etnias (causasiana,
africana e asitica). As 503 amostras subdividem-se em 30 para expresses de ira, 203 de alegria, 54
59
de tristeza, 67 de surpresa, e 237 para a expresso neutra.
Foram considerados dois cenrios de classicao. Um dos cenrios considera a classicao entre
as cinco expresses consideradas no estudo e o outro apenas as expresses de alegria e tristeza.
Para o treino do classicador foram seleccionadas, de forma aleatria, 10 amostras (de utilizado-
res pertencentes base de dados supracitada), correspondentes a cada classe de expresso facial a
considerar no contexto deste estudo (neutra, feliz, triste, irada e surpreendida). As restantes amostras
foram posteriormente utilizadas para a aferio da qualidade do classicador. Assim, para estes tes-
tes, foram consideradas 203 amostras representativas da classe feliz, 41 amostras representativas da
classe irada, 570 amostras representativas da classe neutra, 55 amostras representativas da classe
triste e 67 amostras representativas da classe surpreendida.
A m de optimizar os resultados da classicao, estes testes foram realizados diversas vezes ao
longo das vrias fases de desenvolvimento do sistema. Foram cruciais no que diz respeito ao processo
de deciso acerca das caractersticas a seleccionar para a classicao, uma vez que permitiram en-
contrar o compromisso entre o nmero de caractersticas e o desempenho.
Atravs da classicao e vericao automatizada destas amostras de teste, foi possvel obter m-
tricas representativas da evoluo do classicador. Os valores nais destas mtricas so apresentados
na seco 5.1.1.
A principal mtrica utilizada a taxa de acerto do classicador. Este valor inicialmente calculado
atravs da diviso entre o total de classicaes correctas e o total de classicaes. No entanto, e
visto que para algumas classes existem mais amostras do que para outras, esta taxa de acerto passou
a ser calculada atravs da mdia das taxas de acerto de cada classe, de forma a impedir que o peso
de uma classe no resultado nal fosse muito maior do que o das restantes. Como tal, a taxa de acerto
referida nestes resultados sempre a mdia no ponderada das taxas de acerto parciais de cada
classe considerada.
5.1.1 Resultados obtidos com testsets
Nesta fase preliminar de testes, cujo objectivo foi avaliar o desempenho do classicador atravs de ima-
gem esttica, os resultados para o cenrio com expresses de alegria e tristeza foram os apresentados
na tabela 5.1.
Tabela 5.1: Taxas de acerto para as expresses triste e feliz no contexto dos testsets
Classicao
Feliz Triste Total %Acerto
Feliz 150 52 202 74,26
Triste 7 48 55 87,27
Mdia 80,76
O classicador, de um total de 202 rostos com expresses felizes, classicou 150 como sendo
efectivamente felizes e 52 como expresses tristes. Por outro lado, de um total de 55 rostos tristes, 48
foram correctamente classicados.
60
As percentagens de classicao resumem-se na gura 5.1.
Estes grcos ilustram a divergncia na classicao correcta de caras tristes e alegres. De facto,
aquando da classicao de uma cara triste, obteve-se uma taxa de acerto bastante mais elevada do
que na classicao de um rosto alegre.
Estes resultados ilustram alguma tendncia para a classicao com a classe triste. Tal facto deve-
se essencialmente qualidade das amostras de treino visto que, ao longo do desenvolvimento do
presente estudo, e como apresentado mais frente, com diferentes amostras de treino assim se
obtm diferentes tendncias do classicador para uma ou outra classe.
Os resultados globais da classicao das expresses feliz e triste so ilustrados na gura 5.1.
Como pode vericar-se, a taxa mdia de acerto de cerca de 81%.
!" $!" %!" &!" '!" (!!"
)*+,-
./,01*
")*+,-
"./,01*
(a) Distribuio por classes
!"
"$
%&'(()*+'
%,-*'(()*+'
(b) Taxa de acerto
Figura 5.1: Resultados percentuais para classes feliz e triste com testsets
Analisando os motivos das classicaes incorrectas dividiram-se estas falhas em duas categorias:
Erros na deteco correcta das caractersticas do rosto;
Erros na classicao aps uma extraco correcta das caractersticas.
A distribuio destas falhas para o caso anterior apresentada na gura 5.2.
!"
$$
%&'(')*+(,-.)'- /01
2+*+)*'2'-
%&3'--45)'601 +(('2'
Figura 5.2: Causas de classicaes incorrectas para classes feliz e triste com testsets
Foi feito tambm o treino e classicao para todas as classes de emoes. Os resultados so
apresentados na tabela 5.2 e resumidos na gura 5.3.
Como ilustrado, o classicador tem neste caso uma tendncia para classicar a expresso feliz com
61
uma maior frequncia. No entanto, e apesar deste facto se vericar, para cada grupo de amostras a
classe predominante correspondeu emoo correcta.
Tabela 5.2: Taxas de acerto para todas as classes de expresses no contexto dos test-
sets
Classicao
Irado Feliz Neutro Triste Surp. Total %Acerto.
Irado 17 4 2 4 3 30 56,67
Feliz 5 177 12 6 3 203 87,19
Neutro 19 49 145 14 10 237 61,18
Triste 5 13 8 24 4 54 44,44
Surp. 9 21 10 7 20 67 29,85
Mdia 55,87
!" $!" %!" &!" '!" (!!"
)*+,-
./012
3/45*-
6*175/
84*9*:
")*+,-
"./012
"3/45*-
"6*175/
"84*9:
(a) Distribuio por classes
!"
$$
%&'(()*+'
%,-*'(()*+'
(b) Taxa de acerto
Figura 5.3: Resultados percentuais para todas as classes de expresses com testsets
As causas para a classicao incorrecta encontram-se apresentadas na gura 5.4.
!"
"$
%&'(')*+(,-.)'- /01
2+*+)*'2'-
%&3'--45)'601 +(('2'
Figura 5.4: Causas de classicaes incorrectas para todas as classes de expresses
com testsets
Tendo em conta os resultados no que diz respeito ao treino e classicao com recurso a testsets,
considera-se que uma taxa de acerto de cerca de 81% para o caso em que temos apenas duas classes
62
representa umresultado bastante satisfatrio, embora passvel de melhorias. No caso emque se dispe
de cinco classes de emoes, uma taxa de acerto de cerca de 56% representa tambm um resultado
positivo, tendo em conta o maior nmero de classes entre as quais o classicador tem de optar.
5.2 Avaliao com utilizadores
Neste estudo, torna-se imperativa a compreenso da viabilidade do demonstrador no contexto da sua
utilizao. Trata-se da situao em que o utilizador direcciona a sua expresso facial a uma web-
cam comum, sem preocupaes de maior no que diz respeito postura do rosto, a outros elementos
existentes na imagem ou a condies no ptimas de luminosidade ambiente, esperando uma resposta
rpida por parte do sistema em relao expresso facial que apresenta. O mbito de aplicabilidade
deste estudo tem em conta a interaco em condies normais, isto , sem que haja uma preocupao
acrescida em relao a possveis restries de utilizao. Nos testes concretizados, tentou simular-
se este tipo de situaes, recorrendo a ambientes com condies de luminosidade bastante variveis
(desde salas com fraca iluminao at ambientes exteriores), posicionamento varivel de utilizadores
perante a cmara e indiferenciao entre utilizadores com e sem culos.
Tanto para o levantamento de amostras de treino como para a recolha de informao relativa aos
testes, foi utilizado o demonstrador descrito na seco 4.1. Esta aplicao, em termos gerais, classica
a expresso facial, associando a esta um emoticon, e regista os dados iconogrcos (imagens faciais
de todos os registos expressivos dos utilizadores) e quantitativos (percentagem de verosimilhana para
cada expresso, classe expressiva predominante e informao acerca da correco do classicador)
para posterior tratamento e anlise.
5.2.1 Protocolo de recolha de dados
Foram explicados, a cada utilizador, os objectivos e o contexto do estudo. De seguida, foi pedido a
cada indivduo que, em frente cmara, tentasse aproximar o seu rosto das expresses neutra, feliz,
triste, irada e surpreendida. Ao mesmo tempo que os utilizadores exibiam as expresses, era dada a
instruo de classicao ao demonstrador. Este, aps processamento da imagem recolhida aquando
da gerao do evento, procedia representao iconogrca da expresso. Pediu-se aos utilizado-
res que, aps a categorizao dos dados e conseguente apresentao do emoticon correspondente
expresso predominante, dessem feedback acerca da correco da avaliao, atravs do boto cor-
respondente a correcto ou incorrecto. Este processo repetiu-se para todas as expresses de cada
utilizador.
A recolha de dados para treino e testes foi realizada em ambientes distintos, tanto exteriores como
interiores, com condies de luminosidade variveis. Foi, ainda, dada liberdade aos utilizadores quanto
postura relativamente cmara. Estes factores so importantes na simulao de um cenrio de
utilizao real. No entanto, tal como a qualidade varivel das webcam, implicam um impacto negativo
nos resultados obtidos.
Numa primeira sesso de recolha de dados, foi feito o levantamento de amostras para 30 utiliza-
dores. A cada uma destas pessoas foi feita a recolha de dados referentes s seis expresses faciais
supracitadas. O objectivo era usar a informao correspondente para dotar a base de dados de treino
63
de amostras representativas de um universo de estudo mais abrangente.
Na segunda sesso, obteve-se informao facial de teste referente a 37 utilizadores, sendo regis-
tados os dados para posterior anlise e tratamento. A metodologia foi anloga seguida na primeira
sesso de levantamento de amostras.
Por forma a minimizar qualquer tendncia nos resultados, todos os participantes de ambas as ses-
ses so distintos.
No entanto, aps os primeiros resultados, apresentados na seco 5.2.2, optou-se por estudar o
comportamento do classicador reduzindo o nmero de amostras de treino para 10. Aps estes testes
decidiu tambm estudar-se a evoluo dos resultados mantendo o mesmo nmero de amostras de
treino mas, desta vez, utilizar para treino as amostras da base de imagens correspondente aos testsets
[33], e no as obtidas atravs da captura de vdeo.
O nmero total de amostras recolhidas foi de 67 para cada expresso. As amostras de teste utili-
zadas foram sempre a totalidade das que restavam aps a subtraco das necessrias para o treino.
importante no entanto referir que nem todas as amostras de treino surgem indicadas nos resultados
nais. A discrepncia, embora pequena, deve-se a imagens nas quais no foi possvel, por parte do
sistema, a identicao de um rosto para classicao.
Posteriormente foram tambm capturadas 10 amostras extra para cada expresso com o objectivo
de efectuar novos testes. Estes testes tiveram como objectivo o estudo da possibilidade de recorrer a
vrios frames para a classicao da expresso facial. Como tal, cada uma destas amostras consistiu
na captura de 10 frames. A captura foi efectuada em condies idnticas s capturas anteriores no
sentido de simular situaes reais.
5.2.2 Resultados da Avaliao com Utilizadores
Os resultados aqui apresentados tentam estudar e ilustrar o funcionamento do classicador numa si-
tuao de utilizao real com recurso a uma webcam tradicional. Tal como na seco anterior, foram
efectuados testes com o intuito de classicar expresses felizes e tristes e tambm testes com o objec-
tivo de classicar expresses nas cinco variantes anteriormente mencionadas.
Resultados com 30 amostras de treino
Os primeiros testes foramefectuados comuma base de conhecimento populada atravs de 30 amostras
de treino para cada expresso. No caso da classicao entre as expresses feliz e triste, os resultados
so sumarizados na tabela 5.3 e ilustrados gracamente na gura 5.5.
64
Tabela 5.3: Taxas de acerto para as expresses feliz e triste em testes com utilizadores
usando 30 amostras de treino
Classicao
Feliz Triste Total %Acerto
Feliz 25 12 37 67,57
Triste 13 24 37 64,86
Mdia 66,22
!" $!" %!" &!" '!" (!!"
)*+,-
./,01*
")*+,-
"./,01*
(a) Distribuio por classes
!!
#$
%&'(()*+'
%,-*'(()*+'
(b) Taxa de acerto
Figura 5.5: Resultados percentuais para as classes feliz e triste em testes com utilizado-
res, usando 30 amostras de treino
Neste contexto no j vericada a tendncia para a classicao na classe feliz que existia
aquando dos testes realizados com recurso aos testsets. Com efeito, os resultados so mais equili-
brados mas, embora se tenha obtido uma taxa de sucesso prxima dos 70%, no so, globalmente,
to satisfatrios como os correspondentes aos testsets. Tal deve-se ao facto de as fotograas utilizadas
para a classicao padecerem de falta de qualidade, questo que elaborada nos testes seguintes.
No caso dos testes efectuados para todas as expresses faciais consideradas, os resultados so
apresentados na tabela 5.4 e resumidos na gura 5.6.
65
Tabela 5.4: Taxas de acerto para todas as expresses faciais em testes com utilizadores,
usando 30 amostras de treino
Classicao
Irado Feliz Neutro Triste Surp. Total %Acerto.
Irado 1 0 25 2 9 37 2,70
Feliz 1 0 32 1 3 37 0,00
Neutro 1 1 27 2 6 37 72,97
Triste 3 0 28 2 4 37 5,41
Surp. 0 0 32 1 4 37 10,81
Mdia 18,38
!" $!" %!" &!" '!" (!!"
)*+,-
./012
3/45*-
6*175/
84*9*:
")*+,-
"./012
"3/45*-
"6*175/
"84*9:
(a) Distribuio por classes
!"
"$
%&'(()*+'
%,-*'(()*+'
(b) Taxa de acerto
Figura 5.6: Resultados percentuais para todas as expresses faciais em testes com utili-
zadores, usando 30 amostras de treino
Neste caso, torna-se claro que a maior parte das amostras foram classicadas como neutras, prova-
velmente devido a uma sobre-especializao do classicador. De facto, comparado a um classicador
aleatrio, que classicaria 20% de amostras em cada classe, o resultado obtido inferior.
Resultados com 10 amostras de treino
Com o intuito de solucionar o problema da sobre-especializao do classicador foram tambm efec-
tuados testes com apenas 10 amostras de treino. Os resultados obtidos com estes testes para a
classicao de expressoes feliz e triste podem ser consultados na tabela 5.5 e na gura 5.7.
66
Tabela 5.5: Taxas de acerto para as expresses feliz e triste em testes com utilizadores,
usando 10 amostras de treino
Classicao
Feliz Triste Total %Acerto
Feliz 31 25 56 55,36
Triste 22 33 55 60,00
Mdia 57,66
!" $!" %!" &!" '!" (!!"
)*+,-
./,01*
")*+,-
"./,01*
(a) Distribuio por classes
!"
$%
&'())*+,(
&-.+())*+,(
(b) Taxa de acerto
Figura 5.7: Resultados percentuais para as expresses alegre e triste em testes com
utilizadores, usando 10 amostras de treino
No caso da classicao com todas as expresses consideradas, o resultado apresentado na
tabela 5.6 e resumido na gura 5.8.
Tabela 5.6: Taxas de acerto para todas as expresses faciais em testes com utilizadores,
usando 10 amostras de treino
Classicao
Irado Feliz Neutro Triste Surp. Total %Acerto.
Irado 12 11 10 6 16 55 21,82
Feliz 9 7 14 5 21 56 12,50
Neutro 8 6 14 6 20 54 25,93
Triste 5 6 18 11 15 55 20,00
Surp. 9 6 17 5 20 57 35,09
Mdia 23,07
Aps a alterao do nmero de amostras de treino deu-se uma melhoria nos resultados. No entanto,
estes no so ainda considerados satisfatrios.
67
!" $!" %!" &!" '!" (!!"
)*+,-
./012
3/45*-
6*175/
84*9*:
")*+,-
"./012
"3/45*-
"6*175/
"84*9:
(a) Distribuio por classes
!"
$$
%&'(()*+'
%,-*'(()*+'
(b) Taxa de acerto
Figura 5.8: Resultados percentuais para todas as expresses faciais em testes com utili-
zadores, usando 10 amostras de treino
Resultados com 10 amostras de treino dos testsets
Com o intuito de melhorar os resultados, foi feito o treino do utilizador com recurso s amostras existen-
tes na base de dados dos testsets, visto estas serem de melhor qualidade. A utilizao destas amostras
para treino, que se traduziu num impacto signicativo no resultado nal, provou a relevncia da quali-
dade das imagens de treino para melhor desempenho do classicador. Os resultados para o caso da
classicao de expresses de alegria e tristeza so apresentados na tabela 5.8 e na gura 5.9. Foram
tambm analisadas as percentagens de falhas provocadas pela m deteco de caractersticas faciais
e pela m classicao aps a deteco correcta das caractersticas. Os resultados obtidos para este
caso podem ser consultados na gura 5.10.
Tabela 5.7: Taxas de acerto para as expresses feliz e triste em testes com utilizadores,
usando 10 amostras de treino da base de dados dos testsets
Classicao
Feliz Triste Total %Acerto
Feliz 42 14 56 75,00
Triste 16 39 55 70,91
Mdia 72,95
68
!" $!" %!" &!" '!" (!!"
)*+,-
./,01*
")*+,-
"./,01*
(a) Distribuio por classes
!"
$!
%&'(()*+'
%,-*'(()*+'
(b) Taxa de acerto
Figura 5.9: Resultados percentuais para as expresses alegre e triste em testes com
utilizadores, usando 10 amostras de treino da base de dados dos testsets
!"
"$
%&'(')*+(,-.)'- /01
2+*+)*'2'-
%&3'--45)'601 +(('2'
Figura 5.10: Causas de classicaes incorrectas para classes feliz e triste em testes
com utilizadores
Para o caso da classicao das cinco emoes consideradas, os resultados so ilustrados na
tabela 5.8 e sumarizados na gura 5.11. A anlise dos motivos para as classicaes incorrectas
encontra-se apresentada na gura 5.12.
Tabela 5.8: Taxas de acerto para todas as expresses faciais em testes com utilizadores,
usando 10 amostras de treino da base de dados dos testsets
Classicao
Irado Feliz Neutro Triste Surp. Total %Acerto
Irado 21 19 7 2 4 53 39,62
Feliz 9 28 8 5 6 56 50,00
Neutro 14 12 20 4 4 54 37,04
Triste 10 13 11 16 5 55 29,09
Surp. 9 17 10 2 19 57 33,33
Mdia 37,82
69
!" $!" %!" &!" '!" (!!"
)*+,-
./012
3/45*-
6*175/
84*9:
")*+,-
"./012
"3/45*-
"6*175/
"84*9:
(a) Distribuio por classes
!"
$%
&'())*+,(
&-.+())*+,(
(b) Taxa de acerto
Figura 5.11: Resultados percentuais para todas as expresses faciais em testes com uti-
lizadores, usando 10 amostras de treino da base de dados dos testsets
!"
$%
&'()(*+,)-./*(. 012
3,+,*+(3(.
&'4(..56*(712 ,))(3(
Figura 5.12: Causas de classicaes incorrectas para todas as classes de expresses
em testes com utilizadores
Resultados com 10 frames por expresso
Decidiu-se tambm uma abordagem alternativa no sentido de atingir nveis de performance mais eleva-
dos. Esta abordagem consiste na utilizao de vrios frames da captura vdeo para a classicao da
expresso. Esta classicao baseou-se na classicao de cada frame individual, considerando-se a
expresso maioritria como a classe a que pertence o conjunto de frames.
Neste sentido foram feitos testes adicionais para vericar a viabilidade desta abordagem. Utilizou-se
para a classicao uma sequncia de 10 frames. Embora esta abordagem possa por em causa os re-
quisitos de tempo-real, considerou-se que seria pelo menos interessante vericar qual o seu contributo
para a melhoria da qualidade do classicador.
Para estes testes apenas foi possvel ter disponvel um conjunto de 10 amostras para cada classe a
classicar, pelo que dever ser considerada uma margem de erro nos resultados obtidos.
Os resultados obtidos para a classicao das expresses de alegria e tristeza encontram-se na
tabela 5.9 e resumidos na gura 5.13.
70
Tabela 5.9: Taxas de acerto para as expresses feliz e triste em testes com utilizadores,
usando 10 frames por expresso
Classicao
Feliz Triste Total %Acerto
Feliz 8 2 10 80,00
Triste 1 9 10 90,00
Mdia 85,00
!" $!" %!" &!" '!" (!!"
)*+,-
./,01*
")*+,-
"./,01*
(a) Distribuio por classes
!"
$"
%&'(()*+'
%,-*'(()*+'
(b) Taxa de acerto
Figura 5.13: Resultados percentuais para as expresses alegre e triste em testes com
utilizadores, usando 10 frames por expresso
Mesmo considerando uma eventual margem de erro, os resultados obtidos para este caso so
bastante promissores. Para o caso da classicao aplicada a todas as classes de expresses os
resultados obtidos podem ser consultados na tabela 5.10 e na gura 5.14.
Tabela 5.10: Taxas de acerto para todas as expresses faciais em testes com utilizado-
res, usando 10 frames por expresso
Classicao
Irado Feliz Neutro Triste Surp. Total %Acerto
Irado 5 1 0 3 1 10 50,00
Feliz 1 7 0 1 1 10 70,00
Neutro 2 3 2 1 2 10 20,00
Triste 1 1 0 6 2 10 60,00
Surp. 0 1 0 3 6 10 60,00
Mdia 59,09
71
!" $!" %!" &!" '!" (!!"
)*+,-
./012
3/45*-
6*175/
84*9*:
")*+,-
"./012
"3/45*-
"6*175/
"84*9:
(a) Distribuio por classes
!"
$%
&'())*+,(
&-.+())*+,(
(b) Taxa de acerto
Figura 5.14: Resultados percentuais para todas as expresses faciais em testes com uti-
lizadores, usando 10 frames por expresso
Tambm neste caso se vericou uma melhoria considervel dos resultados, ainda que custa de
alguma latncia na classicao, visto que o algoritmo, ao classicar 10 frames, efectivamente 10
vezes mais lento. Em termos de taxas de sucesso, apenas o reconhecimento da classe neutra se
revelou algo frgil, uma vez que as taxas de acerto nas restantes classes so bastante promissoras.
5.2.3 Anlise de Resultados
De uma forma geral, os resultados obtidos na sequncia dos testes efectuados foram satisfatrios e
encontram-se dentro dos objectivos traados para este estudo. Atingiu-se uma taxa de acerto de cerca
de 81% para uma distino entre as expresses feliz e triste, e uma taxa de acerto de cerca de 56%
para uma distino entre cinco estados emocionais distintos.
, no entanto, notrio que estes resultados esto muito dependentes do treino efectuado e da quali-
dade das amostras usadas, quer no processo de treino, quer no processo de classicao. Com efeito,
vericou-se que os resultados obtidos com as imagens dos testsets so sempre superiores aos obtidos
nos testes com utilizadores. Vericou-se tambm que, na impossibilidade de se efectuar a classicao
com imagens de boa qualidade, a utilizao de imagens de boa qualidade para o treino do classicador
permite, s por si, uma melhoria signicativa dos resultados nais.
A comparao dos resultados obtidos atravs da utilizao de:
amostras de fraca qualidade para teste e treino;
amostras de fraca qualidade para teste e boa qualidade para treino; e
amostras de boa qualidade para teste e treino,
mostra que a qualidade das amostras tem um impacto signicativo nos resultados obtidos.
Existem alguns outros factores que restringem os resultados a valores menos favorveis, dicul-
tando o processo de classicao. Alguns exemplos destas variveis, como um posicionamento exage-
radamente lateral do indivduo perante a cmara, iluminao deciente ou transposio incorrecta da
expresso pretendida, so ilustrados na gura 5.15.
Foram tambm efectuados testes nos sentido de vericar a hiptese de efectuar uma classicao
ao longo de vrias frames de vdeo. Estes testes apresentaram resultados promissores sendo que para
72
(a) Posicionamento lateral (b) Fraca iluminao (c) Expresso zangado pouco realista
Figura 5.15: Factores de inuncia na classicao
o caso da classicao de feliz e triste a taxa de acerto foi de 85% e no caso de todas as expresses
foi de cerca de 60%.
Quanto ao nmero de amostras utilizadas para o treino do classicador, os resultados globais no
so conclusivos. Se, no caso da classicao com cinco classes de emoes, parece ter existido
uma clara sobre-especializao do classicador por excesso de amostras de treino, eventualmente
devido a alguma falta de qualidade das mesmas, no caso da classicao com apenas duas emoes,
os resultados com 30 amostras de treino foram superiores aos resultados com apenas 10 amostras
de treino. Ainda assim, verica-se que mais importante que a quantidade de amostras de treino a
qualidade das mesmas.
tambm evidente, a partir dos resultados obtidos, que uma melhoria dos processos de deteco
das caractersticas faciais pode representar uma evoluo muito acentuada da qualidade nal do classi-
cador, visto que entre 60% a 80% das falhas de classicao caram a dever-se a falhas na deteco
das caractersticas faciais.
Verica-se tambm que, em funo das amostras utilizadas para o treino, o classicador pode de-
monstrar uma maior tendncia para classicar mais amostras como pertencendo a determinadas clas-
ses. Este problema vericou-se desde o incio dos testes e, apesar de no ter sido aprofundado, parece
ter que ver com o desvio-padro das normais utilizadas na classicao. Assim, e tendo em conta que,
de acordo com o algoritmo utilizado, cada classe representada no classicador como um conjunto
de gaussianas, classes cujas gaussianas tenham desvios-padro muito maiores que as restantes re-
presentam tendncias do classicador. Como tal, em casos mais prximos da fronteira de deciso, o
classicador ter tendncia para optar pelas classes com maiores desvios-padro.
5.3 Testes de Referncia
Com o intuito de contextualizar os resultados obtidos atravs do mdulo de classicao automtica de
expresses faciais, foram feitos alguns testes com utilizadores. Durante estes testes, foram apresen-
tadas as imagens faciais correspondentes recolha de amostras, efectuada no contexto do presente
estudo, a um conjunto de 10 pessoas. As imagens adoptadas consistem num conjunto de 67 rostos
de indivduos distintos por expresso facial. Os utilizadores zeram a classicao de cada uma das
imagens independentemente, sendo estas apresentadas por ordem aleatria. Por forma a seguir a me-
73
todologia adoptada no contexto dos testes, tambm neste caso foi feita a classicao em dois cenrios
distintos: expresses de alegria e tristeza e todas as expresses consideradas neste trabalho.
Os resultados dos testes para o primeiro caso so apresentados na tabela 5.11 e sumarizados na
gura 5.16.
Tabela 5.11: Taxas de acerto para as expresses feliz e triste em testes com utilizadores,
usando 10 frames por expresso
Classicao
Feliz Triste Total %Acerto
Feliz 8 651 670 97,16
Triste 36 634 670 94,63
Mdia 95,89
!" $!" %!" &!" '!" (!!"
)*+,-
./,01*
")*+,-
"./,01*
(a) Distribuio por classes
!"
$
%&'(()*+'
%,-*'(()*+'
(b) Taxa de acerto
Figura 5.16: Resultados percentuais para as expresses alegre e triste em testes com
utilizadores, usando 10 frames por expresso
Estes testes conrmam a facilidade inerente ao ser humano em distinguir a expresso de alegria da
expresso de tristeza, da qual ser desejvel uma aproximao por parte de umsistema computarizado.
No entanto, e como pode vericar-se atravs da observao da tabela 5.12 e da gura 5.17, tal no
ocorre com uma taxa de sucesso to elevada para todas as expresses.
74
Tabela 5.12: Taxas de acerto para todas as expresses faciais em testes com utilizado-
res, usando 10 frames por expresso
Classicao
Irado Feliz Neutro Triste Surp. Total %Acerto
Irado 392 12 116 145 5 670 58,51
Feliz 38 465 62 27 78 670 69,40
Neutro 146 52 336 99 37 670 50,15
Triste 46 17 156 451 0 670 67,31
Surp. 72 43 13 34 508 670 75,82
Mdia 64,24
!" $!" %!" &!" '!" (!!"
)*+,-
./012
3/45*-
6*175/
84*9:
")*+,-
"./012
"3/45*-
"6*175/
"84*9:
(a) Distribuio por classes
!"
$!
%&'(()*+'
%,-*'(()*+'
(b) Taxa de acerto
Figura 5.17: Resultados percentuais para todas as expresses faciais em testes com uti-
lizadores, usando 10 frames por expresso
Efectivamente, no caso em que utilizadores humanos classicaram rostos correspondentes a todas
as expresses consideradas no mbito deste estudo, a taxa de sucesso ronda os 64%. No grco da -
gura 5.18 so resumidos os resultados dos testes para o classicador e os testes em que as expresses
foram classicadas por humanos. 65% de sucesso para todas as expresses face aos 59% obtidos pelo
classicador, constata-se um desempenho quantitativo por parte do sistema correspondente a cerca de
92% do desempenho do ser humano. J para o caso de alegria versus tristeza, os resultados rondam
os 89% comparativamente ao ser humano.
75
!" $!" %!" &!" '!" (!!"
)*+,- ,- ./01.--2.-
34.516, 7-8 )16-9.:,
;<=,>*-
?4,--6@A,+*1
Figura 5.18: Resultados comparativos entre a classicao automtica e a classicao
por utilizadores
76
Captulo 6
Concluses e Trabalho Futuro
A motivao principal para o presente estudo prendeu-se essencialmente com o desenvolvimento de
um mtodo de interaco que permitisse o reconhecimento e classicao de expresses faciais com
o objectivo de criar um novo canal de interaco entre o utilizador e o sistema computacional.
Para tal, foi necessrio encontrar uma soluo de reconhecimento e classicao facial que se tradu-
zisse numa taxa de acerto signicativa, penalizando ao mnimo a uidez da interaco entre utilizador e
a mquina. Esta necessidade traduziu-se na procura de algoritmos sucientemente leves, de um ponto
de vista computacional, mas que ainda assim permitissem resultados que no comprometessem o seu
funcionamento.
Neste contexto foi desenvolvida uma biblioteca que permite a incluso de toda a funcionalidade
de reconhecimento de expresses faciais em qualquer aplicao com um mnimo de esforo. Esta
biblioteca responsvel, quer pelo treino do classicador e consequente preenchimento da base de
conhecimento, quer pela classicao de amostras. Permite ainda a consulta da base de conhecimento
e a obteno de informao sobre o funcionamento interno do classicador.
Com o intuito de exemplicar o funcionamento desta biblioteca, bem como no sentido de efectuar
testes com utilizadores, foram desenvolvidos trs demonstradores que fazem uso da mesma. O pri-
meiro, que foi utilizado nos testes, permite a classicao automtica de expresses faciais, bem como
a indicao dos nveis de verosimilhana de cada uma das expresses, e a indicao por parte do
utilizador da correco desta classicao. A segunda aplicao consiste na insero de emoticons,
gerados automaticamente a partir do reconhecimento facial efectuado pela aplicao a correr em se-
gundo plano, na janela activa, como seja, a ttulo de exemplo, uma aplicao de instant messaging. Por
m, o terceiro demonstrador, foi criado no contexto de um projecto para a disciplina de Interface Multi-
modais Inteligentes e consiste num tocador udio que permite a classicao automtica de msicas
atravs da anlise peridica da expresso facial do utilizador.
Posteriormente foram efectuados testes com utilizadores, bem como testes automatizados com re-
curso a bases de dados de imagens, que permitiram a obteno de mtricas referentes ao desempenho
do classicador utilizado.
77
6.1 Concluses nais e discusso
Este estudo explora uma possibilidade de interaco entre a pessoa e o sistema computarizado, base-
ada no reconhecimento de expresses faciais como modalidade no convencional de interaco.
O desenvolvimento de uma biblioteca de fcil utilizao permite a adopo, por qualquer tipo de
aplicaes, das funcionalidades aqui apresentadas.
No caso da distino entre um utilizador feliz e triste conseguiram-se taxas de acerto de mais de
80%. No caso em que se tenta distinguir entre cinco expresses diferentes (irado, feliz, neutro, triste e
surpreendido) esta taxa de sucesso ronda os 55%.
Apesar de o cdigo desenvolvido no se encontrar optimizado e de a prpria biblioteca ter sido
gerada sem qualquer tipo de optimizaes ao nvel do compilador, os algoritmos implementados so
leves e permitem um bom desempenho temporal. Com a actual implementao conseguiram-se clas-
sicaes bem sucedidas em menos de 1 segundo. Com a optimizao do cdigo e do processo de
compilao estes valores caro certamente bastante prximos do tempo-real, se se considerar acei-
tvel um atraso de resposta de poucas dcimas de segundo.
Nos testes efectuados com a classicao de vrias frames foi obtida uma taxa de acerto de 85%
para a classicao entre feliz e triste e de cerca de 60% para a classicao com todas as classes.
Estes testes foram efectuados com 10 frames consecutivas. No entanto, dependendo do desempenho
temporal do classicador optimizado, este processo pode ser demasiado lento. Tendo em conta os
resultados promissores que foram obtidos, ser interessante o aprofundamento futuro deste estudo e a
avaliao do desempenho do classicador com recurso a menos frames, por forma a maximizar o seu
desempenho temporal sem comprometer as taxas de sucesso.
Existem, no entanto, aspectos que carecem de melhorias futuras. Ser desejvel posteriormente
atingir taxas de sucesso para uma distino entre duas expresses faciais que se aproximem mais dos
90%. Para tal ser necessrio colmatar alguns dos aspectos que, durante o desenvolvimento deste
estudo, se revelaram mais frgeis. Dentro do processo de extraco de caractersticas do rosto, as
etapas que apresentam menor abilidade so a deteco dos olhos atravs das cascatas de Haar
implementadas pela biblioteca OpenCV e o processo de deteco dos contornos da boca.
No primeiro caso, a soluo poder passar por um novo treino das cascatas de Haar. Este processo,
sendo de certa forma moroso, encontra-se fora do mbito deste estudo tendo sido utilizada uma base
de treino disponvel livremente na Internet.
Quanto ao segundo caso ser certamente necessrio melhorar o mecanismo utilizado para a detec-
o dos contornos da boca. Com efeito, no presente estudo, esta deteco baseou-se principalmente
nas arestas detectadas atravs de um algoritmo de deteco de arestas. No entanto poder ser interes-
sante abordar a deteco dos contornos da boca com recurso a outro tipo de informao como sejam
variaes de cr ou de luminosidade. Tal aproximao poder tambm permitir uma maior robustez em
relao existncia de plos faciais, factor que pode inuenciar o detector de arestas.
Tambm fora do mbito deste trabalho cou a utilizao dos diferenciais da face associados a uma
captura de vdeo. Com efeito, todo o processo de classicao baseia-se actualmente na informao
presente numa nica imagem ou num conjunto de imagens. A utilizao da informao referente
alterao dos elementos faciais ao longo do vdeo pode permitir, no s diminuir o processamento ne-
cessrio extraco de caractersticas numa determinada imagem, mas tambm fornecer informao
adicional ao classicador e, consequentemente, melhorar o seu desempenho.
78
Uma abordagem interessante que poderia introduzir melhorias na qualidade da classicao e na
sua ecincia temporal, acelerando o processo, passaria pela atribuio de diferentes pesos s carac-
tersticas, dependendo da expresso a ser analisada. Para a atribuio destes pesos, poderia usar-se
uma PCA, que permitiria a obteno das caractersticas com maior contributo para cada classicao
especca, de uma forma automatizada.
Para melhoria de desempenho em termos qualitativos, poderia considerar-se uma aproximao re-
levante ao treino do classicador que passaria por um treino adaptado a cada utilizador especco. Esta
situao faz sentido no principal cenrio de interaco considerado, em que o utilizador interage com
o sistema a partir do seu prprio computador. Com efeito, uma adaptao da base de conhecimento a
cada utilizador pode permitir ganhos de desempenho bastante signicativos.
79
80
Bibliograa
[1] M. Bartlett, G. Littlewort, B. Braathen, T. Sejnowski, and J. Movellan. A prototype for automatic
recognition of spontaneous facial actions. In Advances in Neural Information Processing Systems,
volume 15, pages 12711278. MIT Press, 2003.
[2] J. Bassili. Facial motion in the perception of faces and of emotional expression. In J. Experimental
Psychology, volume 4, pages 373379, 1978.
[3] M. Black and Y. Yacoob. Tracking and recognizing rigid and non-rigid facial motions using local
parametric models of image motions. In Proc. International Conf. Computer Vision, pages 374
381, 1995.
[4] M. Black and Y. Yacoob. Recognizing facial expressions in image sequences using local para-
metrized models of image motion. In International J. Computer Vision, volume 25, pages 2348,
1997.
[5] V. Bruce. Recognizing Faces. Lawrence Erlbaum Associates, London, 1988.
[6] J. Cao and C. Tong. Facial expression recognition based on lbp-ehmm. In Congress on Image and
Signal Processing, 2008. CISP 08, pages 371375. IEEE, 2008.
[7] I. Cohen, N. Sebe, F. Cozman, and T. Huang. Semi-supervised learning for facial expression
recognition. In MIR 03: Proceedings of the 5th ACM SIGMM international workshop on Multimedia
information retrieval, pages 1722, New York, NY, USA, 2003. ACM Press.
[8] J. Cohn, A. Zlochower, J. Lien, and T. Kanade. Feature-point tracking by optical ow discriminates
subtle differences in facial expression. In Proc. International Conf. Automatic Face and Gesture
Recognition, pages 396401, 1998.
[9] G. Donato, M. Bartlett, J. Hager, P. Ekman, and T. Sejnowski. Classifying facial actions. IEEE Trans.
Pattern Anal. Mach. Intell., 21(10):974989, 1999.
[10] G.J. Edwards, T.F. Cootes, and C.J. Taylor. Face recognition using active appearance models. In
Proc. European Conf. Computer Vision, volume 2, pages 581695, 1998.
[11] P. Eisert and B. Girod. Facial expression analysis for model-based coding of video sequences. In
Proc. Picture Coding Symposium, pages 3338, 1997.
[12] P. Ekman. Emotion in the human face. Cambridge University Press, 1982.
[13] P. Ekman. Strong evidence for universals in facial expressions: a reply to russels mistaken critique.
In Psycological Bulletin, volume 115, pages 268287, 1994.
[14] P. Ekman and W. Friesen. Unmasking the Face. Prentice-Hall, 1975.
[15] P. Ekman and W. Friesen. Facial Action Coding System (FACS): Manual. Palo Alto: Consulting
Psychologists Press, 1978.
[16] I. Essa and A. Pentland. Coding, analysis interpretation, recognition of facial expressions. In IEEE
Trans. Pattern Analysis and Machine Intelligence, volume 19, pages 757763, July 1997.
81
[17] R. Feitosa, M. Vellasco, D. Oliveira, D. Andrade, and S. Maffra. Facial expression classication
using rbf and back-propagation neural networks. In Proc. International Conference on ISAS, pages
7377, 2000.
[18] H. Hong, H. Neven, and C. Von der Malsburg. Online facial expression recognition based on
personalized galleries. In Proc. International Conf. Automation Face and Gesture Recognition,
pages 354359, 1998.
[19] C. Huang and Y. Huang. Facial expression recognition using model-based feature extraction and
action parameters classication. In J. Visual Comm. and Image representation, volume 8, pages
278290, 1997.
[20] F. Hlsken, F. Wallhoff, and G. Rigoll. Facial expression recognition with pseudo-3d hidden markov
models. In Proceedings of the 23rd DAGM-Symposium on Pattern Recognition, pages 291297.
Springer-Verlag, 2001.
[21] S. Kaiser, T. Wehrle, and S. Schmidt. Emotional episodes, facial expressions, and reported feelings
in human-computer interactions. In Proceedings of the Xth Conference of the International Society
for Research on Emotions, pages 8286, 1998.
[22] A. Khanam, M. Shaq, and M. Akram. Fuzzy based facial expression recognition. In Proc. Congress
on Image and Signal Processing (CISP), IEEE, pages 598602, 2008.
[23] S. Kimura and M. Yachida. Facial expression recognition and its degree estimation. In Proc. Com-
puter Vision and Pattern Recognition, pages 295300, 1997.
[24] H. Kobayashi and F. Hara. Facial interaction between animated 3d face robot and human beings.
In Proc. International Conf. Systems, Man, Cybernetics, pages 37323737, 1997.
[25] M. Kolsch and M. Turk. Robust hand detection. In Proc. IEEE Intl. Conference on Automatic Face
and Gesture Recognition, 2004.
[26] I. Kotsia, N. Nikolaidis, and I. Pitas. Facial expression recognition in videos using a novel multi-class
support vector machines variant. In IEEE Trans. Image Process, 2007.
[27] K. Lam and H. Yan. An analytic-to-holistic approach for face recognition based on a single frontal
view. In IEEE Trans. Pattern analysis and machine intelligence, volume 20, pages 673686, 1998.
[28] G. Littlewort, M. Bartlett, C. Fasel, T. Kanda, H. Ishiguro, and J. Movellan. Towards social robots:
Automatic evaluation of human-robot interaction by face detection and expression classication. In
Proc. Advances in neural information processing systems, MIT Press., volume 16, 2000.
[29] H. Lu, Y. Huang, Y. Chen, and D. Yang. Real-time facial expression recognition based on pixel-
pattern-based texture feature. In Proc. Electronic Letters, pages 916918, 2007.
[30] M. Lyons, J. Budynek, and S. Akamatsu. Automatic classication of single facial images. In IEEE
Trans. Pattern Analysis and Machine Intelligence, volume 21, pages 13571362, 1999.
[31] M. Malciu and F. Preteux. Tracking facial features in video sequences using a deformable model-
based approach. In Proceedings of the SPIE, volume 4121, pages 5162, 2000.
[32] J. Marques. Reconhecimento de Padres, Mtodos Estatsticos e Neuronais. IST Press, 2005.
[33] M. Minear and D. Park. A lifespan database of adult facial stimuli. In Behavior research methods,
instruments and computers, 2004.
[34] E. Osuna, R. Freud, and F. Girosi. Training support vector machines: an application to face detec-
tion. In Proc. Computer Vision and Pattern Recognition, pages 130136, 1997.
[35] T. Otsuka and J. Ohya. Spotting segments displaying facial expression from image sequences
using hmm. In Proc. International Conf. Automatic Face and Gesture Recognition, pages 442447,
1998.
82
[36] C. Padgett and G.W. Cottrell. Representing face images for emotion classication. In Proc. Conf.
Advances in Neural Information Processing Systems, pages 894900, 1996.
[37] I. Pandzic and R. Forchheimer, editors. MPEG-4 Facial Animation: The Standard, Implementation
and Applications. John Wiley & Sons, Inc., New York, NY, USA, 2003.
[38] M. Pantic and L.J.M. Rothkrantz. Expert system for automatic analysis of facial expression. In
Image and vision computing J., volume 18, pages 881905, 2000.
[39] A. Pentland, B. Moghaddam, and T. Starner. View-based and modular eigenspaces for face recog-
nition. In Proc. Computer Vision and Pattern Recognition, pages 8491, 1994.
[40] L. Personnaz, I. Guyon, and G. Dreyfus. Collective computational properties of neural networks:
New learning mechanisms. Phys. Rev. A, 34(5):42174228, Nov 1986.
[41] T. Pham, M. Worring, and A. Smeulders. Face detection by aggregated Bayesian network classi-
ers. Lecture Notes in Computer Science, 2123:249262, 2001.
[42] I. Rish. An empirical study of the naive bayes classier. In IJCAI 2001 Workshop on Empirical
Methods in Articial Intelligence, 2001.
[43] H. Rowley, S. Baluja, and T. Kanade. Neural network-based face detection. IEEE Transactions on
Pattern Analysis and Machine Intelligence, 20(1):2338, 1998.
[44] M. Rydfalk. Candide, a parameterized face. Technical Report LiTH-ISY-I-0866, Linkoping University,
1987.
[45] E. Saber and A. Tekalp. Frontal-view face detection and facial feature extraction using color, shape
and symmetry based cost functions. In Pattern Recognition Letters, volume 19, pages 669680,
1998.
[46] I. Stathopoulou and G. Tsihrintzis. An improved neural-network-based face detection and facial
expression classication system. In SMC (1), pages 666671, 2004.
[47] K. Sung and T. Poggio. Example-based learning for view-based human face detection. IEEE
Transactions on Pattern Analysis and Machine Intelligence, 20(1):3951, 1998.
[48] H. Tao and T. Huang. Connected vibrations: A modal analysis approach for non-rigid motion trac-
king. In Proc. IEEE Comput. Vision and Pattern Recognition, 1998.
[49] D. Terzopoulos and K. Waters. Analysis and synthesis of facial image sequences using physical
and anatomical models. In IEEE Trans. Pattern Analysis and Machine Intelligence, volume 15,
pages 569579, 1993.
[50] Y. Tian, T. Kanade, and J.F. Cohn. Recognizing action units for facial expression analysis. In IEEE
Transactions on Pattern Analysis and Machine Intelligence, volume 23, pages 97115, 2001.
[51] U. Turhal, A. Duysak, and M. Gulmezoglu. A two stage algorithm for face recognition: 2dpca and
within-class scatter minimization. In Proc. Signal Processing, Pattern Recognition, and Applicati-
ons, 2007.
[52] V. Vezhnevets. Method for localization of human faces in color-based face detectors and trackers.
In Proc. Third International Conference on Digital Information Processing And Control In Extreme
Situations, 2002.
[53] V. Vezhnevets, S. Soldatov, A. Degtiareva, and I. Park. Automatic extraction of frontal facial features.
In Proceedings of the Sixth Asian Conference on Computer Vision, 2004.
[54] P. Viola and M. Jones. Robust real-time object detection. Technical report, University of Cambridge,
2001.
[55] M. Wang, Y. Iwai, and M. Yachida. Expression recognition from time-sequential facial images by use
of expression change model. In Proc. International Conf. Automatic face and gesture recognition,
pages 324329, 1998.
83
[56] J. Yang, D. Zhang, A. Frangi, and J. Yang. Two-dimensional pca: a new approach to appearance-
based face representation and recognition. In Proc. IEEE Trans. Patterns Anal. Machine Intelli-
gence, volume 26, pages 131137, 2004.
[57] M. Yoneyama, Y. Iwano, A. Ohtake, and K. Shirai. Facial expressions recognition using discreet
hopeld neural networks. In Proc. International Conf. Information Processing, volume 3, pages
117120, 1997.
[58] C. Zhan, W. Li, P. Ogunbona, and F. Safaei. Facial expression recognition for multiplayer online
games. In Proc. of the 3rd Australasian Conf. on Interactive Entertainment, volume 207, pages
452458, 2006.
[59] Z. Zhang, M. Lyons, M. Schuster, and S. Akamatsu. Comparrison between geometry-based and
gabor wavelets-based facial expression recognition using multi-layer perceptron. In Proc. Internati-
onal Conf. Automatic face and gesture recognition, pages 454459, 1998.
[60] J. Zhao and G. Kearney. Classifying facial emotions by backpropagation neural networks with fuzzy
inputs. In Proc. Conf. Neural information processing, volume 1, pages 454457, 1996.
84