Sei sulla pagina 1di 51

Universidade Federal da Bahia Escola Politcnica Departamento de Engenharia Eltrica Programa de Ps-Graduao em Engenharia Eltrica

Viso Computacional para Interao Homem-Rob


Doutoranda: Carolina Moreno Salcedo

Setembro 2010
Novembro de 2011

Sumrio
Introduo Consideraes importantes sobre robs sociveis Viso Computacional em Robs Sociveis Deteco e Reconhecimento de Faces Reconhecimento de Gestos de Mo

Introduo
Interao

Humano-Rob (HRI) o campo de estudo dedicado ao entendimento, projeto e avaliao de sistemas robticos para o uso por humanos. Interao, por definio, requer comunicao entre humanos e robs. interagir com os seres humanos, os robs precisam perceber e entender a riqueza do comportamento humano. robs devem dispor de sistemas de viso e sistemas auditivos que permitam interao em tempo real. modo geral um sistema de viso pode ser composto por vrios mdulos tais como mdulo de reconhecimento de face, deteco de objetos e deteco de movimento.

Para

Os

De

Anlise de face tem um papel importante na construo de interfaces HRI (Human-Robot Interaction) que permitem aos seres humanos interagir com sistemas robticos de uma maneira natural. Uma justificativa para desenvolvimento de sistemas de viso computacional com suporte de gestos que a linguagem corporal responsvel por 80% das nossas impresses durante uma interao, e que as pessoas aprendem mais da metade do que sabem a partir de informao visual (FISCHER2000, p. 18). comum deparar-se na rua com uma pessoa fazendo gestos para outro indivduo, indicando localizaes, quantidades, sinais de confirmao e at mesmo certas ofensas.

Consideraes Importantes Sobre Robs Sociveis


Muitos dos robots sociais so humanides e tentam imitar alguns aspectos dos humanos e desta forma interagir conosco. Exemplos disto so: robots que jogam futebol, ou que danam, ou que tocam instrumentos, ou que conversam conosco falando frases, e at robs que tm algumas atitudes emocionais semelhantes a ns humanos.

Robonova, da Hitec Robotics

Asimo da Honda

Aibo,da Sony

Dautenhahn (1998) identifica uma srie de caractersticas de inteligncia social, que devem ser considerados ao se projetar socialmente tecnologias inteligentes: Personificao Corporal Dado que os seres humanos evoluram para interagir socialmente com criaturas corporificadas, muitas das nossas habilidades sociais e modalidades de comunicao dependem de ambas as partes ter um corpo.

Rea, um agente de propriedade real sinttica.

BodyChat, um sistema on-line onde os usurios interagem atravs de avatares animados consagrados.

Ateno e Percepo
Para

emular a percepo social humana, um rob deve ser capaz de identificar quem a pessoa (identificao). que a pessoa est fazendo (reconhecimento a pessoa est fazendo isso (expresso emotiva).

Como

Informao

utilizada pelo rob para tratar a pessoa como um indivduo, para compreender o comportamento superficial da pessoa, e potencialmente inferir sobre alguns dos estados internos da pessoa (por exemplo, a inteno ou o estado emotivo).

Robs

sociveis devem ser capazes de rastrear caractersticas humanas (faces, corpo, mos). a fala e a linguagem natural.

Interpretar Devem

incorporar mecanismos para o reconhecimento de expresses faciais, gestos e atividades humanas.

Kismet: 21 graus de liberdade: 3 para direcionar o olhar do rob, 3 para controlar a orientao da sua cabea 15 restantes controlam suas expresses faciais. 4 cmeras CCD coloridas, (2 cmeras com campo estreito de viso montadas em seus olhos e 2 cmeras com viso panormica montadas entre os olhos). 2 microfones, um para cada orelha e um terceiro usado pela pessoa que esta interagindo com o rob.

Comportamento
Para ter xito nas interaes com os seres humanos, os robs sociveis precisam exibir comportamentos que possibilitem s pessoas atribuir intenes e desejos, a fim de permitir uma interao natural entre os robs e os seres humanos.

Scassellati (2000b) faz uma abordagem do desenvolvimento da psicologia, combinando duas teorias populares sobre o desenvolvimento da teoria da mente em crianas (BaronCohen (1994), e implementa o modelo sintetizado em um rob humanide. Dautenhahn (1997) prope uma abordagem mais personificada e interativa para as pessoas entender onde a narrativa (contar histrias autobiogrficas sobre si mesmo e reconstruir histrias biogrficas sobre os outros) est ligada forma emptica e experiencial para relacionar outras pessoas a si mesmo.

Aprendizagem

Aprendizagem supervisionada pelo ensino

Robs podem aprender com o feedback direto do usurio que indica a estratgia correta (Salichs et al., 2006). O rob aprende a estratgia exata fornecida pelo usurio.

Aprendendo com demonstrao (Imitao)

Robs aprendem observando um humano ou um rob executar a tarefa necessria (Dautenhahn, 1998). O rob tem que ser capaz de "entender" o que observa e mape-lo em suas prprias capacidades.

Aprendizagem por explorao

Robs podem aprender autonomamente, tentando diferentes aes e observando seus resultados O rob aprende uma estratgia que otimiza uma retribuio

Emoo e Expresso Facial


Diversos pesquisadores argumentam que existe um pequeno conjunto de emoes, denominadas bsicas ou primarias, que foram preservadas durante processos de evoluo, pois elas possibilitam a adaptao do comportamento dos organismos a diversas situaes com as quais as criaturas se deparam diariamente. Estas emoes servem para propsitos especficos e emergem em determinados contextos do ambiente, para preparar o organismo a responder apropriadamente (Breazeal, 2003).

Sistema motivacional do rob Kismet.

Viso Computacional em Robs Sociveis


Para interagir com os seres humanos, os robs sociais precisam ser capazes de entender o ambiente de maneira semelhante s criaturas vivas. Isto , sentir e interpretar os sinais e objetos do ambiente (Breazeal2002, Scassellati2000). Eles precisam interpretar sinais sociais como o olhar, as expresses faciais, os movimentos corporais, a fala, entre outros. Adicional percepo que os robs sociais requerem para as suas funes convencionais (localizao, navegao, desvio de obstculos), eles precisam detectar e entender determinadas salincias do

Em uma viso didtica, podem ser identificados dois mtodos principais para obteno da Ateno Visual. Os mtodos topdown e bottom-up. O mtodo top-down usa conhecimentos obtidos a priori para detectar regies de maior interesse numa imagem. Geralmente, utilizam-se ferramentas de aprendizagem baseadas em modelos geomtricos/relacionais (como redes semnticas ou grafos relacionais) ou modelos estatsticos (como redes neurais e mquinas de vetores de suporte).

Ou tambm podem ser fornecidos por um ser humano, selecionando-se manualmente regies de maior interesse numa imagem (Pereira07).
A ateno visual bottom-up guiada por caractersticas primitivas da imagem como cor, intensidade e orientao. Atua de modo inconsciente, ou seja, o observador levado a fixar sua ateno em determinadas regies da imagem devido aos estmulos causados pelos contrastes entre caractersticas visuais presentes na imagem (Wolfe04).

Arquitetura Para HRI

Controle de comportamento
Viso

Percepo
Audio

Emoo

Memria

Ao
gestos movimento

Modelo de Itti
baseado

em mapas de salincias, o qual construdo a partir de Pirmides Gaussianas e operadores de vizinhana orientados localmente. mapa de caracterstica apresenta uma propriedade elementar da imagem como cor, intensidade e orientao. Essas caractersticas so conhecidas como caractersticas visuais primitivas. pode ser dividido nas seguintes etapas: extrao de caractersticas, filtragem linear, diferenas centro-vizinhanas, soma de mapas de caractersticas (combinao linear) e seleo de regies salientes (redes neurais winner-takes-all) (Pais09).

Cada

mtodo

Sistema de Viso Computacional


Estmulos visuais

Deteco de faces

Deteco de objetos

Deteco de gestos de mo

Mapa de Ativao

Para gerar um mapa de salincia, so extradas trs tipos de caractersticas visuais primitivas: cor, intensidade e orientao. Quatro canais de cores so criados (R para vermelho, G para verde, B para azul e Y para amarelo). Sendo r, g, b os canais vermelho, verde e azul da imagem de entrada. Os canais de cores so representados por:

O mapa de intensidades dado pela equao:

Os canais de cores e a imagem de intensidades so submetidos a um processo de filtragem linear. Nesta decomposio linear, realizada pela estrutura piramidal, uma imagem subdividida em um conjunto de subbandas localizadas em escala e orientao. A representao piramidal usada para a obteno de amostras da imagem somente com os detalhes relevantes do processamento. Os mapas de caractersticas so obtidos por meio da diferena entre canais de cores em diferentes escalas, este processo conhecido como diferena centrovizinhana.

Tecnicas de Reconhecimento de Padres


O casamento de modelos. De maneira geral, dispe-se de um modelo (template) que um prottipo do padro a ser reconhecido. No caso de imagens, o modelo uma forma 2D. Para classificar, realizado o casamento do modelo com o sinal (por exemplo, imagem) que deve conter o padro a ser reconhecido, levando em considerao variaes com translao, rotao e mudanas na escala. Os mtodos estruturais sintticos. Usam a estrutura interna do padro como um elemento de anlise. Os padres so tratados sob uma perspectiva hierrquica, ou seja, um padro composto por sub-padres mais simples, os quais tambm so compostos por outros mais simples.

Um exemplo de modelo de classificao sinttica dependente do contexto em que observa-se uma ascenso recente o de Hidden Marcov Models. Trata-se de um autmato finito estocstico que gera uma cadeia de observao, isto , a seqncia de vetores observados.
Redes Neuronais. A popularidade cresceu devido ao fato que, aparentemente, elas tm uma baixa dependncia a um especfico domnio, de forma que o mesmo tipo de rede pode ser aplicado em vrios problemas, o que no ocorre com as abordagens baseadas em modelos ou em regras. Outro fator importante na popularidade o fato de existirem muitos algoritmos eficientes de aprendizado com redes neurais. As redes neurais disponibilizam um novo conjunto de algoritmos no lineares para extrao de caractersticas (usando camadas escondidas) e classificao.

Lgica Nebulosa. A relao intima entre a teoria de conjuntos nebulosos e a terica de reconhecimento de padres fornece grandes recursos em problemas gerais de tomada de deciso, ambos ambientes randmicos e no-randmicos, porque a maioria dos problemas de classificao no mundo real so nebulosos por natureza. Uma grande quantidade de literatura relacionada a tcnicas nebulosas no reconhecimento de voz, reconhecimento de padro, processamento de imagem, entre outras. Abordagem Estatstica. Basicamente, um sistema de reconhecimento estatstico de padres pode ser composto pelas seguintes : um sistema de aquisio de dados; um sistema de pr-processamento; um extractor de caractersticas, que cria um vetor de caractersticas com dados extrados dos objetos adquiridos, reduzindo os dados a atributos, propriedades ou caractersticas;

um seletor de caractersticas, que analisa o conjunto de caractersticas e elimina as mais redundantes; um classificador, que analisa um padro obtido e toma uma certa deciso.
Prprocessament o Deciso Classificao

Medio das caractersticas

Aquisio de dados

Classificao

Treinamento Prprocessament o Extrao e seleo de atributos Aprendizado

Pose o Frontal, 45 graus, perfil, superior, inferior, etc. Presena ou ausncia de componentes estruturais. o culos, barba, bigode, cabelo, jias e acessrios, etc. Expresses faciais o Sorrisos, 'caretas', olhos fechados, etc. Ocluses o Outras faces, outros componentes na imagem, cortes, etc. Condies das imagens o Fatores externos: iluminao (sombra, intensidade, distribuio) o Fatores internos: lentes, resposta do sensor, etc. o Fatores temporais: desgastes em geral.

Deteco e Reconhecimento de Faces


Um sistema viso deve estar focalizado nos aspectos mais relevantes e caractersticos de uma face, tais como os olhos, nariz, sobrancelhas ou boca.

A principal dificuldade encontrada em sistemas de reconhecimento de faces est na grande riqueza de variaes das imagens de faces. Os problemas mais relevantes relacionados com estas variaes so:

Pose o Frontal, 45 graus, perfil, superior, inferior, etc.

Presena ou ausncia de componentes estruturais. o culos, barba, bigode, cabelo, jias e acessrios, etc. Expresses faciais o Sorrisos, 'caretas', olhos fechados, etc. Ocluses o Outras faces, outros componentes na imagem, cortes, etc. Condies das imagens o Fatores externos: iluminao (sombra, intensidade, distribuio) o Fatores internos: lentes, resposta do sensor, etc. o Fatores temporais: desgastes em geral.

Eigenfaces
Eigenfaces foi desenvolvido no MIT por Turk and Pentland [6] em 1991 e baseado na transformada de Karhunen - Love (PCA), que motivada pela sua eficincia na representao de figuras. As imagens de faces no se encontram distribudas de forma aleatria em um espao de alta dimensionalidade, portanto elas podem ser descritas de alguma forma em um espao de dimenso menor. De acordo com esta idia, faz-se o uso da anlise de componentes principais (PCA) com o objetivo de achar os vetores que melhor descrevem a distribuio de imagens dentro do espao de imagens inteiro. Tais vetores so denominados eigenfaces devido a semelhana que possuem com as imagens de faces.

Algoritmo de Eigenfaces

Obter M imagens de treinamento I1, I2 ... IM Representar cada imagem Ii como um vector i:

Obter a mdia da imagem , na forma

Para cada imagem foram do conjunto de treinamento, encontrar a diferena entre esta imagem e a mdia da imagem =i - Obter a matriz de covarincia

Onde A = {1, 2, 3, . . . , n}. Note-se que C uma matriz N2xN2, enquanto A uma matriz de tamanho N2 x M. Agora precisa-se calcular os autovetores de C, (ui ). No entanto, note-se que C uma matriz N2xN2 e retornaria N2 autovetores . Para uma imagem isso ENORME, e poderiam deixar o sistema sem memoria.

Em vez de usar a matriz A AT vamos considerar a matriz AT A. Dado que A uma matriz N2xM, assim AT A uma matriz MxM. Se encontrarmos os autovetores desta matriz, retornaria M autovetores, cada um de dimenso Mx1, vamos chamar esses autovetores vi. Agora a partir das propriedades de matrizes, segue-se que ui=A*vi, onde ui so os M maiores autovetores da matriz de covarincia C com M <<N2.

Exemplo de Reconhecimento usando PCA

Algumas das imagens normalizadas para o treinamento

Mdia da Face e autofaces do conjunto original de imagens resultantes do mtodo Eigenfaces.

Algumas imagens para validao e as suas respectivas reconstrues com o mtodo Eigenfaces

Pesos e distancias euclidianas das imagens de validao

taxa de falsa rejeio (FRR) e taxa de falsa aceitao (FAR)

Fisherfaces

Fisherfaces descrita por Belhumeur, Hespanha e Kriegman em [7]. Este mtodo uma variao do mtodo Eigenfaces que usa o Anlise de Discriminantes Linear (LDA) de Fisher para a reduo de dimensionalidade dos dados. LDA uma tcnica clssica em reconhecimento de padres desenvolvida primeiramente por Robert Fisher em 1936. LDA busca minimizar o raio de varincia entre as classes, e paralelamente minimizar a varincia dentro das classes garantindo a mxima separabilidade entre as classes de um conjunto particular de dados, sendo aplicada uma transformao linear visando encontrar um sistema de coordenadas timas, que melhor represente os dados com mxima separabilidade.

Algoritmo de Fisherfaces
O mtodo Fisherfaces seleciona os autovetores otimos (Wopt) autovetores) de tal forma que a relao entre a disperso interclasse (SB) e da disperso intra-classe (SW) maximizada (no caso de SW no singular):

A separao intra-classe e inter-classes so descritas por meio de: Matriz de disperso intra-classes:

Matriz de disperso inter-classes

em que xji a i- sima amostra da classe j, j a mdia da classe j, Nj o nmero de amostras da classe j e nc o nmero de classes. a mdia de todas as classes, ou representa seja

e Nc , o nmero de amostras da classe c No problema de reconhecimento de faces, apresenta-se a dificuldade de que a matriz de disperso intra-classes SW sempre singular. Isso decorre do fato de que o posto de SW no mximo N-c e, em geral, o nmero de imagens do conjunto de aprendizado N muito menor que o nmero de pixels em cada imagem n.

A fim de superar a complicao de um SW singular, o mtodo Fisherface, lida com isso, projetando a imagem definida como um espao de menor dimenso para que o resultado de SW seja no singular.
Isto conseguido usando PCA para reduzir a dimenso do espao de caractersticas a N-c, e depois aplicar o FLD padro para reduzir a dimenso para c-1. De maneira mais formal, Wopt dada por:

onde matriz de transformao Wpca est definida como

sendo ST a matriz dos auto-vetores. A matriz de transformao Wfld definida como:

Modelos Ocultos de Markov


Historicamente os Modelos Ocultos de Markov tem sido uma ferramenta til no reconhecimento de fala. Tais modelos possuem como principal caracterstica a capacidade de caracterizao de propriedades estatsticas de um sinal. A definio formal de um HMM a representao como uma tupla (S,V,,A,B), onde:

Transformada discreta do Coseno


O modelo de faces gerado convertendo-se as imagens do banco de dados de treinamento para suas respectivas DCT's. Em seguida realizada a seleo dos atributos mais relevantes, atravs de um selector de baixas freqncias. Esse selector mantm os coeficientes de menor freqncia da DCT e despreza os demais. Por fim, realizado o clculo da distncia de cada uma das DCT's do banco de treinamento para todas as demais DCT's de treinamento. Desse clculo obtido o valor da maior distncia permitida para que uma DCT seja considerada como pertencente ao modelo de faces. A distncia mnima sempre ser Zero (Santos05).

Reconhecimento de Gestos de Mo
Pr-processamento da imagem. preparar os frames do vdeo para a anlise suprimindo o rudo, extraindo indcios importantes sobre a posio das mos e trazendo-os em uma forma simblica. Esta etapa freqentemente referenciada como extrao da caracterstica (Feature Extraction). Rastreamento. a base do pr-processamento, a posio e possivelmente outros atributos das mos devem ser rastreados frame a frame. Isto feito para distinguir um movimento de mo do fundo e de outros objetos em movimento, e para extrair a informao do movimento para o reconhecimento de gestos dinmicos.

Reconhecimento de Gestos. Baseado na posio coletada, movimento e indcios de postura so calculados se o usurio est preparando um gesto significativo. O conhecimento sobre as mos usadas para o rastreio e o reconhecimento pode existir em nveis diferentes de abstrao. Dois enfoques principais existem nesta considerao diferenciada.

Modelo abstrato da mo: um modelo da mo criado. Este modelo combinado aos resultados do prprocessamento para determinar o estado da mo rastreada. Aparncia da mo na imagem: o rastreamento baseado na representao aprendida a partir de um grande nmero de imagens de treinamento.

Processamento da imagem para reconhecimento de gestos


Segmentao por Pixel. As regies dos pixels que correspondem mo so extradas pela segmentao da cor ou pela subtrao do fundo. A maior mancha da imagem segmentada ser considerada como regio da mo. Ento o contorno da mo extrado para o processamento seguinte. As regies detectadas so analisadas ento para determinar a posio e a orientao da mo. Segmentao por Mistura Gaussiana. Usando-se o mtodo estocstico para segmentar reas com cor de pele (correspondente s mos) na seqncia da imagem, obtmse um mtodo robusto as vrias cores de pele de diferentes raas humanas.

A distribuio da probabilidade de um vetor x de cor D-dimensional representado por funes de mistura de base M ponderadas. Deteco de Contorno. O contorno representa a forma da mo e conseqentemente no diretamente dependente da cor da pele e das condies de luz. Extrair contornos por deteco de borda resulta em um grande nmero bordas, tanto da mo rastreada como do fundo. Portanto alguma forma de ps-processamento inteligente necessria para fazer um sistema confivel.

Rastreamento
Rastreio com Filtro de Kalman. Uma maneira de resolver o problema de rastrear o movimento de um objeto frame a frame usando um filtro de Kalman. O filtro de Kalman modela as propriedades dinmicas do objeto rastreado como tambm as incertezas do modelo dinmico e as medidas de nvel baixo.

A sada do filtro uma distribuio da probabilidade que representa o conhecimento e a incerteza do estado do objeto. A estimativa da incerteza pode ser usada para selecionar o tamanho da rea de busca em que se ir procurar o objeto no frame seguinte.

Reconhecimento
Geralmente, algoritmos clssicos na rea de reconhecimento de padres so aplicados.

So modelos ocultos de correlao, e redes neurais.

Markov,

Especialmente os dois primeiros tem sido usados com sucesso enquanto redes neurais tm problemas em modelar padres no gestuais

Segmentao com Skin Color por Mixture of Gaussians : Na primeira fase do processo de compreenso da imagem, separam-se os objetos que queremos analisar, i.e., elecionar pixels da imagem pertencentes quele objeto.
A segmentao simples pela limiarizao (thresholding) por cor pode ser insuficiente neste caso.

Referencias
R. C. Arkin, M. Fujita, T. Takagi, and R. Hasegawa. An ethological and emotional basis for human-robot interaction. Robotics and Autonomous Systems, 2003. C. Breazeal. Toward sociable robots. Robotica and Autonomous Systems, 4(3-4): 167175, Maro 2003. C. L. Breazeal. Designing Sociable Robots. Massachusetts Institute of Technology Press, Cambridge, MA., 2002. R. A. Brooks, C. Breazeal, M. Marjanovic, B. Scassellati, and M. M. Williamson. The cog project: Building a humanoid robot. In C. L. Nehaniv, editor, LNCS, volume 1562: exteno de Computation for Metaphors, Analogy, and Agents, volume 1562, pages 5287. Springer-Verlag, Berling, 1999. K. Dautenhahn. I could be you-the phenomenological dimension of social understanding. Cybernetics and Systems Journal, 28(5):417453, 1997. K. Dautenhahn. The art of designing socially intelligent agents: Science, fiction, and the human in the loop. Applied Artificial Intelligence Journal, 12(7-8):573617, 1998. M. Bhuiyan and R. Picking. Gesture-controlled user interfaces, what have we done and whats next? In Fifth Collaborative Research Symposium on Security, ELearning, Internet and Networking (SEIN 2009), 5960, Darmstadt, Alemanha, 2009. X. Zhou, L. Zhao, W. Zheng, and C. Zou. Face recognition using weighted pairwise fuzzy fisherface method. In WRI World Congress on Software Engineering, 208 211, Maio 2009.

XVIII C B A 2 0 1 0

K. Dautenhahn, B. Ogden, and T. Quick. From embodied to socially embedded agents implications for interaction-aware robots. Cognitive Systems Research, 3 (3):397428, 2002. S. C. Gadanho and J. Hallam. Robot Learning Driven By Emotions. Adaptive Behaviour, 9(1): 42-64, 2002.

J. Rickel and W. L. Johnson. Task-oriented collaboration with embodied agents in virtual worlds. In J. Cassell, J. Sullivan, S. Prevost, and E. Churchill eds., editors, Embodied Conversational Agents, page 95122. MIT Press, Cambridge, MA., 2000. M. Salichs, R. Barber, R. Khamis, A. Malfaz, M. Gorostiza, J. Pacheco, R. Rivas, R. Corrales, and E. Delgado. A robotic platform for human-robot social interaction. In IEEE International Conference on Robotics, Automation and Mechatronics, pages 17, Bangkok, Thailandia, Junho 2006. B. Scassellati. A theory of mind for a humanoid robot. In First IEEE-RAS International Conference on Humanoid Robots, Cambridge, MA., 2000b. M. Nielsen, T. Moeslund, M. Storring, and E. Granum. A procedure for developing intuitive and ergonomic gesture interfaces for hci. In The 5th Int. Workshop on Gesture and Sign Language based Human- Computer Interaction, Genova, Italy, 15-17 April 2003. C. E. Thomaz and G. A. Giraldi. A nnew ranking method for principal components analysis and its application to face image analysis. Image and Vision Computing, 28(6):902{913, 2010.