Sei sulla pagina 1di 7

1

Reconocimiento de gestos y posturas de la mano:


Estado del Arte
Miguel Alejandro Parra Romero

Abstract—En la actualidad se buscan métodos de acceso a métodos más naturales que los actuales, ya que no permiten
los sistemas computacionales que permitan una mayor libertad una manipulación fácil y requieren de cierto entrenamiento.
y naturalidad, es este uno de los intereses de la Interacción De los esfuerzos dedicados al estudio de esta área han surgido
Humano Computador (HCI por sus siglas en inglés) que puede
ser logrado a través de mecanismos como el reconocimiento de diversos métodos como el reconocimiento de voz, seguimiento
gestos y posturas de la mano. El reconocimiento de posturas se de líneas de mirada, dispositivos táctiles y reconocimiento de
refiere a detectar la mano a partir de imágenes, es decir, es gestos del cuerpo, entre otros.
el procesamiento y análisis tomando información de entradas De estos métodos, el seguimiento de gestos y posturas de
estáticas. Por otro lado el reconocimiento de gestos implica un la mano ha tenido un desarrollo importante en los últimos
proceso dinámico, donde la información es tomada generalmente
de secuencias de video, esto puede ser visto como la extracción años por ser un método de interacción intuitivo, teniendo en
de información a partir de posturas, pero teniendo en cuenta la cuenta que no solamente tiene limitaciones técnicas para su
relación entre ellas en el tiempo. implementación sino que también existen limitaciones desde
En este artículo se hace una revisión de la bibliografía más el punto de vista de la ergonomía y dificultad en cuanto al uso
relevante hasta el momento sobre reconocimiento de gestos y continuo, por la incomodidad que podría representar.
posturas de la mano, considerando éstos como sistemas com-
puestos por cinco partes principales: 1. Adquisición de datos, 2.
Las áreas más importantes que componen el problema son:
Preprocesamiento, 3. Extracción, 4. Clasificación y 5. Interacción. 1) Adquisición de datos
2) Preprocesamiento, donde se considera la segmentación
Index Terms—HCI, posturas de la mano, gestos de la mano, de las imágenes
dispositivos de entrada, estado del arte. 3) Extracción de Gestos
4) Clasificación
C ONTENTS 5) Interacción
Esta clasificación, representada en la Figura 1, es ampliada a
I Introducción 1 partir de la original [39], ya que se considera la segmentación
II Reconocimiento de gestos de la mano 1 como un área separada, siendo el preprocesamiento más
II-A Motivación . . . . . . . . . . . . . . . . . . . 1 amplio e incluyente con técnicas como las transformaciones
II-B El problema de reconocimiento de gestos de geométricas. En [1] se muestra una clasificación similar pero
la mano . . . . . . . . . . . . . . . . . . . . 2 sin tener en cuenta la interacción, que es parte fundamental
del sistema.
III Trabajos Previos 3
III-A Adquisición de Datos . . . . . . . . . . . . . 3 En estas páginas se presenta el estado del arte de estos
III-B Preprocesamiento . . . . . . . . . . . . . . . 3 métodos que están en proceso de desarrollo y que ofrecen
III-C Extracción de Gestos y Posturas . . . . . . 4 muchas ventajas para la interacción con los computadores.
III-D Clasificación . . . . . . . . . . . . . . . . . . 5 En primera instancia se hace una presentación del problema
III-E Interacción . . . . . . . . . . . . . . . . . . . 6 donde se describen las áreas particulares y sus necesidades.
IV Perspectivas de Desarrollo 6 Luego se muestran las técnicas más usadas y las más efectivas.
Además se describen las aplicaciones desarrolladas de mayor
V Conclusiones 6 importancia de acuerdo a los objetivos del HCI. Por último se
presentan las perspectivas y posibilidades respecto al trabajo
References 6
futuro en el reconocimiento de gestos y posturas de la mano.

I. I NTRODUCCIÓN II. R ECONOCIMIENTO DE GESTOS DE LA MANO


El estudio de la Interacción Humano Computador (HCI) A. Motivación
plantea una relación mucho más natural entre las personas y La necesidad de mejores métodos para acceso a los sis-
los sistemas de cómputo, para esto establece objetivos que temas de cómputo es latente, pues los dispositivos de entrada
deben ser cumplidos para mitigar la brecha que existe entre la actuales y de uso común apenas si han evolucionado desde su
información y los seres humanos que quieren accederla, crearla desarrollo. El ratón que permite introducir movimientos en dos
o transformarla. Uno de estos objetivos es la interacción por dimensiones, sigue prácticamente igual desde su desarrollo en
los años 601 . Esta limitación sumada al hecho de la dificultad
Estudiante de Maestría en Ingeniería de Sistemas y Computación - Univer-
sidad Nacional de Colombia. 1 http://sloan.stanford.edu/MouseSite/
2

Figure 1. Modelo Conceptual del Reconocimiento de Gestos y Posturas de la mano

para las personas con discapacidades y la necesidad de buscar


nuevas formas de interacción, han permitido e impulsado el
desarrollo en HCI, más precisamente en los dispositivos de
entrada para sistemas computacionales.
El reconocimiento de gestos y posturas de la mano propor-
ciona un método intuitivo de interacción por lo que se con-
vierte en un excelente candidato para el ingreso de información
a los computadores.

B. El problema de reconocimiento de gestos de la mano


Antes de la definición del problema es importante destacar
la diferencia entre el reconocimiento de posturas y gestos de
la mano. En [9] se muestra dicha consideración:
• Postura de la mano (hand posture): Consiste detectar la
mano a partir de imágenes, es decir, es el procesamiento
y análisis tomando información de entradas estáticas.
• Gesto de la mano (hand gesture): Involucra una se-
cuencia de posturas de la mano que están conectadas
por movimientos continuos y que proveen información
a partir de sus relaciones. Figure 2. Modelo del problema de reconocimiento de gestos y posturas de
la mano
El problema de reconocimiento de gestos y posturas de la
mano puede ser considerado como el conjunto de subprob-
lemas o áreas interrelacionadas que permiten la interacción
entre un humano y un sistema computacional. En la Figura 2 gestos, es donde las manos son identificadas y convertidas
se muestra un modelo del problema basado en [1] y [39]. en un gesto que luego será clasificado. Dependiendo de si se
La Adquisición de Datos consiste en tomar información quieren identificar gestos o posturas, existen técnicas específi-
del entorno por medio de dispositivos físicos. En esta fase cas para cada uno. Para la extracción de posturas las técnicas
se contemplan los dispositivos de entrada al sistema como más usadas son: Análisis en Componentes Principales (PCA)
los guantes de datos [2], cámaras de video donde podemos [40]; B-Splines que es una curva basada en unos puntos de
considerar cámaras sencillas o sistemas de cámaras en config- soporte o de anclaje que determinan su forma [25], AdaBoost
uraciones diversas como en [4], dispositivos multitáctiles [40] y AdaBoost Modificado[9], entre otras.
y electromiogramas de superficie que alimentan el sistema a La Clasificación consiste en tomar los gestos y posturas
partir de señales provenientes de sensores de electricidad en extraidos en la fase anterior y etiquetarlos por medio de un
los músculos del brazo [28]. modelo de clasificación, entrenado previamente. Este modelo
El Preprocesamiento es donde se realiza la preparación permite caracterizar la información de entrada dentro de un
de los datos, en esta fase se realiza la separación de la conjunto de gestos y posturas seleccionados para ejecutar
información relevante de la que no lo es, por ejemplo la acciones determinadas por medio del subsistema de inter-
segmentación para eliminar la información que representa el acción. En esta fase también es posible aplicar técnicas de
fondo en una imagen, dejando solamente la mano de la que Agrupamiento y Modelos Ocultos de Markov. Dentro de las
luego se extraerán los gestos. En esta fase se realizan op- técnicas más usadas en esta fase que es una de las que
eraciones de transformación como Translaciones, Rotaciones ha tenido mayor investigación son: En Clasificación, Reglas
y Escalamientos [1]. En el proceso de segmentación encon- Bayesianas [8]; Orientación del Histograma [22]; Máquinas
tramos varias técnicas como: Binarización [24]; segmentación de Estados Finitos [4]; Máquinas de Vector de Soporte (Sup-
por color [33] y ecualización del histograma [17]. port Vector Machines SVM)[40] y diferentes tipos de Redes
En la Extracción de Gestos se utilizan técnicas que permiten Neuronales [16], [27]. En el caso del Agrupamiento, Fuzzy
obtener información luego del procesamiento en forma de C-Mean [21]. Y con Modelos Ocultos de Markov [6].
3

La Interacción es la interfaz entre el sistema de re- En la Tabla I se realiza una comparación de los métodos
conocimiento de gestos o de posturas y el sistema externo mencionados.
que recibe los comandos generados por los gestos, en la
Método Ventajas Desventajas
mayoría de los casos es un computador que simplemente
Guantes - Buena captura de datos - Difícil configuración
muestra los resultados, sin embargo hay casos en los que los - Costo del dispositivo
sistemas receptores son robots o Ambientes Virtuales (Virtual - Invasivo
Environments VE). Multitáctiles - Buena captura de datos - Difícil configuración
- Costo del dispositivo
- Menos Grados de Libertad
III. T RABAJOS P REVIOS EMG’s - Buena captura de datos - Difícil configuración
- Costo del dispositivo
Los trabajos más representativos en el reconocimiento de - Invasivo
gestos y posturas de la mano hacen aportes en las diferentes Cámaras - Fácil configuración - Difícil captura de datos
áreas que componen el problema. Un trabajo de investigación, - Menores costos
- Grados de Libertad
por ejemplo, puede realizar aportes importantes en Preproce- - No invasivo
samiento y a la vez en Clasificación. A continuación se
Table I
muestran los aportes realizados y una comparación por áreas. C OMPARACIÓN DE MÉTODOS DE A DQUISICIÓN DE DATOS

A. Adquisición de Datos
La Adquisición de Datos es el área en que se alimenta
el sistema, obteniendo la información de varios tipos de B. Preprocesamiento
dispositivos, algunos requieren implementaciones especiales El preprocesamiento prepara los datos para su extracción. La
como los guantes de datos, es el caso de [2] donde se toma de datos del sensor implica una entrada de información
muestra un método basado en reglas difusas o borrosas para innecesaria que hace lento el procesamiento y dificulta la
reconocimiento de gestos obtenidos a partir de un guante de extracción, en esta área se hace una primera selección de la
datos, este tipo de dispositivos implican ciertos problemas de información eliminando objetos de ruido como el fondo. En
difícil resolución, en primera instancia es difícil configurar los algunos casos se usan fondos de un color determinado [16]
sensores del dispositivo, además debido a su carácter especial para realizar un preprocesamiento mucho más sencillo, pero
son costosos, y tienden a limitar en cierta medida la libertad evidentemente esto limita la capacidad del sistema en otros
de movimiento por su peso y cables conectados. contextos más realistas donde el fondo está lleno de objetos
Los dispositivos multitáctiles proveen una interfaz bidimen- de diferentes formas y colores. En el procesamiento se realiza
sional para el ingreso de información. Son sistemas físicos que la segmentación de las imágenes, es decir la identificación
reaccionan al contacto directo y que permiten interactuar con de la mano, pero también se realizan transformaciones en la
los datos directamente. Yuan y Barner muestran en su artículo imagen que permiten normalizar la imagen, es decir, llevarla a
[40] una implementación a partir de uno de estos dispositivos, una posición y una escala común, así si la imagen de una mano
las señales de los gestos son representadas con Análisis está inclinada, es posible realizar una rotación que facilite la
en Componentes Principales (Principal Component Analysis extracción de la infomación. Las principales transformaciones
PCA) para reducir su dimensionalidad y luego clasificadas por aplicables a una imagen son las traslaciones, rotaciones y
medio de otras técnicas. El inconveniente con estos sistemas escalamientos [1]. Las transformaciones, en este caso en dos
de captura es que tienen que estar especialmente diseñados y dimensiones, se pueden definir en términos de matrices:
su conexión con un computador no es trivial.
Los Electromiogramas de Superficie (EMG’s) [28] son
P0 = T + P (1)
sistemas que son capaces de detectar los gestos de la mano a
partir del movimiento muscular en el brazo, aunque el objetivo
de estos sistemas no es el de introducir información al sistema P0 = S ∗ P (2)
por medio de gestos, lo hace en medio del proceso de captura
de información para el diseño de prótesis que serán controladas
por los brazos. De ahí el interés en este tipo de dispositivos P0 = R ∗ P (3)
de captura. Donde P es el punto actual, P 0 es el punto resultante
Por último el dispositivo de Adquisición de Datos por y T , S, R son las matrices de transformación Traslación,
excelencia para el reconocimiento de gestos y posturas de Escalamiento y Rotación, respectivamente. Aplicando coorde-
la mano es la cámara, que puede variar en la calidad de la nadas homogéneas se puede convertir la suma en la transfor-
imagen, en la configuración y distribución en el espacio. Es así mación de traslación (ecuación 1) en una multiplicación, pudi-
como un sistema puede estar compuesto por una sola cámara endo aplicar todas las transformaciones en una sola ecuación:
[31], por medio de visión estéreo con dos cámaras como en
[39] o por tres o más cámaras como en [11]. En los sistemas P 0 = SRT P (4)
que capturan información por medio de cámaras, se toman
imágenes con cierta frecuencia (frames por segundo), sobre La segmentación de imágenes consiste en la separación de
los cuales se realiza el preprocesamiento. regiones de la imagen, considerando el área de interés como
4

el objeto y el resto como fondo, de las regiones consideradas


como objetos se obtienen parámetros sobre los cuales se re-
quiere hacer un análisis posterior. En la revisión bibliográfica,
las técnicas de segmentación más usadas son:
La binarización que consiste en llevar la imagen a un
conjunto de puntos con posibles valores 0 y 1 determinando
un umbral que define el límite en que un valor de pixel
se convierte en 1 o 0, normalmente a cada número se le
asigna negro o blanco, que en el caso del área de la mano es
negro. Este proceso supone una reducción de la información Figure 3. Puntos de anclaje para B-spline. Tomado de Ma, 2004[25]
contenida en la imagen ya que interpola los valores reales de
los pixeles. Ejemplos de uso del proceso de binarización son
[8], [24]. Este proceso deja definidos los límites de la mano el valor del rasgo Haar-Like es la diferencia entre la suma de
[22] permitiendo una extracción más sencilla en términos los pixeles negros y los pixeles blancos de los rectángulos:
computacionales.
Otro método es la Ecualización del Histograma [11], [17] X X
f (x) = (valores de pixeles)− (valores de pixeles)
por el cual es posible obtener una imagen con una distribución
negro blanco
uniforme, donde para cada nivel de gris hay una cantidad igual (5)
de pixeles, este proceso maximiza el contraste y conserva al La diferencia con otros algoritmos es que no se basa en
máximo la cantidad de información contenida en la imagen, pixeles sino en áreas con información, sumado a AdaBoost
es decir, mantiene el nivel de entropía. que selecciona las mejores características en cada nivel y las
combina para formar un clasificador fuerte. En la Figura 4 se
C. Extracción de Gestos y Posturas muestran los tipos de rasgos Haar-Like considerados en [9].
La Extracción se puede dividir en dos ramas, por un lado
lo referente a reconocimiento de entradas estáticas y por otro,
entrada de información dinámica, es decir, con respecto al
tiempo. La extracción de posturas requiere unas técnicas que
analizan la imagen con el fin de obtener la forma de la mano
y la postura que se realiza en ese momento. Las técnicas más
conocidas para la extracción de posturas (Tabla II) se describen
a continuación.
El Análisis de Componentes Principales (PCA) es un
método estadístico que permite obtener la información más Figure 4. Tipos de Rasgos Haar-Like. Tomado de Chen, 2008[9]
relevante de un conjunto de datos. Se calcula a partir de
la matriz de covarianza donde los mayores valores de los
vectores propios indican la dirección de la mayor dispersión, Técnica Descripción
lo que permite identificar cuáles son las variables que proveen PCA Reducción de la dimensionalidad
B-Splines Curvas a partir de puntos de anclaje
mayor información. El objetivo es generar un nuevo sistema de Haar-Like (AdaBoost) Rectángulos de características
coordenadas en el que los datos puedan ser representados con
Table II
la menor correlación entre variables. Para este caso puede re- T ÉCNICAS PARA EXTRACCIÓN DE POSTURAS
ducir las variables de estudio disminuyendo considerablemente
el costo de procesamiento de las imágenes, este método es
usado en [1] para la selección de la información que aportará En cuanto al Reconocimiento de Gestos las técnicas son
mayores pistas sobre la imagen que se está analizando. Por más complejas y generalmente requieren un alto poder de
ejemplo a partir de un vector de características de Gabor se procesamiento, lo que implica una mayor dificultad para lograr
tienen 4840 dimensiones, que luego de aplicar PCA se reducen resultados en tiempo real.
a 20 componentes principales que representan el 96.3% de la El Análisis de Entropía [23] permite eliminar las partes
información contenida en la imagen[1]. que contienen poca o nada de información. Esta técnica es
Los B-Splines son curvas basadas en unos puntos de soporte la base para PIS (Pictorial Information System). El objetivo
o de anclaje que determinan la forma de la curva. El método es obtener una imagen a partir de una resta de otra imagen
[25] consiste en tomar 4 puntos de anclaje en la forma de secuencial, mientras se mide la entropía, separando la región
la mano, a partir de los cuales se determina la forma y de la mano del resto de la imagen. Este proceso permite
las medidas de la mano y con lo cual se podría realizar detectar el movimiento de la mano ya que cuando cambia
autenticación e identificación (Figura 3). de posición aporta nueva información a la imagen debido a la
Un método de bajo nivel, es decir, para reconocimiento de distribución de color en el área de la mano.
posturas de la mano, es llamado H AAR -L IKE [9] que consiste El método de Detección de Primitivas [7] usa las diferentes
en dos o tres rectángulos conectados de colores blanco y negro, tonalidades de la piel, formas en la imagen, cambio de
5

iluminación e irregularidades de las sombras. El objetivo es parámetros desconocidos u ocultos. El objetivo es determinar
detectar las manos incluso donde los fondos sean complejos dichos parámetros con los parámetros que son conocidos.
y confusos. La técnica es capaz de reiniciar el seguimiento en Para la clasificación existen diversas técnicas que se usan
una imagen, a pesar de haber perdido el objeto, en este caso comúnmente en el reconocimiento de gestos y posturas de la
la mano. El proceso consta de cuatro pasos: mano. Una de estas es basada en reglas difusas o borrosas
1) Detección de líneas paralelas [2] para reconocimiento de gestos obtenidos a partir de un
2) Detección de la curva de los dedos guante de datos, más específicamente los gestos del Lenguaje
3) Separar las primitivas detectadas en 1 y 2 por medio de de Gestos Brasileros (LIBRAS). El proceso se realiza teniendo
dos árboles de decisión en cuenta los ángulos entre los dedos y la separación entre los
4) Ordenar los grupos de primitivas para obtener los can- mismos.
didatos También existen técnicas basadas en Máquinas de Estados
En [9] se realiza el reconocimiento usando el A NÁLISIS Finitos [4], es un método basado en la aceleración para
S INTÁCTICO basado en una gramática estocástica libre de detectar los gestos de la mano en una secuencia de video,
contexto (SCFG - Stochastic Context-Free Grammar) que teniendo en cuenta que hay muchos momentos en los que la
considera ciertos movimientos de la mano como palabras mano está en una transición entre un gesto y el otro. Indica
principales de las que se derivan los demás. En este artículo que los gestos de la mano se pueden clasificar en términos de
los autores consideran que los gestos tienen una relación de 4 atributos mayores:
herencia con las posturas, por lo que es posible aplicar una - Configuración de la mano
aproximación sintáctica. Con esta aproximación los gestos - Orientación de la palma
pueden ser considerados una composición de posturas así - Posición de la mano
como las frases son composiciones de palabras y por tanto - Movimiento de la mano
es posible construir una gramática modelada en la ecuación 6. Es decir, el movimiento en el video implica trayectorias y
orientación a parte de las demás características de la mano
GS = (VN , VT , PS , S) (6) en imágenes estáticas. La co-articulación (que se considera en
Donde VT y VN son conjuntos finitos terminales y no- este artículo) es un fenómeno que indica que un gesto influye
terminales, respectivamente, S ∈ VN es el símbolo de inicio y en el siguiente en una secuencia temporal.
PS es un conjunto finito de producción de reglas estocásticas. Un método de clasificación común en la actualidad son
En [28] se emplea una técnica llamada Análisis de Com- las Máquinas de Vector de Soporte (SVM) [10], [24]. Son
ponentes Independientes (ICA), que permite revelar factores clasificadores lineales que son capaces de separar las clases
ocultos provenientes de conjuntos de variables aleatorias, a del problema por medio de un hiperplano en espacios de
partir de esto se genera un modelo sobre los problemas alta dimensionalidad, inducidos por funciones de kernel. El
con múltiples variables. Normalmente los conjuntos de datos proceso (Figura 5) consiste en:
procesados con esta técnica son de gran tamaño. 1) Transformar los datos a espacios de alta dimensionalidad
por medio de las funciones de kernel.
D. Clasificación 2) Encontrar el hiperplano que maximice el margen entre
dos clases.
La clasificación de los gestos y las posturas de la mano,
3) Si los datos no son linealmente separables, se halla el
luego de ser extraídas por los métodos mencionados ante-
hiperplano que maximice el margen y que disminuya el
riormente, se realiza por técnicas dentro de las siguientes
número de errores en la clasificación.
categorías:
• Agrupamiento
Las SVM representan una ventaja ya que eliminan el incon-
• Clasificación
veniente de los mínimos locales, sin embargo son costosas en
• Modelos Ocultos de Markov
términos computacionales para una cantidad considerable de
variables.
En el agrupamiento, la técnica más usada es Fuzzy C-
means[1], [21] que también es una de las técnicas de agru-
pamiento más usada en reconocimiento de patrones. Ésta
hace una partición en C grupos a partir de una función de
membresía a cada uno de ellos. En Fuzzy C-means un dato
pertenece a todos los grupos, pero con un grado de pertenencia
diferente para cada uno.
En los Modelos Ocultos de Markov se contemplan
los Modelos Ocultos de Markov Pseudo 3-dimensionales
(P3DHMM)[6] y el modelo simple Modelos Ocultos de
Markov (HMM)[26]. Un Modelo Oculto de Markov es un
proceso estocástico que cumple la propiedad markoviana, es
decir, su sestado actual depende solo del estado inmediata- Figure 5. Máquina de Vector de Soporte (SVM). Tomado de Chen 2007
mente anterior, dotando al sistema de memoria, pero con [10]
6

Por último, las redes neuronales son técnicas de gran uso En la Interacción se hace necesario un mayor desarrollo
debido a la característica que les permite aproximar cualquier en cuanto a la interoperabilidad entre el sistema de re-
función con ciertas características. Una red neuronal artificial conocimiento de gestos y posturas y los sistemas que se
es un conjunto de neuronas interconectadas que permiten o quieren controlar. Una tarea importante es desarrollar una
inhiben el paso de impulsos a otras neuronas por medio de interfaz que permita unificar las acciones producidas por
una función de activación, esto permite el desarrollo de un los gestos en cada contexto, por ejemplo ejecutar acciones
proceso de aprendizaje al modificar los pesos sinápticos o de particulares en un sistema operativo.
interconexión. Las Redes Neuronales son usadas en [27], [16].
V. C ONCLUSIONES
E. Interacción En el ámbito del HCI es importante tener sistemas que sean
La interacción es una característica importante a tener en capaces de brindar naturalidad en el acceso a la información,
cuenta en los sistemas, en particular en los sistemas de esta es una característica del reconocimiento de gestos y pos-
reconocimiento de gestos y posturas de la mano, ya que este turas de la mano. Dentro de este sistema existen subsistemas
es el paso que garantiza la retroalimentación hacia el usuario, que a su vez tienen problemas por resolver, pero en los que se
ya sea por medio de robots, ambientes virtuales, aplicaciones hacen avances continuamente. Desde una perspectiva propia,
de edición o sistemas de realidad virtual. los mejores métodos usados en cada subsistema son:
• Adquisición de Datos: Cámaras simples, debido a su bajo
IV. P ERSPECTIVAS DE D ESARROLLO costo, ya que se descarga el peso de la identificación en
En cada área se presentan problemas particulares que deben los algoritmos.
ser resueltos en el proceso de optimización del problema • Preprocesamiento: Una combinación entre la binarización
general del reconocimiento de gestos y posturas de la mano. y la ecualización del histograma, evitando al máximo la
En la Adquisición de Datos se requieren métodos que no pérdida de información.
limiten a los usuarios en cuanto a usabilidad. Dispositivos • Extracción de Gestos: Análisis en Componentes Princi-
como los guantes de datos y multitáctiles impiden en cierta pales, ya que permite eliminar variables con poca infor-
medida los movimientos. El uso de cámaras es menos invasivo, mación. Además se considera una buena alternativa el
pero para hacer una buena captura de datos es necesario imple- Análisis Sintáctico por ser una técnica novedosa para la
mentar montajes complicados como sincronización en cámaras identificación de gestos y que muestra buenos resultados
estéreo. El desarrollo futuro en estos dispositivos va orientado [9].
hacia la calidad en la captura de la información, teniendo • Clasificación: HMM, Modelos Ocultos de Markov, pues
en cuenta que esto puede afectar el comportamiento y la son los que mejores resultados han mostrado, con-
complejidad en el preprocesamiento y la posterior extracción siderando diferentes variaciones sobre el modelo gen-
de los datos. eral como los Modelos Ocultos de Markov Pseudo 3-
En el preprocesamiento se hace necesario hallar formas de dimensionales (P3DHMM) [6].
capturar los gestos y las posturas más eficientes y menos • Interacción: El subsistema de Interacción no ha sido muy
susceptibles a errores ya que existen problemas si por ejemplo, explorado, sin embargo es importante definir una interfaz
en el proceso hay un movimiento de la cámara [42]. La común para cada contexto.
eliminación de regiones que no son de interés aún es un
problema que no ha sido solucionado completamente, sobre R EFERENCES
todo en ambientes donde hay muchos colores, diferentes
intensidades de luz y formas complejas. [1] M.A. Amin and Hong Yan. Sign language finger alphabet recognition
from gabor-pca representation of hand gestures. In Machine Learning
La Extracción de gestos y posturas también es un área donde and Cybernetics, 2007 International Conference on, volume 4, pages
hay mucho por explorar, siendo la mayor dificultad identificar 2218–2223, 2007.
las posturas de la mano desde distintos ángulos y distancias. [2] B.R. Callejas Bedregal, G.P. Dimuro, and A.C. Rocha Costa. Interval
fuzzy rule-based hand gesture recognition. In Scientific Computing,
En el caso de los gestos, la dificultad radica en relacionar de Computer Arithmetic and Validated Numerics, 2006. SCAN 2006. 12th
forma adecuada cada secuencia de posturas y diferenciar un GAMM - IMACS International Symposium on, page 12, 2006.
gesto del siguiente. [3] M.K. Bhuyan, D. Ghosh, and P.K. Bora. Finite state representation of
hand gesture using key video object plane. In TENCON 2004. 2004
En la Clasificación se plantean problemas que son compa- IEEE Region 10 Conference, volume A, pages 579–582 Vol. 1, 2004.
rables con muchos problemas por resolver en otras áreas de [4] M.K. Bhuyan, D. Ghosh, and P.K. Bora. Co-articulation detection in
las Ciencias de la Computación. Las adaptaciones y nuevas hand gestures. In TENCON 2005 2005 IEEE Region 10, pages 1–4,
2005.
aproximaciones en las técnicas como SVM, HMM y Redes [5] M.K. Bhuyan, D. Ghosh, and P.K. Bora. Threshold finite state machine
Neuronales redundan en una mejor clasificación de los gestos y for vision based gesture recognition. In INDICON, 2005 Annual IEEE,
las posturas. El trabajo en esta área entonces está en optimizar pages 379–382, 2005.
[6] Nguyen Dang Binh and T. Ejima. Real-time hand gesture recognition
dichas técnicas de clasificación y agrupamiento. Otro aspecto a using pseudo 3-d hidden markov model. In Cognitive Informatics, 2006.
desarrollar es un lenguaje unificado de gestos, donde un gesto ICCI 2006. 5th IEEE International Conference on, volume 2, pages 820–
represente una acción particular. En los artículos de Stern [32], 824, 2006.
[7] M.B. Caglar and Nd.V. Lobo. Self correcting tracking for articulated
[33] hay una aproximación a esta solución, sin embargo en objects. In Automatic Face and Gesture Recognition, 2006. FGR 2006.
muchos trabajos actuales se siguen convenciones diferentes. 7th International Conference on, pages 609–616, 2006.
7

[8] A. Chalechale and G. Naghdy. Visual-based human-machine interface [27] Ganesh R. Naik, Dinesh K. Kumar, Hans Weghorn, and Marimuthu
using hand gestures. In Signal Processing and Its Applications, 2007. Palaniswami. Subtle hand gesture identification for hci using temporal
ISSPA 2007. 9th International Symposium on, pages 1–4, 2007. decorrelation source separation bss of surface emg. In Digital Image
[9] Qing Chen, N.D. Georganas, and E.M. Petriu. Hand gesture recognition Computing Techniques and Applications, 9th Biennial Conference of the
using haar-like features and a stochastic context-free grammar. Instru- Australian Pattern Recognition Society on, pages 30–37, 2007.
mentation and Measurement, IEEE Transactions on, 57(8):1562–1571, [28] G.R. Naik, D.K. Kumar, and M. Palaniswami. Multi run ica and surface
2008. emg based signal processing system for recognising hand gestures.
[10] Yen-Ting Chen and Kuo-Tsung Tseng. Developing a multiple-angle In Computer and Information Technology, 2008. CIT 2008. 8th IEEE
hand gesture recognition system for human machine interactions. In International Conference on, pages 700–705, 2008.
Industrial Electronics Society, 2007. IECON 2007. 33rd Annual Confer- [29] V.I. Pavlovic, R. Sharma, and T.S. Huang. Visual interpretation of hand
ence of the IEEE, pages 489–492, 2007. gestures for human-computer interaction: a review. Pattern Analysis and
[11] Yen-Ting Chen and Kuo-Tsung Tseng. Multiple-angle hand gesture Machine Intelligence, IEEE Transactions on, 19(7):677–695, 1997.
recognition by fusing svm classifiers. In Automation Science and [30] P. Premaratne and Q. Nguyen. Consumer electronics control system
Engineering, 2007. CASE 2007. IEEE International Conference on, based on hand gesture moment invariants. Computer Vision, IET,
pages 527–530, 2007. 1(1):35–41, 2007.
[12] A. Erol, G. Bebis, M. Nicolescu, R.D. Boyle, and X. Twombly. A review [31] E. Stergiopoulou and N. Papamarkos. A new technique for hand gesture
on vision-based full dof hand motion estimation. In Computer Vision recognition. In Image Processing, 2006 IEEE International Conference
and Pattern Recognition, 2005 IEEE Computer Society Conference on, on, pages 2657–2660, 2006.
page 75, 2005. [32] H.I. Stern, J.P. Wachs, and Y. Edan. Optimal hand gesture vocabulary
[13] Yikai Fang, Jian Cheng, Kongqiao Wang, and Hanqing Lu. Hand gesture design using psycho-physiological and technical factors. In Automatic
recognition using fast multi-scale analysis. In Image and Graphics, 2007. Face and Gesture Recognition, 2006. FGR 2006. 7th International
ICIG 2007. Fourth International Conference on, pages 694–698, 2007. Conference on, pages 257–262, 2006.
[14] Yikai Fang, Kongqiao Wang, Jian Cheng, and Hanqing Lu. A real-time [33] H.I. Stern, J.P. Wachs, and Y. Edan. Optimal consensus intuitive
hand gesture recognition method. In Multimedia and Expo, 2007 IEEE hand gesture vocabulary design. In Semantic Computing, 2008 IEEE
International Conference on, pages 995–998, 2007. International Conference on, pages 96–103, 2008.
[15] Zhiquan Feng, Bo Yang, Yanwei Zheng, Zhonghua Wang, and Yi Li. [34] Mu-Chun Su. A fuzzy rule-based approach to spatio-temporal hand ges-
Research on 3d hand tracking using particle filtering. In Natural ture recognition. Systems, Man, and Cybernetics, Part C: Applications
Computation, 2008. ICNC ’08. Fourth International Conference on, and Reviews, IEEE Transactions on, 30(2):276–281, 2000.
volume 7, pages 367–371, 2008. [35] Kuo-Tsung Tseng, Wen-Fu Huang, and Cheng-Hua Wu. Vision-based
[16] S.S. Ge, Y. Yang, and T.H. Lee. Hand gesture recognition and tracking finger guessing game in human machine interaction. In Robotics and
Biomimetics, 2006. ROBIO ’06. IEEE International Conference on,
based on distributed locally linear embedding. In Robotics, Automation
and Mechatronics, 2006 IEEE Conference on, pages 1–6, 2006. pages 619–624, 2006.
[36] W.-H.A. Wang and Chun-Liang Tung. Dynamic hand gesture recog-
[17] Lim Wei Howe, Farrah Wong, and Ali Chekima. Comparison of
nition using hierarchical dynamic bayesian networks through low-
hand segmentation methodologies for hand gesture recognition. In
level image processing. In Machine Learning and Cybernetics, 2008
Information Technology, 2008. ITSim 2008. International Symposium
International Conference on, volume 6, pages 3247–3253, 2008.
on, volume 2, pages 1–7, 2008.
[37] Chen Xiang, Li Qiang, Yang Ji-Hai, V. Lantz, and Wang Kong-Qiao.
[18] Hongmo Je, Jiman Kim, and Daijin Kim. Hand gesture recognition to Test-retest repeatability of surface electromyography measurement for
understand musical conducting action. In Robot and Human interactive hand gesture. In Bioinformatics and Biomedical Engineering, 2008.
Communication, 2007. RO-MAN 2007. The 16th IEEE International ICBBE 2008. The 2nd International Conference on, pages 1923–1926,
Symposium on, pages 163–168, 2007. 2008.
[19] Chia-Feng Juang, Ksuan-Chun Ku, and Shin-Kuan Chen. Temporal hand [38] Deyou Xu. A neural network approach for hand gesture recognition in
gesture recognition by fuzzified tsk-type recurrent fuzzy network. In virtual reality driving training system of spg. In Pattern Recognition,
Neural Networks, 2005. IJCNN ’05. Proceedings. 2005 IEEE Interna- 2006. ICPR 2006. 18th International Conference on, volume 3, pages
tional Joint Conference on, volume 3, pages 1848–1853 vol. 3, 2005. 519–522, 2006.
[20] Seong Pal Kang, G. Rodnay, M. Tordon, and J. Katupitiya. A hand [39] Xiaoming Yin and Ming Xie. Hand gesture segmentation, recognition
gesture based virtual interface for wheelchair control. In Advanced In- and application. In Computational Intelligence in Robotics and Automa-
telligent Mechatronics, 2003. AIM 2003. Proceedings. 2003 IEEE/ASME tion, 2001. Proceedings 2001 IEEE International Symposium on, pages
International Conference on, volume 2, pages 778–783 vol.2, 2003. 438–443, 2001.
[21] S.K. Korde and K.C. Jondhale. Hand gesture recognition system [40] Yu Yuan and K. Barner. Hybrid feature selection for gesture recognition
using standard fuzzy c-means algorithm for recognizing hand gesture using support vector machines. In Acoustics, Speech and Signal
with angle variations for unsupervised users. In Emerging Trends in Processing, 2008. ICASSP 2008. IEEE International Conference on,
Engineering and Technology, 2008. ICETET ’08. First International pages 1941–1944, 2008.
Conference on, pages 681–685, 2008. [41] Haiting Zhai, Xiaojuan Wu, and Hui Han. Research of a real-time hand
[22] Hyung-Ji Lee and Jae-Ho Chung. Hand gesture recognition using tracking algorithm. In Neural Networks and Brain, 2005. ICNN&B ’05.
orientation histogram. In TENCON 99. Proceedings of the IEEE Region International Conference on, volume 2, pages 1233–1235, 2005.
10 Conference, volume 2, pages 1355–1358 vol.2, 1999. [42] Qiuyu Zhang, Fan Chen, and Xinwen Liu. Hand gesture detection
[23] JongShill Lee, YoungJoo Lee, EungHyuk Lee, and SeungHong Hong. and segmentation based on difference background image with complex
Hand region extraction and gesture recognition from video stream background. In Embedded Software and Systems, 2008. ICESS ’08.
with complex background through entropy analysis. In Engineering International Conference on, pages 338–343, 2008.
in Medicine and Biology Society, 2004. IEMBS ’04. 26th Annual [43] Yuanxin Zhu, Haibing Ren, Guangyou Xu, and Xueyin Lin. Toward
International Conference of the IEEE, volume 1, pages 1513–1516, real-time human-computer interaction with continuous dynamic hand
2004. gestures. In Automatic Face and Gesture Recognition, 2000. Proceed-
[24] Yun Liu, Zhijie Gan, and Yu Sun. Static hand gesture recognition and its ings. Fourth IEEE International Conference on, pages 544–549, 2000.
application based on support vector machines. In Software Engineering,
Artificial Intelligence, Networking, and Parallel/Distributed Computing,
2008. SNPD ’08. Ninth ACIS International Conference on, pages 517–
521, 2008.
[25] YingLiang Ma, F. Pollick, and W.T. Hewitt. Using b-spline curves for
hand recognition. In Pattern Recognition, 2004. ICPR 2004. Proceedings
of the 17th International Conference on, volume 3, pages 274–277 Vol.3,
2004.
[26] Byung-Woo Min, Ho-Sub Yoon, Jung Soh, Yun-Mo Yang, and Toshiaki
Ejima. Hand gesture recognition using hidden markov models. In
Systems, Man, and Cybernetics, 1997. ’Computational Cybernetics and
Simulation’., 1997 IEEE International Conference on, volume 5, pages
4232–4235 vol.5, 1997.

Potrebbero piacerti anche