0 valutazioniIl 0% ha trovato utile questo documento (0 voti)
34 visualizzazioni11 pagine
Este documento describe un sistema de navegación automática controlada por voz para una silla de ruedas. El sistema consiste en elementos mecánicos, eléctricos y electrónicos montados en una silla de ruedas que permiten la movilidad de personas parapléjicas mediante comandos de voz. El sistema de control está basado en microcontroladores que reconocen la voz y controlan los actuadores, permitiendo el movimiento de la silla a través de 15 comandos de voz preestablecidos. El objetivo es desarrollar un sistema autónomo que permit
Este documento describe un sistema de navegación automática controlada por voz para una silla de ruedas. El sistema consiste en elementos mecánicos, eléctricos y electrónicos montados en una silla de ruedas que permiten la movilidad de personas parapléjicas mediante comandos de voz. El sistema de control está basado en microcontroladores que reconocen la voz y controlan los actuadores, permitiendo el movimiento de la silla a través de 15 comandos de voz preestablecidos. El objetivo es desarrollar un sistema autónomo que permit
Este documento describe un sistema de navegación automática controlada por voz para una silla de ruedas. El sistema consiste en elementos mecánicos, eléctricos y electrónicos montados en una silla de ruedas que permiten la movilidad de personas parapléjicas mediante comandos de voz. El sistema de control está basado en microcontroladores que reconocen la voz y controlan los actuadores, permitiendo el movimiento de la silla a través de 15 comandos de voz preestablecidos. El objetivo es desarrollar un sistema autónomo que permit
SISTEMA DE NAVEGACIN AUTOMTICA CONTROLADA POR VOZ PARA UNA SILLA DE
RUEDAS Marcelo Arvalo Luzuriaga 1
RESUMEN
Este sistema de navegacin es un conjunto de elementos mecnicos, elctricos y electrnicos ensamblados sobre la estructura de una silla de ruedas capaz de facilitar la movilidad y desplazamiento de personas discapacitadas parapljicas utilizando instrucciones o comandos de voz. El sistema de control del navegador esta basado en un microcontrolador tipo PIC 16f877A (Microchip) como elemento maestro del comando y de 2 microcontroladores esclavos para la ejecucin del reconocimiento de voz y manejo de los actuadores. El microcontrolador RCS 300 (Sensory) es el encargado de realizar el almacenamiento y reconocimiento de los comandos de voz utilizados para el control del equipo, por su gran capacidad y conversor anlogo/digital de 32 bits constituye un elemento especializado para este tipo de aplicaciones. Todo el conjunto est montado sobre la estructura de una silla de ruedas y permite una navegacin manual y automtica del equipo dependiendo la necesidad y la instruccin que realice el usuario. EL objetivo principal del presente proyecto fue desarrollar un sistema autnomo capaz de movilizar a personas discapacitadas parapljicas sobre una silla de ruedas, utilizando un simple comando o instruccin de voz. Teniendo la capacidad de trabajar hasta con 15 instrucciones previamente establecidas y grabadas por el usuario en la memoria EEPROM del microcontrolador especializado para esta actividad. Este equipo posee tambin la alternativa de un comando manual mediante un joystick ubicado en la parte frontal de la silla, siendo esta funcin una de las 15 posibilidades de trabajo que posee el equipo, as mismo el sistema esta dotado con un conjunto de sensores ultrasnicos (6) programables que entran a funcionar en el modo autnomo y sirven de seguridad al hablante ante posibles colisiones con obstculos en todo su permetro y tambin abismos que encuentre durante su trayectoria. Palabras clave: Control Reconocimiento-Voz Microcontroladores
1 Facultad de Ciencias de la Ingeniera, Universidad Tecnolgica Equinoccial, Av. Occidental y Mariana de Jess. Quito, Ecuador. mjarevalo@ute.edu.ec 82
INTRODUCCIN
El trabajo de analizar una seal de voz o acstica y su posterior reconocimiento deben llevar una metodologa que al parecer es trivial para el ser humano, este anlisis inicia desde cuando la seal es generada en las cuerdas vocales del hablante, a esta se la podra considerar una seal sonora. Las seales sonoras que se caracterizan por tener alta energa y una frecuencia que va en el rango de los 300 Hz a 4000 Hz las cuales se generan por intermedio de las cuerdas vocales y adems presentan cierta periodicidad como se muestra en la figura siguiente
Figura 1. Seal sonora
Las seales no sonoras se caracterizan por tener baja energa y una frecuencia uniforme presentando aleatoriedad en forma de ruido blanco se muestra en la figura siguiente
Figura 2. Seal no sonora
La seal de voz bsicamente est constituida por ondas de presin producidas por el aparato humano. La manera obvia de capturar este tipo de seal se realiza mediante un micrfono, el cual se encargar de convertir la onda de presin sonora en una seal elctrica. La siguiente etapa ser aquella que se encargue de amplificar las seales a niveles que sean manejables. A partir de la seal analgica obtenida se hace necesario convertir la seal a formato digital para poder procesarla en la computadora lo que se realiza mediante dos procesos: muestreo y cuantificacin. Este proceso de dos etapas se conoce como Modulacin por Cdigo de Pulsos (PCM). 83
Posteriormente se hace necesario para el anlisis realizar un pre procesamiento de la seal vocal. Esto se realiza a travs de tcnicas que permitan extraer la informacin acstica directamente a partir de la seal vocal emitida. Esto se realiza mediante la tcnica de prenfasis y la aplicacin de una ventana de Hamming.
Modelado del tracto vocal
El modelado del tracto vocal se expresa como un filtro variante en el tiempo, cuyos parmetros son tambin variantes de acuerdo con la pronunciacin de una palabra.
El filtro variable en el tiempo tiene dos posibles seales de entrada que dependern del tipo de seal, sonora o no sonora. Para seales sonoras la excitacin ser un tren de impulsos de frecuencia controlada, mientras que para las seales no sonoras la excitacin ser ruido aleatorio.
La combinacin de estas seales modelizan el funcionamiento de la glotis. El espectro de frecuencias de la seal vocal puede obtenerse a partir del producto del espectro de la excitacin por la repuesta en frecuencia del filtro.
El tracto vocal manifiesta un nmero muy grande de resonancias, sin embargo se consideran solo las tres o cuatro primeras que toman el nombre de 'formantes' y cubren un rango de frecuencias entre 100 y 3500 hz. Esto debido a que las resonancias de alta frecuencia son atenuadas por la caracterstica frecuencial del tracto que tiende a actuar como un filtro pasabajo con una cada de aproximadamente -12 dB por octava.
Este modelo es una simplificacin del proceso del habla. Los sonidos fricativos no se filtran por el tracto con la misma extensin en que lo hacen las seales sonoras por lo que el modelo no es muy preciso para este tipo de seales. Adems el modelo supone que las dos seales pueden separarse sin considerar ninguna interaccin entre ellas, lo cual no es cierto ya que la vibracin de cuerdas 84
vocales es afectada por las ondas de presin dentro del tracto. Sin embargo estas consideraciones pueden ser ignoradas resultando el modelo lo suficientemente adecuado.
El rango dinmico del odo (desde inaudible hasta doloroso) ronda los 20 bits (1 a 106). A continuacin se lista los diferentes tipos de sonidos y sus niveles en dB.
Nivel sonido/ dB Ratio potencia Ratio amplitud Ejemplo tpico 140 10 14 10 7 Disparo a quemarropa 120 10 12 10 6 Grupo de rock ruidoso 100 10 10 10 5 Grito cercano 80 10 8 10 4 Calle ruidosa 60 10 6 3160 Conversacin normal 40 10 4 316 Susurro suave 20 10 2 31.6 El campo por la noche 6.5 4.5 2.1 Umbral absoluto a 1kHz 3 1 1 Nivel de referencia
85
Dentro del reconocimiento de seales acsticas se puede tener tres tipos de sistemas de reconocimiento los cuales son: Dependiente del hablante, Independiente del hablante, y Adaptable al hablante
Un sistema dependiente del hablante es desarrollado para funcionar para un slo hablante. Estos sistemas, normalmente, son ms fciles de desarrollar, ms baratos de comprar, y ms precisos, pero no tan flexibles como los sistemas adaptables al hablante o los sistemas independientes del hablante. Un sistema independiente del hablante es desarrollado para funcionar para cualquier hablante de un determinado tipo (por ejemplo, Ingls Americano). Estos sistemas son los ms complicados de desarrollar, los ms caros y la precisin es menor que la de los sistemas dependientes del hablante. Sin embargo son ms flexibles. Un sistema adaptable al hablante es desarrollado para adecuar su funcionamiento a las caractersticas de nuevos hablantes. Su dificultad reside en alguna zona entre los sistemas independientes del hablante y los dependientes de l.
Tratamiento de la palabra
Se entiende como tratamiento de la palabra al conjunto de disciplinas que estudian la manera de trasladar la forma de comunicacin que conocemos como el lenguaje hablado hacia las mquinas. El Tratamiento de la palabra est dividido en tres partes importantes: Sntesis Codificacin Reconocimiento
Sntesis de la seal vocal
Viene a ser la creacin de seal vocal sinttica, se desea que una maquina sea capaz de expresarse emitiendo sonidos que podamos entender como palabras u oraciones. Esto conlleva a la comprensin total del proceso del habla, implica la interaccin de disciplinas en las que estn incluidas la fisiologa del rgano humano as como tambin la lingstica. 86
Codificacin La computadora debe ser capaz de procesar la informacin de tal forma que le permita disponer de la posibilidad de almacenar seal vocal de una forma eficiente y as comprimir la seal y/o transmitirla por un medio de ancho de banda limitado.
Reconocimiento Tal vez esta es la parte ms complicada del tratamiento de la palabra, hacer posible que la computadora sea capaz de escuchar y reconocer las palabras emitidas por una persona. Involucra el desarrollo de algoritmos que sean capaces de realizar la comparacin de patrones de voz entre palabras pronunciadas y las palabras de un diccionario predeterminado.
En el desarrollo de este proyecto se utiliza un microcontrolador para realizar el proceso de adquisicin, digitalizacin y reconocimiento de una seal acstica, el modo de trabajo del sistema est considerado como un sistema dependiente del hablante. A este proceso de reconocimiento de voz se suma el comando de varios actuadores que permiten la movilidad de un sistema motriz montado sobre la silla de ruedas, dando como resultado un equipo terminal capaz de reconocer las ordenes acsticas del hablante y transformarlas en movimientos del sistema motriz del equipo.
PARTE EXPERIMENTAL
Para el desarrollo experimental del equipo se ha considerado tres etapas: Diseo e implementacin de la estructura mecnica sobre la silla de ruedas. Diseo e implementacin de hardware. Diseo e implementacin de software.
Para conseguir la movilidad autnoma de la silla fue necesario adaptar engranes a las ruedas posteriores y transmitir movimiento con una cadena desde un motor acoplado a un motor reductor, como se puede apreciar en la figura.
87
Figura 3. Motor reductor acoplado a eje de la silla
De igual manera se hicieron adaptaciones mecnicas para poder transportar la fuente de poder del conjunto y ubicar estratgicamente los sensores ultrasnicos en la periferia de la silla.
Figura 4. Distribucin de sensores en la periferia de la silla
88
Figura 5. Estructura para parte electrnica
Toda la estructura est comandada por un conjunto de microcontroladores que consti tuyen la parte inteligente de la silla, el hardware de este sistema est formado por varios elementos electrnicos unidos en una tarjeta madre que recibir las seales de los elementos externos y generar el comando lgico de las saldas de control. Adems de la tarjeta madre se tienen dos tarjetas electrnicas enlazadas a esta por un bus de datos, la primera encargada del reconocimiento mismo de la instruccin del hablante, y la segunda encargada del manejo de la potencia de la parte motriz.
Figura 6. Tarjeta madre de control
89
Figura 7. Tarjeta de potencia, parte motriz
Figura 8. Tarjeta de reconocimiento de voz
Figura 9. Esquema de la tarjeta de reconocimiento de voz
Por ltimo el software de programacin de los microcontroladores, tanto PIC como RSC 300, se desarroll en lenguaje ensamblador, compilado y descargado en los mismos hasta obtener los resultados deseados.
90
RESULTADOS Y DISCUSIN
Luego del desarrollo del proyecto el equipo construido tiene la capacidad de realizar las siguientes subrutinas de accin, descritas a continuacin:
Como se puede observar, nicamente se ocupan 7 de las 15 posibles instrucciones que puede recibir el microcontrolador RSC 300 en el sistema dependiente del hablante, dando la posibilidad de aumentar las subrutinas de accin de este equipo, aadiendo accesorios que mejoren el desempeo del equipo.
De igual manera los sensores ultrasnicos son calibrables a una distancia que va desde 5 cm hasta 80 cm desde el mismo hacia el obstculo, lo que permite que la silla en modo automtico pueda mantener una trayectoria y evadir cualquier tipo de obstculo o abismo.
N Descripcin de la Orden PALABRA 1 Modo automtico Auto 2 Modo manual Manual 3 Movimiento hacia delante Adelante 4 Movimiento hacia atrs Atrs 5 Giro a la izquierda Izquierda 6 Giro a la derecha Derecha 7 Paro Paro 8 No utilizada No utilizada 9 No utilizada No utilizada 10 No utilizada No utilizada 11 No utilizada No utilizada 12 No utilizada No utilizada 13 No utilizada No utilizada 14 No utilizada No utilizada 15 No utilizada No utilizada 91
CONCLUSIONES
Se ha comprobado que el reconocimiento de voz es una gran herramienta que no ha sido desarrollada en su totalidad aun en nuestro pas, y que ofrece una verdadera comunicacin directa y confiable entre el hombre y la maquina, cosa que antiguamente se constitua en un sueo, ya que la manera de comunicacin con la maquina era por medio de interfaces graficas, botones o hmis que necesitaban de acciones fsicas del usuario. Mas ahora se puede controlar a todo tipo de maquinaria por medio de nuestra voz y con palabras comunes como si se estuviera hablando con un operario ms dentro de la industria. Este sistema de exploracin posee ventajas sobre los otros sistemas existentes, pues en este caso el usuario no necesita ms que su voz para poder realizarlo, permitiendo de esta manera ser manejado por personas fsicamente discapacitadas y para nuestro caso, parapljicas.
Por ltimo se logro contribuir con el avance tecnolgico del Ecuador, creando un prototipo acorde con los avances cientficos del nuevo milenio, que adems de ser tecnolgicamente avanzado, est enfocado a relacionar la parte cientfica de la Universidad con la comunidad y su responsabilidad social.
BIBLIOGRAFA
J.M. Montero*, J. Gutirrez-Arriola*, J. Cols*, J. Macas-Guarasa*, E. Enrquez**, J.M. Pardo*, desarrollo de un sintetizador de habla en espaol, Universidad Politcnica de Madrid, 2008
Hoja de especificaciones tcnicas del microcontrolador RSC 300/364 de la sensoryinc 2009
Lleida, E., Rose, R.C.: "Utterance verification in continous speech recognition: decoding and training procedures" IEEE Transactions on Speech and Audio Processing, vol. 8(2), pp. 126--139, 2008.
Xuedong Huang, Alex Acero, Hsiao-Wuen Hon: "Spoken Language Processing: A Guide to Theory, Algorithm and System Development", Prentice Hall, 2009.
http://www.euskalnet.net/iosus/speech/recog.html Ron Cole, Aplicaciones de reconocimiento de voz, Oregon Institute, 2007