Sei sulla pagina 1di 11

81

SISTEMA DE NAVEGACIN AUTOMTICA CONTROLADA POR VOZ PARA UNA SILLA DE


RUEDAS
Marcelo Arvalo Luzuriaga
1



RESUMEN

Este sistema de navegacin es un conjunto de elementos mecnicos, elctricos y electrnicos
ensamblados sobre la estructura de una silla de ruedas capaz de facilitar la movilidad y
desplazamiento de personas discapacitadas parapljicas utilizando instrucciones o comandos de
voz.
El sistema de control del navegador esta basado en un microcontrolador tipo PIC 16f877A
(Microchip) como elemento maestro del comando y de 2 microcontroladores esclavos para la
ejecucin del reconocimiento de voz y manejo de los actuadores. El microcontrolador RCS 300
(Sensory) es el encargado de realizar el almacenamiento y reconocimiento de los comandos de voz
utilizados para el control del equipo, por su gran capacidad y conversor anlogo/digital de 32 bits
constituye un elemento especializado para este tipo de aplicaciones. Todo el conjunto est montado
sobre la estructura de una silla de ruedas y permite una navegacin manual y automtica del equipo
dependiendo la necesidad y la instruccin que realice el usuario.
EL objetivo principal del presente proyecto fue desarrollar un sistema autnomo capaz de movilizar a
personas discapacitadas parapljicas sobre una silla de ruedas, utilizando un simple comando o
instruccin de voz. Teniendo la capacidad de trabajar hasta con 15 instrucciones previamente
establecidas y grabadas por el usuario en la memoria EEPROM del microcontrolador especializado
para esta actividad. Este equipo posee tambin la alternativa de un comando manual mediante un
joystick ubicado en la parte frontal de la silla, siendo esta funcin una de las 15 posibilidades de
trabajo que posee el equipo, as mismo el sistema esta dotado con un conjunto de sensores
ultrasnicos (6) programables que entran a funcionar en el modo autnomo y sirven de seguridad al
hablante ante posibles colisiones con obstculos en todo su permetro y tambin abismos que
encuentre durante su trayectoria. Palabras clave: Control Reconocimiento-Voz
Microcontroladores

1
Facultad de Ciencias de la Ingeniera, Universidad Tecnolgica Equinoccial, Av. Occidental y Mariana de
Jess. Quito, Ecuador. mjarevalo@ute.edu.ec
82

INTRODUCCIN

El trabajo de analizar una seal de voz o acstica y su posterior reconocimiento deben llevar una
metodologa que al parecer es trivial para el ser humano, este anlisis inicia desde cuando la seal
es generada en las cuerdas vocales del hablante, a esta se la podra considerar una seal sonora.
Las seales sonoras que se caracterizan por tener alta energa y una frecuencia que va en el rango
de los 300 Hz a 4000 Hz las cuales se generan por intermedio de las cuerdas vocales y adems
presentan cierta periodicidad como se muestra en la figura siguiente



Figura 1. Seal sonora

Las seales no sonoras se caracterizan por tener baja energa y una frecuencia uniforme
presentando aleatoriedad en forma de ruido blanco se muestra en la figura siguiente



Figura 2. Seal no sonora

La seal de voz bsicamente est constituida por ondas de presin producidas por el aparato
humano. La manera obvia de capturar este tipo de seal se realiza mediante un micrfono, el cual se
encargar de convertir la onda de presin sonora en una seal elctrica.
La siguiente etapa ser aquella que se encargue de amplificar las seales a niveles que sean
manejables.
A partir de la seal analgica obtenida se hace necesario convertir la seal a formato digital para
poder procesarla en la computadora lo que se realiza mediante dos procesos: muestreo y
cuantificacin. Este proceso de dos etapas se conoce como Modulacin por Cdigo de Pulsos (PCM).
83

Posteriormente se hace necesario para el anlisis realizar un pre procesamiento de la seal vocal.
Esto se realiza a travs de tcnicas que permitan extraer la informacin acstica directamente a partir
de la seal vocal emitida. Esto se realiza mediante la tcnica de prenfasis y la aplicacin de una
ventana de Hamming.




Modelado del tracto vocal

El modelado del tracto vocal se expresa como un filtro variante en el tiempo, cuyos parmetros son
tambin variantes de acuerdo con la pronunciacin de una palabra.

El filtro variable en el tiempo tiene dos posibles seales de entrada que dependern del tipo de seal,
sonora o no sonora. Para seales sonoras la excitacin ser un tren de impulsos de frecuencia
controlada, mientras que para las seales no sonoras la excitacin ser ruido aleatorio.

La combinacin de estas seales modelizan el funcionamiento de la glotis. El espectro de frecuencias
de la seal vocal puede obtenerse a partir del producto del espectro de la excitacin por la repuesta
en frecuencia del filtro.

El tracto vocal manifiesta un nmero muy grande de resonancias, sin embargo se consideran solo las
tres o cuatro primeras que toman el nombre de 'formantes' y cubren un rango de frecuencias entre
100 y 3500 hz. Esto debido a que las resonancias de alta frecuencia son atenuadas por la
caracterstica frecuencial del tracto que tiende a actuar como un filtro pasabajo con una cada de
aproximadamente -12 dB por octava.

Este modelo es una simplificacin del proceso del habla. Los sonidos fricativos no se filtran por el
tracto con la misma extensin en que lo hacen las seales sonoras por lo que el modelo no es muy
preciso para este tipo de seales. Adems el modelo supone que las dos seales pueden separarse
sin considerar ninguna interaccin entre ellas, lo cual no es cierto ya que la vibracin de cuerdas
84

vocales es afectada por las ondas de presin dentro del tracto. Sin embargo estas consideraciones
pueden ser ignoradas resultando el modelo lo suficientemente adecuado.



El rango dinmico del odo (desde inaudible hasta doloroso) ronda los 20 bits (1 a 106). A
continuacin se lista los diferentes tipos de sonidos y sus niveles en dB.


Nivel sonido/
dB
Ratio potencia
Ratio
amplitud
Ejemplo tpico
140 10
14
10
7
Disparo a quemarropa
120 10
12
10
6
Grupo de rock ruidoso
100 10
10
10
5
Grito cercano
80 10
8
10
4
Calle ruidosa
60 10
6
3160 Conversacin normal
40 10
4
316 Susurro suave
20 10
2
31.6 El campo por la noche
6.5 4.5 2.1 Umbral absoluto a 1kHz
3 1 1 Nivel de referencia

85

Dentro del reconocimiento de seales acsticas se puede tener tres tipos de sistemas de
reconocimiento los cuales son:
Dependiente del hablante,
Independiente del hablante, y
Adaptable al hablante

Un sistema dependiente del hablante es desarrollado para funcionar para un slo hablante. Estos
sistemas, normalmente, son ms fciles de desarrollar, ms baratos de comprar, y ms precisos,
pero no tan flexibles como los sistemas adaptables al hablante o los sistemas independientes del
hablante.
Un sistema independiente del hablante es desarrollado para funcionar para cualquier hablante de un
determinado tipo (por ejemplo, Ingls Americano). Estos sistemas son los ms complicados de
desarrollar, los ms caros y la precisin es menor que la de los sistemas dependientes del hablante.
Sin embargo son ms flexibles.
Un sistema adaptable al hablante es desarrollado para adecuar su funcionamiento a las
caractersticas de nuevos hablantes. Su dificultad reside en alguna zona entre los sistemas
independientes del hablante y los dependientes de l.

Tratamiento de la palabra

Se entiende como tratamiento de la palabra al conjunto de disciplinas que estudian la manera de
trasladar la forma de comunicacin que conocemos como el lenguaje hablado hacia las mquinas.
El Tratamiento de la palabra est dividido en tres partes importantes:
Sntesis
Codificacin
Reconocimiento

Sntesis de la seal vocal

Viene a ser la creacin de seal vocal sinttica, se desea que una maquina sea capaz de expresarse
emitiendo sonidos que podamos entender como palabras u oraciones.
Esto conlleva a la comprensin total del proceso del habla, implica la interaccin de disciplinas en las
que estn incluidas la fisiologa del rgano humano as como tambin la lingstica.
86


Codificacin
La computadora debe ser capaz de procesar la informacin de tal forma que le permita disponer de la
posibilidad de almacenar seal vocal de una forma eficiente y as comprimir la seal y/o transmitirla
por un medio de ancho de banda limitado.

Reconocimiento
Tal vez esta es la parte ms complicada del tratamiento de la palabra, hacer posible que la
computadora sea capaz de escuchar y reconocer las palabras emitidas por una persona.
Involucra el desarrollo de algoritmos que sean capaces de realizar la comparacin de patrones de voz
entre palabras pronunciadas y las palabras de un diccionario predeterminado.

En el desarrollo de este proyecto se utiliza un microcontrolador para realizar el proceso de
adquisicin, digitalizacin y reconocimiento de una seal acstica, el modo de trabajo del sistema
est considerado como un sistema dependiente del hablante.
A este proceso de reconocimiento de voz se suma el comando de varios actuadores que permiten la
movilidad de un sistema motriz montado sobre la silla de ruedas, dando como resultado un equipo
terminal capaz de reconocer las ordenes acsticas del hablante y transformarlas en movimientos del
sistema motriz del equipo.

PARTE EXPERIMENTAL

Para el desarrollo experimental del equipo se ha considerado tres etapas:
Diseo e implementacin de la estructura mecnica sobre la silla de ruedas.
Diseo e implementacin de hardware.
Diseo e implementacin de software.

Para conseguir la movilidad autnoma de la silla fue necesario adaptar engranes a las ruedas
posteriores y transmitir movimiento con una cadena desde un motor acoplado a un motor reductor,
como se puede apreciar en la figura.

87


Figura 3. Motor reductor acoplado a eje de la silla

De igual manera se hicieron adaptaciones mecnicas para poder transportar la fuente de poder del
conjunto y ubicar estratgicamente los sensores ultrasnicos en la periferia de la silla.


Figura 4. Distribucin de sensores en la periferia de la silla

88


Figura 5. Estructura para parte electrnica

Toda la estructura est comandada por un conjunto de microcontroladores que consti tuyen la parte
inteligente de la silla, el hardware de este sistema est formado por varios elementos electrnicos
unidos en una tarjeta madre que recibir las seales de los elementos externos y generar el
comando lgico de las saldas de control.
Adems de la tarjeta madre se tienen dos tarjetas electrnicas enlazadas a esta por un bus de datos,
la primera encargada del reconocimiento mismo de la instruccin del hablante, y la segunda
encargada del manejo de la potencia de la parte motriz.


Figura 6. Tarjeta madre de control

89


Figura 7. Tarjeta de potencia, parte motriz








Figura 8. Tarjeta de reconocimiento de voz












Figura 9. Esquema de la tarjeta de reconocimiento de voz

Por ltimo el software de programacin de los microcontroladores, tanto PIC como RSC 300, se
desarroll en lenguaje ensamblador, compilado y descargado en los mismos hasta obtener los
resultados deseados.

90

RESULTADOS Y DISCUSIN

Luego del desarrollo del proyecto el equipo construido tiene la capacidad de realizar las siguientes
subrutinas de accin, descritas a continuacin:
















Como se puede observar, nicamente se ocupan 7 de las 15 posibles instrucciones que puede recibir
el microcontrolador RSC 300 en el sistema dependiente del hablante, dando la posibilidad de
aumentar las subrutinas de accin de este equipo, aadiendo accesorios que mejoren el desempeo
del equipo.

De igual manera los sensores ultrasnicos son calibrables a una distancia que va desde 5 cm hasta
80 cm desde el mismo hacia el obstculo, lo que permite que la silla en modo automtico pueda
mantener una trayectoria y evadir cualquier tipo de obstculo o abismo.






N Descripcin de la Orden PALABRA
1 Modo automtico Auto
2 Modo manual Manual
3 Movimiento hacia delante Adelante
4 Movimiento hacia atrs Atrs
5 Giro a la izquierda Izquierda
6 Giro a la derecha Derecha
7 Paro Paro
8 No utilizada No utilizada
9 No utilizada No utilizada
10 No utilizada No utilizada
11 No utilizada No utilizada
12 No utilizada No utilizada
13 No utilizada No utilizada
14 No utilizada No utilizada
15 No utilizada No utilizada
91

CONCLUSIONES

Se ha comprobado que el reconocimiento de voz es una gran herramienta que no ha sido
desarrollada en su totalidad aun en nuestro pas, y que ofrece una verdadera comunicacin directa y
confiable entre el hombre y la maquina, cosa que antiguamente se constitua en un sueo, ya que la
manera de comunicacin con la maquina era por medio de interfaces graficas, botones o hmis que
necesitaban de acciones fsicas del usuario. Mas ahora se puede controlar a todo tipo de maquinaria
por medio de nuestra voz y con palabras comunes como si se estuviera hablando con un operario
ms dentro de la industria.
Este sistema de exploracin posee ventajas sobre los otros sistemas existentes, pues en este caso el
usuario no necesita ms que su voz para poder realizarlo, permitiendo de esta manera ser manejado
por personas fsicamente discapacitadas y para nuestro caso, parapljicas.

Por ltimo se logro contribuir con el avance tecnolgico del Ecuador, creando un prototipo acorde con
los avances cientficos del nuevo milenio, que adems de ser tecnolgicamente avanzado, est
enfocado a relacionar la parte cientfica de la Universidad con la comunidad y su responsabilidad
social.

BIBLIOGRAFA

J.M. Montero*, J. Gutirrez-Arriola*, J. Cols*, J. Macas-Guarasa*, E. Enrquez**, J.M. Pardo*, desarrollo de
un sintetizador de habla en espaol, Universidad Politcnica de Madrid, 2008

Hoja de especificaciones tcnicas del microcontrolador RSC 300/364 de la sensoryinc 2009

Lleida, E., Rose, R.C.: "Utterance verification in continous speech recognition: decoding and training
procedures" IEEE Transactions on Speech and Audio Processing, vol. 8(2), pp. 126--139, 2008.

Xuedong Huang, Alex Acero, Hsiao-Wuen Hon: "Spoken Language Processing: A Guide to Theory, Algorithm
and System Development", Prentice Hall, 2009.

http://www.euskalnet.net/iosus/speech/recog.html
Ron Cole, Aplicaciones de reconocimiento de voz, Oregon Institute, 2007

http://www.euskalnet.net/iosus/speech/recog.html

Potrebbero piacerti anche