Sei sulla pagina 1di 3

UNIVERSIDAD NACIONAL DE COLOMBIA - PROCESAMIENTO DIGITAL DE SEÑALES 1

RECONOCIMIENTO DE VOZ.
Universidad Nacional de Colombia - Sede Manizales.
Departamento de ingenierı́a eléctrica, electrónica y computación.
Curso de procesamiento digital de señales.
León Pérez Olga Esperanza - 812030
Giraldo Cardenas Juan Felipe - 815514.
Barahona Gonzalez Juan Felipe - 816505.
Grupo: 05 Proyecto final Fecha: 27/03/2019

Abstract—The present project shows an interactive application de aplicar diversos conceptos aprendidos hasta este punto de
of speech recognition through the development of a mini-game, in la carrera.
which speech recognition and instruction is applied, through the Se piensa que el reconocimiento de voz es algo complicado
detection of color by means of the voice command of a specific
person, in this case two members of the group. y exclusivo de ciertos sectores excluyendo los smartphone’s
que ya tienen reconocimiento de voz. Es importante demostrar
Index Terms—Fourier transform, signal recognition, voice
que el reconocimiento de voz es aplicable en cualquier caso
recognition, color, detection.
(como: Domótica, electromedicina, e incluso en la pedagogı́a).
Esta prueba de concepto demostrará que el reconocimiento de
I. I NTRODUCCI ÓN .
voz por secuencias se pueden llevar a cabo dejando de lado
Antes de aprender a hablar y de ser capaz de nombrar los la creencia de que es algo lı́mitado.
objetos, los niños se fijan en las propiedades de las cosas, es
decir, en la forma y el color. I-B. Necesidad.
A los niños les encantan los juegos y las actividades El trabajo de la ingenierı́a es facilitar la vida de las personas
relacionadas con encajar objetos, que desarrollan su y solucionar sus problemas de manera ingeniosa y creativa.
motricidad fina, y también fijarse en los colores llamativos Por ello se ha decidido aplicarlo de manera pedagógica como
que estimulan su capacidad de discriminación visual, por esto un juego que ayuda a los niños a aprender a reconocer los
la mayorı́a de los juguetes que le compran los padres a sus colores.
hijos tienen colores vistosos que logran atraer su atención y
estimulan su desarrollo cognitivo.
II. O BJETIVOS .
El proceso de aprendizaje de los colores para un niño sigue II-A. General.
3 fases diferenciadas: Desarrollar un sistema de instrucciones por medio de la
voz que potencialice la comunicación entre el usuario y la
El niño es capaz de percibir colores sin distinguirlos. maquina.
Distingue los colores y reconoce que son diferentes. A
base de repetirle el nombre de un color y enseñarle II-B. Especificos.
objetos que lo contengan aprenderá a distinguirlos. Desarrollar un algoritmo en MATLAB mediante el uso
Es capaz de comparar y relacionar dos objetos del mismo de la función FFT para el muestreo espectral en el
color, gracias al natural proceso evolutivo de maduración reconocimiento de determinada instrucción de voz.
cognitiva. Llevar a cabo un algoritmo de procesamiento orientado a
Basándonos en lo mencionado anteriormente, desarrollamos imágenes animadas para entrelazar con la instrucciones
un prototipo de un juego didáctico para niños (en tiempo por medio de la voz (presentado en el objetivo especifico
real) que consiste en detectar la secuencia correcta de colores 1).
mostrados previamente. Que este caso se desarrollará para
niños mayores de 2 años, que es cuando empiezan a combinar III. M ETODOLOG ÍA .
frases muy simples. La dinámica del juego consiste en que aleatoriamente apa-
recerán imágenes de distintos colores predeterminados que
La idea se pretende aplicar en un entorno infantil, esto se son llamativos para los niños, en este caso son el color rojo,
explicará en la siguiente sección. amarillo, verde, naranja, azul y morado, posteriormente el
usuario grabará una secuencia de audios y los compará con
I-A. Contexto y motivación. cada uno de los colores que aparecen en la pantalla, mostrando
La idea se origina en base a la temática presentada en la un visto de aprobación si la imagen concuerda con el audio y
materia de procesamiento digital de señales (PDS) con el fin un sı́mbolo de error si no concuerdan.
UNIVERSIDAD NACIONAL DE COLOMBIA - PROCESAMIENTO DIGITAL DE SEÑALES 2

III-A. Materiales. la transformada de Fourier.


Software - MATLAB
Después de procesar los audios de referencia, el programa
se dispone a escuchar el nuevo audio ingresado por el usuario
IV. I NTERFAZ GR ÁFICA y le realiza el mismo proceso de normalizar y transformar. Una
vez realizado este proceso, se saca la media para cada valor
absoluto de la resta de la transformada de la señal recibida con
cada una de las de referencia. De esta manera, obtenemos el
error que hay entre la señal recibida con respecto a cada una
de las de referencia que se tienen. Ya a partir de esto se mira
cuál tiene el mı́nimo error y se hace la respectiva clasificación.

VI. RESULTADOS
El programa clasifica bien algunas señales de audio, más
no todas como se puede ver en la figura (2). En la cual de 6
imágenes arrojadas aleatoriamente por el juego, el programa
Figura 1. Interfaz gráfica clasifica bien 4. Además resulta interesante el hecho de que
tenemos dos imagenes que representan al color verde, pero
Para poder entender la interfaz gráfica del programa, se sólo clasificó una bien. Esto quiere decir que la intensidad en
explicará cada una de sus partes. Estas son: la que se entrega el audio, hace que el programa altere su
Actualizar audios: Dado que todas las personas tienen precisión en la clasificación.
un pitch distinto, es necesario actualizar los audios de
referencia (para cada uno de los colores) a medida que
se cambia de usuario. En este campo de actualizar audios,
el usuario hunde el botón del audio que quiere actualizar
y tiene un total de dos segundos para decir la palabra.
En el mismo campo y como se puede ver en la imagen,
se puede observar un gráfico de la señal normalizada en
el tiempo.
Campo para escuchar los audios: Una vez se ha grabado
los audios de referencia, se puede escuchar cada uno de
los mismos para saber si la calidad del audio es optima
para poder tomarla de referencia. Figura 2. Resultados obtenidos por el juego
Botón ”Jugar”: Este botón genera una secuencia aleatoria
de colores la cual el usuario debe seguir. La secuencia
VII. D ISCUSI ÓN
que se graba, se da en el orden que se ve en el campo
de secuencia ”secuencia recibida”. El método utilizado en el programa sirve para una sola
Botón grabar: Este botón se puede usar antes y durante persona, por lo tanto no reconoce las palabras para
el juego. Si aún no se ha empezado el juego, el usuario cualquier persona que lo use. Por ende siempre debe
puede probar que el programa si esté reconociendo actualizarse los audios de referencia para la voz de la
correctamente la voz. Esto se realizar hundiendo el persona que jugará.
botón y diciendo uno de los colores, el programa Para que el programa sirva para cualquier persona, de-
automáticamente la dirá qué color dijo y se lo mostrará berı́a hacerse una evaluación por fonos pues ası́ es como
en la parte de abajo como se puede ver en la gráfica. funcionan sistemas como ”siri”, reconocimiento de voz
de Google”, etc.
Ahora, una vez iniciado el juego se debe hundir el botón Si se requiere que el juego sea para el aprendizaje de
grabar y si el color que se recibió por voz, coincide niños, es de suma importancia saber que los niños no
con el que aparece en la secuencia dada, se mostrará siempre tienen la misma pronunciación de las palabras
una imagen de que ha coincidido correctamente. Si no como pueden hacerlo los adultos. Esto afectarı́a aún más
coincide, se mostrará una imagen de que no ha coincidido los resultados del programa.
correctamente respecto a la secuencia de arriba. Hay que recordar que la transformada de fourier nos da
Botón de Reset”: Como su nombre lo dice, resetea.el la energı́a obtenida en el rango espectral de frecuencias.
juego y elimina la secuencia dada y la secuencia recibida. Por ende, la intensidad de la voz al grabar las señales
de referencia debe ser igual que al grabar el audio que
queremos evaluar. Esto presenta problemas y por este
V. P ROCEDIMIENTO
tipo de motivos para un audio aveces podemos recibir
El programa realizado lee los audios de referencia (para una clasificación y aveces otra. Esto se podrı́a solucionar
cada uno de los colores), luego los normaliza y los pasa por de la siguiente manera:
UNIVERSIDAD NACIONAL DE COLOMBIA - PROCESAMIENTO DIGITAL DE SEÑALES 3

• En vez de tomar un audio, evaluar una base de


datos en la cual se evalúe los audios en tiempo-
frecuencia, segmentando cada uno de los audios de
forma tal que se recorte la energı́a que no presente
información relevante (ruido y tiempo en el que no
hay audio) y que para el resto de la energı́a de cada
uno de los segmentos (puede ser por ventaneo) se
obtenga un promedio de la misma. Dado esto se
puede promediar la energı́a de los cada uno de los
segmentos para todos los audios de la base de datos
por cada clase.

Después se realiza el mismo proceso para el audio


que se quiere evaluar y se compara con los valores
de energı́a que se tienen de los segmentos de lo
obtenido en la base de datos y los que resulten más
parecidos, éste será el correcto.

VIII. C ONCLUSIONES
Al realizar un programa de reconocimiento de voz, lo
más óptimo serı́a usar una reconocimiento de fonos. Esto
dado que el método que usamos y el que proponemos en
la sección de ”Discusión”, no es el más adecuado si se
quiere reconocer voz para cualquier persona.
El juego resulta interactivo para el aprendizaje de niños.
Sin embargo habrı́a que buscar nuevas alternativas que
permita el reconocimiento de palabras para distintas
tonalidades y pronunciaciones (como es el caso de los
niños).

IX. R EFERENCIAS
(2019). Vignolo Barchiesi, J. (2008). Introduccion al
procesamiento digital de senales. Valparaiso, Chile: Eds.
Universitarias de Valparaiso.
Retraso en el desarrollo del habla o del lenguaje
(para Padres) - KidsHealth. (2019). Retrieved from
https://kidshealth.org/es/parents/not-talk-esp.html
Proakis, J. (2011). Tratamiento Digital De Senales. Pear-
son Educacion de Mexico, SA de CV.

Potrebbero piacerti anche