Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
RECONOCIMIENTO DE VOZ.
Universidad Nacional de Colombia - Sede Manizales.
Departamento de ingenierı́a eléctrica, electrónica y computación.
Curso de procesamiento digital de señales.
León Pérez Olga Esperanza - 812030
Giraldo Cardenas Juan Felipe - 815514.
Barahona Gonzalez Juan Felipe - 816505.
Grupo: 05 Proyecto final Fecha: 27/03/2019
Abstract—The present project shows an interactive application de aplicar diversos conceptos aprendidos hasta este punto de
of speech recognition through the development of a mini-game, in la carrera.
which speech recognition and instruction is applied, through the Se piensa que el reconocimiento de voz es algo complicado
detection of color by means of the voice command of a specific
person, in this case two members of the group. y exclusivo de ciertos sectores excluyendo los smartphone’s
que ya tienen reconocimiento de voz. Es importante demostrar
Index Terms—Fourier transform, signal recognition, voice
que el reconocimiento de voz es aplicable en cualquier caso
recognition, color, detection.
(como: Domótica, electromedicina, e incluso en la pedagogı́a).
Esta prueba de concepto demostrará que el reconocimiento de
I. I NTRODUCCI ÓN .
voz por secuencias se pueden llevar a cabo dejando de lado
Antes de aprender a hablar y de ser capaz de nombrar los la creencia de que es algo lı́mitado.
objetos, los niños se fijan en las propiedades de las cosas, es
decir, en la forma y el color. I-B. Necesidad.
A los niños les encantan los juegos y las actividades El trabajo de la ingenierı́a es facilitar la vida de las personas
relacionadas con encajar objetos, que desarrollan su y solucionar sus problemas de manera ingeniosa y creativa.
motricidad fina, y también fijarse en los colores llamativos Por ello se ha decidido aplicarlo de manera pedagógica como
que estimulan su capacidad de discriminación visual, por esto un juego que ayuda a los niños a aprender a reconocer los
la mayorı́a de los juguetes que le compran los padres a sus colores.
hijos tienen colores vistosos que logran atraer su atención y
estimulan su desarrollo cognitivo.
II. O BJETIVOS .
El proceso de aprendizaje de los colores para un niño sigue II-A. General.
3 fases diferenciadas: Desarrollar un sistema de instrucciones por medio de la
voz que potencialice la comunicación entre el usuario y la
El niño es capaz de percibir colores sin distinguirlos. maquina.
Distingue los colores y reconoce que son diferentes. A
base de repetirle el nombre de un color y enseñarle II-B. Especificos.
objetos que lo contengan aprenderá a distinguirlos. Desarrollar un algoritmo en MATLAB mediante el uso
Es capaz de comparar y relacionar dos objetos del mismo de la función FFT para el muestreo espectral en el
color, gracias al natural proceso evolutivo de maduración reconocimiento de determinada instrucción de voz.
cognitiva. Llevar a cabo un algoritmo de procesamiento orientado a
Basándonos en lo mencionado anteriormente, desarrollamos imágenes animadas para entrelazar con la instrucciones
un prototipo de un juego didáctico para niños (en tiempo por medio de la voz (presentado en el objetivo especifico
real) que consiste en detectar la secuencia correcta de colores 1).
mostrados previamente. Que este caso se desarrollará para
niños mayores de 2 años, que es cuando empiezan a combinar III. M ETODOLOG ÍA .
frases muy simples. La dinámica del juego consiste en que aleatoriamente apa-
recerán imágenes de distintos colores predeterminados que
La idea se pretende aplicar en un entorno infantil, esto se son llamativos para los niños, en este caso son el color rojo,
explicará en la siguiente sección. amarillo, verde, naranja, azul y morado, posteriormente el
usuario grabará una secuencia de audios y los compará con
I-A. Contexto y motivación. cada uno de los colores que aparecen en la pantalla, mostrando
La idea se origina en base a la temática presentada en la un visto de aprobación si la imagen concuerda con el audio y
materia de procesamiento digital de señales (PDS) con el fin un sı́mbolo de error si no concuerdan.
UNIVERSIDAD NACIONAL DE COLOMBIA - PROCESAMIENTO DIGITAL DE SEÑALES 2
VI. RESULTADOS
El programa clasifica bien algunas señales de audio, más
no todas como se puede ver en la figura (2). En la cual de 6
imágenes arrojadas aleatoriamente por el juego, el programa
Figura 1. Interfaz gráfica clasifica bien 4. Además resulta interesante el hecho de que
tenemos dos imagenes que representan al color verde, pero
Para poder entender la interfaz gráfica del programa, se sólo clasificó una bien. Esto quiere decir que la intensidad en
explicará cada una de sus partes. Estas son: la que se entrega el audio, hace que el programa altere su
Actualizar audios: Dado que todas las personas tienen precisión en la clasificación.
un pitch distinto, es necesario actualizar los audios de
referencia (para cada uno de los colores) a medida que
se cambia de usuario. En este campo de actualizar audios,
el usuario hunde el botón del audio que quiere actualizar
y tiene un total de dos segundos para decir la palabra.
En el mismo campo y como se puede ver en la imagen,
se puede observar un gráfico de la señal normalizada en
el tiempo.
Campo para escuchar los audios: Una vez se ha grabado
los audios de referencia, se puede escuchar cada uno de
los mismos para saber si la calidad del audio es optima
para poder tomarla de referencia. Figura 2. Resultados obtenidos por el juego
Botón ”Jugar”: Este botón genera una secuencia aleatoria
de colores la cual el usuario debe seguir. La secuencia
VII. D ISCUSI ÓN
que se graba, se da en el orden que se ve en el campo
de secuencia ”secuencia recibida”. El método utilizado en el programa sirve para una sola
Botón grabar: Este botón se puede usar antes y durante persona, por lo tanto no reconoce las palabras para
el juego. Si aún no se ha empezado el juego, el usuario cualquier persona que lo use. Por ende siempre debe
puede probar que el programa si esté reconociendo actualizarse los audios de referencia para la voz de la
correctamente la voz. Esto se realizar hundiendo el persona que jugará.
botón y diciendo uno de los colores, el programa Para que el programa sirva para cualquier persona, de-
automáticamente la dirá qué color dijo y se lo mostrará berı́a hacerse una evaluación por fonos pues ası́ es como
en la parte de abajo como se puede ver en la gráfica. funcionan sistemas como ”siri”, reconocimiento de voz
de Google”, etc.
Ahora, una vez iniciado el juego se debe hundir el botón Si se requiere que el juego sea para el aprendizaje de
grabar y si el color que se recibió por voz, coincide niños, es de suma importancia saber que los niños no
con el que aparece en la secuencia dada, se mostrará siempre tienen la misma pronunciación de las palabras
una imagen de que ha coincidido correctamente. Si no como pueden hacerlo los adultos. Esto afectarı́a aún más
coincide, se mostrará una imagen de que no ha coincidido los resultados del programa.
correctamente respecto a la secuencia de arriba. Hay que recordar que la transformada de fourier nos da
Botón de Reset”: Como su nombre lo dice, resetea.el la energı́a obtenida en el rango espectral de frecuencias.
juego y elimina la secuencia dada y la secuencia recibida. Por ende, la intensidad de la voz al grabar las señales
de referencia debe ser igual que al grabar el audio que
queremos evaluar. Esto presenta problemas y por este
V. P ROCEDIMIENTO
tipo de motivos para un audio aveces podemos recibir
El programa realizado lee los audios de referencia (para una clasificación y aveces otra. Esto se podrı́a solucionar
cada uno de los colores), luego los normaliza y los pasa por de la siguiente manera:
UNIVERSIDAD NACIONAL DE COLOMBIA - PROCESAMIENTO DIGITAL DE SEÑALES 3
VIII. C ONCLUSIONES
Al realizar un programa de reconocimiento de voz, lo
más óptimo serı́a usar una reconocimiento de fonos. Esto
dado que el método que usamos y el que proponemos en
la sección de ”Discusión”, no es el más adecuado si se
quiere reconocer voz para cualquier persona.
El juego resulta interactivo para el aprendizaje de niños.
Sin embargo habrı́a que buscar nuevas alternativas que
permita el reconocimiento de palabras para distintas
tonalidades y pronunciaciones (como es el caso de los
niños).
IX. R EFERENCIAS
(2019). Vignolo Barchiesi, J. (2008). Introduccion al
procesamiento digital de senales. Valparaiso, Chile: Eds.
Universitarias de Valparaiso.
Retraso en el desarrollo del habla o del lenguaje
(para Padres) - KidsHealth. (2019). Retrieved from
https://kidshealth.org/es/parents/not-talk-esp.html
Proakis, J. (2011). Tratamiento Digital De Senales. Pear-
son Educacion de Mexico, SA de CV.