Sei sulla pagina 1di 5

Anlisis del Reconocimiento de voz desde el punto de

vista de varios autores


A. CORTEZ, J. F. BEDON
Instituto de Postgrado y Educacin Continua (IPEC)
Escuela Superior Politcnica del Chimborazo (ESPOCH)
Riobamba, Ecuador
Telf.: +593 996183413 +593 996123181
romulo.cortez@cnt.gob.ec jose.bedon@cnt.gob.ec

Resumen Este trabajo sintetiza de manera breve las tcnica de


extraccin de caractersticas sobre la base de dos dimensiones de la
transformada discreta del coseno (DTC_2D) y el mtodo del escaneo
en zig-zag del espectrograma, que son imgenes basadas en tiempo
y en frecuencia de elocuciones fonemas 1 que nos permiten observar
de manera ms clara las diferencias en la pronunciacin de una
misma palabra, en comparacin con los puntos de vista basados en
el anlisis de dimensin nica como LPC (Linear Prediction
Coefficients ), Cepstral, o FFT.

I. INTRODUCCION
La identificacin de una persona es una forma eficaz de brindar
seguridad a un sistema. El estudio de los rasgos conductuales
del ser humano como reconocimiento de: iris del ojo, huellas
dactilares, geometra de la palma de la mano, de voz,
faciales; ha alcanzado un notable inters en el desarrollo en el
campo de las TICS.

Como una tarea de reconocimiento de fonemas, una serie de


experimentos se llevaron a cabo en la bsqueda de la consonante
oclusiva 2 ("b", "d", "g") de la base de datos TIMIT 3 [1]
pronunciada por 630 personas (hombre y mujer). Los datos extrados
son la base de patrones de entrada para la formacin de dos tipos de
redes neuronales, la red semi-dinmica (TDNN), y una red esttica
(MLP). Las tasas de reconocimiento ms alto de 77,5 y el 72,4 por
ciento se registraron para TDNN y MLP, respectivamente. Esto
contrasta con los resultados de un 72 por ciento citadas por Hwang
y otros [3] para los mismos fonemas hablados por 40 mujeres.

En este trabajo se va a registrar datos referentes a


indagaciones realizadas sobre tcnica de voz y reconocimiento
de voz, se hace notar que una persona capta el sonido de 202000 Hz, siendo el resto de sonidos imperceptibles. El
procesamiento de la seal de voz se segmenta, eliminando los
datos que no forman parte de una palabra y/o fonema. Este
proceso se lo realiza utilizando tcnicas de filtrado, y otras
tcnicas expuestas por diferentes autores en su publicaciones
cientficas.

Abstract This paper summarizes briefly the technique of


feature extraction based on two-dimensional discrete cosine
transform (DTC_2D) and the method of scanning zig-zag
spectrogram, which are images based on time and frequency of
utterances phonemes that allow us to see more clearly the differences
in pronunciation of a word, compared to the view based on analysis
of single dimension as LPC (Linear Prediction Coefficients),
Cepstral, or FFT.

Existen varios mtodos (identificadores) para el


reconocimiento de la voz, la figura 1 muestra algunas tcnicas.

As a task of phonemic awareness, a series of experiments were


carried out in pursuit of the stop consonant ( "b", "d", "g") of the
database TIMIT [1] spoken by 630 people ( man and woman). The
extracted data are the basis of input patterns for the formation of two
types of neural networks, semi-dynamic network (TDNN), and a
static network (MLP). This contrasts with the results of a 72 percent
cited by Hwang et al [3] for the same phonemes spoken by 40 women.
Keywordscomponentes; fonemas; espectrogramas; KLT ;
DCT; pixcel, TIMIT, extracin de caractersticas;

IDENTIFICADORES

MODELOS DE
PLANTILLA
MLP

DISTORSION EN
TIEMPO DINAMICO
(DTW)

REDES
NEURALES
NNS

VECTOR DE
QUANTIZACION
(VQ)

MAQUINAS DE
SOPORTE DE
VECTOR (SVMS)

MODELOS
OCULTOS DE
MARKOV (HMM)

ESTOCASTICOS

MODELOS DE MESCLA
GAUSSIANA
(GMM)

Fig. 1 Tcnicas de Identificacin [2]


Con la aparicin de las redes neuronales y el creciente
desarrollo del reconocimiento automtico de la voz red, varios

Son sonidos del habla que nos permiten distinguir palabras en una lengua
determinada Ej. /p/ y /b/ son fonemas ya que solo al cambiar una letra puede
cambiar todo el contexto en pata & bata
2
Tambin llamadas oclusivas sonoras y se pronuncian con la vibracin de las
cuerdas vocales y determinan pausas en palabras

3 TIMIT base de datos que est diseado para proporcionar datos de voz para
los estudios acsticos-fontica y para el desarrollo y la evaluacin de los
sistemas de reconocimiento automtico del habla. TIMIT contiene grabaciones
de banda ancha de dialectos de Ingls Americano.

estudios fueron realizados para acoplar esta tecnologa a las


redes neuronales [4].
Constituyndose el principal objetivo de este descubrimiento
desarrollar un sistema de voz y reconocimiento de voz
independiente del texto. En la actualidad se han dado pasos
gigantescos en este mbito, siendo posible interactuar con los
ordenadores fijos y mviles con sistemas como: SIRI (Apple),
Cortana (Windows) y Google Now (Google), llamados
asistentes de voz, en la actualidad estas herramientas hacen la
vida ms simple y divertida, con estas aplicaciones se observa
mejoras significativas en la precisin del reconocimiento, as
como la tasa de convergencia para el control y desarrollo.
La figura 2 ilustra el modelo del sistema en general, en la
siguiente seccin se define los datos de entrada y se explica el
procesamiento y el algoritmo de extraccin de caractersticas,
en la ltima seccin se hace un anlisis para las diferentes redes
neuronales.

PRE
PROCESAMIENTO

PROCESAMIENTO
DE IMAGEN
EXTRACION D E
CARACTERISTICAS

III. PROCESAMIENTO DE DATOS Y ESTRACCION DE


CARACTERISITICAS
En la rama de la inteligencia artificial, el reconocimiento de
patrones y en el procesamiento de imgenes, la extraccin de
caractersticas se inicia a partir de un conjunto inicial de datos
que facilita las posteriores etapas de aprendizaje y de
generalizacin y en algunos casos conduce a mejores
interpretaciones humanas.
La extraccin de caractersticas se relaciona con la reduccin de
la dimensionalidad, existen
La seleccin de caractersticas se refiere a la eleccin de ciertos
atributos de una imagen, la figura 3 muestra los mtodos para
la extraccin de caracterstica
PREDICCION LINEAL DE
CARACTERISITICAS
(LPC)

WAVELETS

REDES
NEURONALES
TDNN & MLP

MEL-FREQUENCY
CEPSTRUM COEFFICIENTS
(MFCC)
EXTRACCION
DE
CARACTERISTICAS

INGRESO
VOZ

LINEAR PREDICTIVE
CEPSTRAL COEFICIENTS
(LPCC)

VOZ
RECONOCIDA

PERCEPTUAL LINEAR
PREDICTION (PLP)

Fig. 2. El Sistema General de Reconocimiento de Voz


II. RECOLECCION DE DATOS
Los datos de una consonante oclusiva (b", "d", "g") fueron
extrados de una voz humana continua y natural, pronunciada
por 630 hablantes de 8 regiones diferentes de la base de datos
TIMIT [1]. Se seleccionaron ms de 2.000 expresiones para el
entrenamiento de las redes neuronales y se seleccionaron
aproximadamente 1.250 expresiones en un total con una tcnica
para estimar el rendimiento del modelo predictivo (crossvalidation) los datos de validacin establecidos se dividieron en
dos grupos:
1. Un pequeo conjunto de datos compuesto de 8 regiones
diferentes donde cada uno hablo de 130 a 180 expresiones.
2. Un conjunto de datos grande contenidas todas las 8 regiones
de 1250 enunciado.
Los enunciados o expresiones para el entrenamiento y
validacin se tomaron un nmero similar de hombres y mujeres
para ambos conjuntos

NEURAL PREDICTIVE
CODING

Fig. 3 Tcnicas de Extraccin de caractersticas [2]


El principio fundamental en el procesamiento de la imagen
digital para el reconocimiento de patrones de voz es la
capacidad de representar la imagen en un espacio en el que los
atributos de la imagen no estn correlacionados. La
transformada ortogonal tiene propiedades distintas y diversas
como:
Se descorrelaciona la seal en el dominio de la transformada.
Contiene mayor concentracin de energa en el menor nmero
de coeficientes de la Transformada.
La Transformada Discreta del Coseno (DTC) [5] es la mejor
transformada ortogonal mejorable en comparacin con el
KLT 4 (Karhunen-Love Transform) que se conoce como la
trasformada ms ptima.
La transformada discreta del coseno esta defina para N puntos
como:
4

(1)

Una representacin de un proceso estocstico como una combinacin lineal


infinita de funciones ortogonales, anlogas a una representacin en serie de
Fourier de una funcin en un intervalo acotado

(1)

La transformada inversa discreta del coseno esta defina como:


[] =

[][] (2 + 1) ,

(2)

=0

= 0,1, , 1

La ecuacin (3) indica la ecuacin de La Transformada


Karhunen-Love KLT.
La matriz de transformacin de la KLT, suponiendo que el
vector de coeficientes transformados tambin tiene media nula,
la matriz de covarianza del vector de coeficientes
transformados resulta [6]:

0 0
0

0 1 0
(3)
= [ ] = (0 , 1 , , 1 ) =

0 0 1
Donde , con = 0,1,, N
coeficientes transformados.

- 1,

intensivo y reduce la restriccin en tiempo real para los


propsitos ms prcticos. Finalmente, cualquier pxel en una
imagen es probable que sea estrechamente relacionada con los
cuatro pxeles que rodean y de manera similar cada uno de
estos, son propensos a tener la misma relacin con sus
respectivos vecinos, pero el pxel original es poco probable de
estar relacionado con uno que est a larga distancia. Mediante
la divisin de la imagen en una serie de bloques ms pequeos
se forman grupos de pxeles que estn estadsticamente
relacionadas con un alto nivel de redundancia.
El espectrograma de banda ancha generada se divide en una
serie de (8 8) bloques de pxeles como se muestra en la
figura 4, donde y son las dimensiones del espectrograma.
C

=0

(2 + 1) , = 0,1, , 1
2

Seg1 Seg2

Espectrograma
de Imagen

() = 2[]

denota las varianzas de los

La Figura 3 ilustra el MSE 5 de las transformadas ortogonales


[6] en comparacin con el tamao del bloque. Como se puede
ver en la Figura 2 los bloques ms pequeos se eligen en lugar
de toda la imagen por tres razones principales.

SegN

Fig.4. Segmentacin de la imagen [4]


Una Transformada Discreta de Coseno en 2 Dimensiones (2DDCT) de cada bloque de 8x8 se calcula, las caractersticas
fundamentales de imagen se extraen utilizando el mtodo
escaneo en zigzag como se muestra en la figura, 5. La
frecuencia aumenta a lo largo de la diagonal de partida en el
elemento dc que est situado en el pxel 1 (ubicado en la parte
superior izquierda) con menor frecuencia y termina en el pixel
64 (situado en la parte inferior derecha) con mayor frecuencia.

4%

3%

FFT

2%

DCT

1%

KLT
0%

2x2

4x4

8x8 16x16 32x32 64x64 128x128

Fig. 3 MSE frente al tamao de bloque para diferentes


transformadas ortogonales [8]
En primer lugar, para aprovechar la redundancia en un conjunto
de pxeles, en segundo lugar, el procesamiento de imgenes de
pequeo nmero de bloques es computacionalmente menos
5
Error Medio Cuadrtico (Mean Square Error) mide el promedio de los
errores al cuadrado, es decir, la diferencia entre el valor estimado y lo que se
estima

64

Fig.5. Mtodo del escaneo en zigzag

La mayor cantidad de datos en cada bloque de procesado se


almacena en la regin de baja frecuencia. El componente de
se selecciona como la caracterstica clave de cada bloque
individual y se almacena en un archivo de patrones para el
entrenamiento de las redes neuronales.
El sistema global se compone de 3 particiones principales como
se indica en la Fig. 6. En la etapa de pre-procesamiento los
datos analgicos son convertidos en datos lineales de 16 bits.
La segunda etapa representa el procesamiento de imgenes y la
extraccin de caractersticas clave y finalmente, en la ltima
etapa los patrones generados son entrenados y probados por
las dos redes neuronales.
IV. ESTRUCTURA DE LAS REDES NEURONALES Y
RESULTADOS
Los datos seleccionados constituyen la base de patrones de
entrada para las redes neuronales de formacin. En este estudio
una red neuronal semi-dinmica (Time-Delay Neural Network,
TDNN) y una red esttica (Multilayer Preceptors, MLP) son
adiestradas para propsitos de reconocimiento. Estas dos redes
se utilizaron con el fin de investigar si el espectrograma
procesado necesita adaptarse al comportamiento dinmico de la
seal de voz o las caractersticas extradas son adecuadas para
una simple red esttica.
Pre-procesamiento
ADC
Muestreo 8kHz
8 Bits ley de
mu

Seal
Analogica
Voz

Convertidor
de 16 Bits
Lineal

Espectrograma
Con n puntos
FFT

Extraction de Caractersticas
Tomar m
Caracterisiticas
Por cada segmento
(Escaneo en Zigzag)

Divida a los
segmentos l,
nmero de PxQ

Clasificador
Guardar como un
archivo de
patrones

REDES
NEURONALES
TDNN & MLP

Escoger
P,Q,m

Ronocer
fonema o
plabra

Hola

Figura 6. El sistema de Reconocimiento de Voz [7]


El procedimiento propuesto reduce el nmero de los nodos de
entrada en los patrones de entrenamiento y al mismo tiempo
proporciona un nmero ms importante de caractersticas del
conjunto de datos. Por lo tanto para una red TDNN la reduccin
de las unidades de entrada de nmero se traduce en un menor
nmero de nodos ocultos (disminuyendo el nmero total de
conexiones), que a su vez resulta en un menor tiempo de
formacin y una mejor tasa de convergencia.
En caso de MLP se us el mismo nmero de entrada y salida,
es decir, 72 y 3 respectivamente, pero slo se us una capa

oculta de nodos 20 en comparacin con dos capas ocultas en la


TDNN.
Un conjunto completo de resultados se ilustran en la Tabla 1.
Tipos
Redes neuronales
TDNN
MLP

Entrenamiento

Pruebas

85
89

77.5
72.4

Tabla1 Resultados de la Base de Datos TIMIT [3]


Las tasas de reconocimiento ms alto de 77,5 y 72,4 por ciento
se registraron. TDNN y MLP, respectivamente, Estos
resultados contrastan con resultado de 72 por ciento citado por
Hwang et al [3] para los mismos fonemas hablados por slo 40
hablantes femeninos.
CONCLUCIONES
Una Red Neuronal semi-dinmica (TDNN) y red esttica
(MLP) son herramientas ptimas para el reconocimiento de
Voz.
El reconocimiento de Voz parte de un razonamiento diferente
ya que para reconocer fonemas (palabras oraciones silabas) de
personas el sistema est reconociendo imgenes
espectrogramas que son las representaciones de la voz en
funcin del tiempo y la frecuencia utilizando la DCT o KLT en
2 dimensiones (si fuera 3 dimensiones la tercera dimensin
representa el peso de la seal El tono) comparando patrones
de puntos (pixeles) similares en regiones dividas del
espectrograma.
Cualquier tipo de sonido se puede representar con
espectrogramas ya que se pueden discretizar y convertirlos en
una funcin en el dominio del tiempo y la frecuencia.
Tanto la transformada KLT como la DCT son funciones
matemticas muy tiles y su principal valor es que pueden
descomponer las seales en funcin de coeficientes donde
siempre la mayor parte de la energa est enfocada en los
primeros.
Las Redes TDNN y MLP se utilizan con el fin de investigar y
determinar si el espectrograma procesado necesita adaptarse al
comportamiento dinmico de la seal de voz o las
caractersticas extradas son adecuadas para una red esttica
simple
El procedimiento analizado reduce el nmero de nodos de
entradas en los patrones de entrenamiento y al mismo tiempo
proporciona un nmero significativo de caractersticas del
conjunto de informacin.
Existen muchas tcnicas de extraccin de caractersticas y
tcnicas de identificacin de reconocimiento de voz pero una
de las ms utilizadas es TDNN y MLP mediante el uso de la
transformada de Karhunen-Love (KLT) y la transforma de
Discreta del Coseno (DCT)

AGRADECIMIENTOS
Este documento fue realizado con la colaboracin del Msc.
Kenneth Palacios B. profesor de la Universidad de Cuenca y
profesor del ESPOCH quien nos ayud con material y la
documentacin necesaria para realizar esta investigacin.
REFERENCIAS
[1] Lopes Carla, Perdigo Fernando Phone Recognition on the
TIMIT Database
[2] Garca Guajardo, Sistema de reconocimiento de voz
usando perceptrn multicapa y Coeficientes Cepstrales de Mel.
Pag 21-22 . (2014).
[3] Hwang J, Li H, "Interactive Quary learning for Isolated
Speech Recognition", Proc. Of IEEE Signal Processing,
Network for Signal Processing II, Denmark 31 Aug. - 2 Sep.
1992, page 93-102.
[4] Waibel A H, Hanazawa T, Hinton G,Shikano K, Lang K,
"Phoneme Recognition Using Time-Delay Neural Networks.",
lEEE Trans. on ASSP, Vol. ASSP-37, No. 3, March 1989.
[5] Digital Signal Processing and Statistical Classification Miao
G., Clements M. Pag. 116
[6]Valetin Cruz Rodriguez Diseo de un codificador de
imgenes adaptativo multitransformada mediante el uso de la
transformada karhunen-love Octubre 2012 Pag.35 Ref 2.62
[7] M Ahmadi, NJ Bailey, BS Hoyle, "Phoneme Recognition
using Speech Image ( Spectrogram ).", lEEE Proceedings
IWISP '96, 47 November 1996; Manchester, UK. Pag. 674
[8] Rao K R, Yip P, ''DCT. Algorithm. Advantages,
Applications."', Academic Press Inc., 1990.

Jos F. Bedon Nacido en Ambato el 26 de


junio 1981. Realiz sus estudios
secundarios en el Colegio Tcnico
Guayaquil y los estudios de pregrado en
la Universidad Tcnica de Ambato.
Actualmente sigue la maestra en
Sistemas de Telecomunicaciones en la
Escuela
Superior
Politcnica
de
Chimborazo en la ciudad de Riobamba.
En el ao desde el ao 2009 hasta la presente fecha labora en
la Corporacin Nacional de Telecomunicaciones CNT EP

Agustn Cortez Manzano, Nacido en


Tixn Alaus el 11 de abril 1980.
Realiz sus estudios secundarios en el
Colegio Juan Francisco Yerovi y los
estudios superiores curs en la Escuela
Superior Politcnica de Chimborazo.
Actualmente sigue la maestra en
Sistemas de Telecomunicaciones en la
Escuela Superior Politcnica de
Chimborazo en la ciudad de Riobamba.
En el ao 2009 fue profesor en la Facultad de informtica
Electrnica en la Escuela Superior Politcnica de Chimborazo
en la ciudad de Riobamba, desde el ao 2008 hasta la presente
fecha labora
en la Corporacin Nacional de
Telecomunicaciones CNT EP

Potrebbero piacerti anche