Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
ISSN 0122-1701
65
MAURICIO LVAREZ Ingeniero Electrnico, Estudiante de la maestra en Ingeniera Elctrica. Universidad Tecnolgica de Pereira malvarez@ohm.utp.edu.co GERMN CASTELLANOS Ph.D. en Telecomunicaciones Docente de planta Universidad Nacional de Colombia, s. Manizales gcastell@ieee.org
patologas de voz [4], el reconocimiento de patologas de voz usando HMM y diferentes tcnicas de reduccin de dimensionalidad para la seleccin de caractersticas de manera simultnea, no se ha formulado con anterioridad. En el artculo, se presenta la aplicacin de las tcnicas antes mencionadas de reduccin de dimensin para la seleccin de caractersticas en el reconocimiento de patologas de voz sobre muestras de labio y paladar hendido usando HMM y patologas de voz. Las caractersticas de voz analizadas son los coeficientes MFCC, as como las caractersticas acsticas (el pitch y el HNR). Con el fin de obtener una mejor representacin de la seal de voz, se incluyen las caractersticas dinmicas que relacionan la dependencia entre los marcos. As, las caractersticas dinmicas de primer orden y segundo orden se concatenan con las caractersticas estticas para obtener un vector conjunto inicial de representacin de las seales de voz. En el caso particular, por cada clase se disea un HMM, cuyos parmetros se estiman mediante el criterio de Mxima Verosimilitud, usando el algoritmo EM (ExpectationMaximization).
66 2. ENTRENAMIENTO DE OCULTOS DE MARKOV 2.1 Extraccin de Caractersticas Se consideran los coeficientes cepstrum sobre la escala de frecuencias Mel (MFCC Mel-Frecuency Cepstrum Coefficients) [5]. As mismo, se usan las caractersticas acsticas [1], entre las cuales estn el pitch, definido como la frecuencia fundamental percibida, que corresponde a la tasa a la cual se abren y cierran las cuerdas vocales y la razn logartmica de energa entre el ruido y los armnicos (HNR) [6]. Se incluyen adems, caractersticas dinmicas de primer y segundo orden. 2.2 Reduccin de Dimensionalidad La reduccin del espacio inicial de caractersticas de voz se realiza empleando mtodos de anlisis multivariado [8]: 2.2.1 Anlisis de Componentes Principales (PCA) Corresponde a la transformacin lineal de las caractersticas originales, que genera el espacio modificado, de acuerdo a
v' = Av (1) donde v es el vector de caractersticas original, v es el vector de caractersticas transformado y A es la matriz de transformacin. La matriz A se determina de forma tal, que todos los elementos individuales de v queden incorrelacionados, es decir, que la matriz de covarianza de los datos transformados tenga elementos diferentes de cero, nicamente, en su diagonal principal. Esto se logra usando los autovectores de la matriz de covarianza de los datos originales, como las filas de la matriz A [8], [9], [10].
LOS
MODELOS
medios de su propia clase, mientras la matriz SB muestra la dispersin de los valores medios de cada clase con respecto a una media generalizada. Las matrices SW y SB se usan para calcular el criterio J [3]:
J = tr(S -1 W SB )
(2)
donde tr() quiere decir la traza de SW-1SB. Se busca maximizar el criterio de la ec. (2) para encontrar el nuevo espacio de caractersticas. Se puede demostrar [12] que la maximizacin de (2) se obtiene encontrando los autovalores y autovectores de la matriz SW-1SB. Al igual que en PCA, existen diferentes criterios relacionados con los autovalores para escoger m, la dimensionalidad del nuevo espacio [3]. El clculo de la matriz intra- clases presenta el problema de como definir apropiadamente estas clases [3]. En este trabajo, en el HMM continuo, los estados se definieron como las clases [12]. 3. MARCO EXPERIMENTAL 3.3.1 Modelos Ocultos de Markov Un HMM es bsicamente una cadena de Markov en la que cada observacin de salida es una variable aleatoria X generada de acuerdo a una funcin de probabilidad asociada a cada estado [14]. Formalmente hablando un modelo oculto de Markov est definido por:
O = {o1 , o 2 , , o M } Observaciones de salida, que pueden ser discretas o continuas. = {1, 2, , N} Conjunto de estados que representa el espacio de estados. A = {a ij } Matriz de transicin de probabilidades,
transicin desde el estado i al estado j . B = {bi (k)} Matriz de probabilidad de salida, donde
bi (k) es la probabilidad de emitir el smbolo
ok en
La reduccin de dimensionalidad se obtiene al incluir en la matriz A nicamente un nmero m < n de los autovectores, donde m representa la dimensionalidad del nuevo espacio. El valor de m se obtiene de acuerdo a diferentes criterios sobre los autovalores de la matriz de covarianza de los datos originales [8]. 2.2.2 Anlisis Discriminante Lineal (LDA) Al igual que PCA, el anlisis discriminante lineal es una transformacin lineal sobre el espacio de caractersticas original. Mientras PCA busca un nuevo espacio de caractersticas en el cual la correlacin entre ellas sea la menor, LDA busca un espacio en el cual se maximice alguna medida de separabilidad entre las clases [12]. En LDA se definen las matrices intra-clases SW e interclases SB, respectivamente [12]. La matriz SW muestra la dispersin de las muestras alrededor de los valores
el estado i . Las probabilidades de salida tambin pueden modelarse con funciones de densidad de probabilidad continua [13]. = {i } Distribucin de estados inicial donde i es la probabilidad de empezar en el estado i . Por conveniencia se usa la siguiente notacin
= ( A , B, )
(3)
para indicar el conjunto total de parmetros de un HMM. Los parmetros anteriores se estiman mediante el algoritmo de Baum-Welch [14], que equivale al algoritmo EM cuando se aplica a modelos ocultos de Markov [5].
67 4.4.6 Reduccin del hiperespacio inicial de entrenamiento Los resultados obtenidos usando PCA y LDA y el conjunto de caractersticas estticas y dinmicas concatenado, se muestran en las figuras 1, 2 para la base de datos BD1. En la tabla 1 se resumen los mejores resultados.
3.3.2 Modelos de Mezclas de Gaussianas Los modelos de mezclas de Gaussianas (GMM Gaussian Mixtures Models) han mostrado ser una herramienta poderosa para distinguir fuentes acsticas con diferentes propiedades generales. En reconocimiento de hablante, esta habilidad se ha explotado comnmente, modelando cada hablante con un GMM [15]. Los GMM no se sustentan en la segmentacin de la seal de voz, con lo cual no estn en capacidad de modelar las dependencias temporales [15]. Un GMM est compuesto, bsicamente, de una superposicin de M funciones de densidad de probabilidad (fdp) gaussianas, donde cada fdp est ponderada por un coeficiente de peso cm. Por cada clase se estiman los parmetros de los GMM, que incluyen los coeficientes de ponderacin, y las medias y matrices de covarianza de cada fdp gaussiana. 4. PRUEBAS Y RESULTADOS 4.4.1 Base de datos La base de datos BD1 est conformada 160 muestras de la vocal sostenida /a/, pronunciada por 80 nios con voz normal y 80 nios con labio-paladar hendido. La base de datos BD2 est conformada por 320 muestras de la vocal sostenida /a/ pronunciada por 160 pacientes con voz normal y 160 pacientes con algn tipo de patologa de voz (ndulos, plipos, edemas y carcinomas). 4.4.2 Extraccin de Caractersticas Las caractersticas calculadas por marco son: 12 coeficientes MFCC, la energa, el pitch y el HNR. Se calculan adems, las caractersticas dinmicas (derivadas de primer y segundo orden) para obtener un vector final de caractersticas de 45 variables por marco. 4.4.3 Parmetros del HMM y del GMM El HMM usado tiene 5 estados y 1 GMM de 5 componentes por estado (5 gaussianas multivariadas por estado), con topologa derecha-izquierda. El GMM usado tiene 20 fdp gaussianas. 4.4.4 Esquema de Validacin. La validacin del clasificador se hace por el mtodo validacin cruzada con cuatro particiones, en ambas pruebas. 4.4.5 Definicin de las clases para LDA. Para realizar el anlisis LDA, se definen 5 clusters por estado de los HMM, con el fin de representar las clases (cada cluster corresponde a una componente del GMM). Para los GMM, se definen 20 clusters, uno por cada componente de cada GMM (las fdp gaussianas) para representar las clases.
Los resultados obtenidos usando PCA y LDA sobre la base de datos BD2, se muestran en las figuras 3,4. En la tabla 2 se resumen los mejores resultados.
68 Modelo HMM GMM HMM GMM E. de Reduccin PCA PCA LDA LDA Componentes 40/45 35/45 45/45 45/45 PC (%) 73.31 73.75 76.25 79.17
logran obtener factores de reduccin mayores que usando GMM. El empleo de caractersticas dinmicas aumenta el rendimiento del clasificador en promedio, para ambos esquemas de reduccin. Como trabajo futuro se propone incluir otros esquemas de reduccin de dimensionalidad como ICA [7] o PCA dinmico [10]. 5. BIBLIOGRAFA
[1] VARGAS, J. F., Seleccin de caractersticas en el anlisis acstico de voces, Tesis de Maestra, Universidad Nacional de Colombia Sede Manizales, 2003. [2] NOUZA, J., Feature selection methods for hidden Markov model based speech recognition, en Proceedings of the 13th International Conference on Pattern Recognition, 1996. [3] K. BEULEN, et al, Experiments with linear feature extraction in speech recognition, 1995. [Online]. Disponible:citeseer.ist.psu.edu/beulen95experiments.html [4] DIBAZAR, A. A. y NARAYANAN, S., A system for automatic detection of pathological speech, en Proceedings of the 36th Asilomar Conf. Signals, Systems Computers. 2002. [5] HUANG, X., ACERO, A., y HON, H. W., Spoken Language Processing. Upper Saddle River, New Jersey: Prentice Hall, 2001. [6] CHILDERS, D. G., Speech Processing and Synthesis Toolboxes. John Wiley & Sons, INC, 2000. [7] HYVARINEN, A. y OJA, E., Independent Component Analysis: A Tutorial, http://www.cis.hut.fi/projects/ica/NN00.pdf, Abril 1999. [8] DOLTSINIS, I., et al , Stochastic Analysis of Multivariate Systems in Computational Mechanics and Engineering, 1st ed. International Center for Numerical Methods in Engineering, September 1999. [9] JOHNSON, R. A. y WICHERN, D. W., Applied Multivariate Statistical Analysis .Prentice Hall, Upper Saddle River, NJ.07458, 2002. [10] I. JOLLIFFE, Principal Component Analysis. Springer Verlag, 2002 [11] DUDA, R. O., HART, P. E., y STORK, D. G., Pattern Classification, Segunda ed. John Wiley & Sons, INC, 2001. [12] JIN, Q. et al Application of LDA to Speaker Recognition. Disponible: http://www.is.cs.cmu.edu/papers/speech/ICSLP2000/ICSLP200 0-qin2.pdf, Octubre 2000. [13] JUANG, B.-H. y RABINER, L., Mixture autoregressive hidden Markov models for speech signals, IEEE Transactions on Acoustics, Speech and Signal Processing, vol. 33, no. 6, Diciembre 1985. [14] RABINER, L. R., A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition, Proceedings of The IEEE, vol. 77, no. 2, Febrero 1989. [15] FALTHAUSER R., PFAU, T. y RUSKE G., On-line speaking rate estimation using Gaussian mixture models. Proceedings of the International Conference in Acoustics, Speech and Signal Processing, 2000, pp. 1355 1358.
4. CONCLUSIONES El empleo de mtodos de anlisis discriminante entre las clases, puede ser una buena aproximacin en la reduccin del espacio inicial de entrenamiento, para el caso en que se realice el reconocimiento empleando HMM. En el caso particular, los mtodos comparados (Anlisis de Componentes Principales y el Anlisis Discriminante Lineal) muestran un rendimiento de clasificacin similar, aunque ambos divergen en el factor de reduccin. Los resultados usando GMM se aproximan a los obtenidos usando HMM. Sin embargo, usando HMM se