Generación de Máscaras Soft para Compensación de Características en Reconocimiento Robusto Del Habla

UNIVERSIDAD DE GRANADA INGENIERA ELECTRNICA
Generacin de Mscaras Soft para Compensacin de Caractersticas en Reconocimiento Robusto del Habla
REALIZADO POR: Ivn Lpez Espejo DIRIGIDO POR: D. ngel Manuel Gmez Garca, D. Antonio Miguel Peinado Herreros y D. Jos Andrs Gonzlez Lpez DEPARTAMENTO: Teora de la Seal, Telemtica y Comunicaciones
PALABRAS CLAVE: Filtro de partculas, Reconocimiento robusto de voz, Estimacin de ruido, Seguimiento bayesiano, MatLab, Sampling Importance Resampling, Compensacin de caractersticas, Mscara soft de ruido. RESUMEN: El presente proyecto trata de la generacin de mscaras soft a partir de las estimaciones de ruido derivadas del uso de un filtro de partculas SIR (Sampling Importance Resampling) y de un sencillo mtodo basado en promediado espectral sobre ficheros de caractersticas de voz ruidosa. Las mscaras resultantes de ambas tcnicas son posteriormente usadas en una etapa de realce de caractersticas en el dominio log Mel, de tal forma que las caractersticas compensadas de voz pueden emplearse en la fase de decodificacin de un sistema de reconocimiento del habla cuyos modelos
acsticos son entrenados con voz limpia. Se trata, por tanto, de comparar el rendimiento de ambas tcnicas de estimacin de ruido en trminos de la precisin de reconocimiento del habla contaminada por ruido acstico ambiental. Con este procedimiento, se puede esperar un incremento del rendimiento del reconocedor de la voz respecto de emplear directamente las caractersticas de voz ruidosa en la etapa de decodificacin del sistema.
UNIVERSIDAD DE GRANADA INGENIERA ELECTRNICA
PROYECTO FIN DE CARRERA
AUTOR: Ivn Lpez Espejo TTULO: Generacin de Mscaras Soft para Compensacin de Caractersticas en Reconocimiento Robusto del Habla TRIBUNAL: D. Juan Antonio Jimnez Tejada D. Jos Luis Prez Crdoba Da. Sonia Mota Fernndez D. Francisco M. Gmez Campos (Suplente)
CALIFICACIN:
Presentado en Granada a __ de __________ de ____ Evaluado en Granada a __ de __________ de ____
El Presidente
El Vocal
El Secretario
UNIVERSIDAD DE GRANADA INGENIERA ELECTRNICA AUTORIZACIN DE LECTURA DE TRABAJO FIN DE CARRERA D. ngel Manuel Gmez Garca y D. Antonio Miguel Peinado Herreros, Profesor Titular y Catedrtico de Universidad, respectivamente, del Departamento de Teora de la Seal, Telemtica y Comunicaciones de la Universidad de Granada, como directores del Trabajo Fin de Carrera titulado Generacin de Mscaras Soft para Compensacin de Caractersticas en Reconocimiento Robusto del Habla y realizado por el alumno D. Ivn Lpez Espejo,
CERTIFICAN: Que el citado Trabajo Fin de Carrera, ha sido realizado y redactado por dicho alumno y autorizan su presentacin.
Granada, a __ de __________ de ____
Fdo. ngel M. Gmez Garca
Fdo. Antonio M. Peinado Herreros
UNIVERSIDAD DE GRANADA INGENIERA ELECTRNICA AUTORIZACIN DE DEPSITO EN LA BIBLIOTECA Yo, D. Ivn Lpez Espejo con DNI 75.165.126-E, autor del Trabajo Fin de Carrera titulado Generacin de Mscaras Soft para Compensacin de Caractersticas en Reconocimiento Robusto del Habla realizado en la Universidad de Granada, AUTORIZO: Al depsito de dicho Trabajo en la Biblioteca de la Universidad de Granada, y de la visualizacin a travs de Internet.
Granada, a __ de __________ de ____
Fdo. Ivn Lpez Espejo
A Irene.
Let the future tell the truth and evaluate each one according to his work and accomplishments. The present is theirs; the future, for which I really worked, is mine. Nikola Tesla
Agradecimientos
Quiero dar las gracias en primer lugar a Jos Andrs Gonzlez Lpez por su inestimable y constante ayuda e inters desde que comenc con el proyecto, quien me ha dedicado una gran cantidad de horas siempre con la mayor de las paciencias y simpata. Por supuesto a Antonio Miguel Peinado Herreros, uno de mis tutores, igualmente por su ayuda y especial paciencia con todos los problemas y avatares que fueron surgindome por el camino relacionados con este trabajo y otras cuestiones, y a mi otro tutor, ngel Manuel Gmez Garca. Como siempre, no puede faltar en ningn caso una mencin a Irene, con quien siempre estar en deuda, y a mis padres, de tal forma que entrar a describir el por qu de mi agradecimiento en ambos casos carece de sentido y siempre sera incompleto e inexacto. A Jonathan Prados Garzn, por su inestimable ayuda a lo largo de todo este ao en tantas y tantas cosas, por lo que estoy en deuda con l. Finalmente quiero mencionar a toda aquella gente a la que guardo un especial cario y me ha apoyado a lo largo de estos ltimos meses de alguna u otra forma. Sin ningn orden particular, quiero agradecer tambin a Ivn Fernndez Bermejo, Santiago Prieto Calero, Ivn Manuel Montero Moreno, Gonzalo Cardenete Burgos, Jordi Rovira Simn, Sergio Mis Antn, Noel Ruiz Lpez, Juan Manuel Navarra Girela, ngel Berrio Moreno, Francisco Manuel Palos Barcos, Oriol Fbregas Bull, Sergio Gonzlez Reyes, Jacinta Ferro Snchez y Germn Fernndez Barranco.
Tabla de contenido
1. INTRODUCCIN ............................................................................. 1 1.1 Introduccin al reconocimiento de voz ............................................... 1 1.1.1 Extraccin de caractersticas ........................................................ 2 1.2 Reconocimiento robusto de voz .......................................................... 4 1.2.1 Reconocimiento robusto de voz basado en mscaras soft ............. 5 1.3 Motivacin ......................................................................................... 9 1.4 Objetivos ..........................................................................................10 1.5 Organizacin de la memoria ..............................................................11 2. FUNDAMENTOS DEL SEGUIMIENTO EN SISTEMAS
DINMICOS ........................................................................................ 13 2.1 Introduccin al seguimiento bayesiano ..............................................13 2.2 Integracin de Monte Carlo ..............................................................18 2.2.1 Muestreo por importancia ...........................................................21 2.2.2 Remuestreo por importancia .......................................................23 2.3 Modelado markoviano del sistema dinmico .....................................25 2.4 Formulacin del filtro de partculas SIR ...........................................29 3. DISEO Y DESARROLLO .......................................................... 33 3.1 Modelado del proceso de ruido ..........................................................34 3.2 Relacin entre estados y observaciones .............................................38 3.3 Filtro de partculas SIR aplicado ......................................................43 3.4 Sistema SIR final ..............................................................................45 3.4.1 Test de aceptacin rpida ...........................................................47 3.4.2 Modos de inicializacin ...............................................................48
Tabla de contenido 3.4.3 Modos de reinicializacin ............................................................49 3.5 Estimacin de ruido por promediado espectral ..................................52 3.6 Generacin de mscaras y postprocesado ..........................................52 3.7 Aproximacin simple de realce en el dominio log Mel .......................58 3.7.1 Log-Spectral Flooring ..................................................................60 4. TEST Y RESULTADOS ................................................................ 63 4.1 La base de datos Aurora-2 ................................................................63 4.2 Ajuste de la sigmoide ........................................................................66 4.3 Test de reconocimiento del habla ......................................................67 4.4 Interpretacin global de los resultados ..............................................73 5. CONCLUSIONES Y TRABAJO FUTURO............................... 75 5.1 Conclusiones .....................................................................................75 5.2 Trabajo futuro ..................................................................................76 Bibliografa ............................................................................................ 79 Glosario .................................................................................................. 83
II
ndice de figuras
1.1 Las dos etapas bsicas de un sistema ASR............................................ 2 1.2 Diagrama de bloques de un front-end reducido para reconocimiento del habla donde se enmarca el objetivo prctico de este trabajo ....................... 7 1.3 Banco de filtros Mel [9; p. 60] ............................................................... 7 2.1 Diagrama que justifica las bases de la formulacin de los filtros de partculas ...................................................................................................16 2.2 Funciones analtica y emprica asociadas a una distribucin normal de media 10 y varianza 4: (izqda.) funciones de densidad de probabilidad y (dcha.) funciones de distribucin acumulada .............................................19 2.3 20 realizaciones de una distribucin uniforme de importancia, ( ), en el intervalo [0,10] a la izquierda y funcin de densidad emprica ponderada asociada, ( ), a la derecha .......................................................................22 a la izquierda y 2.4 Ejemplo de funcin de distribucin acumulada resultado de la aplicacin de la tcnica de remuestreo por importancia sistemtico sobre ( ) a la derecha ............................................................25 2.5 Modelo oculto de Mrkov ....................................................................26 3.1 Espectrogramas de banda ancha de ruido de trfico (izquierda) y de multitud conversando (derecha) [13; p. 1] ..................................................34 3.2 Error de prediccin promedio por componente como funcin del orden del proceso AR sobre datos de entrenamiento (izquierda) y sobre datos de test (derecha) [13; p. 2] ..............................................................................38 3.3 Diagrama de flujo del filtro de partculas SIR aplicado al propsito de estimacin de ruido acstico en el dominio log Mel ...................................44 3.4 Espectrogramas en el dominio log Mel resultantes de la estimacin de ruido sobre un fichero de voz contaminado con ruido procedente del metro. De arriba abajo: aproximacin del ruido real, ruido estimado mediante filtro de partculas sin usar ningn mtodo de reinicializacin y ruido estimado mediante filtro de partculas usando reinicializacin por remuestreo de la densidad a priori de ruido ...............................................51 3.5 Espectrograma de alocucin contaminada con ruido de metro (izquierda) y SNR a posteriori (derecha) calculada sobre la exponencial del espectrograma de la izquierda ....................................................................53 III
ndice de figuras 3.6 Ejemplo que ilustra la diferencia entre las mscaras binarias y las de tipo soft [16; p. 3] ......................................................................................55 3.7 Diagrama de bloques referente al cmputo de la mscara soft .............56 3.8 De arriba abajo: mapeo de 3.5(dcha.) en el intervalo [0,1], mscara tras aplicrsele un filtrado de mediana y mscara tras aplicrsele un filtrado de suavizado con mscara de convolucin de disco .........................................57 3.9 Diagrama de bloques de la etapa de realce del front-end .....................59 3.10 Espectrogramas en el dominio log Mel de voz contaminada por ruido de metro (izquierda) y de voz realzada (derecha) ......................................60 4.1 Espectros de las diferentes seales de ruido incorporadas a la base de datos Aurora-2 [21; p. 3] ............................................................................64 4.2 Representacin de las funciones sigmoidales finalmente empleadas para la generacin de las mscaras de decisin ..................................................67 4.3 Precisin promedio de reconocimiento en funcin de la SNR para los casos base, uso de filtro de partculas ( = 100) y estimacin de ruido mediante promediado espectral ..................................................................72 4.4 Precisin total promedio de reconocimiento para las diferentes tcnicas empleadas ..................................................................................................73
IV
ndice de tablas
4.1 Parmetros finales de la sigmoidal en funcin de la tcnica de estimacin de ruido utilizada .....................................................................66 4.2 Algunas variables del filtro de partculas SIR (Sampling Importance Resampling) implementado........................................................................68 4.3 Condiciones finales de test ...................................................................68 4.4 Tipos de ruido del conjunto de test A ..................................................69 4.5 Precisin de reconocimiento en funcin de la SNR para los diferentes tipos de ruido haciendo uso de caractersticas sin compensar (base-line) ...69 4.6 Precisin de reconocimiento en funcin de la SNR para los diferentes tipos de ruido haciendo uso de caractersticas compensadas a partir de las estimaciones de ruido por promediado espectral ........................................70 4.7 Precisin de reconocimiento en funcin de la SNR para los diferentes tipos de ruido haciendo uso de caractersticas compensadas a partir de las estimaciones de ruido resultantes de un filtro de partculas con un total de = 100 partculas o hiptesis ....................................................................70 4.8 Precisin de reconocimiento en funcin de la SNR para los diferentes tipos de ruido haciendo uso de caractersticas compensadas a partir de las estimaciones de ruido resultantes de un filtro de partculas con un total de = 200 partculas o hiptesis ....................................................................70 4.9 Precisin de reconocimiento en funcin de la SNR para los diferentes tipos de ruido haciendo uso de caractersticas compensadas a partir de las estimaciones de ruido resultantes de un filtro de partculas con un total de = 300 partculas o hiptesis ....................................................................71 4.10 Precisin de reconocimiento en funcin de la SNR para los diferentes tipos de ruido haciendo uso de caractersticas compensadas a partir de las estimaciones de ruido resultantes de un filtro de partculas con un total de = 400 partculas o hiptesis ....................................................................71
ndice de tablas 4.11 Precisin total promedio de reconocimiento (para SNRs de 0 a 20 dB) para las diferentes tcnicas empleadas .......................................................72
VI
1. INTRODUCCIN
Este primer captulo trata de la elaboracin de un marco en el cual poner en concordancia el problema fundamental del reconocimiento robusto de voz ruidosa que aborda el proyecto con su contexto y motivacin. Tambin son presentados los objetivos del trabajo, los cuales esbozan las lneas que nos indican qu cubre este proyecto y qu no. Finalmente, se dedican unas palabras a la justificacin de la estructura de la memoria.
1.1 Introduccin al reconocimiento de voz

El acto natural de hablar lleva consigo la generacin de ondas de presin sonora que viajan desde el interlocutor hasta el oyente, el cual es capaz de decodificar en su cerebro la informacin contenida en la seal percibida. En la inmensa mayora de entornos cotidianos donde este acto de comunicacin se produce, la seal generada por el interlocutor llega contaminada al odo del oyente a causa de la superposicin de diversas ondas de presin sonora procedentes de fuentes que consideramos de tipo ruidoso y que le dificultan la correcta interpretacin del mensaje generado por el hablante. Sin embargo, las personas estamos bien habituadas a reconocer de un modo preciso el habla que tiene lugar en tales entornos complejos (ruidosos). Pinsese, por ejemplo, en la conversacin que pueden mantener de manera satisfactoria dos trabajadores en una obra, donde las seales de voz se contaminan con el ruido procedente de la maquinaria, otras conversaciones de fondo u otros ruidos eventuales propios del uso de herramientas. Para un adecuado rendimiento en contextos realistas, es preciso que los sistemas de reconocimiento automtico del habla (ASR) sean capaces de adaptarse a este tipo de entornos multifuente con la finalidad de que puedan alcanzar la robustez que el ser humano presenta en trminos de reconocimiento del habla. Esta ltima cuestin viene siendo tratada con especial inters durante los ltimos tiempos por un nutrido grupo de cientficos e ingenieros. A lo largo de varias dcadas, se ha producido un importante progreso en cuanto a la investigacin en sistemas ASR. Se ha logrado pasar del re-
1. INTRODUCCIN conocimiento de palabras aisladas, propio de un vocabulario limitado, a la tarea del reconocimiento de voz continua con vocabularios de gran dimensin. En gran medida, esto ha sido posible gracias a una aproximacin estadstica al problema mediante el uso de modelos acsticos (normalmente hidden Markov models, HMMs) y de lenguaje. Sin embargo, a da de hoy, no es posible construir un dispositivo o sistema que sea capaz de funcionar de un modo similar a como lo hace un oyente humano en ambientes acsticos reales que son de naturaleza ruidosa, ni aun tratndose de aplicaciones simples como el reconocimiento de dgitos conectados (no al menos de forma genrica, aunque existen sistemas diseados para trabajar de forma adecuada en ambientes con condiciones de ruido altamente predecibles). Un sistema de reconocimiento del habla se compone grosso modo de dos grandes bloques bien diferenciados: de un lado tenemos el front-end, cuya misin es la de capturar la seal de voz y procesarla para poder obtener a su salida un conjunto de caractersticas relevantes de la secuencia hablada entrante al sistema y, por otro, la etapa de decodificacin, que es la que implementa la funcionalidad del reconocimiento en s, y que usualmente est basada en la aproximacin estadstica de los HMMs. En dicha etapa, el conjunto de caractersticas extrado del front-end es comparado con un conjunto de patrones de referencia constituyentes de las unidades acsticas de reconocimiento (palabras, fonemas, etc), cada una de ellas modelada por un HMM si se emplea la aproximacin estadstica mencionada. La salida de esta etapa y, por ende, del sistema, es la transcripcin del habla que mejor explica el conjunto de parmetros observados.
Figura 1.1. Las dos etapas bsicas de un sistema ASR.
En el siguiente subapartado nos centraremos en la descripcin del front-end por ser el subsistema sobre el que se focaliza el presente trabajo. 1.1.1 Extraccin de caractersticas Tal y como se ha esbozado, el objetivo principal del front-end es el de proporcionar una representacin paramtrica de la seal de voz de entrada lo suficientemente adecuada para el reconocimiento de la misma. Ello se materializa en la obtencin, al final del procesado de los bloques que implementan esta etapa, de un conjunto de vectores de caractersticas, de dimensin reducida, representantes del habla. 2
1. INTRODUCCIN En este contexto, se suele recurrir a la parametrizacin del resultado del anlisis espectral de las tramas sonoras. Primeramente se lleva a cabo el preprocesamiento de la seal de voz, el cual suele consistir en su normalizacin en amplitud, cuya finalidad es la de reducir la variabilidad de la voz de entrada debida al entorno (ruido de fondo, nivel de captura, canal de comunicacin, etc) y al orador (cambios de intensidad, etc), ms un filtrado de prenfasis con la siguiente respuesta en frecuencia: =1 , (1.1)
donde 1. Este filtro tiene el objetivo de eliminar el nivel de continua as como de realzar las componentes espectrales de alta frecuencia a causa del factor de decaimiento que se presenta de forma natural en la seal de voz. Seguidamente, esta se segmenta mediante la aplicacin de una funcin ventana (tipo Hamming, Hann, etc), en fragmentos con un cierto solapamiento y una duracin que oscila, usualmente, en la horquilla de los 15-30ms. Esto permite obtener tramas de voz cuasi-estacionarias sobre las cuales aplicar un anlisis de tipo espectral en el que los parmetros resultantes pueden ser considerados constantes. Dicho anlisis tpicamente ha venido consistiendo en el uso de bancos de filtros (ms extendido actualmente debido a su mayor robustez) y prediccin lineal. El primero de ellos, grosso modo, ofrece una aproximacin de la cantidad de energa existente en las distintas bandas de frecuencia sobre las que se filtra paso-banda la trama de voz. El nmero y caractersticas de los distintos filtros responde a la topologa del banco considerado. Por otra parte, el mtodo de prediccin lineal se basa en el modelado de la seal de voz como el resultado de convolucionar una cierta excitacin con un filtro todo-polos que caracteriza la respuesta del tracto vocal. Finalmente, una vez se ha obtenido la informacin espectral de la seal de voz, es preciso que sea reducida a un nmero pequeo de parmetros lo ms decorrelados posible con el fin de lograr un reconocimiento eficiente. Ello se logra mediante la transformacin de la anterior informacin espectral al dominio cepstral. En el caso de haber empleado banco de filtros Mel, se computan los MFCCs (Mel Frequency Cepstral Coefficients), mientras que a partir del espectro LPC (Linear Predictive Coding) se calculan los LPCCs (Linear Prediction Cepstrum Coefficients). En cualquier caso, ambos tipos de coeficientes son representantes de la envolvente espectral, lo que significa que estn destinados al modelado del tracto vocal.
1. INTRODUCCIN
1.2 Reconocimiento robusto de voz

Esta breve revisin sobre la composicin y funcionamiento bsicos del front-end es la aproximacin seguida en condiciones donde el ruido ambiental es de muy baja intensidad (no obstante, cabra tambin la posibilidad de emplear este front-end en conjuncin con una etapa de reconocimiento que hiciese uso de modelos acsticos adaptados a diferentes condiciones de ruido). Sin embargo, un sistema de reconocimiento del habla en el caso de un entorno acstico ruidoso, producir una baja precisin de reconocimiento a causa de la falta de coincidencia entre las caractersticas empleadas para entrenar el sistema ASR (obtenidas usualmente a partir de voz limpia), y las de la alocucin que se quiere decodificar (contaminadas por el ruido ambiental). Algunas de las tcnicas propuestas para solventar este problema son las siguientes: Adaptacin de los modelos: Un caso extremo de adaptacin al entorno acstico consistira en entrenar diferentes modelos segn diferentes entornos de reconocimiento. Sin embargo, esta aproximacin conlleva dos problemas. El primero de ellos se refiere a que esta solucin nicamente funcionara de forma correcta cuando el entorno acstico no cambia. El segundo de los problemas es bastante intuitivo y se refiere a la inviabilidad prctica de esta aproximacin cuando estamos tratando con sistemas de reconocimiento del habla de gran tamao que precisan de una gran cantidad de datos de entrenamiento. Por tanto, la metodologa usual seguida para la adaptacin de los modelos consiste en entrenarlos en un primer momento con caractersticas propias de la voz limpia para, posteriormente, modificar mediante un algoritmo adaptable los parmetros de las mezclas de gaussianas (medias y covarianzas) que los constituyen, con el fin de adecuarlas a la presencia de ruido. Descomposicin de HMMs: La aproximacin de la descomposicin de HMMs resultante del trabajo de Varga y Moore [1] hace uso de modelos separados para la voz y el ruido, buscando el espacio de estados combinado a travs del uso de un algoritmo de Viterbi extendido en la fase de decodificacin. Realce de las caractersticas de voz: Quizs, la mejor opcin con la finalidad de robustecer el sistema de reconocimiento de voz es la aplicacin de una tcnica para el realce (equivalentemente, recons-
1. INTRODUCCIN truccin o compensacin) de las caractersticas, siendo este el objetivo del presente proyecto a partir del uso de mscaras de decisin soft. Una de las principales ventajas de la aproximacin del realce es que no se precisa adaptar en modo alguno la etapa de decodificacin ni los modelos acsticos, pudindose llevar a cabo de forma completamente independiente del motor de reconocimiento en una fase previa. Este ltimo mtodo es ms restrictivo aunque menos costoso computacionalmente. Otra de las ventajas que proporciona esta ltima aproximacin, es que se lleva a cabo el realce en un dominio muy cercano al de las caractersticas, siendo mitigado el ruido de este modo en las partes de la seal que realmente van a ser relevantes a la hora del reconocimiento [2]. 1.2.1 Reconocimiento robusto de voz basado en mscaras soft Las mscaras soft pueden ser definidas como matrices de coeficientes en el intervalo [0,1] que indican la presencia relativa de voz y ruido para cada bin frecuencial en cada instante de tiempo referentes a un espectrograma de voz contaminada con ruido. En el presente trabajo, dichas mscaras van a ser obtenidas a partir de dos mtodos diferentes: por un lado, se derivan del ruido estimado mediante el empleo de filtros de partculas y, por otro, de una estimacin de la potencia de ruido promedio a partir de las primeras y ltimas tramas del fragmento de voz bajo tratamiento. Como inciso, debemos comentar que los filtros de partculas, o mtodos secuenciales de Monte Carlo, fueron originalmente desarrollados para su uso en aplicaciones clsicas de tracking como pueden ser el seguimiento de objetos a travs de secuencias de vdeo en el campo de la visin artificial o el de aeronaves por parte de los sistemas de RADAR. Sin embargo, recientemente, estas tcnicas tambin se aplican dentro del campo del reconocimiento robusto del habla donde se usan con el fin de poder realzar las caractersticas extradas de la seal de voz contaminada con ruido. A lo largo de los ltimos tiempos, se han llevado a cabo trabajos en el mbito de la computacin de probabilidades de presencia de voz (SPPs, del ingls Speech Presence Probabilities) para ser empleadas en el realce de esta ltima. Las SPPs fiables proporcionan pistas acerca de la localizacin espectro-temporal de la voz, por lo que se convierten en herramientas de alta importancia para los algoritmos de reduccin de ruido. Ephraim et l. [3] propusieron en un primer momento un marco de trabajo para un algoritmo de realce de la voz basado en la minimizacin del error cuadrtico medio fundamentado en el empleo de SPPs. Trabajos ms recientes de estimacin de SPPs se sustentan en el modelado estadstico de las seales de 5
1. INTRODUCCIN voz y ruido. As, por ejemplo, se han llevado a cabo intentos con el fin de aprovechar la correlacin espectro-temporal de las seales de voz a partir de suavizar las SPPs con un HMM [4]. Otros proyectos notables se han llevado a cabo en el campo de la estimacin de mscaras soft, problema prximo a la estimacin SPP, donde los coeficientes tambin se encuadran en el intervalo cerrado [0,1] pero sin representar por ello probabilidades como en el anterior caso. Una aproximacin hbrida sobre el cmputo de mscaras soft se propone en [5], donde son etiquetadas las tramas que no son consideradas de voz a partir de una mscara basada en sustraccin espectral y marcadas las tramas de voz a partir de la extraccin de informacin de sus armnicos. Una vez que se dispone de algn tipo de indicador de presencia de voz, ya sea en forma de SPPs, mscaras soft o mscaras binarias (hard), se precisa aprovechar dicha informacin, como ya se ha dejado intuir, para realzar o compensar la seal observada. Con este fin, se han llevado a cabo esfuerzos en el dominio de la imputacin de datos. Este ltimo marco de trabajo mencionado hace uso de mscaras soft o binarias con la idea de etiquetar como ms o menos fiables los bins frecuenciales a lo largo del tiempo. La informacin acerca de los bins no fiables es descartada, emplendose en su lugar datos derivados de las partes fiables del espectro. Entre las aproximaciones ms exitosas, [6] propone modelar el conocimiento a priori sobre la voz con distribuciones basadas en un modelo general de mezcla de gaussianas (GMM, del ingls Gaussian Mixture Model) antes de inferir valores para sustituir los datos no fiables. Una investigacin reciente recogida en [7] demuestra que aplicar una mscara ideal binaria sobre el espectro de voz ruidosa lleva a mejores resultados con la consiguiente reduccin del coste computacional. Finalmente, otros trabajos recientes hacen uso de la tcnica de compressive sensing como un medio para la recuperacin de datos bajo la presuncin de dispersin de los pxels correspondientes a voz en el espectrograma de la seal [8]. Aunque ya hemos esbozado anteriormente las etapas bsicas del front-end de un sistema de reconocimiento de voz, vamos a profundizar brevemente en este, con el fin de fijar de un modo conciso el contexto de trabajo del presente proyecto. Para tal fin, obsrvese el diagrama de bloques de la figura 1.2, el cual muestra un front-end reducido (donde no se incluye el tratamiento de la caracterstica de la energa ni de las caractersticas dinmicas) en el que se incluyen las etapas objetivo del proyecto destacadas en color rojo. El primero de los bloques de acondicionamiento y enventanado trata de cubrir las funciones bsicas ya expuestas consistentes en digitalizacin de la seal, normalizacin, filtrado de prenfasis y compensacin del offset, segmentacin y enventanado. El resto de los bloques 6
1. INTRODUCCIN trata de la parametrizacin espectral de cada una de las tramas de voz, proceso en el que se ha intercalado una etapa de realce asistida por un bloque de generacin de mscaras con un conmutador que puede seleccionar como entrada estimaciones de ruido resultantes del filtro de partculas o del mtodo de promediado de potencia de las primeras y ltimas tramas correspondientes a la alocucin bajo consideracin.
Figura 1.2. Diagrama de bloques de un front-end reducido para reconocimiento del habla donde se enmarca el objetivo prctico de este trabajo.
El primer bloque de la fase de parametrizacin espectral aplica la transformada rpida de Fourier (FFT) sobre cada una de las tramas de voz resultantes del proceso de acondicionamiento y enventanado, con el fin de llevarlas al dominio espectral. El odo humano resuelve las frecuencias de un modo no lineal a travs del espectro auditivo. Por ello, el front-end debe operar en frecuencia de forma no lineal a fin de mejorar el rendimiento del reconocedor. As, la etapa siguiente consiste en un banco de filtros donde cada uno de ellos trata de aproximar igual resolucin espectral segn la escala perceptual Mel. La figura 1.3 muestra la forma general de dicho banco.
Figura 1.3. Banco de filtros Mel [9; p. 60].
1. INTRODUCCIN Para implementar este filtrado se toma la magnitud de la FFT proporcionada por la anterior etapa. Cada coeficiente de magnitud se multiplica por la correspondiente ganancia de cada filtro y los resultados se acumulan. De este modo, cada bin almacena una suma ponderada que representa la magnitud espectral propia de cada canal. A continuacin, la aplicacin de la operacin del logaritmo transforma el espectro de potencia resultante del filtrado al dominio log Mel. Si consideramos un sistema de reconocimiento de voz en condiciones de bajo ruido ambiental, el front-end usualmente omitira los bloques objetivo del proyecto incluidos, de tal modo que el espectro de potencia en el dominio log Mel es directamente introducido en el bloque de la transformada discreta del coseno (DCT). La aplicacin de la DCT se debe a que las salidas de los canales del banco de filtros se encuentran altamente correladas y, por tanto, el llevar a cabo una transformacin cepstral de este tipo es fundamental si se desea utilizar un reconocedor basado en una aproximacin estadstica donde se quiere modelar las distribuciones de probabilidad de emisin de smbolo mediante mezclas de gaussianas con matrices de covarianza diagonales. En otras palabras, la aplicacin de la DCT trata de reducir la dimensin espectral a la par que decorrela las componentes resultantes en el dominio log Mel. La transformada discreta del coseno se calcula como = 2 cos 0.5 , = 0, , 1,
(1.2)
donde es el nmero total de coeficientes cepstrales empleados (usualmen= 13 en la prctica), es la potencia espectral logartmica resultante te en el canal i-simo del banco de filtros Mel y, por tanto, es el nmero total de canales del banco. Al conjunto ; = 0, , 1 es a lo que se le conoce con el nombre de MFCCs. En lneas generales, estos coeficientes, junto con las derivadas primera y segunda por trama, son los empleados como caractersticas de la seal de voz. A continuacin volvemos al problema del reconocimiento del habla en entornos ruidosos y tomamos en consideracin los bloques omitidos destinados a la compensacin de las caractersticas. Tal y como se ha esbozado anteriormente, el emplazamiento ideal de la etapa de realce es al final de la fase de extraccin de las mismas, es decir, lo ms cerca posible de las caractersticas usadas por el motor de reconocimiento de la voz. Esto requiere establecer la relacin entre la voz, el ruido y la voz ruidosa a travs del front-end al completo. Por desgracia, la aplicacin de la operacin del logaritmo ms la DCT hace extremadamente complicado establecer una rela-
1. INTRODUCCIN cin estadstica entre los coeficientes de potencia espectral Mel y los MFCCs. Es por ello que la etapa de realce asistida por la mscara de decisin soft estimada a partir del resultado proporcionado por el filtro de partculas o por el estimador de potencia de ruido promedio se sita previamente a la transformacin al dominio cepstral.
1.3 Motivacin
La motivacin para la ejecucin del presente proyecto ha quedado plasmada en buena medida en el punto introductorio, donde se ha mencionado que, a da de hoy, no es posible construir un dispositivo o sistema que sea capaz de funcionar de un modo similar a como lo hace un oyente humano en ambientes acsticos reales que son de naturaleza ruidosa, ni aun tratndose de aplicaciones simples como el reconocimiento de dgitos conectados (como comentamos, no al menos de forma genrica, si bien existen sistemas diseados para trabajar de forma adecuada en ambientes con condiciones de ruido altamente predecibles). De otra parte, las tcnicas de seguimiento bayesiano han comenzado a emplearse de forma satisfactoria en la tarea de estimacin de ruido acstico, pudiendo utilizarse en la compensacin de las caractersticas de voz. El uso de dichas caractersticas compensadas permite incrementar la precisin de reconocimiento del habla a travs de un sistema genrico de reconocimiento entrenado en condiciones de bajo ruido ambiental. Esta aproximacin evita adems el tener que llevar a cabo modificaciones sobre los sistemas ya existentes, lo que repercute directamente en una reduccin de la complejidad debido a la independencia del mtodo de realce. Adems, los mtodos secuenciales de Monte Carlo presentan la ventaja sobre otros mtodos clsicos empleados para el cometido de estimacin de ruido acstico, como la sustraccin espectral o el filtrado de Wiener, de poder trabajar sobre ruido no estacionario. Razonablemente, en secuencias de voz lo suficientemente largas contaminadas con ruido ambiental, se puede esperar que este ltimo presente una caracterstica de no estacionariedad, lo que resulta en otro punto a favor del uso de dicho mtodo. Finalmente, el boom de las comunicaciones mviles acaecido durante los ltimos aos redunda en una motivacin aadida. Actualmente, y en pleno auge de estas debido en buena parte al xito de los nuevos dispositivos mviles inteligentes con una significativa capacidad de cmputo, est ms que garantizada la potencial aplicabilidad de los resultados derivados de este proyecto. Por tanto, la consecucin exitosa del presente trabajo
1. INTRODUCCIN permite acrecentar la precisin en el reconocimiento de la voz, lo que repercute directamente en la mejora de la calidad del servicio en aplicaciones propias de las comunicaciones mviles como, entre otras: Acceso y bsqueda de informacin as como realizacin de transacciones por voz a travs de aplicaciones remotas. Control de sistemas por voz con suficientes garantas en entornos industriales o domsticos y control por voz del propio dispositivo mvil (por ejemplo, marcacin por voz). Transcripcin de voz a texto para el envo de mensajera instantnea o traduccin a otros idiomas para comunicacin en una lengua desconocida con otras personas en tiempo real.
1.4 Objetivos
El objetivo final de este trabajo radica en lograr un incremento de la precisin de reconocimiento del habla (respecto de un sistema ASR bsico) a partir del realce de las caractersticas de voz ruidosa, empleando para ello la informacin de ruido estimado mediante mtodos secuenciales de Monte Carlo o mediante un mtodo ms sencillo basado en el promediado de las primeras y ltimas tramas de potencia espectral Mel de la alocucin asociada bajo tratamiento. Como ya hemos mencionado anteriormente, estas estimaciones de ruido son utilizadas para la generacin de mscaras soft que en ltima instancia son usadas en una etapa de compensacin de caractersticas fundamentada en un mtodo sencillo de realce multiplicativo en el dominio log Mel. Los resultados obtenidos con este procedimiento adems tambin son comparados con los derivados de emplear directamente las caractersticas sin compensar de voz ruidosa en la fase de decodificacin del sistema de reconocimiento del habla. De otro lado, el objetivo parcial del proyecto es la comprensin e implementacin de un filtro de partculas SIR (Sampling Importance Resampling), principal reto del mismo, adaptado al propsito de la estimacin de ruido en el dominio log Mel a partir de las observaciones de voz contaminada con este.
10
1. INTRODUCCIN
1.5 Organizacin de la memoria

La memoria de este proyecto se estructura en un total de cinco captulos, de los cuales, el primero, es esta introduccin. Un breve resumen de los restantes se recoge a continuacin: Fundamentos del seguimiento en sistemas dinmicos: Este captulo se dedica, en primer lugar, a situar al lector en el contexto del seguimiento bayesiano para, a continuacin, presentarle los fundamentos de la integracin de Monte Carlo. En este mismo instante son expuestas las tcnicas de muestreo y remuestreo por importancia, de tal forma que su unin al modelado markoviano del sistema dinmico, presentado justo a continuacin, nos permite mostrar finalmente la formulacin del filtro de partculas SIR. Diseo y desarrollo: Trata de la descripcin detallada de la solucin prctica finalmente implementada. En particular, se explica cmo es adaptada la formulacin del filtro de partculas SIR a la estimacin de ruido acstico en el dominio log Mel a partir de las observaciones de voz ruidosa. Tambin se detallan algunos pormenores de implementacin y funcionamiento, tales como los modos de inicializacin y reinicializacin del filtro. A continuacin es expuesto otro mtodo, basado en promediado espectral, desarrollado en el presente trabajo para la estimacin de ruido acstico. Finalmente se muestra la metodologa para la generacin de mscaras de decisin soft y la sencilla tcnica de realce multiplicativo en ltima instancia implementada para la compensacin de las caractersticas de voz ruidosa en el dominio log Mel. Test y resultados: En este captulo se muestran los resultados obtenidos de las pruebas realizadas sobre el sistema final para la evaluacin de la robustez y la precisin en el reconocimiento. El captulo se cierra con una interpretacin de los resultados obtenidos. Conclusiones y trabajo futuro: Este bloque recoge una discusin sobre el trabajo realizado desde el punto de vista de los resultados arrojados. Tambin se incluye una serie de propuestas para la continuacin del proyecto, asociadas estas, principalmente, a las flaquezas identificadas en el sistema.
11
1. INTRODUCCIN Al final del texto se recogen las referencias consultadas para la elaboracin de la memoria, as como un glosario general de trminos. En ltima instancia se quiere hacer hincapi en que, con el fin de evitar una notacin matemtica excesivamente sobrecargada, no se explicita a travs de ella la utilizacin de variables escalares, vectoriales o matriciales. No obstante, toda la formulacin y desarrollos matemticos se encuentran suficientemente detallados, por lo que no debera suponer un problema para el lector.
12
2. FUNDAMENTOS DEL SEGUIMIENTO EN SISTEMAS DINMICOS
Numerosos problemas en ciencias requieren de la estimacin del estado de un sistema que cambia a lo largo del tiempo a partir de usar una secuencia de medidas ruidosas llevadas a cabo sobre el mismo. Por tanto, la tarea del seguimiento redunda en la estimacin, a partir de las observaciones, de dicha secuencia de estados que sigue el proceso. Pongamos de ejemplo que deseamos seguir de forma automatizada la trayectoria de una pelota durante un partido de ping-pong. La secuencia de estados del sistema describira por tanto la propia trayectoria de la pelota y las observaciones seran medidas que tomara sobre la imagen un algoritmo de visin artificial. El problema del seguimiento puede formularse entonces como la reconstruccin de la trayectoria del objetivo a partir de las relaciones existentes entre las posibles trayectorias y las observaciones. Para tal fin necesitaremos un modelo que describa el sistema bajo consideracin o un modelo general que defina un algoritmo de seguimiento genrico. A continuacin se presenta una breve introduccin al seguimiento bayesiano con el fin de sentar los fundamentos del filtro de partculas, basado este ltimo en una aproximacin numrica markoviana. Tambin se exponen en el presente captulo las bases de la integracin de Monte Carlo y las tcnicas de muestreo y remuestreo por importancia, bsicas para la formulacin del filtro de partculas.
2.1 Introduccin al seguimiento bayesiano

La aproximacin del espacio de estados al modelado de series temporales centra la atencin sobre el vector de estados de un sistema. Por ejemplo, en problemas de seguimiento, el vector de estados (el cual contiene toda la informacin relevante requerida para describir el sistema bajo investigacin) proporciona los datos necesarios que son relacionados con las caractersticas cinemticas del objetivo. El vector de medidas representa las observaciones ruidosas vinculadas al vector de estados. Generalmente, aunque
13
2. FUNDAMENTOS DEL SEGUIMIENTO EN SISTEMAS DINMICOS no necesariamente, este ltimo es de mayor dimensin respecto del de observaciones. La aproximacin del espacio de estados es conveniente para la manipulacin de datos multivariantes y procesos no lineales y no gaussianos, proveyendo una ventaja significativa sobre las tcnicas tradicionales de series temporales para este tipo de problemas. Con el fin de analizar y llevar a cabo una inferencia sobre la dinmica del sistema, se requiere de un modelo compuesto de dos procesos estocsticos interrelacionados. Como ya se ha esbozado en el anterior prrafo, el primero de ellos es el proceso de estados, , el cual representa la evolucin del sistema o proceso oculto hasta el instante , siendo el segundo el proceso observado, . La mencionada interrelacin es de tipo causal, donde los estados del sistema explican las observaciones. Adems, puesto que las observaciones muy probablemente sean ruidosas, dicha interrelacin se expresa a partir de la densidad de probabilidad condicional : | : , , donde se define de 0 a (y no de 1 a ) debido a que se contempla la contribucin del estado inicial del proceso oculto. La eleccin de un espacio de estados determina qu aspectos del sistema real se integran en el modelo, donde la evolucin del proceso de estados viene descrita por la funcin densidad de probabilidad . Conocidas las dos distribucio: , nes mencionadas, podemos calcular la funcin densidad de probabilidad de las observaciones sin ms que marginalizar la distribucin de probabilidad conjunta expresada en trminos de la anterior condicional como
:
(2.1)
La formulacin probabilstica del espacio de estados y el requerimiento para la actualizacin de la informacin tras la recepcin de nuevas medidas se ajustan a una aproximacin bayesiana. Esto provee un riguroso marco de trabajo general para los problemas de estimacin de estados dinmicos, donde se pretende construir la funcin densidad de probabilidad a posteriori de la secuencia de estados basada en toda la informacin disponible (incluido el conjunto de medidas recibidas u observaciones). En aquellos problemas donde se precise de una estimacin para cada instante en que una medida es recibida, una solucin conveniente se basa en el uso de un filtro recursivo, el cual se compone de dos fases: prediccin y actualizacin, empleando esta ltima etapa la ltima medicin llevada a cabo sobre el sistema con el fin de modificar (corregir) la funcin de densidad de la etapa de prediccin. Esto se consigue empleando el teorema de Bayes, el cual proporciona el mecanismo para actualizar el conocimiento sobre el estado del objetivo a la luz de la nueva informacin aportada por los nuevos datos.
14
2. FUNDAMENTOS DEL SEGUIMIENTO EN SISTEMAS DINMICOS El anterior modelado estocstico se emplea a continuacin con el fin de derivar un estimador ptimo aplicable a la problemtica del seguimiento. Por simplicidad en la notacin, expresaremos a continuacin : como e : como . Tal y como se ha introducido, la distribucin de probabilidad de la trayectoria dadas las observaciones, | , puede expresarse en trminos de la regla de Bayes, conocidas las anteriores cantidades, como | = , = | . (2.2) en lugar del valor = | , | = (2.3)
El error cuadrtico medio al emplear una estimacin verdadero, , se puede calcular como = = =
|
+ +
= |
| 2
=
|
donde simboliza el operador de norma eucldea. Minimizamos la anterior expresin a partir de derivar respecto de la estimacin de e igualar a cero, de la forma, =02 2
| |
=0
:
(2.4)
lo que nos ha conducido a la solucin de mnimo error cuadrtico medio para el estimador , que no es ms que la media condicional de . En el caso de precisarse el clculo de momentos de orden superior a la unidad o de dependencias funcionales de la trayectoria del tipo : , puede llevarse a cabo igualmente sin ms que computar el valor esperado condicional de : , de la forma,
|
(2.5)
La propagacin recursiva de la densidad de probabilidad a posteriori es slo una solucin conceptual que, en general, no puede ser determinada de forma analtica. No obstante, en un conjunto reducido de situaciones
15
2. FUNDAMENTOS DEL SEGUIMIENTO EN SISTEMAS DINMICOS existen soluciones exactas que pueden ser obtenidas a partir de la aplicacin de lo que se conoce como mtodos ptimos: filtro de Kalman y filtros basados en malla. Particularmente, el filtro de Kalman consigue su representacin en forma cerrada asumiendo que la funcin de densidad es de tipo gaussiano, presuncin que requiere el que las ecuacio: | : nes que modelan los procesos de estados y observaciones sean lineales. Sin embargo, cuando las suposiciones requeridas por los mtodos ptimos no son asumibles y la solucin analtica es intratable, es posible aplicar una serie de mtodos subptimos que aproximan la solucin bayesiana ptima: filtro extendido de Kalman, mtodos basados en malla aproximados y filtros de partculas. As, por ejemplo, el filtro extendido de Kalman (EKF, por sus siglas en ingls) es una generalizacin del filtro de Kalman aplicable a problemas de ndole no lineal a partir de la linealizacin aproximada a travs de un desarrollo en serie de potencias de Taylor de primer orden. No obstante, de ahora en adelante nos centraremos en los filtros de partculas, pues son las tcnicas de inters en el presente proyecto.
Figura 2.1. Diagrama que justifica las bases de la formulacin de los filtros de partculas.
Los filtros de partculas son mtodos secuenciales de Monte Carlo basados en representaciones de puntos de masa (o partculas) de densidades de probabilidad, los cuales pueden ser aplicados a cualquier modelo de espacio de estados, generalizando as los mtodos tradicionales basados en el filtro de Kalman. El algoritmo de muestreo por importancia secuencial (SIS, del ingls Sequential Importance Sampling) es un mtodo de Monte Carlo que forma la base de la mayora de filtros secuenciales de Monte Car-
16
2. FUNDAMENTOS DEL SEGUIMIENTO EN SISTEMAS DINMICOS lo desarrollados a lo largo de las pasadas dcadas. Esta aproximacin es conocida con los nombres de filtro bootstrap, algoritmo de condensacin o filtro de partculas, entre otros. Es una tcnica para la implementacin de un filtro recursivo bayesiano mediante simulaciones de Monte Carlo. La idea clave radica en representar la funcin de densidad a posteriori requerida a partir de un conjunto de muestras aleatorias con pesos asociados y computar estimaciones basadas en estas muestras y pesos. Conforme el nmero de muestras va en aumento, esta caracterizacin de Monte Carlo se traduce en una representacin equivalente a la descripcin usual funcional de la densidad de probabilidad a posteriori, aproximando as el filtro SIS la estimacin ptima bayesiana. El algoritmo SIS conforma, como hemos esbozado, la base para la mayora de los filtros de partculas que han sido desarrollados hasta el momento. Las diferentes versiones de los filtros de partculas propuestos en la literatura pueden considerarse como casos especiales del algoritmo SIS. Estos casos especiales pueden ser derivados a partir de dicho algoritmo mediante una seleccin apropiada de la funcin de densidad de muestreo por importancia y/o mediante una modificacin del paso de remuestreo. Algunos de estos filtros de partculas son: filtro SIR (Sampling Importance Resampling), filtro ASIR (Auxiliary Sampling Importance Resampling) y filtro RPF (Regularized Particle Filter): SIR: El filtro SIR propuesto en [10] es un mtodo de Monte Carlo que puede ser aplicado a problemas de filtrado bayesiano recursivo. Las asunciones requeridas para usar el filtro SIR son muy poco restrictivas. Se necesita conocer las funciones propias de la dinmica de estados y del proceso de medida, requirindose a su vez poder muestrear realizaciones de la distribucin del proceso de ruido que contamina las observaciones y de la funcin de densidad a priori del proceso de inters. Finalmente, se precisa que la funcin de densidad est disponible para su evaluacin punto a punto (o, al : | : menos, una cantidad proporcional a dicha distribucin). El algoritmo SIR puede derivarse fcilmente del algoritmo SIS a partir de la apropiada seleccin de la funcin de densidad de importancia y de la aplicacin del paso de remuestreo en todo instante de tiempo . Como ya se ha mencionado en diversas ocasiones a lo largo del texto, esta es la variante implementada en el presente trabajo para la estimacin de ruido acstico.
17
2. FUNDAMENTOS DEL SEGUIMIENTO EN SISTEMAS DINMICOS ASIR: El filtro ASIR fue introducido por Pitt y Shephard [11] como una variante del filtro SIR estndar. Dicho filtro tambin puede derivarse del marco de trabajo SIS. RPF: El remuestreo es un mtodo que surge con el fin de reducir el frecuente problema de la degeneracin (detallado este ltimo en el subapartado 2.2.2) en los filtros de partculas. Sin embargo, dicho mtodo tambin introduce otra serie de problemas, de entre los cuales destaca el de la prdida de diversidad de las hiptesis. Esto acontece debido al hecho de que durante la etapa de remuestreo, las muestras son obtenidas a partir de una distribucin de probabilidad discreta y no de una de tipo continuo. Si dicho problema no es controlado apropiadamente, podra llevar a un colapso de las partculas, cuestin que es un caso grave de empobrecimiento de las muestras en el que todas las hiptesis ocupan el mismo punto en el espacio de estados, llevando a una pauprrima representacin de la densidad de probabilidad a posteriori. El filtro RPF surge como una solucin propuesta a este problema. El filtro RPF es idntico al SIR a excepcin de la etapa de remuestreo, pues el primero remuestrea sobre una aproximacin continua de la densidad de probabilidad a posteriori | : , mientras que el algoritmo SIR lo hace a partir de una aproximacin discreta.
2.2 Integracin de Monte Carlo

En este apartado se desarrolla una forma eficiente de llevar a cabo el clculo de las integrales del tipo , fundamental para la posterior formulacin del filtro de partculas, basada en el mtodo de integracin numrica estocstica de Monte Carlo, el cual trabaja eficientemente para integracin en espacios de alta dimensionalidad. En primer lugar, hay que , , de escoger un conjunto de puntos soporte sobre la distribucin forma aleatoria, de tal modo que dichos puntos son seleccionados con probabilidad de entre todo el espacio muestral, lo que nos asegura que estos estarn principalmente situados en las regiones donde se concentra la masa de probabilidad de . Los puntos soporte seleccionados se emplean para aproximar dicha densidad de probabilidad a travs de la siguiente funcin de densidad emprica:
18
2. FUNDAMENTOS DEL SEGUIMIENTO EN SISTEMAS DINMICOS = 1 ,
(2.6)
= es la funcin delta de Dirac desplazada. Obsrvese como ejemplo la siguiente figura, donde 2.2(izqda.) repre, de tipo normal de media = 10 senta una densidad de probabilidad, y varianza = 4, junto con una posible funcin de densidad emprica compuesta por 20 muestras, . De otro lado, 2.2(dcha.) simboliza las y . funciones de distribucin acumulada de 2.2(izqda.), donde
PDF 0.2 0.18 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.2 0.02 0 0 0.6 1 Analtica Emprica 1.4 Analtica Emprica CDF
1.2
0.8
0.4
10 n
11
12
13
14
15
10 n
11
12
13
14
15
Figura 2.2. Funciones analtica y emprica asociadas a una distribucin normal de media 10 y varianza 4: (izqda.) funciones de densidad de probabilidad y (dcha.) funciones de distribucin acumulada.
Debe notarse que la funcin de distribucin acumulada de la funcin de densidad emprica se obtiene en trminos anlogos a como se hara para la funcin densidad de probabilidad, de la forma, = . (2.7)
Similar al clculo de la funcin de distribucin acumulada, el cmputo de puede aproximarse reemplazando la funcin de densidad de probabilidad por una funcin de densidad emprica asociada, , de la forma, 1 1 =
(2.8)
siendo (2.8) lo que se conoce con el nombre de integracin de Monte Carlo.
19
2. FUNDAMENTOS DEL SEGUIMIENTO EN SISTEMAS DINMICOS Continuando con el ejemplo de la figura 2.2, vamos a ilustrar la utilidad del mtodo de integracin de Monte Carlo. Consideremos la misma de la figura, de tal forma que funcin de densidad de probabilidad queremos integrar el producto en todo su dominio, donde = , es decir, queremos calcular = 2 1 . 2 (2.9)
La resolucin analtica de la anterior integral indefinida resulta en donde Erf 1 = 2 Erf 2 ,
(2.10)
es la funcin error, definida como Erf = 2 . (2.11)
Si evaluamos la integral en todo su dominio, esta resulta ser = . (2.12)
, tiene media Puesto que la funcin de densidad normal del ejemplo, = 10, este es el propio resultado analtico de (2.12). Repitamos a continuacin la integracin pero aproximndola mediante el mtodo de Monte Carlo. Es claro que si muestreamos un total de puntos de la distribucin , la anterior integral puede aproximarse como = 1 ,
(2.13)
es decir, equivaldra en este caso particular a la media muestral de la distribucin, tal y como caba esperar, ya que la integral analtica del ejemplo es el valor esperado de la distribucin . Empleando de nuevo un total de = 20 muestras, simulamos la anterior aproximacin un total de 10 veces, obtenindose la siguiente secuencia de valores prximos al valor de : 10.394, 9.7131, 9.8615, 10.0236, 9.8194, 9.8948, 9.9906, 10.1794, 9.7304 y
20
2. FUNDAMENTOS DEL SEGUIMIENTO EN SISTEMAS DINMICOS 9.8529. Se observa la utilidad de esta herramienta de clculo numrico que puede simplificar enormemente la evaluacin de una integral o, directamente, permitirnos su evaluacin por ser intratable analticamente. No obstante, debido a su fundamento estocstico, no se puede garantizar que el resultado sea lo suficientemente bueno, si bien ayudar al incremento de la precisin en el resultado un apropiado nmero de muestras obtenidas de forma adecuada de la distribucin . 2.2.1 Muestreo por importancia En determinadas ocasiones resulta complejo obtener muestras de la distribucin a causa de que dicha funcin puede ser complicada de modelar o difcil de aprender. Adems, tambin puede acontecer otro problema, que consiste en que presente valores cercanos a cero en la regin donde la masa de la distribucin de probabilidad se concentra (y viceversa). En ambas situaciones, la integracin de Monte Carlo puede proporcionar resultados de una intolerable baja precisin. El muestreo por importancia trata de auxiliar a este mtodo de integracin probabilstico en estas situaciones mediante la introduccin de una . Supongamos por funcin densidad de probabilidad auxiliar conocida, tanto que muestreamos en lugar de , verificndose adems que el cociente = (2.14)
se encuentra bien definido. En base a ello, la identidad fundamental del muestreo por importancia se define como = = =
Adems, suponemos que esta cantidad, , puede ser calculada a partir de integracin de Monte Carlo, obteniendo la funcin de densidad emprica en este caso a partir de muestrear la funcin de densidad , tal que = = (2.16)
(2.15)
21
2. FUNDAMENTOS DEL SEGUIMIENTO EN SISTEMAS DINMICOS = 1 = 1 .
El apelativo de muestreo por importancia proviene del hecho de que las muestras que componen los puntos soporte de la distribucin se toman de las regiones de importancia (donde se concentra la masa de probabilidad). Esta ltima funcin de densidad se conoce con el nombre de densidad de importancia, siendo el conjunto de pesos de importancia. Otra forma de ver el clculo de es haciendo uso de la den sidad emprica ponderada, funcin que se define como = 1 ,
(2.17)
se obtiene del muestreo de donde, de nuevo, el conjunto de muestras la funcin de densidad de importancia, . Es evidente que =
(2.18)
lleva al mismo resultado que (2.16). Continuando con el uso de la distribucin normal de anteriores ejemplos, , de media 10 y varianza 4, observemos cmo se obtiene una funcin de densidad emprica ponderada asociada, , a partir de hacer uso de la distribucin de importancia definida como una distribucin uniforme en el intervalo 0,10 .
PDF Q 0.1 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0 0.1 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0 PDF P
5 n
10
5 n
10
Figura 2.3. 20 realizaciones de una distribucin uniforme de importancia, , en el intervalo 0,10 a la izquierda y funcin de densidad emprica ponderada asociada, , a la derecha.
22
2. FUNDAMENTOS DEL SEGUIMIENTO EN SISTEMAS DINMICOS La figura 2.3(izqda.) muestra un total de 20 realizaciones de la funcin densidad de importancia, , recogindose en 2.3(dcha.) la funcin de densidad emprica ponderada asociada al conjunto de muestras obtenidas de la distribucin uniforme. Ntese cmo el dominio de queda supeditado al muestreo de , de tal forma que slo puede llegar a aparecer definida la funcin de densidad emprica ponderada asociada en el intervalo 0,10 en el presente caso. 2.2.2 Remuestreo por importancia Un problema comn con el filtro de partculas SIS es el del fenmeno de la degeneracin, por el cual, despus de un cierto nmero de iteraciones, todas las partculas menos una tendrn un peso despreciable. Se ha demostrado en [12] que la varianza de los pesos de importancia slo puede incrementarse con el paso del tiempo, siendo de esta forma imposible evitar el efecto de la degeneracin. Este fenmeno implica dedicar una gran cantidad de esfuerzo computacional a la actualizacin de las partculas cuya contribucin a la aproximacin de la funcin de densidad | : es casi nula. La tcnica de remuestreo por importancia viene a auxiliarnos en esta situacin, tal y como se mencion en el primer apartado de este captulo. Particularmente, en el presente proyecto se desarrolla la variante de remuestreo sistemtico, cuya implementacin presenta un coste computacional , es decir, proporcional al nmero de hiptesis. No obstante, esta tcnica presenta otros inconvenientes. Uno de los problemas de la etapa de remuestreo es que las partculas con un alto peso son estadsticamente seleccionadas en muchas ocasiones. Esto conlleva una prdida de diversidad entre las hiptesis debido a que la muestra resultante contendr muchos puntos repetidos. Este problema, conocido con el nombre de empobrecimiento de la muestra, es grave en el caso de procesos en los que existe un bajo nivel de ruido. De hecho, para el caso de procesos contaminados por un ruido muy pequeo, todas las partculas colapsarn en un nico punto tras unas pocas iteraciones. Antes de pasar a formular la tcnica de remuestreo por importancia sistemtico, debemos definir la versin normalizada de la densidad emprica ponderada , donde puede transformarse, sin ms que muestrear sobre ella, en una funcin de densidad emprica, . La normalizacin de es equivalente a la normalizacin por sus pesos: = 1 = 23 1 ,
(2.19)
2. FUNDAMENTOS DEL SEGUIMIENTO EN SISTEMAS DINMICOS donde =
(2.20)
es la suma de todos los pesos de importancia asociados a cada una de las hiptesis. El muestreo de la funcin de densidad emprica ponderada normalizada, , puede llevarse a cabo aplicando el algoritmo de remuestreo por importancia sistemtico, cuya formulacin para un instante de tiempo dado es: 1. Inicializacin de la funcin de distribucin acumulada como = 0.
2. Construccin de la anterior funcin de distribucin acumulada a partir de calcular = + , con = 1,2, , . Ntese cmo puede computarse haciendo uso de la ecuacin (2.38). 3. Establecer = 1 el ndice de la funcin de distribucin acumulada. , de la distribucin uniforme = 1 hasta : . 0,
4. Muestrear un punto inicial, = +
5. Repetir el siguiente procedimiento desde a) . =
b) Actualizar = + 1 mientras que se verifique c) Reasignar Debe notarse que

, ,
>
es el conjunto de hiptesis resultantes tras la etapa
de remuestreo por importancia acontecida en el instante t-simo donde, en esencia, este procedimiento replica las muestras con pesos asociados de alta importancia y elimina aquellas con pesos de baja importancia. Continuando con la serie de ejemplos, obsrvese la figura 2.4, la cual representa un caso de remuestreo por importancia asociado a la funcin de densidad emprica ponderada normalizada derivada del ejemplo de la figura 2.3. De un lado, 2.4(izqda.) recoge la funcin de distribucin acumulada calculada a partir del conjunto de pesos de importancia segn el algoritmo de remuestreo sistemtico. Por otra parte, 2.4(dcha.) representa la nueva funcin de densidad emprica resultante del proceso de remuestreo por importancia.
24

CDF 1.4 0.1 0.09 1.2 0.08 1 0.07 0.06 0.05 0.6 0.04 0.03 0.02 0.2 0.01 0 0 PDF P
0.8
0.4
0.1
0.2
0.3
0.4
0.5 n
0.6
0.7
0.8
0.9
5 n
10
Figura 2.4. Ejemplo de funcin de distribucin acumulada a la izquierda y resultado de la aplicacin de la tcnica de remuestreo por importancia sistemtico sobre a la derecha.
Ntese cmo, respecto de 2.3(dcha.), tras la aplicacin de esta tcnica, nicamente quedan presentes las hiptesis o partculas de mayor probabilidad, habiendo quedado eliminadas las de menor importancia, tal y como caba esperar.
2.3 Modelado markoviano del sistema dinmico

Supongamos ahora que estamos interesados en calcular momentos de orden mayor a la unidad o dependencias funcionales de la trayectoria del tipo : . En dicho caso, tal y como se vio en el apartado 2.1, llevaremos a cabo el cmputo del valor esperado de : dado el conjunto de observaciones, : , de la forma,
:
(2.21)
Sin embargo, la dimensin de la integral (2.21) y la complejidad de la distribucin se ven incrementadas con el aumento de , lo que lleva : | : a que la resolucin analtica de : | : sea intratable. En : | : consecuencia, a continuacin se define un esquema recursivo en el que dicha integral tiene la misma forma para todo instante de tiempo a partir de la reduccin de la funcin densidad de probabilidad a la forma : | : | : imponiendo ciertas restricciones sobre el modelo. : Con esta idea en mente, vamos a suponer que , el proceso de estados del sistema, es un proceso markoviano, es decir, |
:
(2.22)
25
2. FUNDAMENTOS DEL SEGUIMIENTO EN SISTEMAS DINMICOS junto con que las observaciones nicamente son dependientes del estado actual del sistema tambin para todo instante de tiempo: en otras palabras, un modelo oculto de Mrkov (HMM). En estas circunstancias, el modelo se encuentra completamente definido por su densidad de probabilidad de transicin entre estados, | , su densidad de probabilidad a priori sobre el estado inicial, , y su densidad de probabilidad de salida | (obsrvese la figura 2.5). Ahora, y pueden descomponerse : : | : segn la siguiente factorizacin a partir del nuevo planteamiento:
: :
= |
:
| = | .
(2.23)
(2.24)
Figura 2.5. Modelo oculto de Mrkov.
Podemos obtener la distribucin de probabilidad de los estados del proceso dadas las observaciones a partir de las anteriores identidades en conjuncin con la regla de Bayes y la distribucin de probabilidad a priori sobre las observaciones,
:
(2.25)
de la forma,
26

:
= |
:
donde
| ,
, =
, |
|
:
(2.26) =
| y
:
(2.27)
(2.28)
Supongamos a continuacin que tenemos una secuencia de observaciones hasta un cierto instante de tiempo . Evaluar el valor esperado , es equivalente a : | : , si : = , ,, : | : computar
:
con = 1,2, , . La densidad de probabilidad | : se conoce con el nombre de densidad de filtrado, siendo de nuestro inters el llevar a cabo un seguimiento sobre ella a lo largo del tiempo. Esto ltimo puede lograrse aplicando un paso de actualizacin secuencial, el cual est basado en la reduccin de | : en | : , de la siguiente forma (aplicando (2.26)), |
,
:
(2.29)
=
|
= ,
| ,
:
:
=
:
(2.30)
27
2. FUNDAMENTOS DEL SEGUIMIENTO EN SISTEMAS DINMICOS = | , |

:
| : = . En ltima instancia, necesitamos encontrar un modo de actualizar secuencialmente | : , que recordemos que es el denominador de la funcin | , . Esto puede hacerse a partir de marginalizar la funcin de densidad , | : , de la forma, donde , | |
:
donde
(2.31)
se define, haciendo uso de (2.27) y (2.30), como = , | |

:
= |
(2.32)
Todas estas expresiones conducen a un algoritmo secuencial para el clculo de | : tal que nicamente requiere el cmputo de : | : integrales de dimensin fija para cada instante de tiempo . Dicho algoritmo de seguimiento secuencial es el siguiente: 1. Actualizacin de a) Calcular (2.32). b) Calcular (2.31). |
:
. | =
, |
:
c) Combinar ambos resultados para obtener 2. Evaluar (2.29).
La idea tras esta aproximacin secuencial es desarrollar una representacin en forma cerrada de la densidad de filtrado tal que | : tenga el mismo formato para todo . Otro modo de obtener una representacin en forma cerrada de la densidad de filtrado es aproximar numricamente las integrales del anterior algoritmo de seguimiento secuencial. La ventaja de esta ltima aproximacin es que no quedan impuestas en el modelo las restricciones de linealidad y gaussianidad. Esta ltima cuestin es desarrollada en el siguiente apartado, lo que constituye el marco para la formulacin del filtro de partculas.
28
2.4 Formulacin del filtro de partculas SIR

A continuacin deseamos aplicar tanto integracin de Monte Carlo para el clculo aproximado de como muestreo y remuestreo por importancia al algoritmo de seguimiento secuencial visto anteriormente. Esto se traduce en la sustitucin de la funcin de densidad de filtrado, | : , por su equivalente funcin de densidad emprica, | : . De esta manera, la representacin de la densidad de filtrado permanece constante a lo largo del tiempo, lo que hace que el problema del clculo de | : : | : sea tratable. A partir de la densidad de filtrado emprica en el instante de tiempo 1 , | : , podemos reescribir el numerador de la ecuacin de actualizacin del algoritmo de seguimiento secuencial (expresin (2.32)) como , |
:
Nuestro inters ahora es construir la funcin de densidad emprica | : | : . Esto puede hacerse sin ms que a partir de un muestreo sobre llevar a cabo el clculo de la integracin aproximada de (2.33), ya que el cmputo de, y la divisin por el trmino | : , pueden ser pospuestos a causa de que dicha funcin de densidad acta como una constante. El muestreo se efecta sobre de densidad | como funcin de densidad de importancia. El coes | . | | | | sin ms que emplear la funcin
| 1
| |
= (2.33)
rrespondiente peso de importancia para la partcula = | =
(2.34)
Las partculas pueden ser consideradas como hiptesis acerca del estado del sistema y los pesos como cantidades proporcionales a las probabilidades de dichas hiptesis dada la observacin correspondiente. La densidad emprica ponderada resultante es
29
2. FUNDAMENTOS DEL SEGUIMIENTO EN SISTEMAS DINMICOS , |

:
(2.35)
la cual se emplea a continuacin con el fin de aproximar el factor de normalizacin de la funcin de densidad de filtrado, de la forma, |
:
= |
,
:
Con las dos cantidades calculadas podemos expresar la densidad emprica ponderada asociada a la funcin de densidad de filtrado como |
:
(2.36)
(2.37)
Por diseo, el anterior cociente es equivalente a la normalizacin de los pesos de importancia, definindose cada uno de estos normalizado como = = | | .
(2.38)
Por tanto, la densidad de filtrado emprica, | : , puede obtenerse a partir de aplicar el mtodo de remuestreo por importancia sobre la funcin de densidad emprica ponderada normalizada, | : , que en este caso es | : as como al conjunto de pesos de importancia normaliidntica a zados, . Finalmente, el paso de evaluacin propio del algoritmo secuencial de seguimiento puede simplificarse a partir de la aproximacin de (2.29) con ayuda de | : o de | : . De este modo, calculamos el valor esperado de la dependencia funcional de la trayectoria como
|
:
(2.39)
30
2. FUNDAMENTOS DEL SEGUIMIENTO EN SISTEMAS DINMICOS Podemos redefinir el algoritmo de seguimiento secuencial visto en el apartado 2.3 a partir de estos nuevos resultados a la luz de la integracin de Monte Carlo y de las tcnicas de muestreo y remuestreo por importancia. Dicha redefinicin es a lo que se conoce con el nombre de filtro de partculas, cuyos pasos son iterados secuencialmente con el incremento de y donde las muestras iniciales, , se obtienen a partir de la distribucin a priori . El algoritmo sera el siguiente: 1. Actualizacin de | |
:
. , a partir de .
1,2, , . b) Calcular los pesos de importancia normalizados segn (2.38) y construir

:
a) Obtener una muestra, = |
para
c) Obtener la funcin de densidad emprica | : a partir de la aplicacin de la tcnica de remuestreo por importancia. 2. Evaluar segn (2.39).
|
:
a partir de aproximar dicha cantidad
Como ya se introdujo en el primer apartado del presente captulo, el filtro SIR es una derivacin del filtro SIS, siendo la principal particularidad del primero, frente al segundo, la aplicacin de la etapa de remuestreo por importancia para todo . Tal y como se ha expuesto, SIS aproxima la densidad de filtrado continua, | : , por una densidad emprica ponderada, lo que causa el que las hiptesis con una relativa baja probabilidad sean conservadas. La etapa de remuestreo que introduce la aproximacin SIR, por el contrario, puede ser vista como una fase de poda donde las hiptesis ms probables son replicadas para ocupar el lugar de aquellas que son poco probables y, por tanto, eliminadas. De este modo se fuerza la exploracin en las regiones de relativa alta probabilidad del espacio de estados, en detrimento de las zonas de menor probabilidad.
31
3. DISEO Y DESARROLLO
Este captulo desglosa formalmente la teora y el desarrollo de la implementacin derivada de este proyecto. En primer lugar, del apartado 3.1 al 3.3, es presentada la aproximacin del filtro de partculas SIR (Sampling Importance Resampling) para estimacin de ruido acstico de Raj et l. [13] segn el trabajo de Faubel [2]. Adems, tras ello, en el apartado 3.4 son expuestas ciertas consideraciones de implementacin imprescindibles para el correcto funcionamiento del sistema desplegado. En lo que sigue, si no se especifica lo contrario, el espectro de potencia con el que se trabaja corresponde al dominio log Mel, de tal forma que , e denotan, respectivamente, las tramas en el instante de tiempo discreto de la voz limpia, del ruido y de la observacin de voz contaminada en dicho dominio. Una de las motivaciones para emplear un filtro de partculas para la estimacin del ruido radica en el hecho de que la relacin entre las observaciones, , y los vectores de estado, , es de tipo no lineal. Tal y como se ha expuesto en anteriores puntos, para poder aplicar el filtro de partculas a nuestro propsito precisamos especificar un espacio de estados dinmico con el fin de modelar la evolucin del espectro del ruido. El espectro del ruido acstico a lo largo del tiempo constituye el proceso oculto que se encuentra contaminado, en este caso, por el espectro de voz limpia, lo que nos lleva a tener que definir la funcin densidad de probabilidad de transicin entre estados para el ruido, | , y la densidad de probabilidad de salida, | . Del apartado 3.5 al 3.7 se recoge el fundamento del mtodo de estimacin de ruido por promediado espectral, la metodologa seguida para la generacin de las mscaras de decisin soft a partir de las estimaciones derivadas tanto del filtro de partculas SIR como de la anterior tcnica mencionada y, en ltimo lugar, la aproximacin implementada para el realce de las caractersticas de voz ruidosa en el dominio log Mel haciendo uso de dichas mscaras de decisin.
33
3.1 Modelado del proceso de ruido

La mayora de los ruidos tpicos que contaminan las seales de voz como, por ejemplo, los propios de un bar, una calle concurrida o el metro, presentan una cierta componente base que vara lentamente con el tiempo. Si observsemos espectrogramas de ruidos tpicos, como los de la figura 3.1, comprobaramos cmo estos muestran dos componentes diferenciadas consistentes en un fondo que vara de un modo relativamente lento en el tiempo al que se le superponen eventos ruidosos de carcter impulsivo. Dadas las tendencias promedio de estos ruidos, resulta razonable tratar de predecir sus comportamientos futuros en base a sus comportamientos actuales y pasados. La previsibilidad puede codificarse representando el ruido en el dominio log Mel como la salida de un proceso autorregresivo (AR). La combinacin de la ecuacin AR que representa el proceso de ruido (ecuacin de estado) ms la ecuacin no lineal que relaciona el ruido con las observaciones de voz contaminada (ecuacin de observaciones) constituye el sistema dinmico sobre el cual ser aplicado el filtro de partculas.
Figura 3.1. Espectrogramas de banda ancha de ruido de trfico (izquierda) y de multitud conversando (derecha) [13; p. 1].
El uso de sistemas dinmicos para representar ruido en el contexto del reconocimiento de la voz parte del trabajo de Varga y Moore [1], quienes representaron el ruido como la salida de un modelo oculto de Mrkov (HMM). En su aproximacin, la representacin basada en HMMs de la dinmica del proceso subyacente de ruido fue empleada para mejorar el rendimiento de un sistema de reconocimiento del habla que usaba voz ruidosa como entrada. De otra parte, Kim et l. [14] propusieron usar un sistema dinmico lineal para llevar a cabo seguimiento del ruido con el fin de realizar una compensacin explcita de los vectores espectrales propios de la voz ruidosa. Para estimar este ruido, usaron una versin simplificada de un filtro de Kalman extendido (EKF). Con la finalidad de hacer el algoritmo 34
3. DISEO Y DESARROLLO estable, redujeron la ganancia de Kalman sin justificacin matemtica alguna. Este mtodo slo permite el uso de un proceso AR de primer orden para el ruido. El problema que se afronta a continuacin es el de determinar el estado del sistema, denominado , dada nicamente la secuencia de observaciones , los parmetros de la ecuacin de estado (la matriz de coeficientes de prediccin del modelo AR del ruido y la matriz de covarianza de la distribucin normal multivariada asociada al trmino estocstico de dicho modelo) y la distribucin de . Raj et l. [13] propusieron modelar la evolucin del espectro del ruido como un proceso AR de orden l, de la forma, = + = | || + ,
(3.1)
es un vector columna d-dimensional que representa el espectro de donde ruido para el instante de tiempo y es una matriz por bloques de dimensin aprendida para un tipo de ruido especfico, donde cada uno de los l bloques que la componen, , = 1,2, , , es de dimensin . En esta aproximacin, la tcnica de la prediccin lineal es usada para predecir el actual espectro del ruido dados los l ltimos, donde los coeficientes de prediccin lineal en este caso son cada uno de los bloques de la matriz . La componente aleatoria del proceso AR se representa mediante otro vector columna d-dimensional, , el cual se considera que sigue una distribucin gaussiana independiente e idnticamente distribuida de media cero y matriz de covarianza, por tanto, diagonal, . Como hemos visto, el modelo de ruido AR se constituye a partir de dos elementos que deben ser estimados: por un lado, la matriz de prediccin lineal, , y, por otro, la matriz de covarianza diagonal, , que modela la componente estocstica del proceso. La minimizacin del valor esperado de la norma cuadrtica del error de prediccin, (donde = ), nos proporciona una estimacin para la matriz de coeficientes de prediccin del proceso. Partimos de = = =
(3.2)
Minimizamos la anterior cantidad respecto de la matriz de prediccin lineal, , de la forma,
35
3. DISEO Y DESARROLLO =0 = 0. (3.3)
Hacemos uso de la siguiente identidad de derivacin matricial para resolver la anterior operacin: + + = + + , (3.4) , es de. (3.5)
donde, en nuestro caso, es la matriz identidad de dimensin cir, = . Aplicando (3.4), llegamos a = 2 =0 =
Finalmente, la minimizacin del valor esperado de la norma cuadrtica del error de prediccin resulta en la siguiente estimacin para la matriz de prediccin lineal: = , (3.6)
donde las dimensiones de las matrices y son, respectivamente, y . Asumiendo que se dispone de informacin del espectro de ruido , , , , dichas matrices podran obtenerse como = = 1 1 , , (3.7)
(3.8)
donde estas cantidades son estimadas, en la prctica, a partir del uso de las primeras y ltimas tramas de una determinada alocucin, las cuales son consideradas como puramente ruidosas. De otro lado, la matriz de covarianza diagonal de la distribucin normal multivariada asociada al trmino puede expresarse como = 0 0 36 0 0 0 , 0
(3.9)
3. DISEO Y DESARROLLO donde cada una de sus varianzas se calcula de la forma, 1 =

, ,
= 1,2, , ,
(3.10)
y donde , referencia a la i-sima componente del vector . Al igual que la matriz de coeficientes de prediccin, la de covarianza ha de aprenderse a partir de datos de ruido de entrenamiento. El modelo de ruido AR define implcitamente la distribucin | como una distribucin gaussiana de media la prediccin de ruido, , y matriz de covarianza , es decir, | = | , . (3.11)
Adems, puesto que la densidad de probabilidad de transicin entre estados, | , es slo dependiente de la probabilidad de , ya que las anteriores componentes vienen dadas por desde hasta , tenemos que | = | , es decir, | requerida por el filtro de La forma muestreada de la distribucin partculas puede calcularse a partir de muestrear de (3.11) y constituir con su contribucin el vector La inicializacin del filtro de partculas se lleva a cabo a partir de muestrear la distribucin de probabilidad a priori sobre el ruido, . Una posibilidad es definir como una mezcla de gaussianas de parmetros aprendidos a partir de datos de ruido de entrenamiento. Particularmente, por simplicidad y dado que para la fase de experimentacin se hace uso de una base de datos de voz ruidosa compuesta por segmentos cortos de voz donde el ruido se puede suponer estacionario, en la presente implementacin, se modela como una distribucin gaussiana de parmetros aprendidos a partir de las mismas tramas empleadas para la estimacin de la matriz de coeficientes de prediccin lineal, . De otro lado, los experimentos han demostrado que el uso de modelos AR de orden mayor a la unidad no proporciona un incremento significativo en el rendimiento del filtro de partculas, puesto que la prediccin del ruido no mejora de forma notable en dichas condiciones [13]. No obstante, es cierto que el aumento de l usualmente hace decrecer (y nunca incrementar) la 37 = , ,, . | = | , . (3.12)
3. DISEO Y DESARROLLO norma del error de prediccin de los datos de entrenamiento como funcin del orden del modelo AR tal y como se observa en la figura 3.2, donde se muestra un ejemplo real del error de prediccin promedio sobre datos de entrenamiento y de test como funcin del orden del proceso AR para cuatro tipos de ruido diferentes. En dicha figura, se percibe cmo el error decrece montonamente con el aumento del orden de prediccin para todos los casos, si bien lo hace de forma poco notoria especialmente en el caso de test. Tambin es de resear que los predictores estimados en la praxis poseen una buena capacidad de generalizacin, lo que indica que el modelado AR consigue capturar las caractersticas generales del ruido y no las tendencias propias de los datos de entrenamiento.
Figura 3.2. Error de prediccin promedio por componente como funcin del orden del proceso AR sobre datos de entrenamiento (izquierda) y sobre datos de test (derecha) [13; p. 2].
Finalmente, resulta relevante mencionar que observaciones empricas han determinado que los vectores en el dominio espectral logartmico se ajustan mucho mejor a los modelos AR que aquellos nicamente en el dominio espectral [13]. En otras palabras, el error de prediccin promedio por componente para vectores en el dominio espectral logartmico es mucho menor que el logaritmo del error de prediccin promedio por componente para vectores en el dominio estrictamente de potencia espectral, lo que resulta en una ventaja aadida que contribuye a la seleccin de la presente aproximacin.
3.2 Relacin entre estados y observaciones

A continuacin, precisamos relacionar las observaciones espectrales de voz ruidosa, , con el vector de estados , de tal forma que los pesos puedan 38
3. DISEO Y DESARROLLO calcularse para cada una de las partculas de ruido, , con = 1,2, , . Cada una de estas observaciones ruidosas, , depende del espectro de ruido, , del espectro de voz limpia, , y de la fase relativa entre ambos. Aunque puede depender del ruido en instantes anteriores (dado el modelo AR del ruido), parece razonable aproximar | = | , (3.13)
lo que termina por configurar, junto con lo desarrollado en el apartado 3.1, el presente sistema dinmico como uno de tipo markoviano. Esto, sin embargo, no tiene por qu ser completamente cierto si, por ejemplo, el segmento de voz bajo anlisis incluye reverberaciones o ecos. Partiendo de la aproximacin de (3.13), vamos a tratar de establecer una relacin entre el ruido y las observaciones en el dominio log Mel. Dado que estamos manejando ruido aditivo en el dominio temporal, tenemos que el conjunto de muestras de voz contaminada propio de la trama t-sima, , se expresa como = + , (3.14)
donde el superndice denota que la informacin tratada se encuadra en el dominio original de la seal (dominio temporal). Adems, debido a que la transformada de Fourier es lineal, la trama t-sima de voz ruidosa en el dominio de Fourier puede escribirse como = + , (3.15)
donde, equivalentemente al caso anterior, el superndice explicita que la informacin tratada se enmarca en el dominio de la frecuencia. El espectro de potencia dados d bins de frecuencia puede expresarse como
,
,,
(3.16)
donde, aplicando notacin fasorial y la relacin de Euler, llegamos a que la potencia espectral de cada bin frecuencial ( = 1, , ) es
,
cos
+ sin
(3.17)
y, en trminos de los espectros de voz limpia y de ruido,
39
3. DISEO Y DESARROLLO + =
,
Finalmente, empleando la relacin trigonomtrica cos cos + sin sin cos ,

,
cos
cos
+2
cos
cos
cos
,
cos
,
sin
sin
,
,
+ sin
sin
,
sin
= sin
(3.18)
+2
Si renombramos la fase relativa entre

,
, en ltima instancia, la potencia espectral para cada uno de los bins
cos
(3.19)
,
de la forma
frecuenciales en trminos de los espectros de voz limpia y de ruido se puede expresar como
,
+ 2 cos
(3.20)
En una primera aproximacin, simplificaremos en la prctica la anterior expresin eliminando la contribucin del trmino de fase relativo (ya que su valor esperado es nulo), por lo que, de ahora en adelante, asumiremos que
,
(3.21)
Si expresamos cada una de las anteriores componentes de potencia espectral en el dominio logartmico, tendremos que
,
= log
, = +
= log
= log ,
(3.22)
de tal modo que se cumple la relacin = log (3.23)
donde
, , , ,, , = y anlogamente para . A continuacin, podemos modelar la densidad de probabilidad de la voz limpia como una mezcla de gaussianas, del modo,
40
donde , y representan, respectivamente, el peso, el vector de medias y la matriz de covarianza asociados a la k-sima gaussiana de la mezcla. Podemos ahora emplear dicha distribucin de probabilidad para calcular | aprovechando adems la relacin anteriormente deducida y que figura en (3.23). Para tal fin ser preciso aplicar la ley fundamental de transformacin de probabilidades, la cual nos otorga la posibilidad de evaluar una funcin densidad de probabilidad desconocida, , dada una funcin densidad de probabilidad tal que = . De esta forma, si la derivada de con respecto a se encuentra bien definida, se puede calcular como = , (3.25)
, ,
(3.24)
donde || representa el valor absoluto si e son escalares o el valor absoluto del determinante jacobiano si dichas cantidades son vectores de igual dimensin. La anterior identidad se sostiene en base a que la densidad de probabilidad es la derivada de su funcin de distribucin acumulada tal que esta ltima, recordemos, puede calcularse como = = .
(3.26)
Tal y como hemos introducido, a continuacin obtenemos | a partir de aplicar (3.25) haciendo uso de la relacin = = log o, equivalentemente, reescribiendo a nivel de cada componente del vector de caractersticas,
,
= log =
,
0 en dichas condiciones, podemos pasar a calcular el jacobiano (matriz gradiente) de (3.27), como Teniendo en cuenta que
+ log 1
= log
,
= 0, , y, por tanto,
(3.27)
,
41
, ,
, ,
, ,
, ,
0 0
0 , 0
(3.28)
donde =
,
= 1+
Por tanto, el determinante jacobiano necesario para la aplicacin de la ley fundamental de transformacin de probabilidades es | |= = 1 1 ,
+ log 1 1
, ,
= 1,2, , .
(3.29)
| pudiendo finalmente ser empleado para el clculo de la distribucin junto con la mezcla de gaussianas que modela el espectro de voz limpia, de la forma, | = | |=
,
(3.30)
+ log 1 |1
|1 | |
,
,
(3.31)
No obstante, hemos de tener en cuenta una consideracin extra, y es que si una determinada hiptesis de ruido (en el dominio espectral logartmico), , iguala o excede en magnitud al espectro logartmico observado, , para un determinado bin espectral (el i-simo, por ejemplo), de la forma,
,
tendremos que el log 1 y, por tanto, el peso = | , no pueden ser evaluados debido al modelado propuesto en el que (en el dominio de potencia espectral la componente de voz contaminada sigue una formulacin aditiva de ruido ms voz limpia, tal y como se recoge en la ecuacin (3.21))
,
1,
(3.32)
no puede ser nunca mayor que
. Por tanto,
42
3. DISEO Y DESARROLLO una posible solucin a esta situacin es hacer | = 0 cuando se verifique (3.32) para algn bin espectral, de tal forma que, finalmente, (3.31) se expresa en funcin de ello como
| = + log 1 |1 0
, ,
en otro caso
<
1,
(3.33)
3.3 Filtro de partculas SIR aplicado

Ahora que la funcin densidad de probabilidad de transicin del ruido, | , y la funcin densidad de probabilidad de salida, | , son conocidas, es posible aplicar nuestro filtro de partculas al problema segn lo recogido en el siguiente algoritmo, cuyos pasos se repiten secuencialmente desde = 1 hasta = , siendo el nmero total de tramas del segmento de voz ruidosa sobre las cuales es aplicada esta tcnica: 1. Generacin de las hiptesis de ruido: Si = 1, inicializar con partculas o hiptesis de ruido generadas aleatoriamente, , = 1,2, , , a partir de la funcin de densidad de probabilidad a priori sobre el ruido, (ver subapartado 3.4.2). Ntese que es un vector columna de dimensin , donde es el nmero de canales del banco de filtros Mel y es el orden de prediccin del modelo AR del ruido. A continuacin, y para todo , obtener, en trminos anlogos al anterior procedimiento, partculas a partir de muestrear la funcin de densidad de probabilidad de transicin del ruido, 2. Clculo de los pesos normalizados: Seguidamente, la probabilidad condicional de la observacin, hiptesis de ruido, , se computa de la forma,
| = + log 1 1 | ,
,
= 1,2, , .
, dada cada
donde = es la componente determinista del modelo AR del ruido. A partir de dichas probabilidades, los pesos normalizados se pueden calcular como 43
en otro caso
<
1,
(3.34)
3. DISEO Y DESARROLLO = | | , = 1,2, , ,
(3.35)
de acuerdo con la ecuacin (2.38). 3. Remuestreo sobre las hiptesis de ruido: , Aplicacin de remuestreo por importancia sobre las hiptesis de ruido, = 1,2, , , con ayuda de los pesos normalizados calculados en el paso segundo.
Figura 3.3. Diagrama de flujo del filtro de partculas SIR aplicado al propsito de estimacin de ruido acstico en el dominio log Mel.
Finalmente, la etapa de estimacin de ruido (proceso Estimacin de Salida en el diagrama de flujo de la figura 3.3) puede consistir simplemente en la implementacin del clculo de la solucin MMSE (Minimum Mean Square Error) para el estimador de ya deducida y aproximada mediante integracin de Monte Carlo,
|
:
44
(3.36)
3. DISEO Y DESARROLLO particularizada a la dependencia funcional de la trayectoria de tipo identidad, de la forma, = |

:
(3.37)
3.4 Sistema SIR final

En la prctica existen ciertas cuestiones que provocan que el filtro no funcione correctamente. El mayor de estos problemas es el ya mencionado anteriormente referente a que no se debe permitir el que las hiptesis de ruido sean superiores, en trminos de magnitud, a las observaciones de voz espectral contaminada. La solucin a este contratiempo vena dada por la imposicin de desgracia, el procedimiento adoptado trae consigo dos consecuencias no deseables pues, por una parte, se producen sobreestimaciones del ruido actual [2] y, por otra, cancelaciones debidas a las diferencias relativas de fase entre el ruido y la voz que pueden provocar un efecto de decimacin entre las partculas de ruido hasta el punto de producirse su completa aniquilacin si todos sus pesos son nulos. Este ltimo efecto es a lo que se conoce con el nombre de dropout [2]. Si un dropout tiene lugar, los pesos no pueden normalizarse a causa de que la suma de estos es cero. Por ello, cuando este problema acontece, se opta por hacer cada uno de los pesos equiprobable, es decir, si | establecemos = 1 < , | = 0 en el caso de no cumplirse
,
<
1,
. Por
(3.38)
donde es un valor umbral tal que 0. Sin embargo, el establecer todos los pesos como equiprobables introduce un nuevo problema, y es que ahora las partculas evolucionarn nicamente de acuerdo a la densidad de probabilidad de transicin del modelo de ruido, totalmente independientes del espectro de voz contaminada observado. De este modo, est asegurado que el seguimiento de la trayectoria del ruido se pierda de forma irremediable, 45
= 1,2, , ,
(3.39)
3. DISEO Y DESARROLLO si bien podra ser recuperado tras la consecucin de algunas tramas al obtenerse un peso no nulo para alguna de las partculas. Sin embargo, es ms probable que se d la primera de las situaciones (prdida de la trayectoria), por lo que es recomendable reinicializar el filtro de partculas si, tal y como hemos visto, se cumple (3.38) para un determinado intervalo temporal o, equivalentemente, un conjunto de tramas de voz consecutivas. Adems, existen otros motivos para aplicar esta reinicializacin. Uno de ellos es que, ocasionalmente, las hiptesis de ruido pueden perder la trayectoria a lo largo del tiempo, observndose cmo la energa de las estimaciones decae por debajo de niveles razonables debido a un pobre o poco adecuado modelado del proceso de ruido. Con el fin de solucionar este nuevo contratiempo, se ejecuta el siguiente procedimiento. En primer lugar, para cada partcula de ruido generada en un instante de tiempo , se lleva a cabo el clculo de la media de todas sus componentes, de la forma, = 1
,
(3.40)
Previamente, durante la etapa de inicializacin se ha calculado un nivel de referencia para establecer la posterior comparacin, como = 1
,
(3.41)
donde el ndice hace referencia al instante de tiempo de trama, siendo ste variable debido a que la anterior cantidad puede ser recalculada en diferentes momentos durante la ejecucin del filtro, llevndose a cabo en la etapa de inicializacin o la de reinicializacin. Finalmente, si para una determinada hiptesis se cumple que 10 log = 10 log |
,
donde representa un umbral heurstico en decibelios tal que < 0, la probabilidad asociada a dicha partcula, , se fuerza a ser nula con el fin de incentivar un futuro procedimiento de reinicializacin generado por una prdida de la trayectoria por subestimacin del ruido. Los modos de reinicializacin implementados se discuten en el subapartado 3.4.3.
< ,
(3.42)
46
3. DISEO Y DESARROLLO 3.4.1 Test de aceptacin rpida La mejor solucin para mitigar la reduccin de muestras y los dropouts sera, por supuesto, impedir que ocurriesen. De hecho, la cantidad de dropouts puede reducirse sin ms que aumentar el nmero de hiptesis, , lo que, sin embargo, conlleva un incremento importante del tiempo de cmputo necesario. Faubel [2] propone emplear lo que denomina test de aceptacin rpida, el cual incrementa virtualmente el nmero de hiptesis de ruido cuando es necesario. Su operacin se encuadra, para todo instante , en el primer paso del filtro de partculas SIR durante la fase de muestreo a partir de la densidad de probabilidad de transicin del modelo de ruido, que no se verifique la desigualdad | . Se trata de rechazar la hiptesis generada,
,
muestreando de la distribucin uniforme discreta selecciona un valor 1, , y se vuelve a generar una hiptesis de ruido pero, esta vez, a partir de la distribucin de transicin petido hasta que una de las hiptesis generadas es aceptada al verificar , o hasta que se alcanza un nmero mximo de iteracio, 1, , < | . Este procedimiento es re-
<
1,
, en el caso de
. Dado el descarte, se
nes predeterminado, , el cual determinar el coste computacional aadido en el peor de los casos. A continuacin se puede observar un pseudo-cdigo del algoritmo descrito:
Desde = 1 hasta hacer l = 0 = aceptar = false Mientras (l < B) y (aceptar == false) ~ | < , 1, ) aceptar = true En caso contrario ~ 1, l = l + 1 Fin Si (
,
Fin Fin
Ntese cmo el nmero de hiptesis permanece constante con esta aproximacin.
47
3. DISEO Y DESARROLLO 3.4.2 Modos de inicializacin La inicializacin del filtro de partculas se lleva a cabo a partir de muestrear aleatoriamente hiptesis de la distribucin de densidad de probabilidad a priori sobre el ruido, . Tal y como se mencion en el apartado 3.1, en el sistema implementado se ha optado por modelar como una distribucin gaussiana de vector de medias y matriz de covarianza aprendidos a travs de datos de entrenamiento de ruido consistentes en las primeras y ltimas tramas de la secuencia de voz cuyo ruido se desea estimar. En el caso de emplear un modelo AR de orden la unidad, sera suficiente con generar aleatoriamente hiptesis de ruido a partir de la distribucin a priori para, desde generar las sucesivas partculas. No obstante, la implementacin llevada a cabo contempla seleccionar el orden del proceso AR de ruido, , de tal forma que se opta por, de un modo general, aplicar el siguiente procedimiento de inicializacin: 1. Muestreo de la densidad de probabilidad a priori: Se generan . hiptesis de ruido , = 1,2, , , a partir de muestrear = 1, hacer uso de | con el fin de
2. Completado del vector de predicciones: Se repite el siguiente procedimiento desde = 1 hasta 1: a) Estimacin de y a partir de los datos de entrenamiento de ruido tal y como se expuso en el apartado 3.1, donde indica el orden de prediccin. b) Generacin de las siguientes partculas, , a partir de muestrear de la distribucin normal donde = ,, y = 1,2, , . , ,
Tras 1 iteraciones del paso segundo del algoritmo de inicializacin, habremos logrado calcular vectores de prediccin de hiptesis de ruido, de la forma, = , ,, , = 1,2, , , (3.43)
48
3. DISEO Y DESARROLLO tal que estamos en disposicin de aplicar el filtro de partculas SIR expuesto en el apartado 3.3, comenzando por la generacin de las primeras partculas en calculados. El otro modo de inicializacin contemplado en la implementacin prctica se basa en emplear las primeras tramas de la secuencia de voz cuyo ruido procedemos a estimar, como partculas de inicializacin del filtro. Las muestras de estas tramas son replicadas veces con el fin de poder generar las trayectorias hiptesis. Por tanto, la aplicacin del filtro no comienza en = 1 sino en = + 1 con el muestreo de la funcin de densidad observaciones correspondientes, siendo este un mtodo de inicializacin recomendable si tenemos la seguridad de que dichas observaciones se componen nicamente de ruido, algo a priori muy razonable. 3.4.3 Modos de reinicializacin Tal y como ya se ha introducido al comienzo del apartado, el procedimiento de reinicializacin es conveniente cuando la suma de los pesos de las partculas resulta ser cero o una cantidad muy pequea (inferior a un cierto umbral ) durante un determinado intervalo de tiempo o, equivalentemente, para un conjunto consecutivo de tramas. Dicho intervalo temporal se ha prefijado en nuestra implementacin en 100ms. Esta reinicializacin consiste nicamente en la generacin de nuevas partculas de ruido de acuerdo con el primer paso del algoritmo SIR, siendo usadas estas en lugar de las existentes en 1. Se contempla en la presente implementacin dos formas de llevar a cabo este procedimiento. Una de ellas es generando nuevas hiptesis a partir de la distribucin a priori sobre el ruido, , tal y como se ha expuesto en el subapartado 3.4.2. La segunda aproximacin consiste en la generacin de una hiptesis de voz limpia, , a partir del modelo general de mezcla de gaussianas para la voz limpia, . De esta manera, haciendo uso de la observacin actual, , la muestra de ruido correspondiente puede ser inferida como = + log 1 , (3.44)
,
= 1 a partir de muestrear de
con ayuda de los
. Las primeras
tramas de ruido estimado son las propias
siempre y cuando se verifique de nuevo la relacin
esta ltima condicin no se satisface, se obtiene una nueva muestra hasta que dicha desigualdad se verifique o hasta un lmite de iteraciones,
<
1,
. Si
49
3. DISEO Y DESARROLLO cantidad que determinar el coste computacional aadido en el peor de los casos, tal y como ocurra para el test de aceptacin rpida. Si tras iteraciones del mtodo la condicin , < , 1, contina sin verificarse,
con el fin de obtener la j-sima partcula de ruido imprescindible, , esta es muestreada de la distribucin a priori aunque su peso asociado pueda ser nulo. La ventaja de esta ltima aproximacin radica en que las muestras de ruido obtenidas presentan un alto rate de aceptacin, es decir, sus pesos asociados son mayoritariamente no nulos, consiguindose con frecuencia que la trayectoria sea encontrada de nuevo inmediatamente. Ntese que en buena parte, esto se debe a que tpicamente existe una mayor cantidad de datos disponibles para aprender la distribucin de la voz limpia que para aprender la del ruido. El pseudo-cdigo de este algoritmo puede verse a continuacin:
Desde = hasta 1 hacer Desde = 1 hasta hacer iter = 0 aceptar = false Mientras (iter < B) y (aceptar == false) ~ = | , Si ( , < , 1, ) = + log 1 aceptar = true En caso contrario iter = iter + 1 Fin
Fin Fin
Fin Si (aceptar == false) ~ Fin
Para finalizar el apartado, obsrvese el ejemplo de la figura 3.4, la cual recoge tres espectrogramas en el dominio log Mel. El primero de ellos es una aproximacin del ruido real, procedente del metro, que contamina una determinada alocucin. En este caso, el espectrograma del ruido ha sido obtenido segn el modelo espectral aditivo de la ecuacin (3.21) a partir de los espectrogramas de voz limpia y voz ruidosa. Los dos ltimos se corresponden con estimaciones de ruido log Mel mediante filtro de partculas, habindose obtenido ambos en las mismas condiciones a excepcin del no empleo de ningn mtodo de reinicializacin en el espectrograma central y del uso de reinicializacin por remuestreo de la densidad a priori de ruido, , en el ltimo espectrograma. Se aprecia claramente cmo, transcurrido poco tiempo, el filtro de partculas pierde el seguimiento de la trayecto-
50
3. DISEO Y DESARROLLO ria y no lo vuelve a recuperar, por lo que resulta fundamental el uso de la tcnica de reinicializacin. Adems, por desgracia, se observa que este fenmeno es muy usual en la prctica.
22 20 18 16 Canales Mel 14 12 10 8 6 4 2 10 20 30 40 50 60 Tiempo 70 80 90 100
Figura 3.4. Espectrogramas en el dominio log Mel resultantes de la estimacin de ruido sobre un fichero de voz contaminado con ruido procedente del metro. De arriba abajo: aproximacin del ruido real, ruido estimado mediante filtro de partculas sin usar ningn mtodo de reinicializacin y ruido estimado mediante filtro de partculas usando reinicializacin por remuestreo de la densidad a priori de ruido.
Ntese en el ltimo espectrograma cmo cada 10 tramas (100ms) se repite de forma aproximada un patrn de ruido, lo cual nos est indicando que la prdida de la trayectoria acontece sistemticamente a lo largo del segmento de voz. Concretamente, la reinicializacin ha tenido lugar un total de 8 veces de 10 posibles en el ejemplo.
51
3.5 Estimacin de ruido por promediado espectral

En esta seccin se desarrollan los fundamentos del otro mtodo empleado para la posterior generacin de mscaras soft. Si bien el filtro de partculas SIR proporciona una estimacin del ruido acstico en el dominio log Mel, de tal forma que dicha estima es usada para la definicin de la mscara, la presente tcnica lo hace en el de potencia espectral Mel por medio de una estimacin de la potencia promedio del ruido en cada uno de los bins frecuenciales. Esto se hace a partir de realizar el siguiente clculo sobre un conjunto de tramas ruidosas: = donde
,
= 1,2, , ,
(3.45)
es la potencia espectral en el canal Mel i-simo propio de la
trama de ruido t-sima, siendo el nmero total de canales Mel del banco de filtros. Ntese cmo es un vector de componentes que representa la potencia espectral promedio de ruido en un determinado fragmento de voz. En la prctica, este vector es calculado a partir de hacer uso de las primeras y ltimas tramas de cada segmento de voz contaminada por ruido ambiental en el dominio espectral de potencia Mel. La anterior estimacin se sustenta en la presuncin de que el ruido es estacionario, de tal forma que la informacin relacionada, tal y como se ha mencionado, se extrae a partir del anlisis de las primeras y ltimas tramas de cada fragmento de voz, supuesto que nicamente se encuentran compuestas por ruido de fondo. Esta es, claramente, una de las desventajas de esta aproximacin respecto de la del filtro de partculas, tcnica que s podra tratar de forma satisfactoria con ruido de tipo no estacionario. No obstante, debemos manifestar que, en el presente proyecto, los parmetros del modelo AR del proceso de ruido en el filtro de partculas no son actualizados con el tiempo, relegndose esta cuestin al trabajo futuro, por lo que, en nuestro trabajo, ambas tcnicas presentan la misma capacidad en este sentido.
3.6 Generacin de mscaras y postprocesado

Para la generacin de mscaras de decisin soft es preciso partir de las estimaciones de ruido en el dominio de potencia espectral Mel. En este sentido, es posible usar directamente como entrada los datos derivados de la 52
3. DISEO Y DESARROLLO aplicacin del proceso descrito en el apartado 3.5. Sin embargo, debemos recordar que las estimaciones de ruido propias del uso del filtro de partculas se encuadran en cambio en el dominio log Mel. As, para este ltimo caso, debemos calcular en primera instancia
,
donde , es la magnitud de potencia espectral logartmica, estimada con el filtro de partculas SIR, asociada al canal i-simo propio de la trama tsima. A continuacin es posible computar la SNR (Signal-to-Noise Ratio) a posteriori, la cual resulta en una matriz que presenta la misma dimensin que el espectrograma de la seal tras ser procesada en el banco de filtros ( , donde es el nmero total de tramas del fragmento de voz bajo consideracin), como
,
= 1, , ,
= 1, , ,
(3.46)
= 10 log
donde
servada y la potencia del ruido estimado. El umbral una cota inferior para [15].
= 1, , ,
max
= 1, , ,
(3.47)
son, respectivamente, la potencia de la seal ob= 0.5 establece
22 20 18 16 Canales Mel Canales Mel 10 20 30 40 50 60 Tiempo 70 80 90 100 14 12 10 8 6 4 2
22 20 18 16 14 12 10 8 6 4 2 10 20 30 40 50 60 Tiempo 70 80 90 100
Figura 3.5. Espectrograma de alocucin contaminada con ruido de metro (izquierda) y SNR a posteriori (derecha) calculada sobre la exponencial del espectrograma de la izquierda.
Obsrvese, a ttulo ilustrativo, la figura 3.5, donde se representa un ejemplo de cmputo de la SNR a posteriori sobre un espectrograma correspondiente 53
3. DISEO Y DESARROLLO a un segmento de voz contaminado con ruido procedente del metro. La SNR a posteriori recogida en 3.5(dcha.) proporciona una clara idea acerca de dnde se sitan las regiones propias de la voz (zona central). Ntese que el ejemplo de la figura 3.5 se ha obtenido a partir del mtodo de estimacin de ruido por promediado espectral. Una vez se dispone del mapa de SNRs a posteriori, es posible emplear los datos mencionados para generar mscaras de decisin soft propiamente dichas. Las mscaras soft son tambin matrices de dimensin compuestas por valores numricos en el intervalo cerrado 0,1 . Los valores resultantes no son probabilidades, sino indicadores suavizados de la presencia relativa voz y ruido para cada bin frecuencial en cada instante de tiempo. As, un valor cercano a la unidad especifica que la voz predomina sobre el ruido, mientras que un valor prximo a cero indica lo contrario. La creacin de las mscaras de decisin soft pasa por el mapeo de la SNR a posteriori en dicho intervalo 0,1 a partir del uso de la funcin sigmoidal, la cual se define como = 1 1+ . (3.48)
Debe notarse cmo el dominio de es , de tal forma que, dado que la presenta una monotona estrictamente decreciente, funcin exponencial el rango o conjunto imagen de la funcin sigmoidal se obtiene a partir de estudiar sus lmites en y +: lim lim

= lim = lim

1 1+ 1 1+
= 0, = 1.
(3.49)
(3.50)
De este modo, queda asegurado que el rango o conjunto imagen es el intervalo cerrado unidad y, en definitiva, : 0,1 . Ms concretamente, la funcin sigmoide adaptada a nuestro cometido se expresa como
,
= 1, , ,
1+
= 1, , ,
(3.51)
54
3. DISEO Y DESARROLLO donde es preciso determinar experimentalmente las magnitudes de (pendiente y centro, respectivamente, de la sigmoide). y
Figura 3.6. Ejemplo que ilustra la diferencia entre las mscaras binarias y las de tipo soft [16; p. 3].
Valores de suficientemente grandes tienden a aproximar la funcin sigmoidal por una de tipo escaln unitario, lo que, equivalentemente, representara una mscara de tipo binario o hard. En tales casos, se est presuponiendo de forma implcita una baja varianza del error de estimacin del ruido. Por el contrario, cuando 0, todos los valores de la mscara tienden a aproximarse a 1/2, es decir, en este caso nos encontraramos en un contexto de mxima incertidumbre. El correcto ajuste de este ltimo par de parmetros es esencial con el fin de computar una mscara que provea de un buen compromiso entre la localizacin del mximo nmero de regiones de voz sin por ello ser excesivamente permisivo con las reas ruidosas. En general, debido al ruido existen errores y fluctuaciones en la mscara tras el mapeo de los coeficientes de SNR correspondientes en el intervalo 0,1 a partir del uso de la sigmoide. Es por ello que, a continuacin, se describe un simple procedimiento de realce basado en la aplicacin de herramientas sencillas de procesamiento de imagen con el objetivo de refinar las estimaciones aprovechando la correlacin espectro-temporal de la voz. El primero de estos pasos consiste en la aplicacin de un filtro de mediana 2D de dimensin 3 5. Recordemos a continuacin que la mediana de un conjunto impar de datos sin agrupar, = , ,, , y ordenados segn orden creciente, se puede calcular como = +1 1 . 2 (3.52)
55
3. DISEO Y DESARROLLO La intencin de este filtro es la de eliminar los outliers debidos a la variabilidad del ruido. As, por ejemplo, un bin frecuencial con una alta potencia rodeado de una mayora de bins de baja magnitud espectral es muy probable que sea un artefacto consecuencia del proceso de estimacin. Sin embargo, si este tipo de casos no son tratados, el sistema de realce tendr en cuenta dicha informacin como de voz, con la consiguiente degradacin en el rendimiento final. Es aqu, por tanto, donde entra en juego el mencionado filtro de mediana con el fin de solucionar dicha clase de artefactos, produciendo una mscara ms suavizada con una coherencia espectro-temporal incrementada. De otro lado, el segundo de los pasos tiene como objetivo suavizar las regiones de decisin abruptas existentes como consecuencia de la aplicacin del anterior filtro de mediana. Para tal fin, se procede con un filtrado de suavizado espacial con ayuda de una mscara de convolucin de disco de radio 2 definida por la siguiente matriz de coeficientes: 0 0.017 = 0.0381 0.017 0 0.017 0.0784 0.0796 0.0784 0.017 0.0381 0.0796 0.0796 0.0796 0.0381 0.017 0.0784 0.0796 0.0784 0.017 0 0.017 0.0381 . 0.017 0
(3.53)
Este alisado persigue el mismo propsito que el filtrado de mediana, esto es, la cancelacin de la variabilidad del ruido, actuando de forma complementaria a este. Los parmetros de ambos filtros fueron optimizados de forma emprica segn las condiciones de experimentacin en [15]. Razonablemente, estos pueden ser adoptados para nuestro propsito. La figura 3.7 muestra un diagrama de bloques acerca del procedimiento de generacin de mscaras de decisin soft, donde el bloque de SNR a posteriori ms sigmoidal se representa con un conmutador, referenciando as el hecho de poder seleccionar entre los dos mtodos de estimacin de ruido existentes para la generacin de la mscara.
Figura 3.7. Diagrama de bloques referente al cmputo de la mscara soft.
56
3. DISEO Y DESARROLLO Continuando con el ejemplo usado a lo largo de este apartado, la figura 3.8 muestra el resultado a la salida de cada uno de los bloques del anterior diagrama (desde el propio bloque de la sigmoidal) cuando es utilizada la matriz de SNRs a posteriori recogida en la figura 3.5(dcha.). Obsrvese a continuacin el efecto de realce asociado al procesado de imagen aplicado sobre la mscara, ya comentado en el prrafo anterior.
22 20 18 16 Canales Mel 14 12 10 8 6 4 2
Figura 3.8. De arriba abajo: mapeo de 3.5(dcha.) en el intervalo 0,1 , mscara tras aplicrsele un filtrado de mediana y mscara tras aplicrsele un filtrado de suavizado con mscara de convolucin de disco.
10
20
30
40
50 60 Tiempo
70
80
90
100
57
3.7 Aproximacin simple de realce en el dominio log Mel

Tcnicas usuales que hacen uso de este tipo de mscaras de decisin soft (y tambin binarias o hard), con la finalidad de robustecer el comportamiento del sistema de reconocimiento del habla, son la imputacin de datos y la marginalizacin [17]. No obstante, la aproximacin seguida en el presente proyecto es bastante ms sencilla. De esta forma, la alternativa a la imputacin de datos aqu planteada se basa, grosso modo, en el pesado del espectrograma log Mel de voz ruidosa por la mscara de decisin soft estimada segn lo expuesto en el anterior apartado, de tal manera que, en buena medida, el ruido es descartado a la par que se conserva la mayor parte de la informacin referente a la voz. Una de las contribuciones principales que aporta esta metodologa radica en el bajo coste computacional asociado al realce de las caractersticas de voz ruidosa. El algoritmo que a continuacin se describe se fundamenta en la idea de que, si la mscara de decisin soft contiene informacin basada en la correlacin espectro-temporal de la voz, entonces la imputacin puede llevarse a cabo fcilmente. Como ejemplo, supngase que un bin frecuencial de una determinada trama que es etiquetado como no fiable se encuentra rodeado, en el espacio tiempo-frecuencia, de una mayora de bins vecinos etiquetados como fiables. Por tanto, como se tiene constancia de que la voz est fuertemente correlada en trminos espectro-temporales, podramos considerar el hacer uso de una fraccin de la energa de ese bin, supuesto ruidoso, en lugar de establecerlo a cero, o usar cualquier otro valor procedente de la estimacin a partir de los bins fiables vecinos, tal y como se hace en las tcnicas tradicionales de imputacin de datos. Con estas ideas en mente, el algoritmo propuesto lleva a cabo el realce de la seal ruidosa a travs de, simplemente, multiplicar el valor espectral logartmico observado en cada bin por su correspondiente coeficiente en la mscara de decisin soft. Ntese que esta aproximacin presenta ciertas similitudes con [7], donde una mscara binaria (o hard) tambin es usada como un conjunto de coeficientes multiplicativos que son aplicados directamente sobre el espectro ruidoso. No obstante, la presente metodologa difiere de [7] en que aqu se hace uso de mscaras de decisin soft en lugar de mscaras de tipo binario, realizndose, adems, la compensacin en el dominio log Mel en contraposicin al dominio espectral de potencia en el que se encuadra la aproximacin de la referencia. Tambin, trabajos recientes como los recogidos en [18] y [19] han demostrado que el uso de mscaras
58
3. DISEO Y DESARROLLO binarias de un modo similar al de esta tcnica de realce produce una mejora de la inteligibilidad de la voz en oyentes con una audicin normal.
Figura 3.9. Diagrama de bloques de la etapa de realce del front-end.
El diagrama de bloques de la figura 3.9 sintetiza el funcionamiento de la etapa de realce encuadrada en el front-end del sistema de reconocimiento. Como se observa, en primer lugar se lleva a cabo el producto coeficiente a coeficiente entre el espectro de potencia log Mel de voz ruidosa y la mscara de decisin soft estimada, consiguiendo eliminar eficientemente la mayora del ruido que corrompe la seal de voz. A continuacin, se lleva a cabo una fase de suavizado directamente sobre el espectro log Mel resultante haciendo uso de un filtrado con una mscara de convolucin gaussiana paso-baja de dimensin 5 5 y desviacin estndar = 0.7, la cual se calcula como , = 2 1 , (3.54)
con , = , + 1, , donde = 2 en el presente trabajo. Este suavizado ayuda a eliminar la variabilidad del ruido restante en aquellas partes del espectro logartmico que han sido preservadas tras la etapa de realce multiplicativo por la mscara soft estimada. Adems, tambin ayuda a evitar que la varianza del espectro log Mel realzado se incremente a causa del posterior liftering. An en este punto, el espectro de voz compensado presenta un alto rango dinmico debido a las componentes con valores negativos, las cuales son representativas de voz de baja energa y silencio. Con el fin de mejorar el rendimiento durante la posterior etapa de reconocimiento, se aplica a continuacin la tcnica conocida con el nombre de LS-FLR (LogSpectral Flooring), la cual se desarrolla y se justifica en el siguiente subapartado, donde son detallados los conceptos de liftrado y flooring. Por ltimo, vuelve a situarse una etapa de suavizado de iguales caractersticas a la primera con el fin de alisar el espectro liftrado tras la fase de flooring. Ntese que los parmetros de la mscara gaussiana de convolucin de nuevo se ajustan empricamente segn las condiciones de experimentacin des59
3. DISEO Y DESARROLLO critas en [15], volvindose a adoptar estos de forma razonable para llevar a cabo nuestros tests. Las caractersticas log Mel realzadas estn listas para terminar de ser procesadas de la forma habitual en un front-end propio de un sistema de reconocimiento del habla, es decir, transformacin al dominio cepstral a travs del clculo de la DCT (Discrete Fourier Transform), enventanado de los coeficientes en el dominio transformado con la finalidad de retener nicamente los de mayor energa, normalizacin por la media cepstral y clculo de la primera y segunda derivada del vector de caractersticas resultante en el dominio de la cuefrencia.
22 20 18 16 Canales Mel Canales Mel 10 20 30 40 50 60 Tiempo 70 80 90 100 14 12 10 8 6 4 2
22 20 18 16 14 12 10 8 6 4 2 10 20 30 40 50 60 Tiempo 70 80 90 100
Figura 3.10. Espectrogramas en el dominio log Mel de voz contaminada por ruido de metro (izquierda) y de voz realzada (derecha).
Continuando con la serie de ejemplos, la figura 3.10 muestra el resultado de aplicar el procedimiento expuesto de realce sobre el espectrograma de 3.10(izqda.) con ayuda de la mscara estimada recogida en la figura 3.8. Se puede observar de forma clara cmo eminentemente pervive la energa correspondiente a la zona central del espectrograma compensado, quedando fuertemente mitigada en el resto, propio del ruido ambiental. 3.7.1 Log-Spectral Flooring El objetivo al disear un front-end robusto al ruido para un sistema ASR (Automatic Speech Recognition) es maximizar la informacin espectral discriminativa a la vez que se minimiza la variabilidad debida al ruido. Numerosas experiencias avalan que la informacin discriminativa de voz tiende a corresponderse con los picos espectrales de mayor amplitud, mientras que el ruido suele afectar ms a las regiones de valles espectrales. A continuacin se presenta un sencillo algoritmo que trata de minimizar la variabilidad de las caractersticas debida a la afeccin del ruido llevando a cabo un proceso de flooring sobre los datos observados en el dominio log Mel. 60
3. DISEO Y DESARROLLO En primer lugar se aplica una operacin de liftering que consiste en un enventanado en el dominio cepstral (o de la cuefrencia). El efecto del proceso de liftrado puede ser visualizado a partir de aplicar la transformacin inversa sobre el vector cepstral enventanado, la cual lleva a dicho vector de nuevo sobre el dominio log Mel. El espectrograma liftrado en el mencionado dominio se obtiene como = IDCT . DCT , (3.55)
donde DCT e IDCT denotan, respectivamente, la transformada discreta del coseno y la transformada discreta del coseno inversa. De otro lado, es la ventana de liftrado, significando . el producto elemento a elemento. Finalmente ntese que es el espectrograma del segmento de voz considerado en el dominio log Mel. En la presente implementacin, se define como = 1 0 si 0,12 . en otro caso (3.56)
La aplicacin de la operacin del logaritmo sobre el espectro de potencia filtrado Mel hace que no exista una cota inferior para el espectro de potencia en el dominio log Mel, lo cual lleva a un incremento del rango dinmico de los valles espectrales. Esto puede ser fuente de confusin durante la etapa de reconocimiento, puesto que los valles espectrales tpicamente contienen poca energa discriminativa de voz. Con el fin de reducir la mencionada confusin, se aplica la tcnica LS-FLR, descrita mediante , = , si , , en otro caso (3.57)
donde denota el canal Mel i-simo y el instante t-simo de trama. Finalmente, se define como el nivel o umbral de flooring, establecindose =0 al igual que en la optimizacin emprica llevada a cabo en [20]. En resumen, esta tcnica consigue reducir el desajuste entre las caractersticas espectrales de voz limpia de entrenamiento y aquellas de voz contaminada con ruido, lo cual es visualmente constatable en los canales Mel de menor frecuencia. Adicionalmente, la etapa de flooring reduce el rango dinmico del espectro logartmico a partir de establecer una cota inferior bajo la cual la energa de la voz menos discriminativa suele concentrarse, lo que contribuye a una mayor reduccin de los mencionados desajustes.
61
4. TEST Y RESULTADOS
Este cuarto captulo trata del conjunto de pruebas llevado a cabo a partir de la implementacin realizada en MatLab y de los resultados derivados de dichos tests. En primer lugar se expone una breve descripcin de la base de datos de voz ruidosa empleada en todas las pruebas: Aurora-2. A continuacin, se dedica un apartado al ajuste de los parmetros de la funcin sigmoidal para la generacin de las mscaras. Tras ello, son expuestos los resultados de la prueba representativa de inters: la de reconocimiento del habla. A partir de las mscaras generadas gracias a las estimaciones de ruido acstico derivadas del uso del filtro y de la tcnica de promediado de potencia espectral, las caractersticas de voz ruidosa son compensadas segn la aproximacin simple de realce en el dominio log Mel, expuesta en el apartado 3.7, y posteriormente empleadas en la fase de decodificacin del sistema de reconocimiento del habla. Los resultados son comparados con aquellos en los que se usan directamente las caractersticas de voz ruidosa sin compensar. Para cerrar el captulo, se incluye como ltimo apartado la interpretacin de los resultados derivados del presente estudio.
4.1 La base de datos Aurora-2

La base de datos de voz ruidosa empleada en la ejecucin de los tests es la denominada Aurora-2, construida sobre la base de datos de voz limpia TIDigits. Esta ltima contiene grabaciones de hombres y mujeres adultos norteamericanos pronunciando dgitos aislados y secuencias de hasta un total de 7 dgitos. Los datos originales muestreados a 20kHz se submuestrean a 8kHz con ayuda de un filtro paso-bajo que retiene el espectro de voz comprendido, segn el teorema de Nyquist, entre 0 y 4kHz. Las seales resultantes de este procedimiento son considerados como datos limpios. Las distorsiones son aadidas posteriormente de forma artificial en Aurora-2. Previo a ello, un filtrado adicional es aplicado con el fin de considerar de forma realista las caractersticas en frecuencia de los terminales y del equipamiento en el rea de las telecomunicaciones. A continuacin, para agre-
63
4. TEST Y RESULTADOS gar ruido a una determinada SNR (Signal-to-Noise Ratio), este ltimo trmino es definido en la presente como el cociente entre las energas de la voz limpia y el ruido posterior al filtrado de sendas informaciones con la caracterstica frecuencial de modelado del terminal mencionada. Con este ltimo procedimiento se ha tratado de emular el que la captura de las seales de voz y ruido se ha llevado a cabo con el mismo dispositivo mvil.
Figura 4.1. Espectros de las diferentes seales de ruido incorporadas a la base de datos Aurora-2 [21; p. 3].
Las seales de ruido han sido seleccionadas con el fin de representar los escenarios de ms probable uso de los terminales mviles, habiendo sido capturadas en diversos lugares, incluyendo: metro, entorno con multitud conversando, coche, sala de exposiciones, restaurante, calle, aeropuerto y estacin de tren. La figura 4.1 muestra los espectros a largo plazo de las
64
4. TEST Y RESULTADOS seales de ruido asociadas a dichos lugares. Algunos de los ruidos son eminentemente estacionarios, como el propio del coche. Otros contienen segmentos claramente no estacionarios como, por ejemplo, los derivados de las grabaciones recogidas en la calle y en el aeropuerto. Ntese cmo la mayor parte de la energa de las seales se concentra en las bajas frecuencias. En Aurora-2 se han definido dos conjuntos diferentes de entrenamiento, que son: Conjunto de entrenamiento con datos limpios: Est compuesto por 8440 secuencias de voz procedentes de 55 mujeres y 55 hombres adultos seleccionadas de la parte de entrenamiento de TIDigits. Estas seales no presentan ruido aadido. Conjunto de entrenamiento multi-condicin (con datos limpios y ruidosos): Aqu son empleadas las mismas 8440 secuencias del conjunto de entrenamiento con datos limpios, distribuyndose los segmentos de voz a lo largo de 20 subconjuntos de 422 secuencias cada uno. Los 20 subconjuntos representan 4 escenarios diferentes de ruido (metro, multitud conversando, coche y sala de exposiciones) a 5 SNRs distintas (20dB, 15dB, 10dB, 5dB y el caso limpio). Adems, tambin han sido definidos tres grupos de test diferentes, cada uno de ellos compuesto por un conjunto de segmentos de voz procedentes de 52 hombres y 52 mujeres de la base de datos de test de TIDigits. Particularmente, se han escogido 4004 secuencias de voz que han sido clasificadas en 4 subconjuntos distintos de 1001 secuencias cada uno. Grabaciones de todos los hablantes estn presentes en cada subconjunto. Las seales de ruido son aadidas a cada grupo de 1001 segmentos de voz a las SNRs de 20dB, 15dB, 10dB, 5dB, 0dB y -5dB. Adems, el caso limpio, sin ruido aadido, es considerado como una sptima condicin. Los tres conjuntos de test son: Conjunto de test A: La voz se encuentra contaminada con cuatro tipos de ruido diferentes: metro, multitud conversando, coche y sala de exposiciones (ya vistos en entrenamiento). Cada tipo de ruido afecta a un subconjunto. En total, este grupo de test se compone de 28028 frases (4 tipos de ruido por 7 SNRs por 1001 segmentos). Este es el conjunto de test empleado en el presente proyecto para llevar a cabo las pruebas.
65
Conjunto de test B: Es idntico en construccin al conjunto de test A con la salvedad de los tipos de ruido usados: restaurante, calle, aeropuerto y estacin de trenes (no vistos en entrenamiento). Conjunto de test C: Contiene nicamente 2 de los 4 subconjuntos de 1001 segmentos de voz cada uno. En esta ocasin, la voz limpia y el ruido, previo a su adicin, son filtrados con una caracterstica frecuencial (la que emula el terminal) diferente de la empleada en los anteriores conjuntos de test y en el de entrenamiento de la base de datos Aurora-2. Las seales de ruido aditivo en este caso se corresponden con los tipos metro y calle. Este grupo de test trata de mostrar la influencia sobre el factor de precisin de reconocimiento del uso de una respuesta en frecuencia distinta de la de entrenamiento.
4.2 Ajuste de la sigmoide

Con la finalidad de maximizar el rendimiento, es preciso ajustar el valor de los parmetros y de la funcin sigmoidal para la generacin de las mscaras de decisin soft. Para ello, se llev a cabo una serie de pruebas de reconocimiento del habla variando la magnitud de dichos parmetros. Se decidi obtener una pareja , por cada tcnica de estimacin de ruido (filtro de partculas y promediado espectral). En primer lugar se procedi con una serie de experimentos de aproximacin consistentes en un barrido de reconocimiento del habla sobre una malla , de baja de resolucin. Una vez determinada la regin donde se concentran los valores de mayor precisin de reconocimiento (se considera que la superficie de error es lo suficientemente suave, tal y como se observa en la prctica), se llev a cabo una segunda vuelta consistente en un barrido de reconocimiento del habla sobre dicha regin pero, esta vez, con una malla , de mayor resolucin. La tabla 4.1 recoge los valores para los parmetros de las sigmoides finalmente adoptadas en funcin de la tcnica de estimacin de ruido empleada. Tcnica Filtro de Partculas 0.3 -1 Promediado Espectral 0.4 -1
Tabla 4.1. Parmetros finales de la sigmoidal en funcin de la tcnica de estimacin de ruido utilizada.
66
4. TEST Y RESULTADOS Se pudo observar que los valores ptimos de y dependen del tipo de ruido, si bien estos son en esencia independientes de la SNR. Sin embargo, los valores de la anterior tabla responden a aquellos que maximizan el factor de precisin de reconocimiento total promedio, con la idea de que puedan ser usados de forma genrica, por ejemplo, ante tipos de ruido a priori desconocidos.
1 0.9 0.8 0.7 0.6 Mscara 0.5 0.4 0.3 0.2 0.1 0 -15 Filtro de partculas Promediado espectral
-10
-5
0 SNR (dB)
10
15
Figura 4.2. Representacin de las funciones sigmoidales finalmente empleadas para la generacin de las mscaras de decisin.
4.3 Test de reconocimiento del habla

En este apartado se presentan el procedimiento y resultados del test de reconocimiento del habla asistido por las estimaciones de ruido resultantes del uso del filtro de partculas y del mtodo de promediado espectral. Estos tests fueron llevados a cabo, tal y como se mencion en el apartado 4.1, sobre el conjunto de test A de la base de datos Aurora-2, el cual recordemos que se compone de 4004 segmentos de voz clasificados en 4 subconjuntos de 1001 fragmentos cada uno segn 4 tipos de ruido diferentes: metro, multitud conversando, coche y sala de exposiciones. Adems, de cada uno de dichos segmentos, se dispone de 7 versiones diferentes segn su SNR. Para comenzar, se llevaron a cabo las estimaciones de ruido, tanto con el mtodo de promediado espectral, como con el filtro de partculas configurado segn lo recogido en la tabla 4.3 (donde el significado de cada uno de los parmetros se expone en la tabla 4.2) para 4 cantidades diferentes de hiptesis o partculas: 100, 200, 300 y 400. Es importante resear que la adopcin del valor final de cada parmetro del filtro queda supeditada, principalmente, a la bibliografa, as como, de un modo secundario, a una observacin emprica informal previa.
67
4. TEST Y RESULTADOS Parmetro Descripcin

Orden del modelo autorregresivo del ruido Nmero de partculas N de gaussianas de la mezcla N de tramas de ruido de entrenamiento Modo de inicializacin Modo de reinicializacin Mximo de iteraciones del test de aceptacin rpida Mximo de iteraciones de la reinicializacin por muestreo de Intervalo temporal para disparo de la reinicializacin Umbral para considerar pesos como nulos Umbral de energa para sondear prdida de la trayectoria
Tabla 4.2. Algunas variables del filtro de partculas SIR (Sampling Importance Resampling) implementado.
Parmetro
Valor
1 Variable 256 10 Usando primeras tramas Remuestreando 10 10 100ms 10-5 -2dB
Modo de inicializacin Modo de reinicializacin (no afecta)
Tabla 4.3. Condiciones finales de test.
Debe notarse que el mtodo de promediado espectral usa la informacin de las primeras y ltimas 5 tramas de cada fragmento de voz, prefijado as con la finalidad de establecer un paralelismo de funcionamiento entre esta tcnica y el filtro de partculas. Cada vector de caractersticas log Mel de voz ruidosa se compone de 23 coeficientes. Tras su compensacin mediante la aproximacin simple de realce en el dominio log Mel, recogida en el apartado 3.7, con ayuda de las mscaras de decisin soft, le es aplicada la transformada discreta del coseno (DCT) con la finalidad de obtener los coeficientes cepstrales finalmente empleables en la etapa de decodificacin (12 en total ms el de orden 0 relacionado con la energa de la trama). Tras ello, una etapa de normalizacin por la media cepstral (CMN) es aplicada para mejorar la robustez del sistema frente a desajustes del canal. Estos 13 coeficientes ms sus derivadas primera y segunda constituyen los 39 parmetros que componen el vector de caractersticas del que hace uso el reconocedor. Por su parte, los modelos acsticos del sistema de reconocimiento
68
4. TEST Y RESULTADOS basado en HTK (Hidden Markov Model Toolkit) fueron entrenados haciendo uso de voz limpia. Para la base de datos Aurora-2, cada dgito se encuentra modelado por un HMM (Hidden Markov Model) de 16 estados y topologa de izquierda a derecha o de Bakis. Se hace uso de 3 gaussianas por estado. Los silencios y las pausas cortas se modelan mediante el uso de HMMs con 3 y 1 estados, respectivamente, y con un total de 6 gaussianas por cada uno de ellos. Los resultados de precisin de reconocimiento derivados del procedimiento anterior se recogen en las tablas 4.5-4.10, las cuales tambin muestran los resultados propios del caso base (donde se hace uso del conjunto de caractersticas sin compensar, es decir, ruidosas). Ntese que el parmetro de precisin presentado se define como = 100%, (4.1)
donde es el nmero total de palabras reconocidas, es la cantidad total de palabras reconocidas correctamente e representa el nmero de errores por insercin.
Id.
Tipo de Ruido
Metro N1 N2 Multitud conversando Coche N3 N4 Sala de exposiciones

Tabla 4.4. Tipos de ruido del conjunto de test A.
Base-Line SNR (dB) -5 0 5 10 15 20 (clean) N1 13,82 21,40 38,19 71,23 90,67 96,22 99,14
Tipo de Ruido (Acc. %) N2 12,48 23,34 47,22 79,47 93,83 97,64 99,09 N3 12,38 19,95 32,84 68,74 92,01 97,70 98,99 N4 10,18 18,45 34,80 69,27 90,34 96,42 99,17 Promedio 12,22 20,79 38,26 72,18 91,71 97,00 99,10
Tabla 4.5. Precisin de reconocimiento en funcin de la SNR para los diferentes tipos de ruido haciendo uso de caractersticas sin compensar (base-line).
69
Promediado Espectral SNR (dB) -5 0 5 10 15 20 (clean) N1 20,63 49,00 72,34 86,21 93,58 95,36 98,04
Tabla 4.6. Precisin de reconocimiento en funcin de la SNR para los diferentes tipos de ruido haciendo uso de caractersticas compensadas a partir de las estimaciones de ruido por promediado espectral.
Filtro de Partculas (100) SNR (dB) -5 0 5 10 15 20 (clean) N1 16,15 34,48 56,86 78,05 89,10 92,78 96,84
Tabla 4.7. Precisin de reconocimiento en funcin de la SNR para los diferentes tipos de ruido haciendo uso de caractersticas compensadas a partir de las estimaciones de ruido resultantes de un filtro de partculas con un total de = 100 partculas o hiptesis.
70
En primer lugar, puede notarse cmo el nmero de hiptesis o partculas no influye de forma clara, o siguiendo algn tipo de patrn, en el parmetro de precisin de reconocimiento. No obstante, es cierto que s fue observada una importante degradacin del rendimiento cuando la cantidad total de hiptesis o partculas empleadas disminuye drsticamente. La figura 4.3 representa la precisin de reconocimiento promediada a lo largo de los 4 tipos de ruido del conjunto de test en funcin de la SNR, habindose escogido representar los resultados de precisin para el filtro de partculas cuando = 100, ya que con esta cantidad de hiptesis se obtiene la mxima precisin total promediada a lo largo de las SNRs entre 0 y 20 dB, tal y como se deduce de la tabla 4.11. En la figura 4.3 se observa con claridad cmo el empleo del mtodo de promediado espectral ofrece los mejores resultados, proporcionando ambas tcnicas, sobre el caso base, una mejora en la precisin de reconocimiento para las SNRs de -5 a 15 dB. 71
Acc. vs. SNR

100,00 90,00 80,00 70,00 Acc. (%) 60,00 50,00 40,00 30,00 20,00 10,00 0,00 -5 0 5 10 SNR (dB) Figura 4.3. Precisin promedio de reconocimiento en funcin de la SNR para los casos base, uso de filtro de partculas ( = 100) y estimacin de ruido mediante promediado espectral. 15 20 Limpio Base-Line FP (100) Promediado
Se comprueba cmo la utilizacin de sendos mtodos para altas SNRs conlleva una disminucin sensible de la precisin de reconocimiento respecto del uso de las caractersticas de voz sin compensar. Tcnica Base-Line Filtro de Partculas (100) Filtro de Partculas (200) Filtro de Partculas (300) Filtro de Partculas (400) Promediado espectral Acc. (%) 63.99 74.73 74.43 74.31 74.23 81.36
Tabla 4.11. Precisin total promedio de reconocimiento (para SNRs de 0 a 20 dB) para las diferentes tcnicas empleadas.
La figura 4.4 representa grficamente la precisin total de reconocimiento (promediando los datos de la figura 4.3 a lo largo de la SNR) para cada una de las posibilidades evaluadas: caso base y compensacin de caractersticas a partir de las mscaras derivadas de las estimaciones de ruido mediante filtros de partculas y promediado espectral. Los datos numricos asociados vienen recogidos en la tabla 4.11. 72
Acc. vs. Tcnica empleada

90 80 70 60 Acc. (%) 50 40 30 20 10 0 Base-Line Line FP (100) Tcnica Figura 4.4. Precisin total promedio de reconocimiento para las diferentes tcnicas e empleadas. Promediado
4.4 Interpretacin global de los resultados

Los resultados anteriores evidencian que el uso de estimaciones de ruido mediante la tcnica de promediado espectral para la compensacin de c caractersticas de voz a travs de la aproximacin simple de realce en el d dominio log Mel es, de momento, la mejor opcin. Sin embargo, no podemos , considerar que los resultados asociados al filtro de partculas sean totalmeniderar te insatisfactorios en funcin de trabajos anteriores. Faubel [2] obtuvo d durante sus experimentaciones un WER (Word Error Rate) diferencial inf inferior a un 5% para SNRs de 0 a 10 dB. Este WER diferencial se define como Este la diferencia entre el WER asociado al caso base y el referente al uso del filtro de partculas. Estos tests se llevaron a cabo haciendo uso de un total de 1000 hiptesis o partculas, no contemplando el uso del test de ac aceptacin rpida y empleando un modelo general de mezcla de gaussianas para la voz limpia integrado por 128 componentes. La metodologa para la infere inferencia de la voz limpia es tambin VTS si bien es empleada una base de datos VTS, de voz, con ruido aadido tambi artificialmente (procedente de camiones, tambin contenedores de basura, voces lejanas y gritos) distinta de la usada por gritos),
73
4. TEST Y RESULTADOS nosotros. Si definimos la mtrica de precisin a nivel de palabra como el complementario de la tasa de error por palabra, el WER diferencial en nuestra situacin viene impuesto por la diferencia entre la precisin de reconocimiento asociada al filtro de partculas y la referente al caso base. Este WER diferencial en nuestro contexto es siempre superior al 5% para SNRs de 0 a 10 dB, tal y como puede verse en la figura 4.3. En otras palabras, si bien las condiciones de evaluacin de ambos trabajos no son las mismas (aunque similares), en el presente proyecto se ha logrado un incremento del rendimiento del reconocedor respecto del caso base en comparacin con la mejora relativa acontecida en el trabajo de Faubel [2] en el rango de SNRs de 0 a 10 dB. Esta comparativa cualitativa slo pretende justificar el marco de nuestros resultados experimentales con el fin de notar las capacidades presentes y potenciales de esta tcnica de estimacin de ruido aplicada al reconocimiento robusto de la voz. Las frecuentes prdidas de la trayectoria de seguimiento del filtro bayesiano provocan una reduccin importante en la calidad de la estimacin del ruido y, por ende, en el rendimiento del sistema ASR (Automatic Speech Recognition). Este es tambin uno de los motivos principales por el cual, a altas SNRs, el factor de precisin puede decaer sensiblemente respecto de emplear directamente las caractersticas de voz no compensadas. En el ltimo captulo se presenta una batera de propuestas destinada a la mejora general de la calidad de la estimacin de ruido que conllevara a un aumento del rendimiento del sistema ASR. Finalmente, se desea concluir comentando que, ante fragmentos de voz contaminados con ruido eminentemente estacionario (como es el caso que aproximadamente nos ocupa con la utilizacin de este conjunto de test), es claramente preferible emplear para su estimacin la tcnica de promediado espectral por un doble motivo: mayor rendimiento del sistema ASR y una importante reduccin del coste computacional.
74
5. CONCLUSIONES Y TRABAJO FUTURO
En este ltimo captulo de la memoria presentamos unas conclusiones globales muy breves ofreciendo una visin integradora de todo el trabajo realizado para, seguidamente, esbozar algunas lneas que pueden marcar el trabajo futuro dados los resultados y conclusiones de este proyecto.
5.1 Conclusiones
Se ha verificado experimentalmente que las tcnicas de realce de caractersticas de voz proporcionan un incremento del rendimiento de un sistema de reconocimiento automtico del habla que opera en condiciones acsticas cotidianas (ruidosas). El realce ha consistido en el uso de una tcnica simple multiplicativa en conjuncin con mscaras de decisin soft generadas a partir de las estimaciones de ruido en el dominio log Mel procedentes de un filtro de partculas SIR (Sampling Importance Resampling) y de aquellas en el dominio espectral de potencia Mel derivadas de un sencillo promediado. Los experimentos presentados en el anterior captulo demuestran que, ante fragmentos de voz contaminados con ruido esencialmente estacionario, es preferible aplicar la compensacin de caractersticas a partir de las mscaras generadas con estimaciones de ruido por promediado espectral. Esto es as debido a que la informacin proporcionada por las primeras y ltimas tramas de cada segmento de voz, las cuales se consideran compuestas nicamente de ruido, es suficiente como para estimar por promediado el ruido que corrompe la informacin de voz limpia en la situacin de estacionariedad mencionada. Adems, no debemos olvidar que el coste computacional de este ltimo enfoque es notablemente inferior respecto del uso del filtro bayesiano. Las usuales prdidas de la trayectoria de seguimiento del filtro de partculas conllevan una sistemtica pobre estimacin del ruido, lo que repercute posteriormente en el rendimiento del sistema de reconocimiento. Con el fin de mejorar el sistema actualmente implementado, se expone en el siguiente apartado una serie de propuestas.
75
5. CONCLUSIONES Y TRABAJO FUTURO
5.2 Trabajo futuro

La mejora de la calidad de las estimaciones de ruido a partir del filtro SIR pasa por solucionar, en esencia, la prdida de la trayectoria de seguimiento. Recordemos que dicha prdida poda darse por la aparicin de dropouts o derivarse de un modelado poco adecuado del proceso de ruido, por lo que, a continuacin, se proponen algunas acciones para afrontar este hecho en el futuro. En la prctica, ocasionalmente, un patrn de prdida del seguimiento tpico redunda en el decaimiento de la energa de las estimaciones por debajo de niveles razonables debido a un pobre modelado del proceso de ruido. Es por ello que introducamos un umbral heurstico para la deteccin de este problema por comparacin. Sin embargo, a lo largo de varias tramas, la estimacin resultante es lo suficientemente inadecuada como para perjudicar el posterior rendimiento del sistema de reconocimiento. Por ello podramos incluir un modelo a priori de ruido, , ms sofisticado, posiblemente basado en una mezcla de gaussianas. A continuacin, recurdese que el trmino de desfase entre la voz limpia y el ruido en el modelado propuesto era despreciado (se estableca a cero), lo que implicaba la simplificacin de la relacin existente entre la voz limpia, el ruido y la voz contaminada (ecuacin (3.21)). Como ya se explic en el apartado 3.2, este modelado llevaba directamente a que las hiptesis de ruido no podan exceder en magnitud a las observaciones de voz ruidosa espectral. Este hecho traa consigo dos consecuencias no deseables pues, por una parte, se producan sobreestimaciones del ruido actual y, por otra, cancelaciones debidas a las diferencias relativas de fase entre el ruido y la voz que pueden provocar el conocido dropout. La idea, por tanto, radica en replantear el modelado de la distribucin de las observaciones dadas las hiptesis de ruido a partir de considerar el trmino cruzado de la ecuacin (3.20). Faubel [2] ha probado experimentalmente que la incorporacin del trmino de fase relativa mejora la estimacin del ruido log Mel y, por ende, el rendimiento del sistema de reconocimiento de la voz, ya que la disminucin de los dropouts asociada significa una menor cantidad de prdidas de la trayectoria de seguimiento. Esta nueva aproximacin tambin implica el no precisar de aplicar el test de aceptacin rpida, con la consiguiente reduccin del coste computacional. La optimizacin de la implementacin actual (reduccin del coste computacional) es imprescindible con el fin de incrementar la usabilidad y la capacidad de experimentacin con la tcnica del filtro de partculas, si bien este hecho es complejo debido a la necesidad de llevar a cabo una gran
76
5. CONCLUSIONES Y TRABAJO FUTURO cantidad de clculos matemticos por cada iteracin e hiptesis o partcula, as como evaluaciones de distribuciones con un gran nmero de componentes, etc. Actualmente, esto impide poder aplicar esta tcnica en tiempo real. Esta optimizacin en trminos de coste computacional nos permitira un mejor ajuste de los parmetros del filtro, hacer uso de un mayor nmero de partculas y, en definitiva, acrecentar la accesibilidad a la experimentacin y mejora. Por otra parte, ser preciso ejecutar las pruebas realizadas sobre los conjuntos de test B y C pues, adems, el conjunto de test B incluye algunos fragmentos de voz contaminados con segmentos de ruido no estacionario (ruido ambiental procedente de la calle y del aeropuerto, por ejemplo). En cualquier caso, tambin sera relevante disponer de otra base de datos ms ajustada a la potencial aplicabilidad de esta tcnica con la que experimentar, pues en la actualidad, tal y como hemos podido entrever, se dispone de mtodos que ofrecen un mejor rendimiento con menor coste computacional en el contexto del ruido estacionario. Aunque no se ha abordado en el presente proyecto (no ha sido preciso debido a las caractersticas del ruido y a la breve duracin de los segmentos de voz), tambin es muy importante en la prctica incluir la reestimacin de los parmetros del modelo autorregresivo (AR) de ruido (matriz de coeficientes de prediccin lineal y matriz de covarianza diagonal de la distribucin normal multivariada asociada al trmino ) a lo largo del tiempo de la alocucin. De hecho, esto es imprescindible con el fin de poder tratar realmente con la estimacin de ruido no estacionario. En un primer momento, se puede emplear un VAD (Voice Activity Detector) con el fin de determinar qu tramas son ruidosas, de tal forma que la informacin contenida en ellas es usada para recomputar los parmetros del proceso AR de ruido. Tambin es interesante usar esa misma informacin para volver a determinar la distribucin a priori , en especial si estamos empleando el mtodo de reinicializacin del filtro de partculas por remuestreo de dicha funcin de densidad. En ltimo lugar, puede ser interesante experimentar con un filtro de partculas RPF (Regularized Particle Filter), el cual soluciona, tal y como se expuso en el apartado 2.1, el problema del empobrecimiento de las hiptesis asociado a la etapa de remuestreo del filtro SIR. Esto conlleva repercusiones positivas, puesto que se evita el colapso de las partculas (todas las hiptesis ocupan el mismo punto en el espacio de estados), lo cual puede producir pobres estimaciones de ruido, especialmente en el caso de que el proceso de ruido no se encuentre adecuadamente modelado.
77
Bibliografa
[1] A. P. Varga y R. K. Moore, Hidden Markov Model Decomposition of Speech and Noise. Proceedings of ICASSP 1990, Vol. 2, 1990. [2] F. Faubel, Speech Feature Enhancement for Speech Recognition by Sequential Monte Carlo Methods. Tesina, 2006. [3] Y. Ephraim y D. Malah, Speech Enhancement Using a Minimum Mean-Square Log-Spectral Amplitude Estimator. IEEE TASSP, Vol. 33, No. 2, 1985. [4] B. J. Borgstrm y A. Alwan, Improved Speech Presence Probabilities Using HMM-Based Inference, with Applications to Speech Enhancement and ASR. IEEE Journal of Selected Topics in Signal Processing, Vol. 4, No .5, 2010. [5] J. Barker, M. Cooke y P. Green, Robust ASR Based on Clean Speech Models: An Evaluation of Missing Data Techniques for Connected Digit Recognition in Noise. EuroSpeech, 2001. [6] B. Raj, M. L. Seltzer y R. M. Stern, Reconstruction of Missing Features for Robust Speech Recognition. Speech Communication, Vol. 43, 2004. [7] W. Hartmann y E. Fosler-Lussier, Investigations into the Incorporation of the Ideal Binary Mask in ASR. ICASSP, 2011. [8] J. F. Gemmeke, H. V. Hamme, B. Cranen y L. Boves, Compressive Sensing for Missing Data Imputation in Noise Robust Speech Recognition. IEEE J. Selected Topics in Signal Processing, Vol. 4, No. 2, 2010. [9] S. Young et l., The HTK Book (for HTK Version 3.3). Cambridge University Engineering Department, 2005.
79
Bibliografa [10] N. J. Gordon, D. J. Salmond y A. F. M. Smith, Novel Approach to Nonlinear and Non-Gaussian Bayesian State Estimation. Proc. Inst. Elect. Eng., F, Vol. 140, 1993. [11] M. K. Pitt y N. Shephard, Filtering Via Simulation: Auxiliary Particle Filters. Journal of the American Statistical Association, Vol. 94, No. 446, 1999. [12] A. Doucet, On Sequential Monte Carlo Methods for Bayesian Filtering. Departamento de Ingeniera, Universidad de Cambridge, 1998. [13] B. Raj, R. Singh y R. Stern, On Tracking Noise with Linear Dynamical System Models. IEEE Transactions on Signal Processing, Vol. 50, No. 2, 2002. [14] N. S. Kim, IMM-Based Estimation for Slowly Evolving Environments. IEEE Signal Processing Letters, Vol. 5, No. 6, 1998. [15] J. V. Hout y A. Alwan, A Novel Approach to Soft-Mask Estimation and Log-Spectral Enhancement for Robust Speech Recognition. Electrical Engineering Department, University of California, Los ngeles. [16] J. Barker, L. Josifovski, M. Cooke y P. Green, Soft Decisions in Missing Data Techniques for Robust Automatic Speech Recognition. Department of Computer Science, University of Sheffield. [17] M. Cooke, P. Green, L. Josifovski y A. Vizinho, Robust Automatic Speech Recognition with Missing and Unreliable Acoustic Data. 2000. [18] G. Kim, Y. Lu, Y. Hu y P. C. Loizou, An Algorithm that Improves Speech Intelligibility in Noise for Normal-Hearing Listeners. Acoustical Society of America, 2009. [19] U. Kjems et l., Role of Mask Pattern in Intelligibility of Ideal Binary-Masked Noisy Speech. Acoustical Society of America, 2009. [20] B. J. Borgstrm y A. Alwan, Missing Feature Imputation of LogSpectral Data For Noise Robust ASR. Workshop on DSP in Mobile and Vehicular Systems, 2009.
80
Bibliografa [21] H. G. Hirsch y D. Pearce, The Aurora Experimental Framework for the Performance Evaluation of Speech Recognition Systems under Noisy Conditions. ISCA ITRW ASR2000, 2000. [22] R. Martin, Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics. IEEE TASP, Vol. 9, 2001. [23] B. H. Juang, L. Rabiner y J. G. Wilpon, On the Use of Bandpass Liftering in Speech Recognition. IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol. ASSP-35, No. 7, 1987. [24] F. Faubel y M. Wlfel, Coupling Particle Filters with Automatic Speech Recognition for Speech Feature Enhancement. Interspeech, 2006. [25] F. Faubel, H. Raja, J. McDonough y D. Klakow, Particle Filter Based Soft-Mask Estimation for Missing Feature Reconstruction. Proceedings of the 2008 International Workshop on Acoustic Echo and Noise Control, 2008. [26] K. B. Petersen y M. S. Pedersen, The Matrix Cookbook. 2006. [27] M. Bolic, Theory and Implementation of Particle Filters. 2004. [28] P. J. Moreno, Speech Recognition in Noisy Environments. Tesis doctoral, 1996. [29] M. S. Arulampalam, S. Maskell, N. Gordon y T. Clapp, A Tutorial on Particle Filters for Online Nonlinear/Non-Gaussian Bayesian Tracking. IEEE Transactions on Signal Processing, Vol. 50, No. 2, 2002. [30] N. Ma, Informing Multisource Decoding in Robust Automatic Speech Recognition. Tesis doctoral, 2008. [31] R. E. Guerra, T. N. Saleem y T. D. Savitsky, Importance Sampling. 2008. [32] N. J. Gordon, D. J. Salmond y A. F. M. Smith, Novel Approach to Nonlinear/Non-Gaussian Bayesian State Estimation. IEEE Proceedings on Radar and Signal Processing, 2002.
81
Bibliografa [33] I. Lpez Espejo, Query-by-Humming Basado en Modelos Ocultos de Mrkov. Proyecto fin de carrera, 2011. [34] J. A. Gonzlez, A. M. Peinado, N. Ma, . M. Gmez y J. Barker, MMSE-Based Missing-Feature Reconstruction with Temporal Modeling for Robust Speech Recognition. 2012.
82
Glosario
AR, Autoregressive (Autorregresivo). ASIR, Auxiliary Sampling Importance Resampling (Muestreo/Remuestreo por Importancia Auxiliar). Variante del filtro de partculas SIR estndar. ASR, Automatic Speech Recognition (Reconocimiento Automtico del Habla). Aurora-2, Base de datos de voz ruidosa constituida sobre la base de datos de voz limpia TIDigits a partir de la adicin de ruido de forma artificial. Bin, En trminos de la representacin de potencia espectral, cada uno de los intervalos de frecuencia en los que se dispone de un coeficiente resumen de potencia. CDF, Cumulative Distribution Function (Funcin de Distribucin Acumulada). CMN, Cepstral Mean Normalization (Normalizacin por la Media Cepstral). Compressive sensing, Teora que establece que una seal poco densa en un dominio determinado puede ser reconstruida con una alta probabilidad a partir de un reducido conjunto de proyecciones aleatorias a travs de un proceso de optimizacin. Cuefrencia, Denominacin de la variable independiente en el dominio cepstral. DCT, Discrete Cosine Transform (Transformada Discreta del Coseno). Transformada ortogonal basada en la transformada discreta de Fourier que hace uso de funciones coseno como funciones base.
83
Glosario Dropout, Fenmeno que puede acontecer en los filtros de partculas por el que todos los pesos de las hiptesis se vuelven nulos. EKF, Extended Kalman Filter (Filtro Extendido de Kalman). Generalizacin del filtro de Kalman aplicable a problemas de ndole no lineal a partir de la linealizacin impuesta a travs de un desarrollo en serie de potencias de Taylor de primer orden. EM, Expectation-Maximization (Esperanza-Maximizacin). Algoritmo estadstico especialmente empleado en el campo del aprendizaje automtico. FFT, Fast Fourier Transform (Transformada Rpida de Fourier). Algoritmo eficiente para el clculo de la transformada de Fourier discreta. Flooring, Acotado inferior. Front-end, Interfaz entre el humano y la mquina para la adaptacin de los mecanismos normales de interaccin del primero a una representacin simblica manipulable por la segunda. GMM, Gaussian Mixture Model (Modelo de Mezcla de Gaussianas). HMM, Hidden Markov Model (Modelo Oculto de Mrkov). Modelo estadstico basado en los procesos de Mrkov. HTK, Hidden Markov Model Toolkit. Herramienta desarrollada por la Universidad de Cambridge para la manipulacin de los HMMs. IDCT, Inverse Discrete Cosine Transform (Transformada Discreta del Coseno Inversa). Liftering / Liftrado, Enventanado en el dominio cepstral. LPC, Linear Predictive Coding (Codificacin Predictiva Lineal). Tcnica para la representacin de la envolvente espectral de la voz a partir de un modelado lineal predictivo. LPCCs, Linear Predictive Coding Coefficients (Coeficientes de Codificacin Predictiva Lineal).
84
Glosario Mscara soft, Matriz de coeficientes en el intervalo cerrado unitario que indican la presencia relativa voz y ruido para cada bin frecuencial en cada instante de tiempo referente a un espectrograma de voz ruidosa. MFCCs, Mel Frequency Cepstral Coefficients (Coeficientes Cepstrales en las Frecuencias de Mel). Coeficientes para la parametrizacin del habla segn la respuesta perceptual de la audicin humana. MMSE, Minimum Mean Square Error (Mnimo Error Cuadrtico Medio). MSE, Mean Square Error (Error Cuadrtico Medio). Outlier, Observacin estadstica que numricamente dista de forma apreciable del resto de datos disponibles. PDF, Probability Density Function (Funcin Densidad de Probabilidad). Contorno de probabilidad a lo largo del dominio de una variable aleatoria continua. RADAR, RAdio Detection And Ranging (Deteccin y Medicin de Distancias por Radio). Sistema electromagntico empleado en aplicaciones de teledeteccin y seguimiento. RPF, Regularized Particle Filter (Filtro de Partculas Regularizado). Variante de filtro de partculas que soluciona el problema de la degeneracin introducido por el filtro SIR. SIR, Sampling Importance Resampling (Muestreo/Remuestreo por Importancia). Variante de filtro de partculas desarrollado sobre la base terica del filtro SIS. Su principal peculiaridad es la introduccin de una etapa de remuestreo por importancia en cada iteracin del algoritmo. SIS, Sequential Importance Sampling (Muestreo por Importancia Secuencial). Mtodo secuencial de Monte Carlo empleado en aplicaciones de seguimiento, conformando esta tcnica la base de la mayora de filtros secuenciales de esta ndole. SNR, Signal-to-Noise Ratio (Relacin Seal/Ruido). Margen entre la potencia de la seal de inters y la potencia del ruido que la contamina. SPP, Speech Presence Probability (Probabilidad de Presencia de Voz). 85
Glosario TIDigits, Base de datos de voz limpia que contiene grabaciones de hombres y mujeres adultos norteamericanos pronunciando dgitos aislados y secuencias de hasta un total de 7 dgitos. Tracking, Sinnimo de seguimiento. VAD, Voice Activity Detector (Detector de Actividad de Voz). Sistema para la clasificacin de tramas sonoras en voz o silencio. WER, Word Error Rate (Tasa de Palabras Errneas).
86

Generación de Máscaras Soft para Compensación de Características en Reconocimiento Robusto Del Habla

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Generación de Máscaras Soft para Compensación de Características en Reconocimiento Robusto Del Habla

Caricato da

Copyright:

Formati disponibili

UNIVERSIDAD DE GRANADA INGENIERA ELECTRNICA

UNIVERSIDAD DE GRANADA INGENIERA ELECTRNICA

PROYECTO FIN DE CARRERA

Presentado en Granada a __ de __________ de ____ Evaluado en Granada a __ de __________ de ____

Granada, a __ de __________ de ____

Fdo. ngel M. Gmez Garca

Fdo. Antonio M. Peinado Herreros

Granada, a __ de __________ de ____

Fdo. Ivn Lpez Espejo

1.1 Introduccin al reconocimiento de voz

Figura 1.1. Las dos etapas bsicas de un sistema ASR.

1.2 Reconocimiento robusto de voz

Figura 1.3. Banco de filtros Mel [9; p. 60].

1.5 Organizacin de la memoria

2. FUNDAMENTOS DEL SEGUIMIENTO EN SISTEMAS DINMICOS

2.1 Introduccin al seguimiento bayesiano

2.2 Integracin de Monte Carlo

2. FUNDAMENTOS DEL SEGUIMIENTO EN SISTEMAS DINMICOS = 1 ,

siendo (2.8) lo que se conoce con el nombre de integracin de Monte Carlo.

La resolucin analtica de la anterior integral indefinida resulta en donde Erf 1 = 2 Erf 2 ,

es la funcin error, definida como Erf = 2 . (2.11)

Si evaluamos la integral en todo su dominio, esta resulta ser = . (2.12)

2. FUNDAMENTOS DEL SEGUIMIENTO EN SISTEMAS DINMICOS = 1 = 1 .

2. FUNDAMENTOS DEL SEGUIMIENTO EN SISTEMAS DINMICOS donde =

4. Muestrear un punto inicial, = +

5. Repetir el siguiente procedimiento desde a) . =

b) Actualizar = + 1 mientras que se verifique c) Reasignar Debe notarse que

es el conjunto de hiptesis resultantes tras la etapa

2. FUNDAMENTOS DEL SEGUIMIENTO EN SISTEMAS DINMICOS

2.3 Modelado markoviano del sistema dinmico

Figura 2.5. Modelo oculto de Mrkov.

2. FUNDAMENTOS DEL SEGUIMIENTO EN SISTEMAS DINMICOS

2. FUNDAMENTOS DEL SEGUIMIENTO EN SISTEMAS DINMICOS = | , |

se define, haciendo uso de (2.27) y (2.30), como = , | |

c) Combinar ambos resultados para obtener 2. Evaluar (2.29).

2. FUNDAMENTOS DEL SEGUIMIENTO EN SISTEMAS DINMICOS

2.4 Formulacin del filtro de partculas SIR

rrespondiente peso de importancia para la partcula = | =

2. FUNDAMENTOS DEL SEGUIMIENTO EN SISTEMAS DINMICOS , |

1,2, , . b) Calcular los pesos de importancia normalizados segn (2.38) y construir

a) Obtener una muestra, = |

a partir de aproximar dicha cantidad

3.1 Modelado del proceso de ruido

Minimizamos la anterior cantidad respecto de la matriz de prediccin lineal, , de la forma,

3. DISEO Y DESARROLLO =0 = 0. (3.3)

3. DISEO Y DESARROLLO donde cada una de sus varianzas se calcula de la forma, 1 =

3.2 Relacin entre estados y observaciones

y, en trminos de los espectros de voz limpia y de ruido,

Finalmente, empleando la relacin trigonomtrica cos cos + sin sin cos ,

Si renombramos la fase relativa entre

, en ltima instancia, la potencia espectral para cada uno de los bins

de tal modo que se cumple la relacin = log (3.23)

no puede ser nunca mayor que

3.3 Filtro de partculas SIR aplicado

3. DISEO Y DESARROLLO = | | , = 1,2, , ,

3. DISEO Y DESARROLLO particularizada a la dependencia funcional de la trayectoria de tipo identidad, de la forma, = |

3.4 Sistema SIR final

Ntese cmo el nmero de hiptesis permanece constante con esta aproximacin.

con ayuda de los

tramas de ruido estimado son las propias

siempre y cuando se verifique de nuevo la relacin

Fin Si (aceptar == false) ~ Fin

22 20 18 16 Canales Mel 14 12 10 8 6 4 2 10 20 30 40 50 60 Tiempo 70 80 90 100

Presentado en Granada a de de Evaluado en Granada a de de

Granada, a de ____ de

Granada, a de ____ de