Sei sulla pagina 1di 7

Reconocimiento Automtico de Voz

Presentacin basada en las siguientes Referencias: [1] Rabiner, L. & Juang, B-H.. Fundamentals of Speech Recognition, Prentice Hall, N.J., 1993. [2] Rabiner, L. & Juang, B-H.. Speech Recognition by Machine, Chap. 47 in The Digital Signal Processing Handbook, CRC Press, IEEE Press, 1998.

Caracterizacin de los Sistemas de Reconocimiento de Voz Caracterizacin de los Sistemas de Reconocimiento de Voz Los sistemas de reconocimiento automtico de voz se caracterizan teniendo en cuenta diferentes aspectos: 1. La forma en que el usuario le habla a la mquina. Existen bsicamente tres formas: Palabra Aislada: el usuario habla palabras individuales (o frases) tomadas de un vocabulario determinado. Palabras Conectadas: el usuario habla en forma fluida una sucesin de palabras pertenecientes a un vocabulario restringido (e.g. dgitos telefnicos). Habla continua: el usuario habla fluidamente usando palabras de un vocabulario grande (usualmente ilimitado).
ProDiVoz Reconocimiento Automtico de Voz 2

2. Tamao del vocabulario de reconocimiento Pequeo: capaz de reconocer hasta 100 palabras. Mediano: entre 100 y 1000 palabras. Grande: ms de 1000 palabras. 3. El conocimiento de los patrones de voz del usuario Sistemas dependientes del locutor: adaptados a locutores particulares. Sistemas independientes de locutor: trabajan con un poblacin de locutores grande, la mayora de los cuales son desconocidos para el sistema. Sistemas adaptables: se adaptan al locutor particular mientras el sistema est en uso.
ProDiVoz Reconocimiento Automtico de Voz 3

4. Grado de conocimiento acstico-lingstico usado por el sistema. Slo conocimiento acstico. No usan conocimiento lingstico. acstico Integracin de conocimiento acstico y lingstico. El conocimiento lingstico est usualmente representado por restricciones sintcticas y semnticas sobre la salida del sistema de reconocimiento. 5. Grado de dilogo entre el usuario y la mquina. Unidireccional (o pasivo). El usuario habla y la mquina realiza una accin como respuesta. Sistema de dilogo activado por la mquina. El sistema es el iniciador del dilogo, requiriendo informacin del usuario via una entrada verbal. Sistema de dilogo natural. La mquina conversa con el locutor, le solicita entradas, acta en funcin de las entradas y trata de clarificar ambigedades.
ProDiVoz Reconocimiento Automtico de Voz 4

Fuentes de Variabilidad de las Seales de Voz Fuentes de Variabilidad de las Seales de Voz El reconocimiento automtico de voz es una tarea inherentemente difcil debido a la variabilidad de las seales de voz. Algunas fuentes de variabilidad incluyen: Variabilidad en un locutor en mantener una pronunciacin consistente y en el uso de palabras y frases. Variabilidad entre locutores debido a diferencias fisiolgicos (e.g. diferente longitud del tracto vocal), acentos regionales, idiomas extranjeros, etc. Variabilidad entre transductores cuando se habla frente a diferentes micrfonos o aparatos telefnicos. Variabilidad introducida por el sistema de transmisin (redes de comunicacin telfonos celulares, etc.). Variabilidad en el ambiente, que incluyen conversaciones extraas y eventos acsticos de fondo, como ruidos, etc.
ProDiVoz Reconocimiento Automtico de Voz 5

Enfoques de Reconocimiento Automtico de Voz Enfoques de Reconocimiento Automtico de Voz 1. Enfoque Acstico-Fontico 1. Enfoque Acstico-Fontico Consiste en detectar sonidos elementales y asignarles determinados rtulos. La base de este enfoque es la hiptesis de que en el lenguaje hablado existe un nmero finito de unidades fonticas distintas (fonemas) y que estas unidades pueden caracterizarse por fonemas un conjunto de propiedades acsticas que se manifiestan en la seal hablada en funcin del tiempo. Si bien las propiedades acsticas de los fonemas son altamente variables con el locutor y con los fonemas vecinos (co-articulacin de sonidos), se asume que las reglas que gobiernan la variabilidad son simples y pueden ser aprendidas fcilmente por el sistema de reconocimiento.

ProDiVoz

Reconocimiento Automtico de Voz

El reconocimiento consiste bsicamente de dos pasos: Primer paso: segmentacin y rotulado. La seal es dividida en regiones acsticas a las que son asignados uno o ms fonemas, resultando en una caracterizacin de la seal de voz mediante un reticulado de fonemas. Segundo paso: se trata de determinar una palabra (o conjunto de palabras) vlida a partir de la secuencia de fonemas rotulados en el primer paso. Se introducen en esta etapa restricciones lingsticas (vocabulario, sintaxis, y reglas semnticas)

ProDiVoz

Reconocimiento Automtico de Voz

s(n) Sistema de Anlisis Bancos de Filtros LPC

Detector Caracterstica 1

Segmentacin control

Detector Rotulado Palabra Caracterstica reconocida Q Formantes Frecuencia Tonal /no tonal Energa Fig. 1: Sistema de Reconocimiento de Voz basado en enfoque acstico-fontico.
ProDiVoz Reconocimiento Automtico de Voz 8

La primera etapa en el procesamiento (que es comn a todos los enfoques) es la etapa de anlisis de voz, que provee una representacin (espectral) de las caractersticas inestacionarias de la seal de voz. Los mtodos ms comunes en esta etapa son anlisis con banco de filtros y anlisis LPC (Linear Predictive Coding). En la siguiente etapa es la extraccin de caracterstica en donde se convierten las medidas espectrales en un conjunto de parmetros que describen la propiedades acsticas de las unidades fonticas. Estos parmetros pueden ser: nasalidad (presencia o ausencia de resonancia nasal), fricacin (presencia o ausencia de excitacin aleatoria en la voz), ubicacin de los formantes (frecuencias de las 3 primeras resonancias), clasificacin entre sonidos tonales y no tonales, etc.

ProDiVoz

Reconocimiento Automtico de Voz

La tercer etapa del procesamiento es la etapa de segmentacin y rotulado en donde el sistema trata de encontrar regiones estables donde las caractersticas cambian poco, que son rotuladas teniendo en cuenta cuan bien la caracterstica en la regin se ajusta a unidades fonticas individuales. Esta es usualmente la etapa ms difcil de llevar a cabo en forma confiable. El resultado de la etapa de segmentacin y rotulado es un reticulado de fonemas a partir del cual se determina la palabra (o secuencia de palabras) que mejor se ajusta, teniendo en cuenta restricciones lingsticas (de vocabulario, de sintaxis, y semnticas).

ProDiVoz

Reconocimiento Automtico de Voz

10

Fig. 2: Segmentacin y rotulado de la secuencia de dgitos en ingls seven-six (tomado de [1]).


ProDiVoz Reconocimiento Automtico de Voz 11

2. Enfoque de Reconocimiento de patrones 2. Enfoque de Reconocimiento de patrones Consiste bsicamente en dos pasos: Primer Paso: entrenamiento de patrones Segundo Paso: comparacin de patrones La caracterstica principal de este enfoque es que usa un marco matemtico bien definido y que establece representaciones consistentes de los patrones de voz que pueden usarse para comparaciones confiables a partir de un conjunto de muestras rotuladas, usando algoritmos de entrenamiento. La representacin de los patrones de voz puede ser una plantilla (template), o un modelo estadstico (HMM: Hidden Markov Model), que puede aplicarse a un sonido (ms pequeo que una palabra), una palabra, o una frase.

ProDiVoz

Reconocimiento Automtico de Voz

12

En la etapa de comparacin de patrones se realiza una comparacin directa entre la seal de voz desconocida (a reconocer) y todos los posibles patrones aprendidos en la etapa de entrenamiento, de manera de determinar el mejor ajuste de acuerdo a algn criterio.
Entrenamiento Entrenamiento Anlisis de Voz Seal de Voz Reconocimiento Comparacin de patrones Modelos o Templates Palabra reconocida Lgica de Decisin

Fig. 3: Reconocimiento de Voz basado en reconocimiento de patrones.


ProDiVoz Reconocimiento Automtico de Voz 13

3. Enfoque de Inteligencia Artificial 3. Enfoque de Inteligencia Artificial En este enfoque se intenta automatizar el procedimiento de reconocimiento de acuerdo a la forma en que una persona aplica su inteligencia en la visualizacin, anlisis y caracterizacin de la voz basada en un conjunto de caractersticas acsticas. Algunas tcnicas que se emplean son: sistemas expertos (redes neuronales) que integran conocimientos prcticos fonticos, sintcticos, semnticos para la segmentacin y el rotulado, y usan herramientas tales como rede neuronales artificiales para aprender las relaciones entre eventos fonticos.

ProDiVoz

Reconocimiento Automtico de Voz

14

Potrebbero piacerti anche