Sei sulla pagina 1di 20

Aplicações de RL em ASR

Marcos Ferreira
Aplicações de RL
• Reconhecimento da fala: LSTM bi direcionais, modelo encoder-
decoder;

• Aplicações de RL
• Otimização de modelo de reconhecimento automático de fala
• Processamento de linguagem natural.
• O agente precisa selecionar a melhor resposta a cada tempo t (estado)
Artigo
• End-to-End Speech Recognition Sequence Training With
Reinforcement Learning
• Encoder (extrai caracteristicas), decoder (gera o target baseando-se
na saída anterior, estado atual e caracterisitcas do encoder)
• Atenção: calcula a relevância entre o estado do decoder e as
características pelo encoder.
• Aplicação RL: Otimização
• Método: Policy Gradient
Arquitetura
Modelo
• Agente: Decoder
• Ação: caracter ou fonema;
• Reward: Levenshtein distance
• ASR: gera um texto (caracteres ou fonemas) -Y dado características de
uma fala – X
Modelo
• Estado: Estado do decoder
• Decoder: espectograma
• Action: saída do decoder (caracter ou fonema)
• Probabilidade de transição: P(s’|s,a)
• Raw: qualidade; distância de Levenshtein
• 128 caracteres são preditos, para que seja calculada a recompensa
Recompensa - sentence
• Y(n): ground truth
• Y(n,m): Transcrição
Recompensa - token
Resultados
Artigo
• Autonomous Robotic Dialogue System with Reinforcement Learning
for Elderlies with Dementia
Método
• Análise de 20 horas de conversas entre idosos e membros do centro
de cuidados;
• Determinação de características comuns a uma interação ideal;
Informações
• Sensor de giro e aceleração foram usados para adquirir informações
sobre postura e movimento;
• Microfone: captura informações sobre a fala
• Câmara (olhos), reconhecer emoções pela expressão facial.
• Estado interno do robô: estima o estado emocional e motivacional do
idoso. (Negativo, neutro ou positivo)
• O estado interno afeta o modo como o robô expressa sua resposta
• Os tópicos favoritos de cada participante foram fornecidos pelas
enfermeiras e familiares.
Q - Learning
• Agente: Robô
• Ambiente: Humano
• Estado: Estado interno do robô e ação anterior selecionada
• Ações: resposta curta, resposta longa (questão) e mudança de tópico
• Recompensa:
• se o robô selecionar a mesma ação do operador (pessoa), R = 5
• Se a emoção é positiva e a motivação é alta, R = 1
Resultado
• Interações com 3 idosos;
• Meta: manter a conversa; As conversas duraram mais que 20 minutos
Artigo
• REINFORCEMENT LEARNING OF SPEECH RECOGNITION SYSTEM
BASED ON POLICY GRADIENT AND HYPOTHESIS SELECTION
• Sistema ASR que recebe fala como entrada e a transcreve;
• O Sistema é idealizado para servir a várias pessoas através da internet;
• Ele deve transcrever palestras, apresentações, etc

• O Sistema é alimentado por usuários, que dão uma nota para a transcrição
feita pelo Sistema;
Modelo
• Estado s: sequência do discurso -> hipótese (Sequência de palavras)
• Ações: probabilidade de uma sequência de palavras
• Agente: o Sistema de reconhecimento
• O agente e um rival fornecem hipóteses, sendo que o usuário escolhe
uma.
• R = 1 (Resposta do Sistema é selecionada)
• R = 0 (Resposta do rival é selecionada)
Arquitetura
Resultados
Artigo
• Interactive Spoken Content Retrieval by Deep Reinforcement
Learning

• Objetivo: buscar conteúdo através da fala;


• O Sistema deve interagir com o usuário que está buscando
informação;
• Estado: Features – Input of DQN;
• Ações: coletar dados, exibir lista de possíveis resultados;
Arquitetura do sistema

Potrebbero piacerti anche