Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
en www.sciencedirect.com ScienceDirect
Tecnología procedia 9 ( 2013 ) 1112 - 1122
Resumen
Un nuevo procedimiento para el diagnóstico automático de patologías de la laringe se presenta. El nuevo procedimiento
tiene la ventaja sobre otras técnicas tradicionales de no ser invasivo, barato y objetivo. Los algoritmos para la determinación
de jitter y shimmer parámetros por sus Jitta, Jitt, RAP, ppq5 en el caso de fluctuaciones y calce, SHDB, apq3 y APQ5 en
caso de shimmer son presentados. El algoritmo desarrollado y aplicado para determinar la HNR (armónicas a ruido)
también se presentan. Las herramientas desarrolladas permiten el diagnóstico que indica la presencia o no de la voz es
patológico.
© 2013 los autores publicados por Elsevier Ltd. acceso abierto bajo CC BY-NC-ND license.
© 2013 Publicado por Elsevier Ltd. Selección y/o peer-review bajo responsabilidad de
Selección y/o peer-review bajo responsabilidad de SCIKA - Asociación para la promoción y la difusión del
CENTERIS/HCIST.
El conocimiento científico
Keywords: frecuencia fundamental; discurso; discurso de jitter shimmer; a ruido armónico; patologías de laringe.
1. Introducción
El presente trabajo tiene como telón de fondo el estudio de la señal del habla en el procesamiento de la señal,
y tiene como objetivo principal hacer el diagnóstico automático de patologías laríngeas. A partir de la señal de
voz es posible extraer un conjunto de parámetros de la voz. Así, es posible detectar patologías de las cuerdas
vocales en los individuos comparando los datos de los pacientes con determinadas patologías con los datos de
personas consideradas ricas con voz.
La voz, el trastorno puede ser apreciable por el análisis de varios parámetros de la señal acústica.
En el campo de la medicina se han utilizado diversas técnicas para evaluar la calidad de voz del paciente. Uno de
ellos
Figura 1: Representación de jitter y Shimmer apuro medidas en señal de voz.
1114 João Paulo Teixeira et al. / Tecnología Procedia 9 ( 2013 ) 1112 - 1122
La HNR es una evaluación de la relación entre componentes periódicas y no periódicas que comprende un
componente de segmento expresó su discurso, como Murphy y Akande [6]. El primer componente surge de la
vibración de las cuerdas vocales y la segunda se deriva del ruido glotal, expresado en dB. La evaluación entre
los dos componentes refleja la eficacia de la intervención, es decir, mayor es el flujo de aire expelido por los
pulmones en energía de la vibración de las cuerdas vocales. En estos casos el HNR será mayor. Un sonido se
caracteriza por una alta HNR, la cual se asocia con sonorant armónica y voz. Una baja HNR denota un asthenic
disfonía y voz. Es decir, con un valor de menos de 7 dB en el HNR se considera patológico, como Boersma
[7].
Algunos autores (Guimarães, [5]) presenta los valores de la tabla 1 para el umbral de la voz de la patología.
Tabla 1. Los valores de umbral de voz patológica.
El parámetro Valor de umbral
Jitt (%) 1.04
Jitta (μs) 83.2
Rap (%) 0.68
Ppq5 (%) -
Cala (%) 3.81
ShdB (dB) 0.35
Apq3 (%) -
Apq5 (%) -
Algunos sistemas que usan este conjunto de parámetros para el diagnóstico patológico de las voces no
coinciden en los parámetros medidos según lo reportado por Bielamowicz et al. [8]. Por lo tanto la mejora de
los algoritmos utilizados para determinar estos parámetros sigue siendo necesaria. Brockmann-Bauser [9] ha
desarrollado algunas técnicas para mejorar los algoritmos. Otros autores como Vasilakis y Stylianou [10]
determinar el parámetro de jitter en el dominio de la frecuencia. El autor Brockmann-Bauser [9] informó
también de que varios factores pueden influir en los valores de los parámetros, como el nivel de presión de
sonido (SPL) o incluso la forma en que la voz se utiliza durante el día. La edad también influye en el umbral de
voces patológicas, según informó Wertzner et al. [11] para los niños.
2. Metodología
La señal que se destina a ser analizado corresponde a una continua y sostenida la pronunciación de una
vocal. Para este trabajo los temas reproducen la vocal /a/.
Este estudio involucró a varios sujetos con edades comprendidas entre los 20 y los 23 años. Todos los temas
son estudiantes. Después de recoger las correspondientes señales acústicas sólo un macho y una hembra señal
fueron seleccionados para el análisis. Cabe señalar que la selección de los temas se tuvo en cuenta el hecho de
que no tienen signos o síntomas de trastornos de la voz.
Inicialmente, el registro consistió en un 3-4 segundos de sonido sostenido de la vocal /a/ para cada altavoz,
con una duración mínima de 2 segundos. El registro fue realizado mediante el programa Praat y grabados
digitalmente en formato .wav. Se realizó el registro de la señal dentro de un laboratorio con un mínimo de
condiciones acústicas. En esta habitación, cada altavoz satélite cómodamente y con un micrófono (Sony ECM -
MS907) 10cm de distancia de la boca. La frecuencia de muestreo utilizada para grabar estas señales fue 22,05
kHz, con resolución de 16 bits y mono. Cabe señalar que el laboratorio no tiene las características ideales, sin
embargo, tomó todas las precauciones necesarias para que las señales fueron recopilados en un entorno tan
buena como sea posible.
João Paulo Teixeira et al. / Tecnología Procedia 9 ( 2013 ) 1112 - 1122 1115
2.2. Determinación de jitter
Para determinar este parámetro, que refleja la variación de los períodos sucesivos, el algoritmo comenzó a
implementar una función que detecta la distribución del período fundamental. El vector de salida de la función
contiene los máximos niveles correspondientes al principio de la señal de pulso glotal, esto significa, esta
función devuelve un vector del mismo tamaño pero sólo con los picos.
Esta función elimina las tendencias lineales de la señal y, a continuación, utiliza una media móvil con la
longitud correspondiente a unos 10 ms (una longitud parecida a un período de glotis). A continuación, el pico
es buscado como el máximo de la señal acústica en una ventana de 15 muestras antes y después de que el índice
15 muestras del máximo de la media móvil.
Analizando los resultados del algoritmo los picos son extraídas correctamente excepto cuando el máximo es
un pico negativo, como puede verse en la figura 2.
Por lo tanto, uno puede determinar la función de esta distribución no detectar el verdadero máximo pico
absoluta, porque el pico positivo son detectar cuándo debería detectar el pico negativo porque presenta una
mayor magnitud en comparación con el pico positivo. Esta situación fue corregida con el módulo de la señal de
entrada. La situación se corrigió tal como se muestra en la figura 3 y la figura 4 picos negativos para los picos
positivos. Puede plantearse un problema cuando de un período al siguiente cambia el máximo del pico negativo
al positivo o viceversa.
0.5
-0,5
0.4
0.2
-0,2
-0,4
-0,6
1.030 1.032 1.042
1.034
1.036
1.038
Figura 3: Visualización de los picos máximo absoluto después de usar la función de módulo de picos
1,04 negativos.
1116 João Paulo Teixeira et al. / Tecnología Procedia 9 ( 2013 ) 1112 - 1122
0.4
0.3
0.2
0.1
-0,1
-0,2
-0,3
0,2
-0,4
0,18 0,19 0,195 0,205 0,21
0,175
0,185
Figura 4: Visualización de los picos máximo absoluto después de usar la función de módulo de picos positivos.
Después de la determinación del tiempo de inicio de los impulsos de glotis la fluctuación puede ser
determinado por sus formas varias medidas dadas por las fórmulas que se muestran a continuación (Boersma
[7]; Teixeira et al. [2]).
Jitter (local, absoluta): representa el promedio de diferencia absoluta entre dos períodos consecutivos y se
conoce como jitta. El valor del umbral para detectar patologías en adultos es de 83,2 µs según lo reportado por
Guimarães [5].
Jitter (local): representa el promedio de diferencia absoluta entre dos períodos consecutivos, dividido por el
promedio del período. Es conocido como jitt y tiene 1,04% como el límite para la detección de patologías.
Jitta (2)
Jitt N = 1 ×100
∑T I
N i=1
∑T I
N i=1
Jitter (ppq5): representa el porcentaje de alteración en cinco periodos, es decir, el promedio de la diferencia
absoluta entre un período y el promedio que contiene cuatro períodos de su vecino más cercano, es decir, dos
anteriores y dos períodos subsiguientes, dividido por el promedio del período.
⎞⎟
N1-1 N∑i=-22 ti -⎛⎜⎝ 5 n i∑i=+-22tn ⎠ 100
1
(4)
Ppq5= 1 N ×
∑T I
N i=1
A pesar de las fórmulas que utiliza el mismo algoritmo diferente del autor, el uso de las fórmulas pueden
variar en los algoritmos de ejecución considerando diferentes longitud del segmento de señal utilizada o incluso
utilizando varios segmentos pequeños y promediando sus parámetros para el conjunto de la señal. Además,
existen diferencias en la determinación del tiempo de inicio de la glotal de pulsos.
Los métodos utilizados para determinar el resplandor son idénticos a la fluctuación, la principal diferencia es
que el jitter considera períodos y shimmer toma en cuenta la amplitud máxima de la señal.
Para determinar los parámetros Shimmer los métodos utilizados por el temblor fue seguido. El algoritmo
comenzó por determinar el tiempo de inicio de la glotis los pulsos de la señal y la magnitud de la señal
correspondiente a esa muestra. A continuación, el algoritmo fue aplicado para determinar los valores de cada
parámetro de Shimmer igualmente como para el jitter. El shimmer parámetros son dados por expresiones
siguientes (Boersma [7]; Teixeira et al. [2]).
Shimmer (local): representa la media de las diferencias absolutas entre las amplitudes de dos períodos
consecutivos, dividido por el promedio de amplitud. A esto se le llama un suplemento y este parámetro fue de
3,81% como el límite para la detección de patologías.
1 N-1
N
Cala = -11∑i=1Ni - i+1 ×100 (5)
∑ i
N i=1
Shimmer (local, dB): representa la media de las diferencias absolutas del logaritmo en base 10 de la
diferencia entre dos períodos consecutivos y se llama ShdB. El límite para detectar patologías es 0,350 dB.
∑
1 N-1 Un ⎛i+1 ⎞ (6)
1118 João Paulo Teixeira et al. / Tecnología Procedia 9 ( 2013 ) 1112 - 1122
ShdB=20*log⎜ ⎟⎠ un i n-1 i=1 ⎝
Shimmer (apq3): representa el cociente de amplitud dentro de tres períodos de perturbación, en otras
palabras, el promedio de la diferencia absoluta entre la amplitud de un período de tiempo y las amplitudes
medias de sus dos vecinos, dividido por el promedio de amplitud.
1 N ∑i
N i=1
Shimmer (apq5): representa la relación de apuro amplitud de cinco periodos, en otras palabras, el promedio
de la diferencia absoluta entre la amplitud de un período de tiempo y las amplitudes medias de ella y sus cuatro
vecinos más cercanos, dividido por el promedio de amplitud.
-⎜1 ⎞
Apq5= N1-1 N∑i=-22 AI ⎛ ⎝ 5 n i∑i=+-22 An ⎟ ⎠ ×100 (8)
1 N ∑i
N i=1
La ejecución de la armónica a ruido se basa en los fundamentos matemáticos presentados por Boersma [7].
Se empieza por la detección de la función de autocorrelación de la señal de voz, como el ejemplo que se
muestra en la figura 5.
0.8
0.6
0.4
0.2
-0,2
-0,4
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
En esta sección presentamos los resultados de jitter, shimmer y HNR para dos señales bajo estudio, uno
masculino y otro femenino. En los cuadros 2, 3, 4, 5, 6 y 7, el conjunto de parámetros se presentan para las dos
señales. La segunda columna muestra los valores obtenidos mediante el software Praat (Boersma y Weenink
[12]), y la última columna informa de los valores obtenidos con el algoritmo desarrollado en este trabajo.
Tabla 2: Valores de la fluctuación de la señal con una hembra
Señal femenina Praat Alg. Devel.
Alg.
Jitta (μs) 17 29
Jitt (%) 0,39 0,66
RAP (%) 0,23 0,43
Ppq5 (%) 0,25 0,46
Tabla 3: Valores de jitter con una señal macho
Señal macho Praat Alg. Devel.
Alg.
Jitta (μs) 18 30
Jitt (%) 0,26 0,43
RAP (%) 0,15 0,28
Ppq5 (%) 0,15 0,28
En este papel los algoritmos y su aplicación para determinar parámetros asociados con el jitter, shimmer y
HNR en sus diversas medidas como el jitt, jitta, rap y ppq5 para jitter y la cala, SHDB y APQ Apq35 para el
resplandor fue presentado.
Comparando la salida para los parámetros de dos voces saludable (uno masculino y otro femenino)
utilizando la aplicación Praat desarrollados y de los que pueden considerarse al mismo nivel, y ambos
produjeron un diagnóstico saludable de voces. A pesar de que existe una pequeña diferencia entre los
algoritmos que puede explicarse en parte por la diferente longitud de señal utilizada.
João Paulo Teixeira et al. / Tecnología Procedia 9 ( 2013 ) 1112 - 1122 1121
En cuanto a los algoritmos desarrollados para determinar el jitter y shimmer, vale la pena señalar que la
detección de pico máximo absoluto es extremadamente importante para la exactitud de la salida. Una vez que
estos parámetros se miden en valores relativamente pequeños, cualquier pequeño error del índice puede afectar
la medición y los resultados.
Por último, el algoritmo implementado puede considerarse exacto para determinar los parámetros
mencionados anteriormente. Para el futuro, varias voces patológica debe utilizarse para probar el algoritmo
dentro de una situación real.
Referencias
[1] Almeida, N. Sistema Inteligente para Diagnostico da Patologias na Laringe utilizando maquinas de Vetor de suporte. Msc., Universidad
Federal de Rio Grande do Norte - Natal - Brasil, 2010.
[2] Teixeira, J. P.; Ferreira, D.; Carneiro, S.. Acústica vocal - determinação Análise do Jitter e Shimmer para diagnóstico de patalogias da fala.
En 6º Congresso Luso-Moçambicano de Engenharia. Maputo, Mozambique, 2011.
[3] Lopes, J.. Ambiente da análise dos parametros robusta principais da voz. Msc. Universidad de Porto, 2008.
[4] Zwetsch, I., Fagundes, R. Russomano, T., Scolari, D.. Procesamiento de señal digital en el diagnóstico diferencial de las enfermedades de
la laringe benigno, Porto Alegre, 2006.
[5] Guimarães, Isabel. Un arte da Ciência e una voz humana. Escola Superior de Saúde de Alcoitão, 2007.
[6] Murphy, P. y O. Cepstrum-Based Akande, estimación de los Armónicos-tonoise Ratio para sintetizada y señales de voz humana. En el
análisis no lineal y algoritmos de procesamiento de voz. Barcelona, LNAI 3817, Springer, 2005.
[7] Boersma, P. precisos análisis a corto plazo de la frecuencia fundamental y los armónicos-ruido de una muestra de sonido. Actuaciones IFA
1993; 17, 97-110.
[8] Bielamowicz, S.; Kreiman, J.; Gerratt, B.; Dauer, M.; Berke, G. Comparación de los sistemas de análisis de voz para el apuro de la
medición. Journal of Speech and Hearing Research, 1996, 39, 126-134.
[9] Brockmann-Bauser, M. Mejora de jitter y shimmer mediciones en las voces normales. Tesis de Doctorado de la Universidad de Newcastle,
2011.
[10] Vasilakis M.; Stylianou, Y. jitter espectral de modelización y estimación. Control y Procesamiento de Señales Biomédicas 2009; 129.
[11] Wertzner, H.; Schreiber, S.; Amaro, L. Análisis de frecuencia fundamental, jitter, shimmer y la intensidad vocal en niños con trastornos
fonológica. Otorrinolaringologia Rev Bras 2005; 71, 5, 582-88.
[12] Boersma, Paul y Weenink, David. Praat fonética: hacerlo por ordenador. Ciencias Fonéticas, Universidad de Amsterdam
Http://www.fon.hum.uva.nl/praat/.
[13] Teixeira, J. P; Fernandes, A. sintetizador de voz didáctica - Módulo acústico - Modelo formantes. Actuaciones de bioseñales, 2013.
Barcelona.