ArticuloVoz28129 1

Disponible en línea
en www.sciencedirect.com ScienceDirect
Tecnología procedia 9 ( 2013 ) 1112 - 1122
CENTERIS 2013 - Conferencia sobre los sistemas de

información de la empresa / HCIST 2013 - Conferencia Internacional sobre Salud y Asistencia Social,
tecnologías y sistemas de información
Análisis acústico vocal - Jitter, Shimmer y HNR parámetros

João Paulo Teixeira*, Carla Oliveira, Carla Lopes
Instituto Politécnico de Bragança, Bragança, Portugal
Resumen
Un nuevo procedimiento para el diagnóstico automático de patologías de la laringe se presenta. El nuevo procedimiento
tiene la ventaja sobre otras técnicas tradicionales de no ser invasivo, barato y objetivo. Los algoritmos para la determinación
de jitter y shimmer parámetros por sus Jitta, Jitt, RAP, ppq5 en el caso de fluctuaciones y calce, SHDB, apq3 y APQ5 en
caso de shimmer son presentados. El algoritmo desarrollado y aplicado para determinar la HNR (armónicas a ruido)
también se presentan. Las herramientas desarrolladas permiten el diagnóstico que indica la presencia o no de la voz es
patológico.
© 2013 los autores publicados por Elsevier Ltd. acceso abierto bajo CC BY-NC-ND license.
© 2013 Publicado por Elsevier Ltd. Selección y/o peer-review bajo responsabilidad de
Selección y/o peer-review bajo responsabilidad de SCIKA - Asociación para la promoción y la difusión del
CENTERIS/HCIST.
El conocimiento científico
Keywords: frecuencia fundamental; discurso; discurso de jitter shimmer; a ruido armónico; patologías de laringe.
1. Introducción
El presente trabajo tiene como telón de fondo el estudio de la señal del habla en el procesamiento de la señal,
y tiene como objetivo principal hacer el diagnóstico automático de patologías laríngeas. A partir de la señal de
voz es posible extraer un conjunto de parámetros de la voz. Así, es posible detectar patologías de las cuerdas
vocales en los individuos comparando los datos de los pacientes con determinadas patologías con los datos de
personas consideradas ricas con voz.
La voz, el trastorno puede ser apreciable por el análisis de varios parámetros de la señal acústica.
En el campo de la medicina se han utilizado diversas técnicas para evaluar la calidad de voz del paciente. Uno de
ellos
* autor correspondiente. Tel.: +351 273303129; fax: +351 273313051.

E-mail: Joaopt@ipb.pt.
João Paulo Teixeira et al. / Tecnología Procedia 9 ( 2013 ) 1112 - 1122 1113
2212-0173 © 2013 los autores publicados por Elsevier Ltd. acceso abierto bajo CC BY-NC-ND license.
Selección y/o peer-review bajo responsabilidad de SCIKA - Asociación para la promoción y la difusión del conocimiento científico
doi: 10.1016/j.protcy.2013.12.124
Consiste en el análisis sensorial auditivo. Sin embargo, estos pueden conducir a resultados diferentes
dependiendo de la experiencia del profesional involucrado. Esta es una técnica de evaluación subjetiva que
conduce a la falta de consenso entre los profesionales. Por lo tanto se hizo necesario buscar una evaluación
objetiva, en el que las voces se analizaron mediante dispositivos que sean capaces de medir varios parámetros
acústicos, como Almeida
[1].
Los signos más comunes que pueden indicar cambios en la laringe se refieren ronquera breathiness y
rugosidad. La ronquera transitoria puede dar como resultado del abuso de la voz o de la gripe casual. Pero
cuando la ronquera persiste y se convierte en una característica voz, es indicativo de patología de la laringe.
Ronquera también puede ser un síntoma precoz de cáncer de la laringe, Teixeira, et al. [2]. Las enfermedades
más comunes que afectan la voz son nódulos vocales, la laringitis, la parálisis, pólipos, quistes y edema de
Reinke. Otras patologías de la laringe que puede conducir al discurso dysphonic son úlceras de contacto, según
Lopes [3].
Los parámetros obtenidos por el análisis acústico tiene la ventaja de describir objetivamente la voz. Con la
existencia de bases de datos normativos que caracterizan la calidad de la voz o utilizando herramientas
inteligentes combinando los diferentes parámetros, es posible distinguir entre la voz normal y patológica o
incluso identificar o sugerir la patología. Estas herramientas permiten la supervisión del punto de vista clínico
y/o el empleo y reducir el grado de subjetividad del análisis perceptivo, como Teixeira, et al. [2].
Actualmente, parámetros acústicos comúnmente utilizados en aplicaciones de análisis acústico así como la
mayoría de los referidos en la literatura, son la frecuencia fundamental, jitter, shimmer y HNR. La frecuencia
fundamental (F0), que se mide en hercios, se define como el número de veces que una onda de sonido
producido por las cuerdas vocales se repite durante un período de tiempo dado. Es también el número de ciclos
de apertura/cierre de la glotis. Hay un rango de valores típicos de esta frecuencia para los distintos sexos y
edades. Pero estos valores no son parado desde F0 también se usa para expresar la prosodia. Además, también
varían con la edad y el sexo, cree que depende de factores tales como el estado de ánimo de la persona, la hora
del día a la que se adaptan al estilo de vida y el uso profesional de la voz, como Teixeira, et al. [2].
Las mediciones de F0 la perturbación de jitter y shimmer, ha demostrado ser útil al describir las
características vocales. La fluctuación es definido como el parámetro de variación de la frecuencia de ciclo a
ciclo, y shimmer se refiere a la variación de la amplitud de la onda de sonido, como Zwetsch et al. [4]. En la
figura 1 puede verse la representación de estos parámetros.
Estos parámetros pueden ser analizados bajo una voz constante produce una vocal continuamente.
La fluctuación es afectado principalmente por la falta de control de la vibración de las cuerdas vocales; las
voces de los pacientes con patologías suelen tener un mayor porcentaje de jitter. La mayoría de los
investigadores considera como valor típico de variación entre 0,5 y 1,0% para la fonación sostenida en los
adultos jóvenes.
El shimmer cambios con la reducción de la resistencia y masa de glotis lesiones en las cuerdas vocales y se
correlaciona con la presencia de ruido y emisiones breathiness. Se considera patológico voz para los valores
inferiores a 3% para los adultos y alrededor de 0,4 y 1% para los niños, como Guimarães [5].
Jitter
0,5
-0,5
Shimmer
8000 8500 9000 9500 10000

Figura 1: Representación de jitter y Shimmer apuro medidas en señal de voz.

1114 João Paulo Teixeira et al. / Tecnología Procedia 9 ( 2013 ) 1112 - 1122
La HNR es una evaluación de la relación entre componentes periódicas y no periódicas que comprende un
componente de segmento expresó su discurso, como Murphy y Akande [6]. El primer componente surge de la
vibración de las cuerdas vocales y la segunda se deriva del ruido glotal, expresado en dB. La evaluación entre
los dos componentes refleja la eficacia de la intervención, es decir, mayor es el flujo de aire expelido por los
pulmones en energía de la vibración de las cuerdas vocales. En estos casos el HNR será mayor. Un sonido se
caracteriza por una alta HNR, la cual se asocia con sonorant armónica y voz. Una baja HNR denota un asthenic
disfonía y voz. Es decir, con un valor de menos de 7 dB en el HNR se considera patológico, como Boersma
[7].
Algunos autores (Guimarães, [5]) presenta los valores de la tabla 1 para el umbral de la voz de la patología.
Tabla 1. Los valores de umbral de voz patológica.
El parámetro Valor de umbral
Jitt (%) 1.04
Jitta (μs) 83.2
Rap (%) 0.68
Ppq5 (%) -
Cala (%) 3.81
ShdB (dB) 0.35
Apq3 (%) -
Apq5 (%) -

Algunos sistemas que usan este conjunto de parámetros para el diagnóstico patológico de las voces no
coinciden en los parámetros medidos según lo reportado por Bielamowicz et al. [8]. Por lo tanto la mejora de
los algoritmos utilizados para determinar estos parámetros sigue siendo necesaria. Brockmann-Bauser [9] ha
desarrollado algunas técnicas para mejorar los algoritmos. Otros autores como Vasilakis y Stylianou [10]
determinar el parámetro de jitter en el dominio de la frecuencia. El autor Brockmann-Bauser [9] informó
también de que varios factores pueden influir en los valores de los parámetros, como el nivel de presión de
sonido (SPL) o incluso la forma en que la voz se utiliza durante el día. La edad también influye en el umbral de
voces patológicas, según informó Wertzner et al. [11] para los niños.

2. Metodología
2.1. Registro de señal
La señal que se destina a ser analizado corresponde a una continua y sostenida la pronunciación de una
vocal. Para este trabajo los temas reproducen la vocal /a/.
Este estudio involucró a varios sujetos con edades comprendidas entre los 20 y los 23 años. Todos los temas
son estudiantes. Después de recoger las correspondientes señales acústicas sólo un macho y una hembra señal
fueron seleccionados para el análisis. Cabe señalar que la selección de los temas se tuvo en cuenta el hecho de
que no tienen signos o síntomas de trastornos de la voz.
Inicialmente, el registro consistió en un 3-4 segundos de sonido sostenido de la vocal /a/ para cada altavoz,
con una duración mínima de 2 segundos. El registro fue realizado mediante el programa Praat y grabados
digitalmente en formato .wav. Se realizó el registro de la señal dentro de un laboratorio con un mínimo de
condiciones acústicas. En esta habitación, cada altavoz satélite cómodamente y con un micrófono (Sony ECM -
MS907) 10cm de distancia de la boca. La frecuencia de muestreo utilizada para grabar estas señales fue 22,05
kHz, con resolución de 16 bits y mono. Cabe señalar que el laboratorio no tiene las características ideales, sin
embargo, tomó todas las precauciones necesarias para que las señales fueron recopilados en un entorno tan
buena como sea posible.
2.2. Determinación de jitter
Para determinar este parámetro, que refleja la variación de los períodos sucesivos, el algoritmo comenzó a
implementar una función que detecta la distribución del período fundamental. El vector de salida de la función
contiene los máximos niveles correspondientes al principio de la señal de pulso glotal, esto significa, esta
función devuelve un vector del mismo tamaño pero sólo con los picos.

Esta función elimina las tendencias lineales de la señal y, a continuación, utiliza una media móvil con la
longitud correspondiente a unos 10 ms (una longitud parecida a un período de glotis). A continuación, el pico
es buscado como el máximo de la señal acústica en una ventana de 15 muestras antes y después de que el índice
15 muestras del máximo de la media móvil.
Analizando los resultados del algoritmo los picos son extraídas correctamente excepto cuando el máximo es
un pico negativo, como puede verse en la figura 2.
Por lo tanto, uno puede determinar la función de esta distribución no detectar el verdadero máximo pico
absoluta, porque el pico positivo son detectar cuándo debería detectar el pico negativo porque presenta una
mayor magnitud en comparación con el pico positivo. Esta situación fue corregida con el módulo de la señal de
entrada. La situación se corrigió tal como se muestra en la figura 3 y la figura 4 picos negativos para los picos
positivos. Puede plantearse un problema cuando de un período al siguiente cambia el máximo del pico negativo
al positivo o viceversa.
0.5
-0,5
1.028 1.030 1.032 1.042

1.034
1.036
1.038
Figura 2: Representación de los picos de la señal corresponde al pulso de glotis en una voz de mujer. 1,04
0.4
0.2
-0,2
-0,4
-0,6
1.030 1.032 1.042
1.034
1.036
1.038
Figura 3: Visualización de los picos máximo absoluto después de usar la función de módulo de picos
1,04 negativos.

0.4
0.3
0.2
0.1
-0,1
-0,2
-0,3
0,2
-0,4
0,18 0,19 0,195 0,205 0,21
0,175
0,185
Figura 4: Visualización de los picos máximo absoluto después de usar la función de módulo de picos positivos.

Después de la determinación del tiempo de inicio de los impulsos de glotis la fluctuación puede ser
determinado por sus formas varias medidas dadas por las fórmulas que se muestran a continuación (Boersma
[7]; Teixeira et al. [2]).
Jitter (local, absoluta): representa el promedio de diferencia absoluta entre dos períodos consecutivos y se
conoce como jitta. El valor del umbral para detectar patologías en adultos es de 83,2 µs según lo reportado por
Guimarães [5].
Jitta 1 = ∑N-1 - t iti-1 (1)

I= n - 11
Jitter (local): representa el promedio de diferencia absoluta entre dos períodos consecutivos, dividido por el
promedio del período. Es conocido como jitt y tiene 1,04% como el límite para la detección de patologías.
Jitta (2)
Jitt N = 1 ×100
∑T I
N i=1
Donde ti es la duración en segundos de cada período y N es el número de períodos.

Jitter (RAP): representa el promedio de la perturbación, es decir, la diferencia absoluta media de un período
y el promedio del período con sus dos vecinos, dividido por el promedio del período. El valor del umbral para
detectar patologías es 0,68%.
Rap= N1-1Ni= ∑-111Ti -N ⎛⎝1 ∑i+1 tn ⎞⎟
⎜3 n i=-1 ⎠ 100 (3)

×
∑T I
N i=1
Jitter (ppq5): representa el porcentaje de alteración en cinco periodos, es decir, el promedio de la diferencia
absoluta entre un período y el promedio que contiene cuatro períodos de su vecino más cercano, es decir, dos
anteriores y dos períodos subsiguientes, dividido por el promedio del período.
⎞⎟
N1-1 N∑i=-22 ti -⎛⎜⎝ 5 n i∑i=+-22tn ⎠ 100
1
(4)
Ppq5= 1 N ×
∑T I
N i=1
A pesar de las fórmulas que utiliza el mismo algoritmo diferente del autor, el uso de las fórmulas pueden
variar en los algoritmos de ejecución considerando diferentes longitud del segmento de señal utilizada o incluso
utilizando varios segmentos pequeños y promediando sus parámetros para el conjunto de la señal. Además,
existen diferencias en la determinación del tiempo de inicio de la glotal de pulsos.
2.3. Determinación de shimmer
Los métodos utilizados para determinar el resplandor son idénticos a la fluctuación, la principal diferencia es
que el jitter considera períodos y shimmer toma en cuenta la amplitud máxima de la señal.
Para determinar los parámetros Shimmer los métodos utilizados por el temblor fue seguido. El algoritmo
comenzó por determinar el tiempo de inicio de la glotis los pulsos de la señal y la magnitud de la señal
correspondiente a esa muestra. A continuación, el algoritmo fue aplicado para determinar los valores de cada
parámetro de Shimmer igualmente como para el jitter. El shimmer parámetros son dados por expresiones
siguientes (Boersma [7]; Teixeira et al. [2]).
Shimmer (local): representa la media de las diferencias absolutas entre las amplitudes de dos períodos
consecutivos, dividido por el promedio de amplitud. A esto se le llama un suplemento y este parámetro fue de
3,81% como el límite para la detección de patologías.
1 N-1
N
Cala = -11∑i=1Ni - i+1 ×100 (5)
∑ i
N i=1
Shimmer (local, dB): representa la media de las diferencias absolutas del logaritmo en base 10 de la
diferencia entre dos períodos consecutivos y se llama ShdB. El límite para detectar patologías es 0,350 dB.
∑
1 N-1 Un ⎛i+1 ⎞ (6)
ShdB=20*log⎜ ⎟⎠ un i n-1 i=1 ⎝
Shimmer (apq3): representa el cociente de amplitud dentro de tres períodos de perturbación, en otras
palabras, el promedio de la diferencia absoluta entre la amplitud de un período de tiempo y las amplitudes
medias de sus dos vecinos, dividido por el promedio de amplitud.
Apq3= N -1-11 Ni = ∑ i -⎛⎜⎝ 3 n i∑i=+1-1n ⎟ ⎠⎞ ×100

1 1
(7)
1 N ∑i
N i=1
Shimmer (apq5): representa la relación de apuro amplitud de cinco periodos, en otras palabras, el promedio
de la diferencia absoluta entre la amplitud de un período de tiempo y las amplitudes medias de ella y sus cuatro
vecinos más cercanos, dividido por el promedio de amplitud.
-⎜1 ⎞
Apq5= N1-1 N∑i=-22 AI ⎛ ⎝ 5 n i∑i=+-22 An ⎟ ⎠ ×100 (8)
1 N ∑i
N i=1
2.4. Determinación de HNR
La ejecución de la armónica a ruido se basa en los fundamentos matemáticos presentados por Boersma [7].
Se empieza por la detección de la función de autocorrelación de la señal de voz, como el ejemplo que se
muestra en la figura 5.
F Irst pico local

1
0.8
0.6
0.4
0.2
-0,2
-0,4
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
Figura 5: Visualización de 1 máximo local de la autocorrelación resultado.

El primer local es el pico identificados en la Fig. 5 y corresponde al pico después del índice 1. El CAV(T) de
EQ. 9 es el pico en la posición de índice correspondiente a la duración de la señal. Por lo tanto los valores
esperados para F0 para definir una posición que pico entre dos índices. Teniendo en cuenta el valor de la
frecuencia fundamental (para mujeres de 200 a 300Hz en el caso del hombre entre 80 y 200 Hz, y en el caso de
voz infantil varía entre 400 y 500 Hz) para el primer índice (fs/F0max) y el segundo índice (fs/F0min). Después
de determinar los índices el máximo local se encuentra dentro del primer y segundo índice, encontrar sus
respectivos amplitud.
A continuación, aplicar la siguiente fórmula se encuentra el valor de HNR, Boersma [7].
()
AC TV (9)
HNR=10*log10
ACV ( )0 -AC TV ( )
A pesar del uso de la misma fórmula matemática los algoritmos son diferentes también a causa de la
longitud de los segmentos o incluso debido al uso de varios segmentos.
3. Presentación y discusión de resultados
En esta sección presentamos los resultados de jitter, shimmer y HNR para dos señales bajo estudio, uno
masculino y otro femenino. En los cuadros 2, 3, 4, 5, 6 y 7, el conjunto de parámetros se presentan para las dos
señales. La segunda columna muestra los valores obtenidos mediante el software Praat (Boersma y Weenink
[12]), y la última columna informa de los valores obtenidos con el algoritmo desarrollado en este trabajo.

Tabla 2: Valores de la fluctuación de la señal con una hembra
Señal femenina Praat Alg. Devel.
Alg.
Jitta (μs) 17 29
Jitt (%) 0,39 0,66
RAP (%) 0,23 0,43
Ppq5 (%) 0,25 0,46
Tabla 3: Valores de jitter con una señal macho
Señal macho Praat Alg. Devel.
Alg.
Jitta (μs) 18 30
Jitt (%) 0,26 0,43
RAP (%) 0,15 0,28
Ppq5 (%) 0,15 0,28
Tabla 4: Valores de la brillan con una señal femenina

Alg.
Cala (%) 2,28 2,43
ShdB(dB) 0,20 0,45
Apq3 (%) 1,30 2,70
Apq5 (%) 1,37 0,72
Tabla 5 Valores para la brillan con una señal macho
Alg.
Cala (%) 1,72 2,01
ShdB(dB) 0,15 0,10
Apq3 (%) 1,00 1,37
Apq5 (%) 1,07 0,79
Tabla 6: Valores de la HNR con una señal femenina
Alg.
HNR(dB) 21,7 15,3
Tabla 7: Valores de la HNR con una señal macho
Alg.
HNR (dB) 23,7 17,3

Las voces utilizadas no incluyen ninguna voz patológica. Un análisis de la variación de los parámetros
muestra que los parámetros están bajo los valores de umbral para los valores patológicos. Comparando la salida
del algoritmo desarrollado y Praat puede considerarse similares y con el diagnóstico correcto. Los valores para
el RAP y ppq5 son similares en cada algoritmo.
El Shimmer parámetros da una voz saludable para el suplemento (<3.81%), pero para el algoritmo
desarrollado ShdB dio una voz patológica (hembra) recomendando la atención a los otros parámetros.
Comparando los resultados del algoritmo y Praat las diferencias son mayores que para los parámetros de jitter.
Para HNR ambos casos (macho y hembra) para el algoritmo desarrollado por Praat y los valores son
superiores a 7 dB significa saludable, aunque las voces de este umbral no puede ser tomada como ciencia
límite.
Dado que casi todos los valores están dentro del rango de valores considerados sanos voces las pequeñas
diferencias entre los países desarrollados y los algoritmos de software Praat puede considerarse significativa. La
ShdB para la voz femenina es contradictorio con los otros parámetros.
Analizando las diferencias entre Praat y el algoritmo desarrollado los siguientes aspectos deben ser
considerados. El número de picos en análisis para ambos algoritmos no coinciden, lo que significa que no
puede analizarse el mismo número de picos, de ahí los valores difieren, y por lo tanto la longitud de la señal
comparados no son exactamente los mismos, siendo esta una de las razones que pueden explicar las diferencias
pequeñas.
Con respecto a los resultados obtenidos para HNR la diferencia de salida es debido al hecho de que el Praat
hace un promedio de cada 80 ms, es decir, cada 80 ms determina un valor HNR proporcionando en su versión
final el promedio de todos los intervalos. En el algoritmo desarrollado aquí la HNR valor es siempre teniendo
en cuenta el primer máximo local, considerando sólo un valor utilizando toda la señal.
Los valores de F0 son otro factor a tener en cuenta porque no están estandarizados como su alteración puede
afectar el valor de HNR.
Por último, a fin de verificar la exactitud del algoritmo desarrollado algoritmo Praat y sintetizada de /a/
vocales con exactamente el mismo período y amplitud a lo largo de períodos de tiempo, es decir, sin
interferencias y sin shimmer, fue producida con el sintetizador de formantes (Teixeira y Fernandes [13]). La
señal fue presentado a la Praat y el algoritmo. Los cuadros 8 y 9 presentan los resultados de jitter y Shimmer,
respectivamente. El número total de ciclos analizados fue de 194 con el algoritmo desarrollado y 199 con Praat.
Puede verse que los valores presentados en los cuadros 8 y 9 son casi insignificantes en ambos algoritmos, pero
inferior con el algoritmo.
Tabla 8: Valores de la fluctuación con una señal sintetizada

Synth. Señal Praat Alg. Devel.
Alg.
Jitta (μs) 0.003 0.000
Jitt (%) 0,00003 0,00000
RAP (%) 0,00002 0,00000
Ppq5 (%) 0,00002 0,00000
Tabla 9: Valores de la brillan con una señal sintetizada
Synth. Señal Praat Alg. Devel.
Alg.
Cala (%) 0,0008 0,0003
ShdB(dB) 0,00007 0,00002
Apq3 (%) 0,0003 0,0000
Apq5 (%) 0,0001 0,0000
4. Conclusión
En este papel los algoritmos y su aplicación para determinar parámetros asociados con el jitter, shimmer y
HNR en sus diversas medidas como el jitt, jitta, rap y ppq5 para jitter y la cala, SHDB y APQ Apq35 para el
resplandor fue presentado.
Comparando la salida para los parámetros de dos voces saludable (uno masculino y otro femenino)
utilizando la aplicación Praat desarrollados y de los que pueden considerarse al mismo nivel, y ambos
produjeron un diagnóstico saludable de voces. A pesar de que existe una pequeña diferencia entre los
algoritmos que puede explicarse en parte por la diferente longitud de señal utilizada.
En cuanto a los algoritmos desarrollados para determinar el jitter y shimmer, vale la pena señalar que la
detección de pico máximo absoluto es extremadamente importante para la exactitud de la salida. Una vez que
estos parámetros se miden en valores relativamente pequeños, cualquier pequeño error del índice puede afectar
la medición y los resultados.
Por último, el algoritmo implementado puede considerarse exacto para determinar los parámetros
mencionados anteriormente. Para el futuro, varias voces patológica debe utilizarse para probar el algoritmo
dentro de una situación real.
Referencias
[1] Almeida, N. Sistema Inteligente para Diagnostico da Patologias na Laringe utilizando maquinas de Vetor de suporte. Msc., Universidad
Federal de Rio Grande do Norte - Natal - Brasil, 2010.
[2] Teixeira, J. P.; Ferreira, D.; Carneiro, S.. Acústica vocal - determinação Análise do Jitter e Shimmer para diagnóstico de patalogias da fala.
En 6º Congresso Luso-Moçambicano de Engenharia. Maputo, Mozambique, 2011.
[3] Lopes, J.. Ambiente da análise dos parametros robusta principais da voz. Msc. Universidad de Porto, 2008.
[4] Zwetsch, I., Fagundes, R. Russomano, T., Scolari, D.. Procesamiento de señal digital en el diagnóstico diferencial de las enfermedades de
la laringe benigno, Porto Alegre, 2006.
[5] Guimarães, Isabel. Un arte da Ciência e una voz humana. Escola Superior de Saúde de Alcoitão, 2007.
[6] Murphy, P. y O. Cepstrum-Based Akande, estimación de los Armónicos-tonoise Ratio para sintetizada y señales de voz humana. En el
análisis no lineal y algoritmos de procesamiento de voz. Barcelona, LNAI 3817, Springer, 2005.
[7] Boersma, P. precisos análisis a corto plazo de la frecuencia fundamental y los armónicos-ruido de una muestra de sonido. Actuaciones IFA
1993; 17, 97-110.
[8] Bielamowicz, S.; Kreiman, J.; Gerratt, B.; Dauer, M.; Berke, G. Comparación de los sistemas de análisis de voz para el apuro de la
medición. Journal of Speech and Hearing Research, 1996, 39, 126-134.
[9] Brockmann-Bauser, M. Mejora de jitter y shimmer mediciones en las voces normales. Tesis de Doctorado de la Universidad de Newcastle,
2011.
[10] Vasilakis M.; Stylianou, Y. jitter espectral de modelización y estimación. Control y Procesamiento de Señales Biomédicas 2009; 129.
[11] Wertzner, H.; Schreiber, S.; Amaro, L. Análisis de frecuencia fundamental, jitter, shimmer y la intensidad vocal en niños con trastornos
fonológica. Otorrinolaringologia Rev Bras 2005; 71, 5, 582-88.
[12] Boersma, Paul y Weenink, David. Praat fonética: hacerlo por ordenador. Ciencias Fonéticas, Universidad de Amsterdam
Http://www.fon.hum.uva.nl/praat/.
[13] Teixeira, J. P; Fernandes, A. sintetizador de voz didáctica - Módulo acústico - Modelo formantes. Actuaciones de bioseñales, 2013.
Barcelona.

ArticuloVoz28129 1

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

ArticuloVoz28129 1

Caricato da

Copyright:

Formati disponibili

Disponible en línea

CENTERIS 2013 - Conferencia sobre los sistemas de

Análisis acústico vocal - Jitter, Shimmer y HNR parámetros

* autor correspondiente. Tel.: +351 273303129; fax: +351 273313051.

8000 8500 9000 9500 10000

2.1. Registro de señal

1.028 1.030 1.032 1.042

Jitta 1 = ∑N-1 - t iti-1 (1)

Donde ti es la duración en segundos de cada período y N es el número de períodos.

Rap= N1-1Ni= ∑-111Ti -N ⎛⎝1 ∑i+1 tn ⎞⎟

⎜3 n i=-1 ⎠ 100 (3)

2.3. Determinación de shimmer

Apq3= N -1-11 Ni = ∑ i -⎛⎜⎝ 3 n i∑i=+1-1n ⎟ ⎠⎞ ×100

2.4. Determinación de HNR

F Irst pico local

Figura 5: Visualización de 1 máximo local de la autocorrelación resultado.

3. Presentación y discusión de resultados

Tabla 4: Valores de la brillan con una señal femenina

Tabla 8: Valores de la fluctuación con una señal sintetizada

Potrebbero piacerti anche