Sei sulla pagina 1di 15

Características estadísticas de la señal de voz

Estacionariedad y Ergodicidad

H ay varios aspectos a estudiar sobre la naturaleza estadística de la voz, como son la función de densidad de probabilidad, la estacionariedad y la ergodicidad.

Cuando se aplican nociones estadísticas a la señal de voz, es necesario estimar la función de densidad de probabilidad (fdp). La fdp se puede estimar mediante un histograma de las amplitudes sobre un número suficientemente grande y representativo de muestras de señal. Se ha demostrado que la estadística de la voz queda bien representada por una distribución laplaciana o, en mejor medida, por una distribución gamma. Estas distribuciones son válidas si observamos la señal en tramos muy largos y para varios locutores. En el caso de hacer una observación en intervalos cortos, no más de unas decenas de milisegundos, estas distribuciones ya no tienen la misma validez. En este caso la distribución correcta depende del sonido que se esté produciendo y cambia con las transiciones fonéticas e incluso en un mismo fonema.

En la mayoría de las aplicaciones conviene hacer la suposición de que la voz es un proceso estocástico ergódico. Esto da lugar a un modelo muy simplista, pero los resultados que se obtienen en la práctica justifican su validez. Por ejemplo, la autocorrelación de un proceso ergódico (en autocorrelación) puede ser obtenida mediante la estimación de un promedio temporal conveniente. Esta estimación se tiene que hacer con un segmento suficientemente largo, aunque finito, de la señal.

La validez del modelo ergódico está íntimamente ligada a la suposición de estacionariedad. Si ésta no es válida tampoco lo será la de ergodicidad. En la realidad la voz es un proceso estacionario o no según la longitud del intervalo de observación. La señal de voz es una señal de evolución lenta en el sentido de que cuando se examina en intervalos de tiempo suficientemente cortos (típicamente entre 5 y 100ms), sus características son prácticamente estacionarias.

CAPÍTULO

2

CAPÍTULO 2 Figura 2.1: Transición de sonido sonoro a sordo Se habla entonces de señal casi

Figura 2.1:

Transición de sonido sonoro a sordo

Se habla entonces de señal casi estacionaria. Sin embargo, vista en intervalos largos (del orden de 250ms o más) las características de la señal cambian para reflejar los diferentes sonidos que se están pronunciando. Así, da lugar a una señal no estacionaria. En consecuencia, la validez de la ergodicidad ha de entenderse en los intervalos donde sea cierto que la señal es estacionaria. En la figura 2.1 vemos un segmento de voz en el que se produce una transición de un segmento sordo (las cuerdas vocales no vibran) a un segmento sonoro (las cuerdas vocales vibran), variando las características de la voz.

2.2

Modelos digitales de producción de voz

Modelo de radiación. Modelo de glotis. Modelo del tracto vocal

L a mayoría de los modelos de producción de habla asumen que las cuerdas vocales son independientes del tracto vocal y que éste último se comporta como un sistema lineal, lo

que supone una aproximación bastante razonable de cara a la simplicidad de su tratamiento. Sea como sea, el sistema de producción de habla puede verse como una excitación que atraviesa un canal, y cómo ese canal modifica las características espectrales de la excitación original. Para la producción de habla, entran en juego los siguientes elementos:

Una fuente de energía, proporcionada por el aire a presión que procede de los pulmones.

Un órgano vibratorio: las cuerdas vocales.

Una caja de resonancia, formada por las cavidades supralaríngeas (cavidad faríngea, cavidad bucal y cavidad nasal) y en las que podemos encontrar distintas estructuras articulatorias: lengua, velo del paladar, dientes y zona alveolar, fundamentalmente.

Unos elementos que finalmente radian el sonido: fosas nasales y labios.

Los sonidos sonoros son producidos al forzar aire a través de la glotis con las cuerdas vocales tensadas de manera que se produce la oscilación relajada de las mismas, excitando de esta forma el conducto vocal con pulsos de aire casi-periódicos. Cuanto más grande es la tensión de las cuerdas, más alta es la frecuencia fundamental de la voz producida. Los sonidos sordos, en tanto, son generados manteniendo las cuerdas vocales abiertas, formando una constricción del conducto vocal, y forzando aire a través de la constricción a una velocidad lo suficientemente alta como para producir turbulencia. En este caso, puede pensarse, que el conducto vocal es excitado por una fuente de ruido aleatorio.

En un modelo digital aséptico no se trata de simular exactamente cada fenómeno que se produce en la producción de habla sino los resultados que se obtienen (modelo de la señal), y ese es el objetivo que hay detrás de los modelos digitales de producción de habla.

El modelo más sencillo constaría de un bloque que representa la fuente, otro que representa el tracto vocal y un tercero que representa el efecto de la radiación en los labios y fosas nasales, tal y como aparece en la figura 2.2:

labios y fosas nasales, tal y como aparece en la figura 2.2: Figura 2.2: Modelo de

Figura 2.2:

Modelo de producción de la voz

La figura anterior representa un modelo del sistema de producción de la voz. El conducto vocal se representa por un sistema lineal (generalmente no estacionario) que es excitado a través de una llave que selecciona entre una fuente de impulso casi-periódicos para el caso de voz sonora, o una fuente de ruido aleatorio para la voz sorda. La ganancia apropiada de la fuente, G, es estimada a partir de la señal de voz, y la señal escalada es usada como entrada del modelo del conducto vocal.

Modelo de radiación. En la figura 2.2 el modelo de radiación describe la impedancia de radiación vista por la presión de aire cuando abandona los labios, que puede ser razonablemente aproximada por una ecuación en diferencias de primer orden, o equivalentemente por una función de transferencia de la forma:

R

( )

z

=

1

- 1

- z

(2.1)

Modelo de glotis . Existen diferentes modelos de la glotis que han sido propuestos para el caso en que

es excitada por pulsos. Un modelo simple es el denominado modelo exponencial representado por una función de transferencia Z de la forma:

G

(

z

) =

-

ae

ln(

a

)

z

- 1

(1

- az

- 1

)

2

(2.2)

El numerados se selecciona de manera que g(n) =Z -1 {G(z)} tenga un valor máximo aproximadamente igual a 1. El modelo está inspirado en mediciones de la respuesta de la glotis a

impulsos, que se asemejan a la respuesta de un sistema de segundo orden. Una respuesta típica se representa en la siguiente figura:

Una respuesta típica se representa en la siguiente figura: Figura 2.3: Respuesta típica de la glotis

Figura 2.3:

Respuesta típica de la glotis a una excitación con tren de impulsos

Modelo predictivo lineal del tracto vocal. Un modelo matemático frecuente usado para el conducto vocal + radiación es una ecuación en diferencias (modelo autoregresivo) que se obtiene asumiendo que cada muestra de la señal de voz está estrechamente relacionada con las muestras anteriores, de manera que el valor presente de la señal se puede obtener como una combinación de, por ejemplo, p muestras anteriores:

s n

(

)

ª

-

p

Â

k = 1

a

k

s n

(

-

k

)

(2.3)

Incluyendo un término de excitación Gu(n), la ecuación anterior puede escribirse de la forma:

s n

(

)

= -

p

Â

k = 1

a

k

s n

(

-

k

)

+

(

Gu n

)

(2.4)

Este modelo se denomina Modelo de Predicción Lineal (LPM) para producción/síntesis de voz,

siendo los coeficientes a k los denominados coeficientes de predicción lineal (LPC), y G, la ganancia de excitación. El modelo LPC puede derivarse discretizando un modelo continuo de transmisión acústica basado en la concatenación de tubos acústicos sin pérdidas. En el dominio Z la ecuación anterior puede escribirse como:

S

(

z

)

= -

p

Â

k = 1

a

k

z

-

k

S

(

z

)

+

(

GU z

)

Lo que conduce a una función de transferencia:

(

H z

)

=

S

(

z

)

1

1

=

=

(

GU z

)

1 +

p

Â

k = 1

a

k

-

z

1

(

A z

)

(2.5)

(2.6)

que representa un filtro todo-polos. Una interpretación de esta ecuación es dada en la siguiente

figura (que es una versión simplificada de la figura 2.2, donde no se explicita el tipo de excitación):

figura 2.2, donde no se explicita el tipo de excitación): Figura 2.4: Modelo de producción de

Figura 2.4:

Modelo de producción de voz basado en LPC

H(z) representa la función de transferencia del modelo lineal tracto vocal + radiación. Los parámetros del filtro digital H(z), son controlados por la señal de voz que está siendo producida. Los parámetros del modelo completo de la figura 2.4 son: la clasificación entre sonidos sonoros y sordos, la frecuencia fundamental de los sonidos sonoros, la ganancia G y los coeficientes del filtro H(z) (coeficientes LPC).

El modelo de producción descrito se usa en telecomunicaciones para incrementar el número de señales de voz que pueden transmitirse por un canal. Si los coeficientes a k son conocidos en el transmisor y en el receptor, entonces solo necesita transmitir el error de predicción y la señal puede ser reconstruida en el receptor. En el transmisor, s(n) es la entrada al filtro al filtro de predicción, mientras que e(n) es la salida del filtro. Transmitir solo la señal de error resulta en un ahorro sustancial del de ancho de banda del canal.

El modelo puede modificarse para su uso en síntesis de voz. En este caso el problema básico se reduce al cálculo de los parámetros del modelo, es decir de los coeficientes de predicción lineal y la ganancia de excitación. En la práctica los coeficientes de predicción deben ser calculados a partir de muestras de la señal que se quiere sintetizar. Como la señal no es estacionaria en el sentido que la configuración del tracto vocal cambia con el tiempo (de acuerdo al sonido que se está emitiendo), el conjunto de coeficientes se debe estimar en forma adaptable sobre cortos intervalos (típicamente de 10 a 30ms de duración) donde se asume que la señal es estacionaria, y los LPC son constantes. Típicamente los LPC se obtienen minimizando un criterio cuadrático en los errores de predicción e(n), para cada trama en que es dividido el segmento de voz.

Introducción

Clasificación de los codificadores de voz

E l proceso de codificación de la voz consiste en transformar las ondas sonoras que la representan en otro tipo de representación que, aunque menos natural, sí resulta más

adecuada para determinadas tareas. La codificación también estudia, una vez que se ha transformado la señal de voz a otra representación, cuál es la mejor forma de tratar esa nueva representación para que el tratamiento de la información obtenida sea el óptimo.

La codificación de voz ha alcanzado un grado de madurez muy elevado, contando en la actualidad con un gran número de procedimientos estandarizados. Los codificadores de voz se clasifican en tres grandes grupos, a saber:

codificadores de la forma de onda

vocoders

codificadores híbridos

En el primer grupo, codificadores de forma de onda, se engloban aquellos codificadores que intentan reproducir la forma de la onda de la señal de entrada sin tener en cuenta la naturaleza de la misma. Estos, en función de en qué dominio operen, se dividen en codificadores en el dominio del tiempo y codificadores en el dominio de la frecuencia. Este tipo de codificadores proporcionan una alta calidad de voz a bit rates medios, del orden de 32 kb/s. Sin embargo, no son útiles cuando se quiere codificar a bajos bit rates.

En el grupo de vocoders están aquellos codificadores que sí tienen en cuenta la naturaleza de la señal a codificar, en este caso la voz, y aprovechan las características de la misma para ganar en eficiencia. Permiten trabajar con muy bajos bit rates, pero la señal de voz que producen suena demasiado sintética.

En el tercer grupo, los codificadores híbridos, encontramos aquellos que combinando técnicas de los vocoders y de los codificadores de la forma de la onda aúnan las ventajas de ambos, permitiendo una alta calidad de voz a bajos bit rates.

CAPÍTULO

7

Los codificadores de la forma de onda intentan reproducir la forma de la onda de la señal de entrada. Generalmente se diseñan para ser independientes a la señal, de tal forma que pueden ser usados para codificar una gran variedad de señales. Presentan una degradación aceptable en presencia de ruido y errores de transmisión. Sin embargo, para que sean efectivos, sólo se deben usar a bit-rates medios. La codificación se puede llevar a cabo tanto en el dominio del tiempo como de la frecuencia.

Codificadores en el dominio del tiempo. En el dominio del tiempo se utilizan las siguientes redundancias de la señal de voz: distribución no uniforme de la amplitud, correlación entre muestra y muestra, correlación ciclo a ciclo (periodicidad), correlación entre intervalos de igual duración (pitch interval), factores de inactividad de la voz (silencios). Dentro de este grupo tenemos la modulación por codificación de impulsos (PCM), la modulación por codificación de impulsos diferencial (DPCM) y la modulación por codificación de impulsos diferencial adaptativa (ADPCM).

La modulación por codificación de impulsos es la codificación de forma de onda más sencilla. Básicamente, consiste en el proceso de cuantificación. Cada muestra que entra al codificador se cuantifica en un determinado nivel de entre un conjunto finito de niveles de reconstrucción. Cada uno de estos niveles se hace corresponder con una secuencia de dígitos binarios, y esto es lo que se envía al receptor. Se pueden usar distintos criterios para llevar a cabo la cuantificación, siendo el más usado el de la cuantificación logarítmica. Puesto que PCM no tiene en cuenta la forma de la onda de la señal a codificar, funciona muy bien con señales que no sean las de la voz, sin embargo, cuando se codifica voz hay una gran correlación entre las muestras adyacentes.

Esta correlación puede aprovecharse para reducir el bit-rate. Una forma sencilla de hacerlo sería transmitir solamente las diferencias entre las muestras. Esta señal de diferencia tiene un rango dinámico mucho menor que el de la voz original, por lo que podrá ser cuantificada con un número menor de niveles de reconstrucción. La modulación por codificación de pulsos diferencial es más eficiente, ya que aprovecha las redundancias presentes en la señal. La varianza de la diferencia entre las amplitudes adyacentes de la señal de voz es mucho menor que la varianza de la misma señal de voz.

En DPCM, tanto el predictor como el cuantificador permanecen fijos en el tiempo. Se podría conseguir una mayor eficiencia si el cuantificador se adaptase a los cambios del residuo de predicción. Además, también se podría hacer que la predicción se adaptase a la señal de la voz. Esto aseguraría que la raíz cuadrada del error de predicción se minimice continuamente, con independencia de la señal de voz y de quién la emita. ADPCM es muy útil para codificar voz a bit

rates medios. ADPCM permite codificar voz a una tasa de 32kbps, la mitad de los 64kbps estándares para PCM, reteniendo la misma calidad de voz.

Codificación en el dominio de la frecuencia. Este tipo de codificadores dividen la señal de voz en distintas componentes de frecuencia y codifican cada una de éstas de forma independiente. De esta forma algunas bandas de frecuencia pueden ser codificadas de manera preferencial, es decir, el número de bits utilizados para la codificación de cada componente de frecuencia puede variar dinámicamente. Explotan básicamente las siguientes características de la señal de voz: densidad espectral de frecuencia no uniforme y que ciertos sonidos específicos presentan bajos niveles de densidad espectral de energía.

Los tipos más comunes de codificadores de voz en el dominio de frecuencia son la codificación Sub-Bandas - Sub Band Coding (SBC) y la codificación por Transformada Adaptativa - Adaptive Transform Coding (ATC). La codificación sub-banda puede ser entendida como un método para controlar y distribuir el ruido de cuantificación a través del espectro de la señal. La cuantificación es una operación no lineal que ocasiona productos de distorsión que son típicamente anchos en espectro. El oído humano no percibe el ruido de cuantización de igual forma a todas las frecuencias. En consecuencia hay una ventaja comparativa en dividir el espectro en sub-bandas para ser codificadas individualmente.

La codificación por transformación adaptativa es otra técnica en el dominio de la frecuencia que ha sido usada satisfactoriamente para codificar a tasas en el rango de 9.6kbps a 20kbps. Esta es una técnica más compleja que involucra transformaciones de segmentos de la señal de entrada. Consiste en una codificación por bloques. La señal de entrada se transforma en un dominio diferente y se codifican los coeficientes de la transformación. Cada segmento es representado por un set de coeficientes los cuales son separadamente cuantificados y transmitidos. En el receptor, los coeficientes cuantificados sufren la transformación inversa para producir la señal de entrada original reconstruida. La transformación más usada es la Transformada Discreta del Coseno, DCT, cuya representación es la siguiente:

x

0

(

x n

(

k

)

)

=

- 1

N

Â

n

= 0

x n

(

)

=

(1/

N

)

N

- 1

Â

k = 0

g

(

k

x

0

(

) cos

k

)

g

(

È

Í

Î

(2

n

+

1)

k p

2 N

˘

˙

˚

,

k

=

k

) cos

n

È

Í Î 2 N

(2

+

1)

k p

0,1,

˘

˙

˚

,

n

,

=

N

-

0,1,

1

,

N

-

1

(7.1)

(7.2)

La codificación por transformada se utiliza en la codificación de señales de banda ancha de imagen y sonido. Sin embargo, no se usa mucho en codificación de voz debido a su complejidad.

Vocoders

Vocoder LPC

7.2

L os codificadores de la forma de la onda no tienen en cuenta la naturaleza de la señal a codificar. Sin embargo, si codificamos una señal de voz, podemos aprovechar sus

características intrínsecas para que la codificación se realice de forma más eficiente. Así, los vocoders (VOice CODERS) suponen el modelo de producción de voz que se observa en la siguiente figura:

de producción de voz que se observa en la siguiente figura: Figura 7.1: Modelo de producción

Figura 7.1:

Modelo de producción de voz

Los vocoders intentan producir una señal que suene como la voz original, independientemente de si la forma de onda se parece o no.

En el transmisor se analiza la voz y se extraen los parámetros del modelo y la excitación. Los vocoders analizan la voz periódicamente y determinan los coeficientes de filtro, ganancia del sistema, periodo de tonos y modelan la excitación como pulsos o como ruido. Hay muchas diferentes formas para determinar y transmitir estas características. La información extraída se envía al receptor, donde se sintetiza la voz. El resultado es que se produce voz inteligible a muy bajo bit-rate, pero tiene el problema de que no suena natural.

CONCEPTOS

DE

CODIFIC ACIÓN

DE

VOZ

Los vocoders son en general mucho más complejos que los codificadores de forma de onda y desarrollan mucho más economía en la tasa de bit de transmisión, aunque son menos robustos y su desempeño tiende a ser muy dependiente de la voz del usuario. El vocoder más popular es el linear predictive coder (LPC), otros vocoders son: channel vocoder, formant vocoder, cepstrum vocoder y voice excited vocoder.

El channel vocoder fue el primer sistema de análisis y síntesis probado prácticamente. Los channel vocoders son vocoders en el dominio del tiempo que determinan la envolvente de la señal de voz para un número de bandas de frecuencias y luego las muestrean, codifican, y multiplexan estas muestras con la salidas codificadas de los otros filtros. La muestra se realiza sincronizadamente de cada 10ms a 30ms.

El formant vocoder es similar al channel vocoder. Teóricamente el formant vocoder puede operar con tasas de bit más bajas que el channel vocoder debido a que usa menos señales de control. En lugar de mandar muestras de la envolvente del espectro de potencia, el formant vocoder transmite las posiciones de los picos (los que dan la forma, de ahí el nombre) de la envolvente del espectro. Los formant vocoders pueden reproducir voz a razones menores de 1200bits/s. Aunque debido a dificultades en la precisión para localizar los picos formadores de las transiciones de la voz humana, los formant vocoders no han tenido un desempeño muy satisfactorio.

Los cepstrum vocoders separan la excitación y el espectro del tracto vocal mediante la transformada inversa de Fourier del espectro de la magnitud logarítmica para producir el “cepstrum” de la señal. Los coeficientes de baja frecuencia del cepstrum resultante corresponden a la envolvente del espectro del tracto vocal y con los coeficientes de excitación de alta frecuencia se forma un tren de pulsos de múltiplos del periodo de muestreo. En el receptor los coeficientes del tracto vocal provenientes del cepstrum son sometidos a una transformación de Fourier para producir la respuesta al impulso del tracto vocal.

Los voiced excited vocoders eliminan la necesidad de la extracción de tonos y operaciones de detección de voz. Estos sistemas utilizan una combinación híbrida de transmisión PCM para la banda de bajas frecuencias de la voz, combinado con un channel vocoder para la banda de altas frecuencias. Los voice excited vocoders han sido diseñados para operar en el rango de los 7200bits/s a los 9600bits/s y su calidad es normalmente superior a aquella obtenida por los tradicionales vocoders excitados por tonos.

CONCEPTOS

DE

CODIFIC ACIÓN

DE

VOZ

Por mucho, el más común y más utilizado es el linear predictive coder (LPC). Es lineal debido a que el siguiente valor de salida del sistema se determina a partir de una suma de valores de salidas anteriores más un valor de entrada nuevo. Esta es una característica de un filtro de respuesta a impulso finita. De este filtro, se genera una versión predictiva de la señal y tomada de la señal actual genera a su vez una señal de error.

de la señal actual genera a su vez una señal de error. Figura 7.2: Codificador LPC

Figura 7.2:

Codificador LPC

Todo lo que se necesita para caracterizar una señal de una muestra de voz dada, son los coeficientes del filtro de síntesis, el factor de ganancia, el periodo de tono, y saber si la voz es sonora o sorda. Para reproducir correctamente la voz en el receptor, la señal de error se debe usar como la señal de excitación. Ya que esto rompe el propósito de lograr tasas de bit más bajas, la excitación de la señal también se caracteriza y se envía junto con los otros parámetros para la síntesis en el receptor. Las muchas diferentes formas en que se puede dar el LPC, varía, en la manera, la excitación de la señal, la representación, cuantificación y transmisión de los otros parámetros.

cuantificación y transmisión de los otros parámetros. Figura 7.3: Decodificador LPC En este vocoder, se trabaja

Figura 7.3:

Decodificador LPC

En este vocoder, se trabaja sobre bloques de 10-30mseg de voz. Se trabaja sobre lo que se conoce como modelo corto, las características de la voz se suponen que no varían con el

CONCEPTOS

DE

CODIFIC ACIÓN

DE

VOZ

tiempo en intervalos pequeños. Esos bloques se analizan para determinar los coeficientes de predicción. Estos se cuantifican y se envían al receptor junto a otros parámetros. La popularidad de este vocoder viene de que el modelo todo polos del tracto vocal funciona muy bien y es posible alcanzar una señal de voz sintetizada muy inteligible a bit-rates del orden de 2.4 Kbps.

LPC-10 (FS-1015). Este algoritmo de codificación de voz fue desarrollado por el DOD (Department Of Defense), el Departamento de Defensa Estadounidense. Permite la codificación de la señal de la voz a una velocidad de 2400 bps. Se requiere una frecuencia de muestreo de 8kHz, la trama es de de 22.5ms, y 54bits/trama (lo que hace los 2.4Kbps).

El emisor se divide en dos bloques, que tienen las siguientes funciones:

fase de análisis

codificación de parámetros

La fase de análisis es la encargada de la extracción del “pitch” y del tipo de sonido (sonoro

o sordo), así como de la extracción de los coeficientes de reflexión y la energía de la señal

para cada una de las tramas en que dicha señal es dividida. Como coeficientes del filtro LPC se utilizan los LAR para los dos primeros coeficientes y los coeficientes de reflexión para el resto. Los coeficientes {a k } presentan unas características que los hacen inadecuados para su transmisión. La fase de codificación es la encargada de codificar estos parámetros y convertirlos en la secuencia de bits a transmitir.

A la señal de voz se le aplica un preprocesado: atraviesa un filtro paso banda, y se realiza un

preénfasis (el preénfasis reduce los requerimientos de precisión de los cálculos posteriores). Además, con el preénfasis se consigue modelar mejor las amplitudes bajas de los formantes a altas frecuencias.

La voz atraviesa una serie de filtros con el fin de mejorar el pitch. Después, la señal de voz se transfiere a la fase del algoritmo AMFD (Average Magnitude Diference Function) y al detector de voz (para extraer el pitch y decidir entre sonoro/sordo). Los resultados de este detector, junto con los del pitch, son corregidos y suavizados por un algoritmo de programación dinámica. Este proceso se realiza dos veces por cada trama. Para codificar el pitch se utilizan 6 bits.

CONCEPTOS

DE

CODIFIC ACIÓN

DE

VOZ

Para la detección de sonoridad se hacen dos decisiones por cada trama, una al principio de la trama y otra al final. La decisión tiene en cuenta el número de cruces por cero, la energía, los dos primeros coeficientes de reflexión y el cociente entre el máximo del AMDF y el mínimo.

Después, en el análisis LPC, se calculan los coeficientes LPC con el método de la covarianza.

Los 10 coeficientes de reflexión, RMS (Root Mean Square, mide la energía del segmento, se calcula en el pitch) y el pitch se codifican y se obtiene un bit-rate de 2400 bps. Para los segmentos sordos solo los 4 primeros coeficientes son codificados y transmitidos. Los primeros 4 coeficientes son codificados con 5 bits por coeficiente, mientras que los coeficientes del 5 al 8 son codificados con 4 bits. El noveno coeficiente usa tres bits y el décimo 2 bits. Para los segmentos sordos donde solo los cuatro primeros coeficientes son codificados, los bits que quedan son usados para código de error del canal.

En el receptor, lo que se hace es reconstruir la voz simulando la excitación sonora por algún tipo de tren de impulsos repetido periódicamente a la frecuencia del “pitch” y la sorda simplemente como ruido. La señal de excitación así formada se pasa posteriormente por un filtro similar al utilizado en la fase de análisis y que es el encargado de simular el tracto vocal. La salida de dicho filtro es escalada en función de la energía RMS para obtener una reconstrucción de la señal original.

Tras la conversión de serie a paralelo, se realiza la detección y corrección de errores, así como la decodificación mediante tablas. Se introduce una trama de retraso para poder suavizar la trama actual basándose en la mediana entre la trama presente, la pasada y la futura. Dicha suavización varía dependiendo de la tasa de error. A medida que ésta aumenta es necesario aumentar también la suavización.

En el caso más sencillo de un vocoder LPC el modelo de excitación es una señal periódica de pulsos (caracterizados por el periodo de pitch), o ruido (normalmente ruido blanco gaussiano). Esta descripción es bastante pobre, y limita la calidad de estos sistemas. Los sistemas híbridos consiguen mejorar la calidad de los vocoders introduciendo algunas mejoras:

CONCEPTOS

DE

CODIFIC ACIÓN

DE

VOZ

Una señal excitación mejorada.

Selección de la excitación mediante técnicas de análisis por síntesis.

Cuantificación vectorial de la señal de excitación.

Filtro de ponderación perceptual.

Predictores de corto y largo plazo.

Codificación MELP (Mixed Excitation LPC). La señal de excitación se genera como una mezcla de ruido y trenes de impulsos en distintas bandas (entre 4 y 10). Esto permite modelar mejor los segmentos que contienen una mezcla de voz sonora y sorda como, por ejemplo, los sonidos fricativos (/z/) y las transiciones entre sonidos sordos y sonoros. El codificador MELP ofrece una significante mejora en la calidad de la voz sintetizada al mismo bit-rate.

Codificación CELP (Code Excitated Linear Prediction)-FS-1016-. CELP se basa en procedimientos de búsqueda de análisis por síntesis, cuantificación de vectores con pesos (VQ) y predicción lineal (LP). Se usa un filtro LPC de décimo orden para modelar las formantes de retardo corto de la señal de voz. La periodicidad de retardo largo de la señal se modela con un diccionario adaptativo VQ (también llamado pitch). El error de la predicción lineal de retardo corto y el pitch VQ se cuantifican usando un libro de secuencias estocásticas (son muestras de ruido aleatorio blanco gaussiano). Al receptor sólo se le envía como excitación el índice del diccionario y la ganancia.

Existen muchas más estándares, como el codificador VSELP (estándar en las comunicaciones celulares digitales en Estados Unidos) el RPE-LTP (Regular Pulse Excitation-Long Term Prediction, utilizado en comunicaciones móviles GSM), el Enhanced Variable Rate Coder (EVRC), codificador de voz en CDMA, pero no nos vamos a centrar en explicar su funcionamiento.