Sei sulla pagina 1di 36

Codificao de Voz

EST I012 COMU N I CA ES M U LT I MDIA


P ROFS . CE L S O S E TSU O KU R A S HIMA E M R I O M I N A MI

OUT UBRO 2 0 1 6

UFABC - ESTI012 - COMUNICAES MULTIMDIA

Modelo de Codificador/Decodificador
Sinal de Entrada

Sinal Reconstrudo

Sequncia
de Bits
Codificada

Sequncia de
Bits Recebida
com Distores

UFABC - ESTI012 - COMUNICAES MULTIMDIA

Atributos presentes numa comparao


de Codificadores
Complexidade (alta, mais que dezena de MIPS ou
MFLOPS)
Atraso (delay):
Total mximo do sistema para full-duplex: 200ms
Com eco: mximo de 25ms
Recuperao com Pacotes Perdidos

UFABC - ESTI012 - COMUNICAES MULTIMDIA

Escores Subjetivos de Qualidade de Voz


Descrio Baseada
na Qualidade
Absolute Category
Rating (ACR)
Excelente
Boa
Aceitvel
Fraca
Ruim

Descrio Baseada na Degradao


Degradation Category Rating (DCR)

Imperceptvel
Perceptvel mas que no incomoda
Perceptvel com leve incmodo
Incmoda mas sem objeo
Muito incmoda ou com vrias objees

UFABC - ESTI012 - COMUNICAES MULTIMDIA

Escore de
Qualidade
MOS mean
Opinion Score
5
4
3
2
1

Comparao
de alguns
Codificadores
de Voz

UFABC - ESTI012 - COMUNICAES MULTIMDIA

Escore Subjetivo Comparativo de Qualidade


Voz - Comparison Category Rating (CCR)
Descrio

Escore de
Qualidade

Muito Melhor

+3

Melhor

+2

Um pouco melhor

+1

Semelhante

Um pouco pior

-1

Pior

-2

Muito Pior

-3

UFABC - ESTI012 - COMUNICAES MULTIMDIA

Medidas de Qualidade Objetivas ITU-T


Perceptual Speech Quality Measure (PSQM) (ITU-T 1996)
Perceptual Evaluation of Speech Quality (PESQ) (ITU-T 2001)
correlaciona-se bem com medidas subjetivas,
mesmo com atraso na rede (inclusive atraso varivel)
mas intrusiva, pois necessida do sinal de referncia
Opo No intrusiva: Recomendao P.563 (ITU-T 2004)
Wideband PESQ (ITU-T 2005)

UFABC - ESTI012 - COMUNICAES MULTIMDIA

Taxas de Bit para sinais de udio


Descrio

Largura de
Banda

Frequncia de
Amostragem

Bits por
Amostra

Taxa

Voz Faixa Estreita


Narrowband (NB) speech

300 Hz3.4 kHz

8.0 kHz

16

128 kbit/s

Voz Faixa Larga


Wideband (WB) speech

50 Hz7.0 kHz

16.0 kHz

16

256 kbit/s

Voz em Faixa Ultra Larga


Super-wideband speech

50 Hz14.0 kHz

32.0 kHz

16

512 kbit/s

Audio
(formato CD)

10 Hz20.0 kHz

44.1 kHz

16

706 kbit/s

Audio
(formato DAT)

10 Hz20.0 kHz

48.0 kHz

16

768 kbit/s

UFABC - ESTI012 - COMUNICAES MULTIMDIA

Codificador de Forma de Onda: PCM


Diferencial (DPCM)
Produz no
Codificador
uma rplica do
sinal
recuperado
Q(.) Quantizador
P(.) Preditor

UFABC - ESTI012 - COMUNICAES MULTIMDIA

ADPCM Adaptive Differential PCM, G722

UFABC - ESTI012 - COMUNICAES MULTIMDIA

10

G722.1 Codificador por Transformada

UFABC - ESTI012 - COMUNICAES MULTIMDIA

11

Codificao por Predio Linear (LPC)

Modelo Fonte + Filtro:


Fonte de Excitao pode ser uma combinao linear entre uma sequncia pseudoaleatria ou pulsos peridicos de perodo igual ao Pitch (frequncia fundamental)
A amplitude depende do Ganho.
Os coeficientes do Filtro so atualizados a cada configurao do trato vocal
UFABC - ESTI012 - COMUNICAES MULTIMDIA

12

Codificador e Decodificador LPC (p=10, FS1016)

UFABC - ESTI012 - COMUNICAES MULTIMDIA

13

Codificao Anlise-Por-Sntese (ApS):


Codificadores de Forma de Onda (p.ex. Delta e Sub-Bandas) perdem
qualidade para taxas abaixo de 16 kbit/s
Codificadores por Predio Linear operam em taxas bem baixas (2 kbit/s)
mas no possuem qualidade telefnica (FS1010 e FS1016).

Na tentativa de obteno de uma codificao com boa qualidade


telefnica (toll quality), em torno de 10kbit/s, surgiu o modelo de
Anlise-Por-Sintese (Atal)

UFABC - ESTI012 - COMUNICAES MULTIMDIA

14

Modelo Geral ApS Predio Linear


Voz de Entrada s(n)

CODIFICADOR
Gerador de
Excitao

u(n)

()

Filtro(s) de
Sntese

e(n)

Ponderao
de Erro
ew(n)

tx(n)

tx(n)

Gerador de
Excitao

Minimizao
do Erro

u(n)

Filtro(s) de
Sntese

()

Voz
Sintetizada

DECODIFICADOR
UFABC - ESTI012 - COMUNICAES MULTIMDIA

15

Modelo Anlise-por-Sntese (ApS)


Filtro de Sntese
Filtro variante no tempo s de plos que modela a envoltria do
espectro de curto prazo da voz
Chamado tambm de filtro de correlao de curto prazo, pois os
coeficientes so de predio linear.
Podem ser dois (um de Longo Prazo em cascata)
Gerador de Excitao
Produz as sequncias que alimentam o filtro, num Loop de Ponderao
do Erro

Critrio de Minimizao do erro


Minimiza a diferena entre o sinal original e a Sntese
UFABC - ESTI012 - COMUNICAES MULTIMDIA

16

Forma de Onda do Sinal


Original (a ser analisado)

Predio
Linear:
Sinal e
Resduo

Resduo da Predio
Linear de ordem 10.

UFABC - ESTI012 - COMUNICAES MULTIMDIA

17

Etapas de Codificao
1. Filtro de Sntese calculado (10-30ms de voz) fora do loop de
otimizao
2. A sequncia de excitao para o filtro determinada pelo critrio de
erro poderado

3. Os coeficientes quantizados do filtro e da excitao so enviadas para


o Receptor

Decodificao
A sequncia de excitao recebida filtrada pelo filtro
recebido, para gerao do sinal sintetizado
UFABC - ESTI012 - COMUNICAES MULTIMDIA

18

Preditor de Curto Prazo:


Modela a envoltria do espectro da voz
Num segmento de tamanho de N amostras, a funo de transferncia do filtro s-deplos de ordem p, pode ser descrita por:
=

1
1()

1=1

(1)

Onde:

= =1

(2)

o preditor de curto prazo


Os coeficientes {ak} so calculados pelo mtodo da Predio Linear, por isso so
chamados de parmetros LPC, ou coeficientes de predio de ordem p.

UFABC - ESTI012 - COMUNICAES MULTIMDIA

19

Preditor de Curto Prazo:


Modelagem da Envoltria Espectral

Densidade Espectral de Potncia de um sinal de voz sonoro (Voiced)


modelado por uma Predio Linear de Ordem 10 (LPC10)
UFABC - ESTI012 - COMUNICAES MULTIMDIA

20

Equaes da Anlise por Predio Linear


Amostra de voz no instante n aproximada por combinao linear de p amostras passadas:

= =1 ( ),

(3)

Onde s(n) a amostra de voz e ()

a amostra predita no instante n.


Resduo, ou Erro de Predio definido como:

(4.1)

= =1 ( )

(4.2)

Pela TZ inversa:
=

(5)

= 1 =1

(6)

A(z) Filtro Inverso, de H(z) na equao (1)


UFABC - ESTI012 - COMUNICAES MULTIMDIA

21

Solues de curto prazo, por Minimizao do


Erro Quadrtico Mdio (MMSE)
=1 (, ) = , 0 ,
Onde

i=1,...,p

, = ( )

(7)
(8)

O conjunto de p equaes determinadas, com os limites da somatria em (8), temos:

1. -<n<, mtodo da Autocorrelao janelado, com clculo eficiente pelo


algoritmo de Levinson-Durbin (equaes normais, Yule-Walker). Sempre possui
soluo estvel para H(z).
2. 0 n N-1, mtodo da Covarincia, preciso, mas nem sempre estvel para H(z).
Uma variao denominada de mtodo da Covarincia estabilizado.
3. Soluo recursiva, mtodo Lattice (Algoritmo de Burg), boa para deteco de
sinais impulsivos.
UFABC - ESTI012 - COMUNICAES MULTIMDIA

22

Algumas Consideraes:
i. Ordem de predio p geralmente entre 8 e 16.
ii. O valor inferior est relacionado ao tempo da onda sonora ir e voltar
ao percorrer o trato vocal (~1ms); o limite superior deve-se
saturao do ganho de predio e eficincia de clculo.
iii. Pela rapidez e estabilidade, o mtodo da autocorrelao muito
empregado. No algoritmo de Levinson-Durbin, uma recurso se
atualiza com um parmetro intermedirio ki, denominado
coeficiente de reflexo, ou Coeficiente de Correlao Parcial:
()

(1)

(1)

UFABC - ESTI012 - COMUNICAES MULTIMDIA

(9)

23

Representao Matricial
(Equaes Levinson ou Yule-Walker)
R =
Onde:
R a matrix (pxp) Toeplitz de autocorrelao, com elementos
= ( )
r o vetor de autocorrelaes com elementos r(i) = R(i)
a o vetor dos coeficientes da Predio Linear
Cuja soluo obviamente

Resolvida de forma eficiente computacionalmente pelo algoritmo de Levinson-Durbin

UFABC - ESTI012 - COMUNICAES MULTIMDIA

24

O Preditor de Longo Prazo (LTP) e chave V/UV


Efetua a predio do
perodo de Pitch,
modelando a estrutura
fina do espectro
Acerta a ponderao da
Fonte de
Excitao(U/UV)
Voiced/Unvoiced
(Sonora/Surda)

Picos
determinam
o Perodo
Pitch
UFABC - ESTI012 - COMUNICAES MULTIMDIA

25

Busca de Soluo LP tima:


Busca Exaustiva nas possveis Excitaes (Codebook)

UFABC - ESTI012 - COMUNICAES MULTIMDIA

26

Onde:
Codebook: Livro de Cdigos de Possveis Excitaes Quantizadas
P(z), Filtro de Predio de Longo Prazo (LTP), recupera u(n) de e(n)
via 1/P(z)

1/A(z) Filtro de Sntese, para obteno de (),

e comparar com s(n)


A(z)/A(z/) Filtro de Ponderao para determinar o erro de
codificao:
Atribui menor erro nas regies onde o sinal possui baixa densidade
de potncia e atribui maior erro onde a densidade de potncia do
sinal alta, ou seja, com melhores condies de mascarar o erro.
UFABC - ESTI012 - COMUNICAES MULTIMDIA

27

PONDERAO ()
A envoltria do erro de reconstruo
spectral (pontilhada) fica abaixo do sinal
no Loop ApS

Em outros momentos a envoltria do erro


de reconstruo spectral pode ficar acima
do sinal (entre 900 e 2kHz)
UFABC - ESTI012 - COMUNICAES MULTIMDIA

28

CELP - Code-excited linear prediction


Soluo tima para LP Anlise-Por-Sntese

Clculo dos Parmetros de Predio Linear


UFABC - ESTI012 - COMUNICAES MULTIMDIA

29

CELP Code Excited Linear Prediction


Codificador CELP
codifica o sinal s(n) na
sequncia de bits c(n)
O Codificador inclui um
loop de Anlise-PorSntese, alimentado por
um sinal de erro e(n)
O Codebook modela os
tipos de excitao

UFABC - ESTI012 - COMUNICAES MULTIMDIA

30

Code-excited linear prediction (CELP) Loop ApS

UFABC - ESTI012 - COMUNICAES MULTIMDIA

31

Code-excited linear prediction (CELP) Decoder

UFABC - ESTI012 - COMUNICAES MULTIMDIA

32

Transformao Coeficientes LP na quantizao


Para Coeficientes de Reflexo, ou de correlao parcial: ki, para modelagem de
tubos acsticos do trato vocal:
< 1 , procedimento step-down (Levinson-Durbin)
Para i arco-seno dos kis:

= arcsin( )

Log-Area Ratio (LAR), =

1
1+

Line Spectral Pair (LSP) ou Line Spectral Frequency (LSF), razes dos polinmios,
modelo de glote totalmente aberta ou fechada:
= + 1
Q = 1
UFABC - ESTI012 - COMUNICAES MULTIMDIA

33

Nada perfeito: custo computacional


Busca Exaustiva gera atraso demasiado, inviabilizando implementao tima.
LD-CELP (low-Delay), buscam solues viveis, sub-timas:
IS-54, TDMA, usa o VSELP (Vector-Sum Codebook), quadros de 20ms
G723.1 MPE, Multi-Pulse Excitation, quadros de 30ms, LPC10 em
coeficientes LSPs
G729, G722.2 (AMR-WB), ACELP Algebraic CELP, Codebooks esparsos, isto ,
com muitos coeficientes nulos, e os demais +1 ou -1, para minimizar as
operaes (no necessita multiplicaes).

UFABC - ESTI012 - COMUNICAES MULTIMDIA

34

G722.2 (AMR-WB) - ACELP

UFABC - ESTI012 - COMUNICAES MULTIMDIA

35

Referncias
RAMIREZ, M. A.; MINAMI, M., Technology and Standards for Low-Bit-Rate

Vocoding Methods, in: Handbook of Computer Networks: LANs, MANs, WANs


the Internet and Global, Cellular, and Wireless Networks, Volume 2, Wiley, Ch89,
2008.

RAMIREZ, M. A.; MINAMI, M. and SREENIVAS, T. V., Models for Speech


Processing, in: Signals and Images: Advances and Results in Speech, Estimation,
Compression, Recognition, Filtering, and Processing, CRC Press, 2015.
HWANG, J.-N., Multimedia Networking: From Theory to Practice, Cambridge
University Press, Ch2, 2009.
MCLOUGHLIN, I., Applied Speech and Audio Processing: With MATLAB
Examples, Cambridge University Press, Ch5, 2009.

UFABC - ESTI012 - COMUNICAES MULTIMDIA

36

Potrebbero piacerti anche