Sei sulla pagina 1di 30

77

Captulo 3
Modelos Auditivos Computacionais
3.1 Introduo
No captulo 2 foram

abordados modelos fsicos do ouvido externo, mdio e interno. Neste
captulo iremos abordar esquemas de processamento de sinal que simulem, ainda que por
vezes com muitas simplificaes, o funcionamento do sistema auditivo perifrico. No se
trata portanto de modelos fsicos mas sim de sistemas funcionais, discretos no tempo,
prprios para a anlise de sinais atravs de mtodos computacionais. Os sistemas assim
obtidos devem ser, tanto quanto possvel, computacionalmente eficientes, retendo as
propriedades do sistema auditivo que se pretende simular. Tm aplicao em sistemas de
codificao, sntese e reconhecimento automtico de fala como mdulos de pr-
processamento para a anlise dos sinais, constituindo uma alternativa a mtodos
convencionais baseados na FFT. A aplicao mais importante destes sistemas em
reconhecimento automtico de fala, pois neste caso importante incluir as restries e
limitaes do sistema auditivo que tm impacto na percepo e segregao dos sons da fala.
Neste captulo iro ser abordados modelos de vrios tipos, e de complexidade tambm
muito varivel, mas que tm como caracterstica comum a anlise dos sinais em bandas de
frequncia, simulando assim, de alguma forma, o funcionamento da cclea. Comearemos
78 Captulo 3 - Modelos Auditivos Computacionais
pelos modelos mais complexos, isto , modelos cocleares definidos custa de filtros em
tempo discreto que correspondem a realizaes dos modelos fsicos analisados no captulo
2. Seguidamente sero analisados modelos menos complexos, mas de aceitao mais ou
menos generalizada, pelo menos na rea do reconhecimento automtico de fala, como o
caso da tcnica de anlise PLP (Perceptual Linear Prediction, [Hermansky, 90]) entre
outros. Estes modelos do nfase a alguma ou algumas propriedades do sistema auditivo, e
so geralmente conhecidos como modelos auditivos. No sero aqui considerados modelos
das CCIs e respectivas ligaes sinpticas s fibras do nervo coclear. Modelos deste tipo
sero abordados no captulo seguinte.
3.2 Modelos cocleares no domnio temporal
Os modelos cocleares so, na sua maioria, modelos lineares definidos no domnio da
frequncia. A fim de simular as propriedades no lineares do sistema auditivo como o
decrescimento da sensibilidade das respostas cocleares com o nvel de excitao de entrada,
necessrio converter os modelos para o domnio temporal. As solues encontradas para
este difcil problema so essencialmente de 3 tipos:
a) soluo numrica da equao diferencial do modelo;
b) utilizao de filtros de onda digitais (wave digital filters), e
c) utilizao de tcnicas digitais de projecto de filtros (usualmente transformao
bilinear de funes de transferncia do modelo).
A soluo da equao diferencial do modelo requer a discretizao das variveis
simultaneamente no domnio espacial e temporal. um mtodo muito exigente em termos
computacionais e com alguns problemas de convergncia. A transformao bilinear pode
tambm ser utilizada na discretizao temporal das equaes diferenciais que definem o
modelo. este o mtodo utilizado por Geisler e colaboradores [Geisler et al, 93] (verso do
modelo de 1993, anteriormente descrita).
Este mtodo no foi considerado neste trabalho embora tenham sido propostos algoritmos
robustos de resoluo das equaes diferenciais de modelos cocleares a uma e duas
dimenses [Neely, 81], [Diependaal et al, 87].
3.2 Modelos cocleares no domnio temporal 79
A tcnica de filtros de onda [Fettweis, 71, 86], [Fettweis & Meerktter, 75], consiste na
passagem de um circuito elctrico analgico (neste caso um modelo coclear definido custa
do circuito elctrico equivalente) para uma estrutura digital, utilizando a transformao
bilinear e respeitando as leis de Kirchoff do circuito. Variveis apropriadas so requeridas
nesta tcnica uma vez que a utilizao de tenses ou correntes conduz a estruturas em
tempo discreto irrealizveis. So por isso utilizadas variveis ditas de onda que no caso de
uma linha de transmisso representam efectivamente as ondas incidente e reflectida nessa
linha.
Este mtodo utilizado por vrios investigadores. Por exemplo Strube [Strube, 85], utiliza
o modelo de linha de transmisso (modelo clssico) mas simula as no linearidades variando
apenas a resistncia da impedncia da partio com a respectiva velocidade. Friedman
[Friedman, 90], utiliza a mesma tcnica mas considera um modelo (passivo) mais elaborado,
semelhante ao modelo de Allen, j referido. Gigure [Gigure & Woodland, 94] utiliza
tambm a tcnica dos filtros de onda digitais na implementao de um modelo activo
conseguido custa de fontes de presso cujo valor varia com a velocidade da partio.
Considera contudo uma impedncia da partio de apenas 2 ordem.
Existe tambm uma realizao de um modelo coclear analgico em hardware. Trata-se do
modelo desenvolvido por Zwicker [Zwicker, 86], utilizando resistncias, bobinas e
condensadores para simular cada seco coclear bem como uma malha de realimentao
com saturao para simular a transduo e consequente amplificao devida s CCEs. O
modelo simula de uma forma essencialmente correcta os fenmenos de combinao de tons.
Esta tcnica dos filtros de onda muito genrica e potente, perfeitamente aplicvel a
modelos cocleares definidos em termos de um circuito electroacstico. Apresenta tambm
uma srie de limitaes. Alm de ser uma tcnica computacionalmente muito pesada,
surgem problemas quando o nmero de seces consideradas baixo e quando so
introduzidas no linearidades no modelo [Strube, 85]. At ao momento no existem
descritas realizaes com filtros de onda de modelos activos mais detalhados, como os
referidos no captulo anterior. No caso destes modelos cada seco coclear do modelo ter
de ser representada por uma estrutura bastante complexa, o que levanta o problema do
compromisso entre a eficincia computacional e o rigor da modelao [Gigure &
Woodland, 94].
Finalmente, a tcnica da transformao de funes de transferncia, derivadas de um
modelo coclear, do domnio do tempo contnuo para tempo discreto, constitui um mtodo
80 Captulo 3 - Modelos Auditivos Computacionais
menos genrico mas muito mais eficiente. Com este mtodo obtm-se um modelo definido
custa de um banco de filtros. As funes de transferncia correspondem a relaes entre
grandezas fsicas (presso, velocidade ou deslocamento da partio), tomadas entre
sucessivas localizaes cocleares. Um modelo definido custa de um banco de filtros em
cascata representa a propagao de uma onda ao longo da partio coclear. Deve-se notar,
contudo, que esta tcnica s inteiramente vlida se for razovel admitir (como , de uma
maneira geral) que no existem reflexes das ondas cocleares, ou seja, que existe apenas
uma onda progressiva na cclea e portanto apenas um sentido de propagao do sinal nos
filtros. Alm disso, no caso de modelos activos, a insero de no linearidades ter de ser
feita de uma forma indirecta, nomeadamente por estimao da variao dos parmetros dos
filtros com o parmetro que define a actividade do modelo. Tambm neste caso, o modelo
resultante passa a ser muito menos eficiente que um modelo linear pois os parmetros dos
filtros iro variar para cada amostra do sinal de entrada. O parmetro deve variar de uma
forma aproximadamente sigmoidal, com o nvel de deslocamento (ou velocidade) ciliar.
Esta variao da sensibilidade do modelo com o nvel de sinal prende-se com a forma como
a transduo mecanoelctrica e electromecnica se desenvolve nas clulas ciliadas. Esta
forma de variao considerada muitas vezes, por exemplo em [Neely & Stover, 93] e
[Gigure & Woodland, 94].
O mtodo de transformao de um modelo coclear numa combinao de filtros em tempo
discreto, apesar das restries apontadas, apresenta um conjunto de vantagens, sendo a
mais importante a eficincia computacional do modelo resultante. Por isso, este mtodo foi
considerado no mbito deste trabalho e ser a seguir abordado com algum detalhe.
3.2.1 Modelo coclear com banco de filtros em cascata
A simulao do funcionamento da cclea no domnio temporal utilizando filtros digitais
1

uma abordagem utilizada desde cedo mas com pouca frequncia. Por exemplo, Eysholdt e
Mellet [Eysholdt & Mellert, 75], considerando um modelo coclear analtico antes descrito
por Schroeder [Schroeder, 73], tomaram a funo de transferncia associada a cada seco
da linha de transmisso do modelo (para a qual existia uma expresso analtica), admitindo
que cada seco terminada pela impedncia caracterstica da linha. Esta funo de

1
Apesar da designao ser corrente, mais correcto falar em filtros em tempo discreto.
3.2 Modelos cocleares no domnio temporal 81
transferncia depois aproximada por uma funo racional de 4 ordem, utilizando mtodos
numricos e depois convertida para tempo discreto por transformao bilinear.
Tambm em [Ambikairajah et al, 89] proposto um sistema idntico, utilizando porm uma
abordagem menos rigorosa que o caso anterior: cada seco da linha de transmisso
isolada das restantes tomando para tal uma impedncia de terminao constituda apenas
por uma resistncia em paralelo com uma bobina. O modelo assim caracterizado por uma
cascata de filtros, representando cada um deles uma seco coclear. Cada sesso coclear
simulada com um filtro em tempo discreto de 3 ordem, obtido a partir da funo de
transferncia do circuito elctrico relativo seco, utilizando para tal o mtodo da
invarincia impulsional. O que interessante verificar que, apesar das simplificaes
tomadas, as respostas obtidas com este modelo apresentam essencialmente a forma correcta
das respostas cocleares.
A maior parte dos modelos auditivos propostos utilizando filtros so modelos que
poderemos classificar abrangentemente como modelos funcionais ou fenomenolgicos.
Caracterizam-se por uma escolha priori da estrutura de filtros em cascata cujos
parmetros so depois ajustados de forma a que as respostas nas tomadas desses filtros
apresentem caractersticas das respostas cocleares. o casos dos modelos de Lyon [Lyon,
82; Slaney, 88], Goldstein [Goldstein, 90, 93], Seneff (estgio I) [Seneff, 88], OMard-
Meddis [OMard & Meddis, 96], Perdigo, [Perdigo & S, 95], entre muitos outros. Estes
modelos apresentam algumas caractersticas interessantes e so eficientes sob o ponto de
vista computacional. Alguns destes modelos so muito utilizados como sistemas de pr-
processamento em reconhecimento de fala e voltaro a ser referidos mais adiante.
Lyon e Mead [Lyon & Mead, 88], utilizando algumas simplificaes que se podem
considerar aceitveis, mostraram que sempre possvel considerar um modelo coclear como
uma cascata de filtros. De facto, admitindo no existirem reflexes cocleares, podem
sempre tomar-se as funes de transferncia das respostas pretendidas entre duas posies
cocleares determinadas.
O mtodo mais adequado de realizar um modelo coclear com filtros, consiste em partir de
um modelo fsico realista, como o modelo para a cclea humana apresentado no captulo 2.
Consideremos o caso de um modelo linear (com constante) definido no domnio da
frequncia. Se pretendermos conhecer, por exemplo o deslocamento ciliar, D
i
, num
conjunto de N localizaes particulares ao longo da extenso da cclea, x
n
, podemos tomar
as funes de transferncia desta varivel entre as sadas:
82 Captulo 3 - Modelos Auditivos Computacionais
H
D x
D x
n N
Dn
i n
i n
( )
( , )
( , )
,..,


1
1 , (3.1)
Resulta assim um modelo coclear definido custa de uma cascata de N filtros. Estes filtros
analgicos podem ser seguidamente transformados em filtros em tempo discreto utilizando,
por exemplo, a transformao bilinear. Surgem porm alguns problemas. O primeiro e mais
grave o seguinte: se as funes D
i
(x,) no forem funes de fase mnima, as funes de
transferncia H
Dn
() resultam em filtros instveis. Como o modelo em causa um modelo
activo, questes relativas a estabilidade podem, de facto, colocar-se. Por exemplo, na
determinao das funes de transferncia relativas presso transpartio para uma seco
coclear (ver figura 2.5 ou expresso (2.26)), o facto da impedncia da partio, Z
p
(x,),
apresentar parte real negativa, pode tornar estas funes de transferncia potencialmente
instveis [Mitra, 69]. Porm, no caso do modelo coclear de referncia, o facto da
impedncia Z
r
(x,) apresentar sempre parte real positiva para qualquer posio considerada
um indcio de estabilidade. Tambm, o facto da impedncia de entrada Z
in
(Z
r
em x=0;
figura 3.1) apresentar pequenas irregularidades para baixas frequncias indicia igualmente
estabilidade bem como reflexes pequenas ou nulas
2
. Mesmo assim, ao tomar uma
aproximao racional das funes de transferncia, pode acontecer que plos se situem fora
da regio de estabilidade. Neste caso os plos so reflectidos para o interior da regio de
estabilidade, o que tem apenas impacto na fase das respostas.
Outro problema prende-se com a transformao do sistema em tempo contnuo, H
Dn
(),
num sistema em tempo discreto, H
Dn
(z=e
j
). Se as respostas do modelo resultam da
resoluo de uma equao diferencial, as funes de transferncia resultantes no
correspondem necessariamente a funes racionais em s=j. No entanto, considerando a
soluo do modelo atravs de um conjunto finito de seces cocleares, tal como foi feito no
captulo 2, ento as funes de transferncia sero necessariamente racionais, embora o
nmero de plos e zeros destas funes de transferncia seja muito elevado. Isto significa
que uma aproximao racional com um nmero reduzido de zeros e plos , em termos
prticos, sempre necessria.

2
A inexistncia de reflexes deve-se tambm impedncia do helicotrema que foi escolhida de forma a
corresponder impedncia caracterstica da linha em x=L.
3.2 Modelos cocleares no domnio temporal 83

10
1
10
2
10
3
10
4
10
5
100
105
110
115
120
125
f [Hz]
dB
|Zin
| (modelo de ref.)

10
1
10
2
10
3
10
4
10
5
0
2
4
6
8
10
12
14
x 10
5
Re{Zin
} (modelo de ref.)
f [Hz]

a) b)
Figura 3.1 - Impedncia coclear de entrada para o modelo da cclea humana discutido no captulo 2.
a) Mdulo; b) parte real. A parte real desta impedncia positiva para qualquer frequncia, o que s
por si indicia estabilidade do modelo. Esta caracterstica verifica-se igualmente para a impedncia da
linha em qualquer posio tomada.
Em vez de se considerar uma aproximao racional das funes de transferncia em
seguida de transformao bilinear, pode igualmente considerar-se uma passagem directa do
plano s para o plano z forando que as respostas na frequncia (onde z=e
j
) apresentem
uma forma tanto quanto possvel semelhante resposta original. Foi este o mtodo
utilizado, sendo as aproximaes feitas atravs de um critrio de mnimos quadrados. Este
mtodo corresponde, na sua essncia, ao mtodo de Prony na modelao ARMA [Therrien,
92, pp.550]
3
. No se colocam problemas de aliasing com este mtodo, apesar das
respostas perto de = diferirem, naturalmente, das respostas originais perto de f=f
s
/2,
onde f
s
a frequncia de amostragem. Este problema s premente para os primeiros
filtros, com frequncias caractersticas (CFs) elevadas, pois as respostas do modelo
decrescem muito rapidamente depois de se atingir a respectiva frequncia caracterstica.
Alm das funes de transferncia relativas ao deslocamento ciliar, pode igualmente
considerar-se funes de transferncia relativas presso transpartio. O deslocamento
ciliar pode ser posteriormente obtido atravs da sua relao com a presso (ver por
exemplo a expresso (2.86)), resultando em filtros adicionais ligados s tomadas da cascata
de filtros, tal como se representa na figura 3.2. Esta estrutura e filtros utilizada na maioria

3
Se for H() a funo a aproximar por H
1
()=B()/A() o erro da aproximao E=HB/A=(HAB)/A. O
mtodo de Prony em frequncia consiste em minimizar por mnimos quadrticos apenas o numerador de E,
ou seja, a minimizar E
A
=HAB, o que resulta num problema linear. Este mtodo pode ser usado
iterativamente, considerando em cada iterao a nova estimao de A() (iterative prefiltering).
84 Captulo 3 - Modelos Auditivos Computacionais
dos modelos funcionais como por exemplo no estgio I do modelo de Seneff [Seneff, 88];
no modelo de Kates [Kates, 91], etc.
H
c1
() H
c2
()
H
cN-1
()
H
cN
()
H
p1
()
P
x0
() P
x1
()
D
ix1
()
H
p2
() H
pN-1
() H
pN
()
P
xN
()
D
ixN
()
P
x2
()

D
ix2
() D
ixN-1
()
Figura 3.2 - Modelo coclear com banco de filtros em cascata e em paralelo.
Alm dos N filtros do modelo, deve considerar-se ainda um filtro adicional que tome em
conta a contribuio da transformao do sinal de entrada at primeira localizao coclear
considerada. Inclui portanto a contribuio do ouvido externo e mdio bem como da cclea
at a essa primeira localizao considerada. Atendendo expresso (3.1), este primeiro
filtro deve ter como resposta em frequncia a funo D
i
(x
0
,)/X(), onde X() o espectro
do sinal de entrada. Na figura 3.3 mostra-se esta resposta para o modelo coclear de
referncia onde x
0
=0.7cm, bem como a aproximao racional, H
D0
(), de ordem 18, para
uma frequncia de amostragem de 20kHz. Como se pode observar, a aproximao racional
bastante fiel. Considerando filtros com ordem inferior (12 por exemplo) as respostas que
se conseguem obter so ainda aceitveis, embora no se consiga modelar o decaimento
brusco das respostas para frequncias inferiores a 400Hz.
Usualmente, em modelos funcionais, este primeiro filtro definido como uma aproximao
da funo de transferncia relativa ao ouvido mdio (essencialmente um filtro passa alto), o
que no inteiramente correcto pois a primeira frequncia caracterstica de interesse
(relativa 1 tomada da cascata) corresponde, quase sempre, a uma posio coclear j
bastante afastada da base da cclea.
Na figura 3.4 mostra-se o mdulo e fase das funes de transferncia relativas ao
deslocamento ciliar para algumas posies especificadas na legenda da figura. O mdulo
destas funes de transferncia apresenta um pico correspondente frequncia
caracterstica (CF) da posio em causa, logo seguido de uma depresso correspondente
CF da posio anterior. O comportamento da funo de transferncia para frequncias
muito superiores CF no tem de ser muito detalhadamente representada numa
3.2 Modelos cocleares no domnio temporal 85
aproximao com filtros pois as respostas so j praticamente nulas nesta gama de
frequncias.
10
2
10
3
10
4
-120
-100
-80
-60
-40
-20
0
|Di0
(f )|, |HD0
()|
f [Hz]
dB
10
2
10
3
10
4
-7
-6
-5
-4
-3
-2
-1
0
f [Hz]
x
arg{Di0
(f )}, arg{HD0
()}
Figura 3.3 - Resposta em frequncia correspondente a D
i
(x
0
,) onde x
0
=0.7cm (curva trao contnuo)
e a sua aproximao racional, H
D0
(), (curva a tracejado) definida com 18 zeros e 18 plos. Neste
caso a frequncia indicada em abcissa corresponde expresso f=f
s
/2, onde f
s
a frequncia de
amostragem, f
s
=20kHz. a) Mdulo; b) fase em mltiplos de . O deslocamento ciliar foi normalizado
de forma a apresentar ganho mximo unitrio na localizao de mxima sensibilidade.

10
2
10
3
10
4
-20
-10
0
10
20
f [Hz]
dB
|H(f )|
10
2
10
3
10
4
-1.2
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
f [Hz]
x
arg{H(f )}
a) b)
Figura 3.4 - Funes de transferncia (em tempo contnuo) relativas ao deslocamento ciliar: a) -
mdulo; b) - fase. As frequncias caractersticas vo desde 8kHz a 200Hz correspondentes a posies
cocleares, igualmente espaadas, desde 0,7 a 3cm. So tomadas 40 posies cocleares entre estes
valores, dando origem a 39 funes de transferncia. As curvas dizem respeito s tomadas
4,12,20,28,36 (CFs: 6.25, 3.17, 1.58, 0.76, 0.33 kHz).
As propriedades das funes de transferncia podem tambm ser caracterizadas a partir dos
resultados assimptticos do modelo coclear [Perdigo et al, 96]. Vejamos o caso das
funes de transferncia relativos presso. Como foi referido, a onda de presso, antes de
atingir a posio de ressonncia, decresce a um ritmo de aproximadamente -0,65dB/mm
(seco 2.4, expresso (2.60) ou figura 2.10a)). Assim a funo de transferncia para
86 Captulo 3 - Modelos Auditivos Computacionais
frequncias inferiores CF tem um ganho praticamente fixo de cerca de -0,65(x
n
-x
n-1
) dB.
Para frequncias superiores CF o ganho depende do declive de decrescimento da onda de
presso. Se a massa da partio constante, o ganho em dB tende a ser tambm neste caso
aproximadamente constante e proporcional a x
n
-x
n-1
(expresso (2.49)). No caso do
deslocamento ciliar, aplicam-se as mesmas propriedades, embora agora se deva tambm
considerar a funo de transferncia entre deslocamento e presso transpartio (expresso
(2.86)).
Na figura 3.5 mostram-se as respostas relativas ao modelo de referncia em tempo
contnuo, bem como as respostas em tempo discreto relativas a 5 tomadas da cascata de
filtros. Foi considerada uma aproximao de cada funo de transferncia com 6 zeros e 6
plos. Como se pode observar, esta modelao bastante razovel; as diferenas mais
significativas ocorrem perto da frequncia de Nyquist (f
s
/2).
Na figura 3.6 mostram-se as respostas relativas ao mesmo modelo, mas agora para uma
frequncia de amostragem de 8kHz. Neste caso consideraram-se 34 filtros de 6 ordem,
bem como um primeiro filtro de ordem 12. As frequncias caractersticas vo desde 3400Hz
a 200Hz e, tal como anteriormente, as posies cocleares so uniformemente tomadas entre
as posies extremas, neste caso entre 1,3 cm e 3,0 cm. A aproximao com filtros tambm
neste caso se pode considerar bastante razovel. A fase das respostas difere apenas para
frequncias prximas de =, onde obviamente tm de apresentar valores mltiplos de .

10
2
10
3
10
4
-120
-100
-80
-60
-40
-20
0
f [Hz]
dB
|D(f )|, |D()|

10
2
10
3
10
4
-6
-4
-2
0
f [Hz]
x
arg{D(f )}, arg{D()}
a) b)
Figura 3.5 - Respostas em frequncia de 5 sadas da cascata de filtros em funo da frequncia nas
tomadas referidas na figura anterior. As curvas a trao contnuo representam as respostas do modelo
coclear original e as curvas a tracejado as respostas dos filtros em tempo discreto (onde f=f
s
/2,
f
s
=20kHz). O deslocamento foi normalizado de forma a apresentar ganho mximo unitrio.
3.2 Modelos cocleares no domnio temporal 87

10
2
10
3
-120
-100
-80
-60
-40
-20
0
|D(f )|, |D()|
f [Hz]
dB
10
2
10
3
-8
-6
-4
-2
0
2
arg{D(f )}, arg{D()}
f [Hz]
x
a) b)
Figura 3.6 - Respostas do modelo coclear definido com 35 filtros, com frequncias caractersticas de
3400 Hz a 200 Hz e para uma frequncia de amostragem de 8kHz (tomadas 4, 11, 18, 25 e 32). Os
filtros so definidos com 6 zeros e 6 plos excepto o primeiro filtro que apresenta ordem 12. A trao
contnuo indicam-se as respostas originais e a tracejado as respostas nas tomadas da cascata.
O modelo assim definido, com 35 filtros em cascata, ser um dos modelos a considerar nos
testes comparativos que sero feitos nos captulos 5 e 6. Ser referenciado como o modelo
da cclea humana (com a sigla "COCH").
3.2.2 Revcors e filtros gamma-tone
Uma forma alternativa de modelar todo o sistema auditivo perifrico consiste em utilizar
como estmulo um sinal de rudo branco e calcular a correlao cruzada entre a ocorrncia
dos disparos das fibras do nervo coclear e o sinal de entrada [de Boer & Jongh, 78]. Esta
tcnica foi apresentada originalmente por de Boer [de Boer, 67] e as funes de correlao
assim obtidas so designadas por revcors (de reverse correlation). Esta modelao
resultou num conjunto de solues em termos de bancos de filtros que representam o
sistema auditivo perifrico e que so bastante conhecidas e aceites no seio da comunidade
cientfica ligada anlise e processamento de sinais da fala.
Na figura 3.7 indica-se o sistema idealizado do sistema auditivo perifrico no estudo das
funes revcor. Convm notar que se considera um filtro linear para descrever o processo
de codificao coclear. Os resultados obtidos com esta tcnica indicam que, em termos da
predio dos padres de disparos neuronais, um modelo com um filtro linear
88 Captulo 3 - Modelos Auditivos Computacionais
suficientemente preciso para descrever a codificao coclear [de Boer & Jongh, 78]. De
facto, o uso de excitao com rudo branco lineariza um conjunto de fenmenos no
lineares como por exemplo a adaptao (captulo 4) e a variao das respostas em funo
do nvel de excitao.

x(t)
(rudo branco)
Sistema
Linear
h(t)
No Linearidade
(sem memria)
Gerador
de impulsos
y(t) z(t)
s(t)
(trem de
impulsos)
Figura 3.7 - Modelo tomado no estudo das funes revcor
O mtodo envolve a estimulao do ouvido num animal experimental com rudo branco, a
gravao do trem de potenciais de aco (disparos neuronais) que ocorrem numa fibra do
nervo coclear e o clculo da funo de correlao cruzada com base neste trem de impulsos
de sada. Atendendo figura 3.7, a correlao cruzada entre a entrada, rudo branco de
mdia nula e varincia
2
, e a sada do filtro linear de resposta a impulso h(t) :
{ }
xy xx
E x t y t h h ( ) ( ) ( ) ( ) ( ) ( ) +
2
, (3.2)
Tendo em conta ainda a figura 3.7, mostra-se que sendo s(t) um trem de impulsos e sendo a
probabilidade de ocorrncia dos impulsos proporcional a z(t), a correlao cruzada
xs

proporcional a
xz
. Tambm, para o caso de uma distribuio normal de entrada (teorema
de Price, [Papoulis, 84]), verifica-se igualmente haver proporcionalidade entre
xz
e
xy
.
Assim, a correlao cruzada entre entrada e sada proporcional resposta a impulso h(t):
h(t)= C
xs
(t), onde C uma constante. O sistema linear que caracteriza a resposta coclear
pode portanto ser obtido atravs de
sx
(-t)=
xs
(t), a funo revcor.
As caractersticas das funes revcor podem ser preditas tendo em conta que o filtro h(t) da
figura 3.7 um filtro sintonizado frequncia caracterstica relativa posio coclear
considerada. Sistemas lineares sintonizados tm uma resposta impulsiva que oscilatria e
amortecida; o perodo inversamente proporcional frequncia central e a envolvente decai
a um ritmo que inversamente proporcional largura de banda. De facto, a resposta das
fibras do nervo coclear a uma excitao intensa e breve (click), em termos da taxa mdia
de disparos, d uma indicao da selectividade em frequncia da cclea. Na figura 3.8
indicam-se as respostas de 3 fibras do nervo auditivo de chinchila a um estmulo muito
breve (click) e as respectivas funes revcor para excitao de rudo branco. Devido
3.2 Modelos cocleares no domnio temporal 89
rectificao de meia onda operada pelas CCIs cada fibra responde apenas parte positiva da
resposta coclear na posio de enervao. Quando a polaridade do estmulo invertida as
respostas mantm-se peridicas mas em meios perodos alternados. Note-se a ausncia de
respostas (acima do valor espontneo) nos primeiros 2 ms das respostas que devida ao
atraso de propagao ao longo da cclea e tambm ao perodo de inactivao das fibras
(captulo 4).
Figura 3.8 - Respostas de fibras do nervo auditivo a clicks (coluna esquerda) e funes revcor
(coluna direita). As respostas a clicks de polaridade invertida (clicks de condensao) esto
sobrepostas de forma invertida. Ambas as respostas correspondem a histogramas ps-estmulo dos
disparos das fibras. As frequncias caractersticas (CF) de cada fibra e a intensidade dos estmulos
esto indicadas em cada linha. [Ruggero, 92].
Como se pode observar pela figura, as funes revcor apresentam uma similaridade notvel
com as respostas a clicks. Diferem contudo nalguns aspectos. As funes revcor no
apresentam rectificao, o que exemplifica a tendncia desta tcnica para linearizar
sistemas que so no lineares. Tambm o facto de a excitao com rudo ser um sinal
contnuo, coloca a fibra num estado de adaptao constante, o que no acontece no caso da
resposta a click onde o estmulo to breve que no produz adaptao. Assim, apesar das
funes revcor mostrarem uma alterao de forma quando o nvel de excitao varia
(devido ao abaixamento de sensibilidade das respostas cocleares com o nvel de excitao),
90 Captulo 3 - Modelos Auditivos Computacionais
estes efeitos so menos marcados que no caso das respostas a clicks. Precisamente por
isto, a indicao mais vlida das funes revcor diz respeito s respostas da partio coclear
e no tanto s respostas do sistema auditivo perifrico no seu todo.
A aplicao das funes revcor na determinao de um conjunto de filtros que caracterizam
as respostas cocleares derivou da aproximao destas funes revcor pelas chamadas
funes de tom gama ou gamma-tone
4
. Mostra-se que as funes revcor se podem
aproximar razoavelmente pela seguinte expresso [de Boer, 83]:
{ } h t At e e u t
N bt j t
( ) Re ( )
( )

+ 1
0

, (3.3)
onde u(t) a funo degrau unitrio. Esta funo corresponde ao produto de um cosseno
(tom frequncia
0
) por uma funo gama e da o nome atribudo. Um banco de filtros
cocleares pode ser desenvolvido com base na transformada desta expresso. Atravs do par
de transformada de Laplace, t
N-1
exp(-at)u(t) (N)/(s+a)
N
, teremos ento relativamente
resposta h(t):
( ) ( )
H s
A N e
s b j
e
s b j
j
N
j
N
( )
( )

+
+
+ +

1
]
1
1

2
0 0


. (3.4)
A constante A arbitrria e na prtica toma um valor de forma que o ganho do pico da
resposta em frequncia seja unitrio. A frequncia
0
corresponde frequncia
caracterstica (CF) e o parmetro b, bem como N, definem a largura de banda da resposta.
O valor de N adequado para representar as respostas revcor deve ser entre 4 e 8 [de Boer,
83], mas o valor N=4 usualmente tomado (por exemplo em [Patterson et al, 92, 93],
[Carney, 93], etc.).
Uma implementao de um modelo auditivo baseado em filtros deste tipo foi proposta por
Patterson e colegas [Patterson et al, 92], e o modelo resultante conhecido como modelo
(ou banco de filtros) de Patterson-Holdsworth [Slaney, 93], [Bicho et al, 93]. A
implementao consiste em considerar um filtro em banda base, isto com
0
=0, e que
corresponde cascata de N filtros de ordem 1 (s com um plo). Este filtro definido em
tempo discreto utilizando a tcnica da invarincia impulsional. O sinal de entrada
multiplicado por uma exponencial complexa frequncia
0
e, de pois de filtrado com o

4
Conhecidas como funes gammatone ou gamma-tone ou mesmo -tone [Lyon, 96].
3.2 Modelos cocleares no domnio temporal 91
filtro na banda base, novamente multiplicado pela mesma exponencial, de forma a obter-se a
resposta desejada. Pode igualmente considerar-se tanto os plos como os zeros da
expresso (3.4), tal como fez Slaney, [Slaney, 93] para o caso de N=4, resultando numa
implementao deste modelo tanto ou mais eficiente e sem necessidade de modulao. Em
ambas as implementaes o parmetro b tomado proporcional a uma medida psicofsica
da largura de banda do sistema auditivo. Usualmente so utilizadas as medidas referidas
como ERB - equivalente rectangular bandwidths ou CB (ou CBR) - taxa de banda crtica
medida na escala Bark [Zwicker, 61], [Traunmller, 90], [Buser & Imbert, 92]
5
.
Na figura 3.9 mostram-se as respostas em frequncia relativas a este modelo segundo a
implementao de Slaney. Note-se que o modelo resultante definido como um banco de
filtros em paralelo, todos com a mesma entrada. No existe assim qualquer tipo de
dependncia entre sucessivos filtros como acontece no caso de um banco de filtros em
cascata, embora esta dependncia tenha apenas significado caso se considere um modelo
no linear.
Uma deficincia na modelao gamma-tone que as respostas resultantes so bastante
simtricas, isto , no existe uma grande diferenciao entre os declives da atenuao das
respostas acima e abaixo da frequncia caracterstica. Uma forma de contornar esta
limitao consiste em utilizar filtros s com plos e detalhadamente discutida em [Lyon,
96]. De qualquer forma, apesar da modelao gamma-tone ser largamente conhecida e
aceite, a modelao atravs de uma cascata de filtros apresenta a vantagem de representar a
propagao das ondas acsticas ao longo da cclea. Assim, para descrever de uma forma
conveniente e prxima da realidade fenmenos no lineares de interaco de tons
(supresso de 2 tons, por exemplo), basta considerar um modelo no linear (variando as
caractersticas dos filtros da cascata em funo do nvel na sua sada), uma vez que este

5
O valor ERB corresponde medida dos limiares de deteco de uma sinuside, centrada (espectralmente)
num sinal de rudo com espectro rectangular, em funo desta largura. A definio das bandas crticas
envolve igualmente experincias de masking, mas usualmente com sons mais complexos onde se aplicam
diferentes regras de soma de loudness. As bandas crticas correspondem aproximadamente a 1.5mm de
separao na partio coclear, sugerindo um conjunto de 24 filtros passa banda na caracterizao da
resoluo em frequncia do ouvido humano. A medida perceptual chamada escala Bark ou critical-band
rate define a resoluo em frequncia na qual 1 Bark cobre a largura de uma banda crtica. Existem
definidas muitas expresses analticas que relacionam a escala Bark com a frequncia [Traunmller, 90].
Uma escala perceptual relacionada e muitas vezes usada em modelos auditivos, a escala mel que mede a
sensao subjectiva de tom (pitch) em funo da frequncia. Esta escala utilizada, por exemplo, na
(largamente conhecida) modelao MFCC -Mel-Frequency Cepstral Coeficients [Davis & Mermelstein,
80].
92 Captulo 3 - Modelos Auditivos Computacionais
efeito se propaga naturalmente pelos estgios adjacentes. Tal mostrado em [Perdigo &
S, 95], [Neely & Stover, 93], [Gigure & Woodland, 94] ou em [Geisler et al, 93]. Apesar
desta forma natural de modelar o funcionamento da cclea, convm referir que existe
tambm um estudo recente [OMard & Meddis, 96], onde um modelo no linear baseado
num banco de filtros em paralelo, proposto e que apresenta resultados em boa
correspondncia com um conjunto de resultados experimentais conhecidos.

10
2
10
3
-120
-100
-80
-60
-40
-20
0
f [Hz]
dB
|H(f )|

10
2
10
3
-4
-3
-2
-1
0
1
2
f [Hz]
x
arg{H(f )}
a) b)
Figura 3.9 - Respostas em frequncia de filtros gamma-tone (de ordem 8, N=4) para 5 frequncias
caractersticas: 3.03, 1.83, 1.07, 0.6 e 0.3 kHz. Escala ERB de acordo com [Glasberg & Moore, 90].
Foi usada a implementao em MatLab publicada em [Slaney, 94]. a) Mdulo; b) fase.
3.3 Modelos funcionais
Uma outra possibilidade de modelao coclear consiste em definir um banco de filtros que
apresente respostas em concordncia com as principais caractersticas das respostas
cocleares, nomeadamente um pico espectral bem proeminente frequncia caracterstica
(CF) e um decaimento das respostas para frequncias tanto acima como abaixo da CF mas
muito mais pronunciado acima da CF. So assim referidos como modelos funcionais ou
fenomenolgicos uma vez que pretendem predizer relaes entrada-sada relativas s
respostas cocleares sem no entanto considerar os detalhes dos processos fsicos envolvidos
nesta codificao. Neste tipo de abordagem muitas vezes as caractersticas dos filtros so
definidas priori, como a sua estrutura e nmero de zeros e plos. Com um banco de
filtros em cascata cada filtro opera a sucessivamente frequncias mais baixas de forma que o
efeito global filtrar passa-baixo sucessivamente o sinal de entrada. Consegue-se desta
3.3 Modelos funcionais 93
forma declives das respostas para frequncias acima da CF muito acentuadas o que seria
apenas conseguido num banco de filtros em paralelo com filtros de ordem elevada. Modelos
deste tipo so razoavelmente eficientes. Segue-se uma breve descrio dos modelos mais
significativos deste tipo de modelao da periferia auditiva.
3.3.1 Modelo de Lyon
Este modelo, [Lyon, 82], [Slaney, 88], [Slaney, 94], segue o diagrama de blocos da figura
3.2, isto , consiste numa cascata de filtros que representa a propagao de ondas de
presso na cclea e adicionalmente, em cada tomada da cascata, so considerados outros
filtros que convertem presso em velocidade ou deslocamento da partio. No modelo
original consideram-se 80 seces ou estgios de ordem 2 para uma frequncia de
amostragem de 16kHz. Os filtros da cascata so constitudos por filtros tipo notch,
apresentando primeiro um plo seguido logo de um zero a uma frequncia ligeiramente
superior. Esta modelao est essencialmente de acordo com as funes de transferncia
relativas presso transpartio, embora a ordem do filtros a considerar deva ser superior a
2 para se obter uma atenuao considervel da funo de transferncia para frequncias
superiores CF
6
(ver figura 3.4). Considera-se neste modelo um filtro de pr-nfase de
ordem 3 no incio da cascata. Este modelo define ainda um estgio rectificao de meia-
onda e um estgio de ganho automtico (AGC), associado a cada tomada da cascata de
filtros, que permite uma representao simplificada do funcionamento das CCIs.
Na figura 3.10 apresentam-se as respostas deste modelo definido com 64 seces para uma
frequncia de amostragem de 8kHz. As respostas nesta figura dizem respeito a CFs
prximas das que se apresentam na figura 3.9. Como se pode observar, neste modelo existe
uma diferenciao clara entre os declives das respostas abaixo e acima da CF.

6
Por exemplo, um filtro em tempo contnuo de 2 ordem definido com um par de zeros e de plos
complexos conjugados e ganho unitrio para =0, apresenta uma atenuao para frequncias muito
superiores CF igual relao entre as frequncias do par de plos e do par de zeros: (
p
/
z
)
2
. Como estas
frequncias tm de ser muito prximas (ver figura 3.4) a atenuao proporcionada por um filtro de 2 ordem
muito baixa. Apenas com filtros de ordem superior se pode conciliar estas duas especificaes
contraditrias.
94 Captulo 3 - Modelos Auditivos Computacionais

10
2
10
3
-80
-60
-40
-20
0
20
f [Hz]
dB
|H(f )| (Lyon)

10
2
10
3
-2.5
-2
-1.5
-1
-0.5
0
0.5
1
f [Hz]
x
arg{H(f )} (Lyon)
a) b)
Figura 3.10 - Respostas em frequncia relativas ao modelo de Lyon (64 seces) para 5 frequncias
caractersticas: 3.0, 2.0, 1.0, 0.6 e 0.3 kHz. Implementao de acordo com [Slaney, 94]. a) Mdulo;
b) fase.
3.3.2 Modelo de Seneff
O modelo de Seneff, [Seneff, 88], segue igualmente o esquema da figura 3.2. O filtro inicial
de pr-nfase um filtro FIR, passa-alto de ordem 8. Os filtros da cascata apresentam
ordem 2 e os filtros ligados s tomadas da cascata so de ordem 4. O modelo definido
com 40 seces e uma frequncia de amostragem de 16kHz. No possvel alterar estas
duas especificaes. Contudo, uma vez que o modelo auditivo de Seneff foi alvo de
algumas comparaes em sistemas de reconhecimento automtico de fala, considerou-se
tambm neste trabalho a possibilidade de comparar este modelo com outros. Para isso fez-
se uma converso deste modelo para uma frequncia de amostragem de 8kHz, utilizando
um mtodo de mnimos quadrados, de forma idntica ao que foi feito relativamente ao
modelo coclear de referncia. So consideradas as ltimas 35 sadas das 40 sadas
inicialmente definidas para o modelo, onde a CF mxima de cerca de 3,6kHz. O modelo
resultante tem apenas filtros em cascata de 6 ordem, e as respostas em frequncia do
modelo esto representadas na figura 3.11. Note-se que este modelo corresponde apenas ao
estgio I do modelo auditivo global que inclui um outro estgio referente modelao das
CCIs, que ser alvo de anlise no captulo seguinte.
3.3 Modelos funcionais 95

10
2
10
3
-100
-80
-60
-40
-20
0
f [Hz]
dB
|H(f )| (Seneff)

10
2
10
3
-20
-15
-10
-5
0
f [Hz]
x
arg{H(f )} (Seneff)
a) b)
Figura 3.11 - Modelo de Seneff (estgio I) convertido para uma frequncia de amostragem de
8kHz, tomando 35 filtros com CFs at 3600Hz. As curvas correspondem s tomadas 4, 11, 18, 25 e
32. a) Mdulo; b) fase.
3.3.3 Modelo de Kates
O modelo de Kates [Kates, 91, 93] no difere muito dos modelos anteriormente descritos
quanto sua estrutura, seguindo igualmente o esquema da figura 3.2. Os filtros da cascata
so passa-baixo de ordem 3. Quanto aos filtros em paralelo, existe um filtro inicial de ordem
1 com o significado de converso de presso para velocidade da partio coclear, seguido
de um filtro de 2 ordem de acordo com a teoria do second filter (captulo 2). Kates
considera 112 seces no modelo e uma frequncia de amostragem de 40kHz. Na figura
3.12 mostram-se as respostas em frequncia deste modelo relativas a 5 tomadas da cascata.
Note-se a depresso espectral bem evidente para CFs elevadas e que so devidas ao
second filter. A selectividade em frequncia das respostas muito mais baixa que no caso
dos outros modelos. Por outro lado, a fase das respostas apresenta uma variao muito
acentuada.
O aspecto mais interessante deste modelo que se trata de um modelo no linear: os
coeficientes dos filtros variam com o nvel de excitao. As sadas dos filtros so aplicadas a
um modelo do funcionamento das CCIs, sendo as respostas resultantes usadas para ajustar
os factores de qualidade dos filtros do modelo. Como j foi referido anteriormente, este tipo
de modelao adequado para simular o funcionamento no linear da cclea como o caso
da supresso de 2 tons. Por exemplo, uma excitao muito forte a baixas frequncias
96 Captulo 3 - Modelos Auditivos Computacionais
produz efeito em praticamente todas as localizaes com CFs superiores devido assimetria
das respostas cocleares.
Numa verso posterior do modelo, [Kates, 93], so corrigidos alguns aspectos. Por
exemplo, a especificao passa-baixo dos filtros corrigida, definindo-se agora filtros com
igual nmero de zeros e plos. As respostas com este novo modelo so bem mais plausveis
apresentando atenuaes para frequncias acima da CF muito mais elevadas que no modelo
anterior.

10
2
10
3
10
4
-60
-40
-20
0
20
40
60
dB
f [Hz]
|H(f )| (Kates)

10
2
10
3
10
4
-8
-6
-4
-2
0
2
x
f [Hz]
arg{H(f )} (Kates)
a) b)
Figura 3.12 - Respostas do modelo de Kates (sem AGC). As curvas correspondem s tomadas 30,
50, 70, 90 e 100. a) Mdulo. b) Fase.
3.3.4 Modelo funcional no linear
No mbito desta tese foi tambm desenvolvido um modelo funcional [Perdigo & S, 95],
que idntico nos seus aspectos principais, ao modelo de Kates. A ideia de desenvolver
este modelo foi a de averiguar o desempenho de um modelo no linear mais eficiente que o
modelo de Kates, com uma frequncia de amostragem menor e com menor nmero de
filtros, mas com o mesmo tipo de dependncia dos parmetros dos filtros com o nvel de
excitao do sinal de entrada que naquele modelo. Pretendeu-se tambm obter respostas
mais de acordo com as curvas de sintonizao obtidas em experincias psicofsicas
[Zwicker, 74]. Um requerimento adicional na especificao dos filtros consistiu em tomar o
valor de pico das respostas de acordo com a curva de limiar de audio.
3.3 Modelos funcionais 97
O diagrama de blocos relativo a uma seco do modelo representado na figura 3.13. A
frequncia de amostragem considerada de 8 kHz e os 32 filtros que representam a
propagao da presso transpartio ao longo da cclea so de 2 ordem, definidos atravs
de um par de plos e de zeros complexos conjugados. Estes filtros so especificados em
tempo contnuo e transformados para tempo discreto por transformao bilinear. Para
simular a variao da sensibilidade das respostas cocleares com o nvel de excitao (AGC)
considerou-se a variao dos factores de qualidade dos filtros com o nvel da excitao
sada das seces da cascata. Para tal utilizado um modelo simplificado do funcionamento
das CCEs com rectificao de meia onda e compresso.
modelo
CCI
H
ck
(z)
modelo
CCE
H
pk
(z)
P
k1
[n] P
k
[n]
f
k
[n]
V
k
[n]
r
k
[n]
Figura 3.13 - Seco do modelo funcional no linear [Perdigo e S, 95]. Os factores de
qualidade dos filtros H
ck
(z) e H
pk
(z) (quando definidos em tempo contnuo) so ajustados de
acordo com a sada normalizada do modelo das CCEs, r
k
[n], que varia entre 0 e 1. V
k
[n]
representa a velocidade ciliar que aplicada a um modelo das CCIs (modelo de Martens-
Immerseel).
Tal como nos modelos antes referidos, a presso transpartio transformada em
velocidade ciliar atravs de filtros adicionais, H
pk
(z). A sada destes filtros finalmente
aplicada a um modelo do funcionamento das CCIs e ligaes sinpticas do nervo coclear. O
modelo usado o modelo de Martens-Immerseel que ser discutido no captulo seguinte.
Um aspecto menos correcto na definio deste modelo que a modelao das CCEs
deveria ter como entrada a velocidade ou deslocamento ciliar e no a presso transpartio.
Este aspecto foi corrigido numa verso posterior do modelo.
As respostas do modelo linear (sem AGC) representam-se na figura 3.14. Estas respostas
correspondem tambm s respostas do modelo no linear para baixos nveis de excitao
uma vez que, nestas condies, o modelo funciona de uma forma essencialmente linear.
O modelo assim definido simula convenientemente as funes de entrada-sada relativas s
respostas mecnicas cocleares [Robles et al, 86, 86b], [Ruggero et al, 92], que se
98 Captulo 3 - Modelos Auditivos Computacionais
caracterizam por uma compresso da gama dinmica da velocidade da partio com o nvel
de excitao. Esta compresso deixa de existir, isto , as respostas passam a ser lineares,
quando a frequncia de excitao muito superior ou muito inferior CF em questo. Na
figura 3.15a) mostram-se 3 funes de entrada-sada relativas ao modelo, para uma CF
prxima de 1kHz. Para baixos nveis de excitao o modelo responde de uma forma
aproximadamente linear. Para nveis mdios de excitao existe compresso: as curvas
apresentam um declive inferior unidade. Para nveis de excitao muito elevados o modelo
tende novamente a responder de uma forma linear devido saturao das CCEs. Na figura
3.15b) mostra-se uma curva de sintonizao (iso-sada) tambm relativa a uma CF de cerca
de 1kHz. Esta curva aproximadamente igual resposta em frequncia do modelo linear,
invertida, mas onde o declive, principalmente para frequncias superiores CF, muito
mais acentuado. Esta diferena entre curva de sintonizao e resposta em frequncia deve-
se precisamente ao ganho automtico. Para se obter uma sada constante, o nvel de
excitao tem de ser muito aumentado, no s porque o sistema responde menos
intensamente a frequncias diferentes da CF, mas tambm devido efeito a compresso da
gama dinmica resultante da elevada excitao aplicada. Este importante aspecto muitas
vezes ignorado na modelao das respostas cocleares. As respostas em frequncia no tm
que apresentar uma sintonizao to acentuada quanto as curvas de sintonizao, tal como
correctamente apontado em [Lyon & Mead, 88].
-40
20
-20
40
-60
60
0
f [Hz]
10
3
10
4
10
2
V
i
[dB]
Figura 3.14 - Respostas em frequncia do modelo linear (sem AGC), relativas velocidade ciliar nas
32 tomadas do modelo.
3.3 Modelos funcionais 99
Vi[dB]
20 40 60 80 0
10
20
30
40
50
60
70
f
CF
1.2 f
CF
f
CF
/2
V [dB]
10
20
30
40
50
60
70
V [dB]
f [Hz]
10
3
10
4
10
2
a) b)
Figura 3.15 - a) Funes de entrada sada relativas velocidade ciliar V
k
[n] com k=16 (f
CF
990Hz) para
excitao sinusoidal. Em abcissa, V
i
representa a amplitude sinusoidal de entrada do modelo s
frequncias indicadas. Em ordenada, V representa o valor RMS das respostas do modelo na localizao
k. Para uma frequncia de excitao frequncia f
CF
/2 o modelo responde linearmente mas apresenta
compresso para frequncias prximas da CF. b) Curva de sintonizao iso-sada relativa mesma
localizao k. Indica a amplitude de excitao necessria para obter um valor RMS de sada constante
(38dB). As curvas a tracejado indicam o limiar de 2dB de supresso, sendo o tom de teste fixo, com
30dB de amplitude CF.
Este modelo simula tambm, de uma forma essencialmente correcta, o fenmeno de
supresso de 2 tons. Esta caracterstica do sistema auditivo foi intensamente estudada ao
longo das ltimas 3 dcadas [Sachs & Kiang, 68], [Sachs & Abbas, 74, 76], [Abbas &
Sachs, 76], [Hall, 80], [Delgutte, 90], [Robles et al, 91], [Ruggero et al, 92], [Nuttal &
Dolan, 93]. Basicamente consiste na supresso das respostas cocleares ou neuronais de um
tom de teste devido presena de um outro tom (tom de supresso) a uma frequncia
inferior ou ligeiramente superior do tom de teste. Esta no linearidade do sistema auditivo
tem origem na cclea
7
e tambm devida ao funcionamento regulador de ganho das CCEs.
A figura 3.16 mostra traados oscilogrficos de disparos de uma fibra do nervo coclear do
gato onde evidente a supresso produzida por um tom de supresso. Na figura 3.17
mostram-se respostas do modelo no linear a um par de tons e onde o efeito de supresso
tambm evidente. O limiar de supresso, indicado na figura 3.15b) est tambm de acordo
com os dados experimentais. Contudo, as taxas de supresso obtidas com este modelo so
sempre inferior a 1dB/dB embora os dados experimentais apontem para taxas de supresso
superiores (at cerca de 3dB/dB) para supressores com frequncias inferiores CF e de

7
A existncia e origem desta no linearidade na cclea foi comprovada apenas recentemente [Robles et al,
91].
100 Captulo 3 - Modelos Auditivos Computacionais
cerca de 1dB/dB para supressores com frequncias superiores CF. Apesar desta
deficincia, os resultados obtidos mostram que um modelo muito simplificado suficiente
para simular de uma forma razoavelmente detalhada as no linearidades do sistema auditivo
perifrico.
Figura 3.16 - Supresso de 2 tons numa fibra aferente de gato. O painel superior mostra um
sinal de excitao com 40 dB SPL a 360Hz e os disparos da fibra (CF=360Hz) para este sinal. O
2 painel refere-se a um sinal com 60dB SPL, 720Hz. O 3 painel mostra a resposta da fibra
quando os dois tons so apresentados em conjunto e onde evidente a supresso causada pelo
tom de 720Hz. in [Arthur et al, 71, fig 2A].
Na comparao de modelos da periferia auditiva utilizados numa tarefa de reconhecimento
de dgitos que ser abordada no captulo 6, todos os modelos considerados so definidos
com 35 filtros. Portanto, o modelo apresentado nesta seco foi alterado em conformidade,
passando a ter 35 seces em vez das 32 seces inicialmente definidas. Apenas o modelo
linear ser testado e ser referenciado com a sigla CocF.
3.3 Modelos funcionais 101
0
500
1000
-1000
-500
1000
0
800
600
400
200
1000
0
800
600
400
200
0 60 120
t [ms]
0 60 120
t [ms]
0 60 120
t [ms]
0 60 120
t [ms]
250
0
200
150
100
50
a) b)
c) d)
Figura 3.17 - Supresso de 2 tons no modelo no linear. a) Sinal de excitao com dois tons: 60dB de
amplitude a 400Hz e 35dB a 1kHz. b) Resposta do modelo ao tom de 1kHz (localizao com
CF=990Hz). c) Resposta aos 2 tons onde evidente a supresso causada pelo tom a 400Hz. d)
Resposta ao tom de supresso na localizao com CF prxima de 400Hz.
3.3.5 Outros modelos e tcnicas de anlise de sinais
Um outro modelo auditivo bastante referenciado na literatura o modelo de Goldstein
[Goldstein, 90, 93, 95], denominado por MBPNL (Multiple Band-Pass Non-Linearity).
Este modelo baseia-se numa ideia apresentada por Pfeiffer [Pfeiffer, 70], [Duifhuis, 76], que
consiste em utilizar uma no linearidade entre dois filtros passa-banda e que permite simular
a supresso de 2 tons bem como as distores de combinaes de tons. Os dois filtros
utilizados esto funcionalmente relacionados com os picos e caudas das curvas de
sintonizao neuronais. Este modelo usado, por exemplo, no modelo auditivo de Ghitza
[Ghitza, 94], [Rabiner & Juang, 93] bem como, com pequenas alteraes, em [OMard &
Meddis, 96]. No foi, contudo, alvo de estudo neste trabalho.
Existem ainda outros modelos ou tcnicas de anlise espectral de sinais de fala que tentam
integrar conhecimentos do funcionamento do sistema auditivo em termos fisiolgicos ou
psicofsicos. A ideia base consiste em utilizar um banco de filtros com frequncias centrais
espaadas de forma no linear, mais ou menos de acordo com a tonotopia do sistema
102 Captulo 3 - Modelos Auditivos Computacionais
auditivo. De uso corrente so as escalas de Bark e mel ou simplesmente uma escala
logartmica. Por exemplo, a tcnica de anlise conhecida como MFCC (Mel Frequency
Cepstral Coefficients) [Davis & Mermelstein, 80], considera um banco de filtros passa-
banda com forma triangular onde a frequncia central dos filtros espaada de acordo a
escala mel (figura 3.18). A representao espectral obtida com esta tcnica corresponde
energia sada do banco de filtros que depois transformada em parmetros cepstrais pela
aplicao da DCT do logaritmo das energias (ou das amplitudes). Esta tcnica presta-se
apenas a uma anlise em frequncia e no a uma anlise temporal.
f
CF2
f
CF1
f
CF3
f
CF4
f
CF5
f
CF6
f
1
f
inf
Figura 3.18 - Definio de um banco de filtros com respostas em frequncia triangulares e com CFs
distribudas segundo uma escala mel. Os tringulos que definem as respostas dos filtros apresentam
os vrtices nas CFs adjacentes de forma que a resposta composta unitria (excepto nos extremos). A
escala mel usualmente definida atravs da seguinte expresso: m(f)

= 1127ln(1+f /700).
Uma outra tcnica bastante utilizada em reconhecimento automtico de fala o
processamento PLP (Perceptual Linear Prediction) [Hermansky, 90], [Junqua et al, 93].
Nesta tcnica utiliza-se um banco de filtros que tenta reproduzir alguns aspectos das
respostas cocleares, nomeadamente a assimetria das respostas em relao frequncia
central. Os filtros so definidos com fase nula e com a forma descrita pela seguinte equao:
H z
z z
z z
z z
z z
z z
c
c
z z
c
c
c
c
( )
. .
. .
. .
, . .
( . )
. ( . )

< <
+
< <

'

+

10 2 5 05
1 05 05
10 05 13
0 2 5 13
0 5
2 5 0 5
,
,
,

, (3.5)
onde z representa a frequncia na escala Bark e z
c
a frequncia central dos filtros nesta
escala. Estas frequncias centrais so espaadas de aproximadamente uma banda crtica (1
Bark) o que corresponde a utilizar 18 filtros para cobrir uma gama de frequncias entre 0 e
5kHz. Nesta tcnica so ainda incorporados dois conceitos psicofsicos que so a variao
da sensao de intensidade sonora subjectiva (loudness) em funo da frequncia e em
funo da intensidade (ver figura 2.40). Da curva de igual intensidade subjectiva a 40dB
3.3 Modelos funcionais 103
deriva-se um factor de pr-nfase associado aos filtros e que tem como efeito a reduo das
respostas a baixas frequncias (figura 3.19). energia dos sinais sada dos filtros
aplicada uma raiz cbica para simular a relao no linear entre a intensidade do som e a sua
percepo subjectiva.
Com esta tcnica obtm-se uma representao espectral de tempo curto compacta referida
como espectro de potncia de bandas crticas. Esta representao seguidamente suavizada
atravs da modelao de predio linear de baixa ordem (5 a 8).

0 500 1000 1500 2000 2500 3000 3500 4000
0
0.1
0.2
0.3
0.4
0.5
0.6
f [Hz]

10
2
10
3
-80
-60
-40
-20
0
dB
f [Hz]
a) b)
Figura 3.19 - Resposta em frequncia de 15 filtros referentes modelao PLP para uma frequncia
de amostragem de 8kHz. Os filtros tm j incorporado a funo de pr-nfase de igual loudness.
a) Escalas lineares. b) Escalas logartmicas.
Finalmente, uma outra forma de representar o processamento operado pelo sistema auditivo
consiste na utilizao de um banco de filtros definido atravs de uma wavelet. De facto,
para CFs no muito baixas, as respostas cocleares apresentam larguras de banda
aproximadamente proporcionais CF. Isto resulta do mapeamento aproximadamente
logartmico das CFs com a posio coclear. Assim, os filtros cocleares podem ser
relacionados atravs de uma expanso ou compresso de um filtro me, H
m
, da seguinte
forma:
H f x H a f
m
x
( , ) ( ) (3.6)
onde x representa o eixo tonotpico e a uma constante. As respostas em frequncia dos
filtros, numa escala logartmica, apresentam a mesma forma e as mesmas larguras de banda
que o filtro me. O problema de desenhar um banco de filtros pode assim reduzir-se apenas
definio do filtro me. Este mtodo usado, por exemplo, em [Wang & Shamma, 94].
104 Captulo 3 - Modelos Auditivos Computacionais

10
1
10
2
10
3
10
4
-120
-100
-80
-60
-40
-20
0
f [Hz]
dB Gamma
CocH
CocF
Seneff
10
1
10
2
10
3
10
4
-10
-8
-6
-4
-2
0
2
x
Gamma
CocH
CocF
Seneff
f [Hz]
a)

10
1
10
2
10
3
10
4
-120
-100
-80
-60
-40
-20
0
f [Hz]
dB Gamma
CocH
CocF
Seneff
10
1
10
2
10
3
10
4
-10
-8
-6
-4
-2
0
2
x
Gamma
CocH
CocF
Seneff
f [Hz]
b)

10
1
10
2
10
3
10
4
-120
-100
-80
-60
-40
-20
0
20
f [Hz]
dB Gamma
CocH
CocF
Seneff
10
1
10
2
10
3
10
4
-10
-8
-6
-4
-2
0
2
x
Gamma
CocH
CocF
Seneff
f [Hz]
c)
Figura 3.20 - Comparao das respostas de vrios modelos. As frequncias caractersticas so
prximas de 500Hz em a); 1kHz em b) e 2kHz em c). Gamma: filtros gamma-tone; CocH: modelo
coclear de referncia; CocF: modelo funcional (seco 3.3.4); Seneff: modelo de Seneff, estgio I.
3.4 Concluses 105
3.4 Concluses
Neste captulo foi analisado o problema do desenvolvimento de modelos computacionais,
em tempo discreto, que simulem o funcionamento da cclea. Foram revistas vrias solues
descritas na literatura e introduzidas algumas solues novas. Um denominador comum na
grande maioria das solues apresentadas consiste na definio de modelos custa de um
banco de filtros. alis este o aspecto primordial do funcionamento da cclea. Porm, a
forma das respostas em frequncia dos filtros para os vrios modelos algo dspar (ver
figura 3.20). Tal resulta fundamentalmente da inexistncia de dados abundantes e precisos
sobre o funcionamento da cclea e do sistema auditivo em geral. Mesmo assim, existem
vrias caractersticas comuns nas respostas como sejam a assimetria acima e abaixo da CF e
os factores de qualidade associado aos picos.
Existe um compromisso entre a exactido da modelao e a complexidade computacional.
Os modelos funcionais so, de uma maneira geral, computacionalmente mais eficientes,
embora no permitam variaes na definio dos seus parmetros, como por exemplo a
frequncia de amostragem ou nmero de filtros. Como foi visto, a definio de um banco de
filtros a partir de um modelo coclear fsico permite definir o nmero de filtros desejado para
uma dada resoluo em frequncia sem sacrificar a exactido das respostas.
Alguns dos bancos de filtros analisados neste captulo sero alvo de comparao numa
tarefa de reconhecimento de dgitos que ser abordada no captulo 6.
106 Captulo 3 - Modelos Auditivos Computacionais

Potrebbero piacerti anche