Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
CENTRO DE TECNOLOGIA
CURSO DE GRADUAO EM ENGENHARIA ACSTICA
APLICAO DA TEORIA DE
PROCESSAMENTO DIGITAL DE SINAIS A
UM PROBLEMA DE IDENTIFICAO DO
CHORO DE BEBS
Rafael G. L. Andrade
Rafael G. L. Andrade
2017
Todos os direitos autorais reservados a Rafael G. L. Andrade. A reproduo de partes ou do
todo deste trabalho s poder ser feita mediante a citao da fonte.
E-mail: rafael.gl.andrade@gmail.com
Universidade Federal de Santa Maria
Centro de Tecnologia
Curso de graduao em Engenharia Acstica
elaborada por
Rafael G. L. Andrade
COMISSO EXAMINADORA:
Even before the possibility of using language, children communicate instinctively. That
is reflected, for example, when a newborn child cries or when deaf and blind children can gig-
gle and emit sounds that can express their state of mind, without hearing that sound before.
But those instinctive processes from the communicator are not always instinctive for the recep-
tors. Parents of a newborn child are capable of understand the meaning of the different cries
from theis babies, and so, identify the reason for the cry and how to deal with it. That poses
an important communication channel between an infant and its parents. That communication
channel, although, may be blocked when the receptors are not able to access the transmitted
informations.
With all the deficits of assistive technologies in that area, through signal processing
theory, it is presented a classification algorithm in order to recognize the sound of a babys cry,
and send notifications to a deaf parent, making their lives easier in any way. So, the main goal
of this work is the beginning of a low cost prototype development, affordable for those of the
deaf community.
After the conclusion of the algorithm, that uses primarily the Mel-frequency cepstrum
coefficients (MFCC) as the classification parameter, tests with several audio signals were per-
formed. The algorithm turned out inefficient when facing noise-contaminated signals and re-
quires better developments in order to provide a more robust classification.
Figura 3.1 Detalhe do trecho de sinal que contm o bloco de fala utilizado nas anlises. 52
Figura 3.2 Bloco utilizado nas anlises de janela para sinal de fala anecoico. . . . . . . . . . . . 52
Figura 3.3 Comparao de diferentes janelas a um mesmo bloco de sinal de fala.. . . . . . . 53
Figura 3.4 Comparao de diferentes janelas a um mesmo bloco de sinal de fala.. . . . . . . 54
Figura 3.5 Detalhe do trecho de sinal que contm o bloco de choro utilizado nas anlises. 54
Figura 3.6 Comparao de diferentes janelas a um mesmo bloco de sinal de fala.. . . . . . . 55
Figura 3.7 Comparao de diferentes janelas a um mesmo bloco de sinal de fala.. . . . . . . 55
Figura 3.8 Comparao da STE calculada de duas formas diferentes. . . . . . . . . . . . . . . . . . . 57
Figura 3.9 Banco de filtros sobrepostos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
Figura 3.10 Espectro Mel para o frame utilizado como exemplo. . . . . . . . . . . . . . . . . . . . . . . . . 59
Figura 3.11 Comparao entre o sinal no tempo com adio de rudo e diferentes SNRs. . 62
Figura 3.12 Combinao dos sinais choro14 e outlier13. . . . . . . . . . . . . . . . . . . . . . . . . . 63
Figura 3.13 Comparao entre a STE para sinal de fala e sinal de rudo branco. . . . . . . . . . 64
1 INTRODUO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.1.1 Objetivos especficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2 REVISO BIBLIOGRFICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1 Processamento de sinais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1.1 Amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1.2 Quantizao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.1.3 Relao sinal-rudo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.1.4 Anlises de Fourier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.1.4.1 Efeitos de janelamento temporal e truncagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.1.5 Convoluo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.1.6 Processamento em blocos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.1.6.1 Efeito de janelas no processamento em blocos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.1.6.2 Short-time Energy (STE) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.1.6.3 Zero-crossings rate (ZCR) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.1.6.4 Espectrograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.1.7 Cepstrum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.1.8 Mel-Frequency Cepstrum Coefficients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.1.8.1 Pitch e escala Mel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.2 Caractersticas do choro de bebs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.3 Caractersticas de sinais de fala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.4 Aprendizado de mquina. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.4.1 Definies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.4.2 K Nearest Neighbours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.1 Anlises do sinal no domnio do tempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.1.1 Janelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.1.1.1 Aplicao de janelas bloco a bloco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.1.1.2 Aplicao de janelas por convoluo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.1.2 Short-time Energy (STE) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2 Anlises cepstrais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.3 Classificao dos sinais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.3.1 Implementao de k-NN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.3.2 Teste de classificao na presena de rudo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.4 Identificao de rudo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.5 Classificao de sinais contaminados por rudo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.1 Classificao de sinais gravados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.1.1 Classificao de sinais contaminados por rudo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5 CONCLUSES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
REFERNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
15
1 INTRODUO
milhes de pessoas possuem alguma deficincia auditiva, perdas auditivas em algum nvel.
Alm desses, 2 milhes de pessoas so surdas, ou seja, possuem perdas totais ou muito ele-
vadas, somando um total de 9,5 milhes de pessoas com deficincia auditiva no pas, nmeros
que representam aproximadamente 5% da populao nacional.
Apesar da possibilidade de comunicao atravs da lngua de sinais, j comentada an-
teriormente, algumas informaes puramente auditivas so perdidas. Nelas se incluem as in-
formaes transmitidas instintivamente por bebs, informaes acerca do ambiente em que o
indivduo surdo est inserido, entre outros tipos de sinais sonoros que so utilizados para alerta e
comunicao no-verbal. Se considerado o nmero de pessoas que no podem acessar esse tipo
de informao, so muito poucos os desenvolvimentos de tecnologias que possibilitam maior
acessibilidade.
Alguns exemplos dessas tecnologias podem ser citados, por inovao e utilidade, e so
brevemente descritos a seguir:
Aria: um bracelete que possui sistema de alerta (Figura 1.1), idealizado pela designer
May Wilson (WILSON, 2009). capaz de identificar entre uma sries de sinais sonoros,
como buzina de carros, despertadores, campainhas e choro de bebs. O receptor do sinal
sonoro fica no prprio bracelete, e quando algum dos sinais identificado o usurio recebe
estmulos tteis e uma luz se acende indicando qual o tipo de sinal recebido.
Vibe Ring: um prottipo de sistema composto por um par de anis e um relgio de pulso
(KWANG-SEOK; MIN-HEE; HYUN-JOONG, 2008), sua data de lanamento e preos
ainda no foram divulgados apesar de o conceito ter sido apresentado ainda em 2008. Os
anis sero receptores, usados um na mo esquerda e outro na mo direita. Ao identificar
algum dos tipos de sinais contemplados (por exemplo, o nome do usurio ou rudo de
automveis), por conter dois receptores, o sistema ser capaz de apresentar no display do
17
relgio qual o tipo de fonte sonora, distncia e posio aproximada da fonte em relao
ao usurio. O conjunto de relgio e anis mostrado na Figura 1.2.
Graco Secure Coverage Digital Baby Monitor: um sistema composto por receptor, co-
mumente posicionado no ambiente em que o beb se encontra. Esse sistema possui duas
unidades de alerta para os pais, que podem ser presas ao cinto e transmitem sinais vibra-
trios e luminosos. Porm, o inconveniente das unidades de alerta que so grandes e
no possuem muita praticidade. Alm disso, o sistema no diferencia o choro do beb de
outros sinais sonoros, observe a Figura 1.3.
18
Cry Translator: um aplicativo para celulares com sistema iOS, voltado ao pblico ou-
vinte, que permite a classificao do choro de um beb, informando se o motivo do choro
fome, dor, sono ou desconforto. A interface do aplicativo apresentada na Figura 1.4.
Durante o processo de pesquisa, foi encontrado um artigoo com propostas muito seme-
lhantes, desenvolvido por estudantes da Universidade Federal da Paraba (SILVA; VILLANU-
EVA; SOUZA, 2013), o que demonstra a importncia e necessidade desse tipo de tecnologia
assistiva. O artigo apresenta um sistema de classificao em tempo real, que com a utilizao
de Short-time energy e Zer-crossings rate identifica se o sinal analisado ou no um sinal de
choro de bebs.
As ferramentas e tcnicas desenvolvidas para anlise de sinais de fala podem ser apli-
cadas tambm aos sinais de choros de bebs, que por suas caractersticas de formao e mo-
dulao pelo sistema fonador, podem ser considerados um caso especfico de produo de fala.
Assim, para a realizao dos procedimentos de extrao de atributos dos sinais, que tornam esse
sistema possvel, so utilizadas aplicaes da teoria de processamento digital de sinais em dife-
rentes etapas de processamento, aplicando essa teoria ao problema de deteco e classificao
especfico, de sinais de choro de bebs. As aplicaes envolvem principalmente a deteco do
pitch e a aquisio de coeficientes de cepstrum em escala de frequncias Mel (MFCC - Mel
19
1.1 Objetivos
A fim de tornar o projeto descrito realizvel diversos objetivos devem ser cumpridos.
Esses objetivos so descritos a seguir:
Seleo dos aspectos dos sinais de choro que os diferenciem de outros sinais, possibili-
tando at mesmo a utilizao do sistema em ambientes que contenham rudo;
Mais detalhes acerca de cada um dos objetivos especficos declarados sero fornecidas
mais adiante neste documento, que organizado da seguinte forma:
2 REVISO BIBLIOGRFICA
A primeira forma de comunicao de qualquer ser humano com o mundo que o cerca
o choro, sendo manifestado pela primeira vez logo aps seu nascimento. Esse mecanismo ins-
tintivo como um sinal de alarme biolgico, cumprindo o papel de chamar a ateno dos pais e
auxiliar no alvio de estresse do beb (VARSHARANI; SARDAR, 2015). Essa forma de comu-
nicao no possui apenas um padro, sendo possvel diferenciar at entre 5 tipos de choros que
carregam significados diferentes, demonstrando assim qual a fonte de desconforto da criana
(DUNSTAN, 2009). Informaes como fome, sono, dor e at mesmo prazer so transmitidas
dessa forma, o que permite afirmar que, quanto funo de comunicar, o choro de um beb e
a fala so equivalentes, desconsiderando-se a complexidade dos significados transmitidos por
cada um.
Estudos realizados por Priscila Dunstan sobre o assunto levaram criao da Dunstan
Baby Language, ou Linguagem de Dunstan. A musicista australiana com grande facilidade de
memorizao de sons, notou uma relao entre padro de choro e seu significado. Em sua pes-
quisa, conduzida experimentalmente com mais de mil bebs, Dunstan classifica choros de bebs
em 5 tipos diferentes, cada tipo traduzido por uma informao a respeito das necessidades do
beb, sendo elas fome, sonolncia, necessidade de eructao, dores de barriga e desconforto,
este relacionado a fatores diversos (DUNSTAN, 2009). A partir dessa pesquisa foram elabora-
dos materiais, como DVDs e livros, para treinamento de pais e cuidadores de crianas na iden-
tificao de cada tipo de choro. O que permite essa identificao so caractersticas acsticas
dos sinais, tanto em seu comportamento temporal, quanto aspectos espectrais do som emitido.
Alm da classificao de Dunstan, a anlise do choro de bebs tambm permite a identifica-
o eficiente de doenas e distrbios como apnia, asfixia, hipotiroidismo, fenda palatina, entre
outros (BALANDONG, 2013).
O presente captulo inicia portanto bases tericas de processamento de sinais, incluindo
aplicaes a sinais de fala. Aps isso, apresenta caractersticas dos sinais de choro de bebs
e justifica sua interpretao como um sinal de fala, possibilitando a aplicao de tcnicas de
processamento de fala sobre esses sinais. Ao final do captulo so expostos de forma suscinta
alguns conceitos de aprendizado de mquina aplicados classificao de sinais.
22
2.1.1 Amostragem
Uma vez que o processamento de sinais digital, inevitavelmente surgem questes re-
lacionadas a amostragem e quantizao. Sinais analgicos, como na sada de um microfone,
variam continuamente no tempo, e se considerados dois instantes de tempo qualquer, entre eles
existem infinitos valores de amplitude. Assim, para armazenar um sinal digitalizado em sua
completude seria necessria uma capacidade infinita de armazenamento. Havendo essa im-
possibilidade, necessrio que o sinal passe por um processo de discretizao temporal e de
amplitude.
Tendo em vista essa discretizao, deve-se considerar que os sinais analgicos recebidos
pelo dispositivo de converso analgico-digital devem ser amostrados a certa frequncia de
amostragem fs , de modo que seu armazenamento se d atravs de uma sequncia finita de
informaes (BARBOSA; MADUREIRA, 2015). A frequncia de amostragem informa quantas
amostras so tomadas por segundo, e dada em Hertz (Hz).
O espectro de um sinal contm partes negativa e positiva simtricas em relao a 0 Hz,
a parte negativa, porm, no utilizada na anlise espectral de sinais. Ao submeter um si-
nal amostrado s anlises de Fourier, observa-se o fenmeno de aliasing ou dobramento, que
consiste em cpias deslocadas do espectro do sinal em torno da frequncia de amostragem, con-
forme mostra a Figura 2.1, em que, devido subamostragem, esses espectros esto sobrepostos
gerando distores.
23
Para que a anlise do sinal no seja prejudicada por esses efeitos de aliasing, interes-
sante que se observe a frequncia de amostragem do sinal em relao ao Teorema de Nyquist
(SHIN; HAMMOND, 2008). Esse teorema estabelece que para evitar distores no espectro a
frequncia de amostragem do sinal deve ser:
em que fmax a frequncia mxima de interesse para as anlises espectrais realizadas. Um valor
comum para fs utilizado de 44.100 Hz, utilizado na maior parte das aplicaes de amostragem
para a rea do udio, uma vez que no provoca distores na faixa audvel de frequncias.
A Figura 2.2 apresenta o espectro plotado at a frequncia de amostragem (fs = 44.100Hz)
do sinal, evidenciando o espelhamento do espectro. Nesse caso o espelhamento no provoca
distores na faixa de frequncias de interesse, uma vez que a fs de 44.100 Hz.
500
400
Magnitude
300
200
100
0
-20000 -15000 -10000 -5000 0 5000 10000 15000 20000
Frequncia (Hz)
2.1.2 Quantizao
sendo n o nmero de bits de quantizao do sistema. Assim, para um sistema com amostragem
de 16 bits dispe-se de 65536 nveis, distribudos entre os valores de -1 e 1 (BARBOSA; MA-
DUREIRA, 2015). O que ocorre, na verdade, que so disponilizados 2n1 valores possveis,
pois um dos bits atribui o sinal (positivo ou negativo) ao valor, o que faz com que o nmero de
nveis seja o dobro do nmero de valores possveis.
Exemplificando com um sistema de 4 bits, a Figura 2.3 apresenta a distribuio de bits
para quantizao da amplitude, sendo o primeiro o bit de sinal e os outros 3 para os valores,
lidos de forma binria com a combinao de zeros e uns que ser lida pelo computador.
Antes da avaliao do efeito das janelas, necessrio que se conceitue o que so janelas
e por que seu uso em processamento de sinais importante. Janelas so filtros temporais, com
durao estabelecida de acordo com as necessidades de anlise, que rejeitam as pores de sinal
anteriores ao ponto inicial de aplicao da janela e posteriores ao seu final. Assim, janelamento
o processo de aplicao desse filtro, truncando um sinal a fim de obter uma sequncia finita de
amostras para anlise. A utilizao de janelas fundamental para a anlises de sinais temporais,
uma vez que impossvel realizar anlises de sinais infinitos e sinais muito grandes impe um
alto custo computacional, ou ainda para analisar trechos muito curtos de sinal a fim de obter
respostas sobre eventos especficos de curta durao.
Teoricamente, ao aplicar a DFT a um sinal, de forma implicita considera-se que esse
sinal peridico e as amostras contnuas. Porm, comum que a continuidade do sinal seja
de alguma forma desrespeitada, por exemplo, ao analisar uma janela que no contm um n-
mero de perodos inteiros do sinal. Quando isso ocorre, surge uma descontinuidade, tal como
apresentada na Figura 2.5, em que a janela de anlise do sinal considera 2,25 perodos do sinal
senoidal analisado (TAN, 2008).
2
27
Figura 2.5: Sinal com janela de anlise no mltipla ao perodo do sinal, gerando desconti-
nuidade,
adaptado de (TAN, 2008).
(a) Espectro de um trecho de sinal que con- (b) Espectro de um trecho de sinal que con-
tm nmero inteiro de perodos. tm nmero no inteiro de perodos, ge-
rando o fenmeno de leakage.
Figura 2.6: Comparao entre os espectros com nmero inteiro de perodos e com nmero
no inteiro de perodos, evidenciando a influncia do fenmeno de leakage,
adaptado de (TAN, 2008).
28
Hamming,definida por:
2t
w(t) = 0, 54 + 0, 46cos , |t| 6 T /2, (2.6)
T
visto ento que cada funo aplicada ao sinal influencia de forma diferente no espectro
do sinal, e a escolha da janela deve ser pensada de acordo com as necessidades de anlise. O
que se procura um compromisso entre os efeitos de smearing e leakage. Sendo smearing o
aumento da largura de banda da componente de frequncia, o que resulta em menor acurcia. A
Figura 2.10 apresenta sobrepostas as respostas em frequncia das janelas retangular, Hamming
e Hanning, em que possvel notar as diferenas de smearing e leakage.
em que wrect a energia da janela retangular e w a janela cuja energia ser corrigida (BRANDO,
2012).
2.1.5 Convoluo
A resposta temporal y(t) de um sistema para uma entrada qualquer x(t) funo apenas
de suas resposta ao impulso h(t), ou seja, h(t) impe as caractersticas desse sistema a um sinal
31
de entrada, veja Figura 2.11. Assim, a sada de qualquer sistema linear invariante no tempo
(SLIT) uma combinao linear entre sua resposta impulsiva e a entrada.
em que o sinal y(t) na sada do sistema o resultado da convoluo entre o sinal de entrada x(t)
com a resposta impulsiva h(t) do sistema.
Porm, custoso trabalhar com a integral de convoluo, principalmente invert-la a
fim de determinar a resposta do sistema. importante ento que se conhea a propriedade da
convoluo, que afirma que:
Y (j) = H(j)X(j), (2.10)
Quando os sinais analisados contm informaes que variam muito em um curto espao
de tempo, como o caso de sinais de fala, ou analogamente, de choro de bebs, so utilizados
conceitos mais especficos de processamento de sinais, cujo conjunto de tcnicas e procedi-
mentos pode ser chamado de processamento em blocos (ou block processing). As tcnicas de
processamento em blocos se baseaiam na diviso do sinal em blocos, frames ou segmentos
do sinal original com durao muito curta. Dividir os sinais dessa forma possibilita que cada
bloco do sinal seja estudado como um sinal quasi-perdico3 (STUTTLE, 2005). A durao
dos segmentos do sinal escolhida de acordo com o tipo de sinal que se deseja analisar, sendo
3
Sinais quasi-periidicos so sinais descritos por um somatrio de sinais peridicos, ou seja, possuem vrias
frequncias que se repetem em sua durao
32
usualmente de 10 ms para sinais de fala, que o tempo mnimo necessrio para as mudanas
mais rpidas de fonemas. Como o choro de bebs possui variaes um pouco mais lentas do
que sinais de fala, a janela de anlise de cada segmento utilizada neste trabalho de 25 ms.
Para garantir que no haver perda de informaes importantes do sinal devido aos efei-
tos de janelas, realizado o overlapping entre os blocos, ou seja, o incio de um bloco so-
breposto pelo fim do anterior, e o fim de cada bloco sobreposto pelo incio do seguinte. O
nvel em que ocorrem essas sobreposies definido pelo analisador, e para esse trabalho ser
utilizado um overlap de 50%, que significa que o incio de um bloco se d na metade do bloco
anterior e seu fim ocorre na metade do bloco seguinte.
Parmetros importantes em processamento em blocos so:
N = tframe fs . (2.11)
Frame shift (R): consiste no intervalo entre o incio de cada bloco, e pode ser dado em
amostras ou segundos, sendo definido por:
A Figura 2.12 representa a relao entre esses parmetros para um sinal analisado.
em que Qn a sequncia de valores locais de T (x[n]) e w[n] a sequncia de janelas que dividiro
o sinal. Este pode ser visualizado por meio de um diagrama de blocos, como o representado na
Figura 2.13 (RABINER, 2012).
No existe um tamanho ideal para janelas para todos os casos, porm comum a utili-
zao de janelas com durao entre 10 e 20 ms. Como as variaes para sinais de choro so
menores, neste trabalho so utilizadas janelas com dura de 25 ms. O nmero de amostras para
cada janela depende da frequncia de amostragem do sinal analisado, e dado pela Equao
2.11.
em que E a energia do sinal, e x[m] o valor assumido pelo sinal no ponto m. Para sinais com
variao rpida no tempo, esse parmetro possui pouca utilidade. Assim, utiliza-se o processa-
mento em blocos para a obteno da Short-time energy (STE), em que o termo genrico T (x[n])
utilizado anteriormente, pode ser substitudo por x2 , que a funo que define o parmetro que
se deseja obter partir do processamento em blocos. Logo, esse parmetro do sinal dado por:
X
En = x[m]2 w[n m]. (2.17)
m=
Ao observar a representao grfica da STE nota-se que apresenta valores altos para
trechos vozeados4 do sinal, como mostra a Figura 2.14. De forma complementar, o prximo
parmetro apresentado ser Zero-Crossings Rate (ZCR), que apresenta valores altos para sons
de fala desvozeados. Analisando esses dois parmetros possvel identificar momentos de
silncio no sinal.
Figura 2.14: Comparao entre a forma de onda para a palavra skills e a STE desse sinal,
adaptada de (STUTTLE, 2005).
4
trechos de fala em que h a excitao das pregas vocais, ser comentado com mais ateno na Seo 2.3 deste
documento.
35
N 1
1 X
ZCR[n] = |sign(x[n m]) sign(x[n m 1])|w[m], (2.18)
N m=0
em que N o nmero de amostras do sinal x[m], w[n] corresponde janela aplicada ao trecho
analisado e sign igual a 1 para x[m] > 0 e -1 caso contrrio. Conforme j comentado, os
valores de ZCR so maiores para sons desvozeados, por exemplo na Figura 2.15, em que a
mesma palavra utilizada na comparao com STE utilizada.
Figura 2.15: Comparao entre a forma de onda para a palavra skills e a ZCR do sinal,
adaptada de (STUTTLE, 2005).
2.1.6.4 Espectrograma
Esse tipo de anlise fornece uma visualizao mais completa do sinal e de suas variaes
espectrais com o decorrer do tempo. No foram feitas anlises minunciosas do espectrograma
no desenvolvimento deste trabalho, porm alguns dos sinais foram representados dessa forma
em sees e captulos subsequentes.
2.1.7 Cepstrum
Z
1
c[n] = log|X(ej )|ejn d, (2.19)
2
em que c[n] so os valores do cepstrum obtidos e o espectro X(ej ) do sinal de anlise x[n]
dado por:
X
j
X(e ) = x[n]ejn . (2.20)
n=
A varivel independente do cepstrum foi denominada quefrency. Baixas quefrencies
correspondem a componentes com variao lenta no espectro logartmico, enquanto que que-
frencies altas correspondem s componentes que variam rapidamente. Picos isolados em ml-
tiplos da frequncia P0 no cepstrum correspondem a uma componente peridica na magnitude
logartmica com perodo igual a fs /P0 (JACOB BENESTY M. MOHAN SONDHI, 2008).
Oppenheim desenvolveu uma abordagem baseada em lgebra linear para caracterizao de sis-
temas no lineares, utilizando propriedaades de adio entre espaos vetoriais para representar
multiplicaes e convolues de sistemas (OPPENHEIM, 1965). Assim, classes de sistemas
no lineares poderiam ser definidas atravs do princpio de superposio, sistemas esses que
foram definidos como sistemas homomrficos. Uma classe especfica de sistemas homomrfi-
cos relativa aos sistemas para os quais entrada e sada so combinadas por convoluo. Esses
sistemas tm sua decomposio cannica expressa pela Figura 2.17 (I. PITAS, 1990).
Na figura anterior L um sistema linear que opera com a adio dos sinais, sendo res-
ponsvel pelas caractersticas do filtro, enquanto que os operadores D e Dx so chamados de
sistemas caractersticos de convoluo e fazem a transformao da convoluo do sinal para
adio e de volta convoluo. Baseado nessa teoria, o cepstrum pode ser visto como um um
sistema caracterstico de convoluo, uma vez que possibilita a transformao da convoluo
de sinais em adio. A utilizao do cepstrum para filtragem homomrfica, ou ainda, separao
da contribuio de sistemas diferentes em um mesmo sinal (deconvoluo) foi denotada por
Bogert et al. como liftering (OSUNA, 2011).
O termo pitch pode assumir significados e conceitos distintos de acordo com a rea de
estudo em que se utiliza. Na psicoacstica esse termo comumente compreendido como o
correlato psicolgico da frequncia, porm essa associao deve ser feita com cautela, uma vez
que a relao entre os dois parmetros no linear, ou seja, alteraes na frequncia nem sempre
acarretam em alteraes na percepo do pitch, apesar de os parmetros serem diretamente
proporcionais. A alterao na percepo est relacionada diferena no limiar do observvel
(DLO), ou DL (difference limen), que representa a mnima alterao necessria na frequncia
que gere alterao na percepo do sinal (GELFAND, 2009).
A relao entre pitch e frequncia foi traada atravs de experimentos psicoacsticos
resultando numa escala para pitch em funo da frequncia, em que a referncia adotada foi o
valor de 1000 mels (pitch) correspondendo a 1000 Hz (frequncia) (STEVENS; VOLKMANN,
1940). A escala, que recebeu o nome de mel-scale, exibida na Figura 2.18 abaixo, em compa-
rao com a curva correspondente s alteraes em mels iguais s alteraes em Hz.
39
Tendo em vista essa escala que se aproxima mais da resposta do sistema auditivo
variao de frequncias, uma nova forma de representao para o cepstrum foi proposta por
Davis e Mermelstein, cuja ideia bsica realizar uma anlise de frequncias baseada num banco
de filtros triangulares espaados de acordo com as bandas crticas. A implementao consiste na
realizao da anlise de Fourier, atravs da transformada discreta, e ento ponderao de acordo
com os filtros da escala mel, obtendo-se o espectro nessa escala, ou Mel-Spectrum. Sobre esse
espectro ento so aplicados os procedimentos para obteno do cepstrum, como o logaritmo e
a transformada inversa, sendo assim obtidos os MFCCs, sendo o nmero de coeficientes igual
ao nmero de filtros utilizados para obter o espectro em escala mel (DAVIS; MERMELSTEIN,
1980; RABINER; SCHAFER, 2007).
O sinal de choro de bebs possui um padro temporal que alterna entre o som caracte-
rstico emitido pela criana, com intervalos para inspirao de ar, e possui uma natureza quasi-
peridica. Seu som caracterstico produzido durante a expirao, com a fonao produzida
pela laringe, que formada pelas pregas vocais e glote. A laringe exerce trs funes principais,
deglutio, respirao (que ocorre com a glote totalmente aberta) e fonao (que ocorre com a
glote fechada).
O processo de produo desse tipo de som se inicia no sistema nervoso, partir de est-
40
mulos externos, porm as caractersticas acsticas so relacionadas s etapas que ocorrem aps
a sada do ar dos pulmes at que atravessem o trato vocal, terminando nos lbios ou narinas.
Quando o ar empurrado pelos msculos respiratrios para as pregas vocais fechadas o fluxo de
ar acelerado devido passagem de ar atravs de um tubo constrito, no que conhecido como
efeito de tubos de Venturi. Isso resulta numa queda de presso, que provoca abertura e fecha-
mento rpidos das pregas vocais, colocando-as em vibrao. Essa vibrao ocorre na frequncia
fundamental (f 0) do sinal de choro, que conforme exposto anteriormente, varia dentro da faixa
de 250 a 500 Hz. A variao na tenso dos msculos da laringe e nos msculos respiratrios do
abdomem definem essa frequncia fundamental, influenciando tambm na densidade espectral
do sinal de choro.
A produo do choro pode ser vista ento como um conjunto de sistemas complexos,
muito semelhante produo da fala e, como a fala, apresenta duas formas principais de gerao
de som, uma vozeada e outra no vozeada. A primeira ocorre na laringe com a excitao das
pregas vocais e a segunda resultante do fluxo turbulento do ar que atravessa a laringe e
produzido por alteraes do trato vocal (LEDERMAN, 2002). O trato vocal atua como um
filtro na cadeia de sistemas de produo de choro, atenuando certas frequncias e amplificando
outras, de acordo com seu formato. As duas formas podem ocorrer simultaneamente.
Sinais de choro de bebs possuem caractersticas temporais e espectrais distintas, que
so fundamentais para sua diferenciao de outros sinais. De forma geral, possuem frequn-
cias fundamentais (ou pitch) em regies consideravelmente altas do espectro se comparadas a
sinais de fala. Esses sinais tambm possuem estruturas harmnicas evidentes e padres "mel-
dicos"(VARSHARANI; SARDAR, 2015). As caractersticas temporais, bem como o loudness,
so relacionadas regio subgltica do trato vocal, enquanto que a parte supragltica, que
compreende lbios, bochechas e cavidade oral, produzem as frequncias de ressonncia, ou
formantes, fornecendo ao sinal suas caractersticas harmnicas. Comumente, apenas as duas
primeiras formantes so analisadas, sendo a primeira em torno de 1100 Hz e a segunda por
volta dos 3300 Hz (LAGASSE; NEAL; LESTER, 2005).
Para um mesmo sinal de choro so exibidas na Figura 2.19 abaixo sua representao no
tempo, espectro e espectrograma.
41
0,80
3000
0,60
2000
0,40
1000
0,20
Amplitude
Amplitude
0,00 0
-0,20
-1000
-0,40
-2000
-0,60
-3000
-0,80
-1,00 -4000
5 10 15 20 25 2000 4000 6000 8000 10000 12000 14000 16000 18000 20000 22000 24000
Tempo (s) Frequncias Hz
5 -40
4 -60
Power/frequency (dB/Hz)
Frequncia (Hz)
-80
3
-100
2
-120
-140
0
0 1 2 3 4 5 6 7 8
Tempo (s)
Para servir de exemplo, tambm foram plotados na Figura 2.20 espectrogramas para
alguns outros sinais de choro que compe o banco de sinais utilizado no trabalho. poss-
vel notar por observao a regio da frequncia fundamental e os diversos harmnicos, bem
como o comportamento temporal que contm momentos de choro intervalados por momentos
de inspirao.
42
Power/frequency (dB/Hz)
Power/frequency (dB/Hz)
Frequncia (Hz)
Frequncia (Hz)
-80 15
-80
6
-100
10 -100
4
-120
-120
5
2
-140 -140
0 0
0 1 2 3 4 5 6 0 1 2 3 4 5 6 7 8
Tempo (s) Tempo (s)
-40
20
-60
Power/frequency (dB/Hz)
Frequncia (Hz)
15
-80
10 -100
-120
5
-140
0
0 2 4 6 8 10
Tempo (s)
O trato vocal de um beb difere essencialmente do trato vocal adulto por seu tamanho
e, principalmente, pela posio da laringe, que mais elevada e inicia o processo de alocao
adulto aos 6 meses, alcanando a posio final em torno dos 2 anos de idade da criana. Para
o estudo das caractersticas dos sinais de fala ser considerada apenas a fisiologia do sistema
43
fonador adulto.
O processo que compreende as etapas de formulao do discurso e produo da fala, at
a percepo e compreenso de seu significado foi nomeado por Denes e Pinson como "Cadeia
da Fala"(DENES; PINSON, 2012), apresentada na Figura 2.21. Se inicia no crebro com a for-
mulao da mensagem a ser transmitida, num processo lingustico, passando ento produo
do sinal sonoro em nvel fisiolgico, que chega ao receptor da informao por meios acsticos, e
aps processos auditivos convertido em informao inteligvel ao ouvinte. O interesse princi-
pal neste trabalho uma abstrao do processo fisiolgico de quem produz a fala, interpretando
o choro como forma de transmisso de informaes originadas por processos neurolgicos,
portanto o foco ser na produo do sinal sonoro.
Figura 2.21: Cadeia da fala, dividida entre nveis lingusticos, fisiolgicos e acsticos, para
produo e percepo do sinal de fala,
adaptada de (RABINER; SCHAFER, 2007).
A produo da fala, tambm chamada de fonao, ocorre no sistema fonador (Figura 2.22),
composto pelas cavidades oral e nasal. No processo de expirao o ar sai dos pulmes e, na
laringe, coloca em vibrao as pregas vocais, produzindo uma excitao do trato vocal, formado
pela faringe, cavidade bucal, lngua, dentes e lbios (ZEMLIN, 2000). Para a produo de sons
nasais o palato muscular se abre, permitindo a passagem do ar para a cavidade nasal, fazendo
com que o som seja radiado pelo nariz. Alm desses sons produzidos atravs da vibrao das
pregas vocais, chamados sons vozeados, existem tambm os sons desvozeados que incluem a
maioria das consoantes. A produo desses sons consonantais gerada por um rudo de banda
larga resultante do fluxo de ar turbulento que modificado no trato vocal. Cada configura-
o do trato vocal combinada com sons vozeados ou desvozeados gera diferentes fonemas, e
44
O sistema fisiolgico pode ser dividido entre dois subsistemas: larngeo e articulatrio.
O subsistema larngeo corresponde fonte sonora do sistema fonador, enquanto que o sistema
articulatrio vai definir as caractersticas dos sons e fonemas emitidos durante a fala (KENT;
READ, 2002). As caractersticas espectrais dos sinais de fala so portanto influenciadas pela
fonte, pela forma do trato bucal e caractersticas de radiao (GLASS, 2007). O sinal pode ser
ento compreendido como a convoluo das respostas de diferentes sistemas, desde a gerao
de sinal sonoro na laringe at a emisso pela boca e modelado atravs de um diagrama de blocos,
em que cada bloco um sistema que modifica o sinal, conforme a Figura 2.23.
45
500 e 3500 Hz, sem que haja perdas na inteligibilidade da mensagem falada. Outra varivel
importante na anlise de sinais de fala o tempo, uma vez que ocorrem variaes rpidas, como
nas consoantes plosivas. Essas variaes podem ocorrer num tempo mnimo de at 10 ms.
A faixa dinmica de sinais de fala de aproximadamente 60 dB, ou seja, a diferena na
potncia sonora entre sinais fortes e fracos de 60 dB. Os sons fortes normalmente so os sons
voclicos, j os sons mais fracos so as consoantes fricativas, como o "f". As vogais so os
sons produzidos com a vibrao da laringe, e um trato vocal relativamente aberto, cuja forma
gera determinados padres de ressonncia, funcionando como um filtro. Os sons fricativos so
produzidos com uma constrio estreita na glote. O ar passando por essa constrio, conforme
mencionado anteriormente, gera um fluxo turbulento, produzindo um rudo de banda larga. Esse
rudo a fonte sonora, que filtrada pela ao dos articuladores.
A capacidade de comunicao do ser humano, como comentado na introduo deste tra-
balho, sua maior diferenciao em relao a qualquer outro animal. Desde a primeira grande
inovao em transmisso de sinais de fala, com Graham Bell, diversas tecnologias para grava-
o, transmisso e decodificao desse tipo de sinal surgiram, dando origem a diversos sistemas
de comunicao. Para o desenvolvimento desses sistemas foi imprescindvel o conhecimento
do sinal de fala humana, tanto em sua questo fisiolgica, quanto acstica. A partir desses tra-
balhos realizados, surgiram ento mtodos de processamento de sinais de fala, com inmeras
aplicaes. Alguns desses mtodos e aplicaes sero abordados a seguir.
2.4.1 Definies
Figura 2.25: Conjunto de treinamento e trs diferentes hipteses. Na primeira ocorre overfit-
ting, a segunda apresenta um bom ajuste e na terceira ocorre underfitting,
adaptado de (SHAW, 2016).
Os mtodos pelos quais os novos sinais so analisados variam e a prxima seo apre-
senta o mtodo k-NN, utilizado na realizao da classificao dos sinais deste trabalho.
48
O mtodo k-NN um mtodo de aprendizado estatstico que tem aplicaes para reco-
nhecimento de padres e classificao desde a dcada de 1970. um algoritmo simples, que
armazena todos os conjuntos exemplos disponveis e, partir desses conjuntos, classifica novas
entradas por similaridade. A similaridade dada atravs da medio da distncia entre os atri-
butos da nova entrada em relao aos dados utilizados para treino do algoritmo. As distncias
medidas podem ser Euclidiana, Manhattan, Minkowski entre outras. Para um problema que
49
considera apenas dois atributos, sejam eles x e y, a distncia Euclidiana dada por:
p
D= (x1 x2 )2 + (y1 y2 )2 , (2.21)
3 METODOLOGIA
Com base na teoria exposta foi desenvolvida a metodologia apresentada neste captulo,
que est dividido em duas partes principais: a primeira, referente criao do banco de da-
dos, extrao de atributos do sinal e classificao para sinais gravados e a segunda, referente
aquisio e processamento de sinais em tempo real.
Foram utilizados 16 sinais de choro de bebs, num banco de dados disponibilizado por
Varallyay (VARALLYAY, 2000). J os sinais que no contm choros de bebs so apresentados
na Tabela 3.1.
Alm desses sinais foi utilizado um sinal de fala anecoico. Sua aplicao foi feita como
um sinal teste, sendo submetido a diversas alteraes, como subamostragem, superamostra-
gem e adio de rudo, servindo para avaliar a capacidade do algoritmo de distinguir sinais em
condies diferentes.
Os sinais que no contm choro foram selecionados a fim de contemplar uma certa
variedade de sinais que sejam comuns e gerais. O banco de sinais foi dividido ento entre os
sinais que seriam utilizados para o treino do algoritmo e os que posteriormente seriam os sinais
de teste. Assim, 7 sinais de choro e os 7 primeiros sinais apresentados na tabela acima foram
utilizados para treino.
51
3.1.1 Janelas
Diviso do sinal utilizando o comando buffer do MATLAB, que gera uma matriz com-
posta por todos os vetores resultantes da diviso do sinal, e consequente multiplicao de
cada um dos vetores pela janela que se deseja utilizar;
A forma de onda para o sinal de fala anecoico apresentada na Figura 3.1, em que h
um aumento na regio em que est contido o bloco sobre o qual sero realizadas as anlises de
janelas. notvel pelo comportamento aproximadamente peridico do sinal que uma regio
de fala vozeada, num perodo de pronncia de vogal.
52
Figura 3.1: Detalhe do trecho de sinal que contm o bloco de fala utilizado nas anlises.
O bloco utilizado exibido sem janelamento na Figura 3.2. Os blocos foram obtidos
com a utilizao da funo buffer do MATLAB, segundo a sintaxe mostrada no Cdigo 3.1.
Cdigo 3.1: Separao do sinal de entrada em blocos.
%% framing
frT=25e-3; % duracao de cada frame
frN=ceil(frT*fs); % tamanho de cada frame
frOverlap=50/100; % porcentagem de overlap
frStep=ceil(frN*frOverlap); % passo entre cada frame
F=transpose(buffer(signal,frN,frStep));
0,80
0,60
0,40
0,20
0,00
-0,20
-0,40
-0,60
0,000 0,005 0,010 0,015 0,020 0,025
Tempo (s)
Figura 3.2: Bloco utilizado nas anlises de janela para sinal de fala anecoico.
A aplicao das janelas ento foi realizada atravs de um loop, aplicando as janelas a
cada bloco do sinal da forma descrita pelo Cdigo 3.2.
Cdigo 3.2: Aplicao das janelas a cada bloco do sinal.
for n=1:size(F)
F2(n,:)=F(n,:).^2;
F_hann(n,:)=F(n,:).'.*w_hann;
F_ham(n,:)=F(n,:).'.*w_ham;
F_black(n,:)=F(n,:).'.*w_black;
end
53
O resultado da aplicao das janelas pode ser observado na Figura 3.3, que compara o
mesmo bloco de sinal submetido s janelas Hann, Hamming e Blackmann.
Frame do sinal de fala anecoico - janela Hanning Frame do sinal de fala anecoico - janela Hamming
0,80 0,80
0,60 0,60
0,40 0,40
0,20 0,20
0,00 0,00
-0,20 -0,20
-0,40 -0,40
-0,60 -0,60
0,000 0,005 0,010 0,015 0,020 0,025 0,000 0,005 0,010 0,015 0,020 0,025
Tempo (s) Tempo (s)
(a) Bloco de sinal submetido janela Hann. (b) Bloco de sinal submetido janela Hann.
0,60
0,40
0,20
0,00
-0,20
-0,40
-0,60
0,000 0,005 0,010 0,015 0,020 0,025
Tempo (s)
Espectro para um frame do sinal Espectro para um frame janelado do sinal (Hanning)
200 200
180 180
160 160
140 140
120 120
100 100
80 80
60 60
40 40
20 20
0 0
500 1000 1500 2000 2500 3000 3500 4000 500 1000 1500 2000 2500 3000 3500 4000
Frequncia (Hz) Frequncia (Hz)
(a) Espectro para o bloco de sinal com corte (b) Espectro para o bloco de sinal submetido ja-
abrupto nas bordas (janela retangular). nela Hann.
Os mesmos processos foram empregados para sinais de choro de bebs, porm como
a janela selecionada para o presente trabalho foi a Hann, s sero apresentados os resultados
obtidos para essa janela. A Figura 3.5 apresenta a forma de onda para o sinal de choro anali-
sado, destacando a regio de onde foi retirado o bloco sobre o qual os efeitos da janela foram
considerados.
Figura 3.5: Detalhe do trecho de sinal que contm o bloco de choro utilizado nas anlises.
Frame de sinal de choro - janela retangular Frame do sinal de choro - janela Hanning
0,20 0,20
0,15 0,15
0,10 0,10
0,05 0,05
0,00 0,00
-0,05 -0,05
-0,10 -0,10
-0,15 -0,15
-0,20 -0,20
0,000 0,005 0,010 0,015 0,020 0,025 0,000 0,005 0,010 0,015 0,020 0,025
Tempo (s) Tempo (s)
(a) Bloco de sinal com corte abrupto nas bordas (b) Bloco de sinal submetido janela Hann.
(janela retangular).
Espectro para um frame do sinal Espectro para um frame janelado do sinal (Hanning)
18 20
16 18
16
14
14
12
12
10
10
8
8
6
6
4
4
2 2
0 0
500 1000 1500 2000 2500 3000 3500 4000 500 1000 1500 2000 2500 3000 3500 4000
Frequncia (Hz) Frequncia (Hz)
(a) Espectro para o bloco de sinal com corte (b) Espectro para o bloco de sinal submetido ja-
abrupto nas bordas (janela retangular). nela Hann.
poral representa uma multiplicao na frequncia, conveniente que se proceda dessa forma.
Ao aplicar a janela atravs da multiplicao ponto a ponto na frequncia dificil apre-
sentar as caractersticas individuais de cada bloco, porm fcil reconstruir o sinal como um
todo, o que mais complicado para o mtodo de janelamento apresentado anteriormente.
O Cdigo 3.3 apresenta o desenvolvimento da rotina que realiza a aplicao da janela
ao sinal, em que L representa o tamanho da janela, x o sinal de entrada e w a janela a ser
aplicada. importante comentar que a operao na frequncia facilita o processo, uma vez que
ao utilizar a varivel NFFT para definir o nmero de pontos, sinal e janela ficam do mesmo
tamanho, possibilitanto assim a operao entre os dois sinais.
Cdigo 3.3: Aplicao das janelas a cada bloco do sinal.
NFFT = 2^(nextpow2(length(x)+L));
X = fft(x,NFFT); W = fft(w,NFFT);
Y = X.*W;
y = ifft(Y,NFFT);
Cada mtodo possui vantagens e desvantagens. Para a aplicao bloco a bloco o pro-
cesso de compilao leva muito mais tempo, porm permite a anlise de cada frame separado e
as modificaes que cada etapa do processamento ocasiona. Ento o estudo e anlise minunci-
osa foram realizados dessa forma, enquanto para a obteno mais rpida de resultados, utilizada
a multiplicao em frequncia.
O clculo de STE foi feito de duas formas diferentes, cada uma referente a um dos modos
de aplicar janelas ao sinal. O primeiro, feito bloco a bloco, foi calculado partir da soma dos
quadrados de todos os elementos contidos no bloco. O Cdigo 3.4 apresenta a implementao
da STE dessa forma.
Cdigo 3.4: Clculo bloco a bloco da STE.
for n=1:size(F)
s(n,:)=ifft(S_hann(n,:),NFFT);
s2(n,:)=s(n,:).^2;
E(n,:)=(sum(s2(n,:))/frN);
end
x2 = x.^2;
NFFT = 2^(nextpow2(length(x2)+L));
X2 = fft(x2,NFFT); W = fft(w,NFFT);
STE = X2.*W;
ste = ifft(STE,NFFT);
0,80
Amplitude
0,60
0,40
0,20
0,00
-0,20
50 100 150 200 250 300 350 400 450
Amostra
e a operao inversa:
em que f a frequncia em Hertz e m a frequncia transformada para escala Mel. Fazendo uso
da relao expressa na Equao (3.1), so obtidas as frequncias mnima e mxima de anlise
do sinal em mels, sobre o qual sero aplicados os filtros. Obtidos os valores de frequncia Mel, o
intervalo entre mximo e mnimo dividido linearmente de acordo com o nmero de filtros que
se deseja implementar, que para a implementao realiza consiste em 26 filtros. Neste trabalho,
as frequncias mnima e mxima de anlise correspondem a 200 Hz (282,72 mels) e metade
da frequncia de amostragem fs do sinal. Para o sinal utilizado como exemplo a frequncia
mxima de anlise corresponde a 5512 Hz (2456 mels). A escolha de uma frequncia mnima
de anlise relativamente alta foi feita pois sinais de choro no possuem informao espectral
relevante em frequncias baixas, uma vez que o pitch do sinal de choro usualmente varia entre
300 e 700 Hz. Obtidos os valores linearmente espaados em mel, utiliza-se da Equao (3.2)
para obter os valores correspondentes em Hertz, o que resulta em valores de frequncias no
linearmente espaados. Como o sinal amostrado, porm, possvel que os valores em Hertz
correspondam a valores no amostrados de frequncia e para tanto feita a converso do valor
da frequncia para o fft bin5 mais prximo. A construo dos vetores em mels, transformao
para vetor de frequncias em Hertz e o clculo do fft bin esto apresentados no Cdigo 3.6.
Cdigo 3.6: Construo dos vetores de frequncia e clculo dos fft bins.
mels=linspace(min_M,max_M,28);
H=700*(exp(mels./1125)-1);
f=floor((frame_lenght+1)*(H./fs));
Utilizando os valores dos fft bins, o banco de filtros ento calculado como segue:
0, se k < f (m 1)
kf (m1)
se f (m 1) k f (m)
f (m)f (m1)
,
Hm (k) = f (m+1)k (3.3)
, sef (m) k f (m + 1)
f (m+1)f (m)
0, sek > f (m + 1)
em que Hm m-simo filtro, e que com m=1:26 forma o banco de filtros que se deseja calcular.
O banco de filtros calculados e sobrepostos exibido na Figura 3.9.
Observa-se que os filtros so mais estreitos nas frequncias mais baixas e vo alargando
conforme se aumenta a frequncia, o que gera uma maior discretizao e portanto, priorizando
5
Fft bins so os pontos amostrados da da fft, correspondendo s frequncias em Hz.
59
0.9
0.8
Amplitude normalizada
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
500 1000 1500 2000 2500 3000 3500 4000 4500 5000
Frequncia (Hz)
a anlise na parte mais baixa do espectro. Assim, para a obteno do espectro Mel, basta
multiplicar o espectro pelo banco de filtros, processo ilustrado pela Figura 3.10. O vetor do
espectro Mel possui ento nmero de valores igual ao nmero de filtros aplicados, ou seja, 26.
14
12
Amplitude normalizada
10
0
5 10 15 20 25
Coeficientes Mel
extrao de atributos dos sinais de choro e outra para a extrao dos atributos dos outros sinais
utilizados. Cada uma delas tem como sada um arquivo de texto contendo todas os atributos dos
grupos de sinais.
Aps obtidos os coeficientes de MFCC para todos os frames de todos os sinais utilizados
para treino e teste do algoritmo de classificao, essas informaes so aplicadas implemen-
tao de k-NN.
Em posse dos arquivos de atributos dos sinais de treino, possvel ento desenvolver
o procedimento de classificao de novos sinais. Os sinais so divididos em dois grupos,
um grupo de targets6 e um grupo de outliers7 . A rotina de classificao inicia abrindo os
arquivos que contm as matrizes de atributos, nomeadas como features_choro.txt
e feature_out.txt e as alocando em uma matriz nica, que aps isso recebe rtulos
conforme a classificao das amostras nela contidas. Conforme j exposto, cada frame tem um
vetor de coeficientes Mel (MFCC), portanto cada um deles ser interpretado como uma amos-
tra. Assim, considerando todos os frames de todos os sinais, so utilizados 6363 amostras para
target e 6590 amostras para outlier. O trecho mostrado no Cdigo 3.7 apresenta a alocao
dos atributos em uma nica matriz, bem como a atribuio dos rtulos 1 e 0, correspondendo
respectivamente a choro e no-choro, ou target e outlier.
Cdigo 3.7: Criao das matrizes de atributos e rtulos para classificao.
Xtrain=[features_tgt;features_out];
label1=transpose(ones(1,length(features_tgt)));
label0=transpose(zeros(1,length(features_out)));
Ltrain=[label1;label0];
[N , ] = size(Xtrain);
[Ntest,] = size(Xtest);
distance = zeros(N,Ntest);
for i = 1: Ntest
for j = 1: N
distance(j,i) = norm(Xtest(i,:)-Xtrain(j,:));
end
end
[,Index]= sort(distance,'ascend');
Ltest = zeros(K,Ntest);
for i = 1:Ntest
for j=1:K
Ltest(j,i) = Ltrain(Index(j,i));
end
end
test_Predicted_labels = mode(Ltest);
Sinal "choro2.wav" com adio de rudo: SNR 50dB Sinal "choro2.wav" com adio de rudo: SNR 40dB Sinal "choro2.wav" com adio de rudo: SNR 30dB
1 1 1
Amplitude normalizada
Amplitude normalizada
0.4 0.4 0.4
0 0 0
-1 -1 -1
1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8
Tempo (s) Tempo (s) Tempo (s)
(a) Sinal de choro com adio (b) Sinal de choro com adio (c) Sinal de choro com adio
de rudo e SNR de 50 dB. de rudo e SNR de 40 dB. de rudo e SNR de 30 dB.
Sinal "choro2.wav" com adio de rudo: SNR 20dB Sinal "choro2.wav" com adio de rudo: SNR 10dB
1 2
0.8
1.5
0.6
1
Amplitude normalizada
Amplitude normalizada
0.4
0.5
0.2
0 0
-0.2
-0.5
-0.4
-1
-0.6
-1.5
-0.8
-1 -2
1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8
Tempo (s) Tempo (s)
(d) Sinal de choro com adio (e) Sinal de choro com adio
de rudo e SNR de 20 dB. de rudo e SNR de 10 dB.
Figura 3.11: Comparao entre o sinal no tempo com adio de rudo e diferentes SNRs.
0.8
0.4
0.6
Amplitude normalizada
Amplitude normalizada
0.4
0.2
0.2
0 0
-0.2
-0.2
-0.4
-0.6
-0.4
-0.8
-0.6 -1
1 2 3 4 5 6 7 8 9 10 11 1 2 3 4 5 6 7 8 9 10 11
Tempo (s) Tempo (s)
(a) Combinao dos sinais, SNR = 11 dB. (b) Combinao dos sinais, SNR = -4 dB.
Short-time Energy
1,00
0,80
0,60
0,40
0,20
Amplitude
0,00
-0,20
-0,40
-0,60
-0,80 Sinal
STE
-1,00
0 2 4 6 8 10 12 14
Tempo (s)
Short-time Energy
1,00
0,80
0,60
0,40
0,20
Amplitude
0,00
-0,20
-0,40
-0,60 Sinal
STE
-0,80
-1,00
0,000 0,200 0,400 0,600 0,800 1,000 1,200 1,400 1,600 1,800 2,000
Tempo (s)
Figura 3.13: Comparao entre a STE para sinal de fala e sinal de rudo branco.
ntida, a partir dessa comparao, que a energia de um sinal de fala tem muito mais
variao temporal, apresentando perodos de silncio alternados por perodos de fala, enquanto
a energia do rudo mais constante.
Assim, a soluo encontrada foi, com utilizao da relao entre a energia do sinal e
o valor RMS da energia, encontrar o desvio padro. O clculo foi feito conforme apresenta o
Cdigo 3.9.
Cdigo 3.9: Determinao do desvio padro da energia de um sinal.
65
std1=std(E/rms(E));
Caso o desvio padro seja menor do que 0,5 o sinal ento classificado como rudo. O
teste foi feito com sinais de choro, sinais de fala e rudo branco, rosa e azul.
Uma vez que a identificao e separao de rudo obtiveram sucesso, foi abordado o
problema de sinais contaminados por rudo.
Foram aplicadas diferentes tcnicas a fim de possibilitar a classificao dos sinais con-
taminados por rudo. A mais proeminente delas foi o clculo do fator de harmonicidade. A
definio desse parmetro dada por:
k
X
HF = hi modf0 , (3.4)
i=1
f0(n)=min(locs(n,1:10));
for i=1:5
Hf(i)=mod(locs(n,i),f0(n));
end
HF(n,:)=sum(Hf);
end
4 RESULTADOS
Este captulo ser dividido da seguinte maneira: em primeiro lugar sero apresentados
os resultados para a classificao utilizando sinais gravados, comentrios acerca do acrscimo
de rudo e da eficincia do algoritmo em detectar choro corretamente. Aps sero abordadas
as questes referentes ao processamento em tempo real, abordando questes relacionadas ao
tempo de processamento e a velocidade de notificao do sistema.
Tabela 4.1: Classificaes corretas e porcentagem de erro na classificao dos sinais de choro,
sem adio de rudo.
Sinal Nmero de amostras Classificaes corretas Erro
choro8 1931 1868 3,263%
choro9 1357 1314 3,169%
choro10 3308 3213 2,872%
choro11 2894 2128 26,469%
choro12 2440 2387 2,172%
choro13 3170 2892 8,770%
choro14 909 907 0,220%
Na identificao de sinais de choro, considerando que o choro 11, um sinal que passou
67
por hard clipping8 , apresenta um valor de erro discrepante, a mdia de erro de 6, 705% e
apresenta desvio padro de 0, 091. Com a excluso do referido sinal a mdia de erro cai para
3, 411% e o desvio padro para 0, 028. Apesar dos erros, uma vez que a classificao de um
sinal completo feita considerando a maioria simples das classificaes de seus frames, nenhum
dos sinais de choro foi classificado incorretamente. O sinal 11 foi utilizado a fim de demonstrar
que para sinais com rudo e distores tambm podem ser classificados de forma correta.
O mesmo procedimento foi realizado para os sinais que no apresentam sinal de choro
e os resultados so mostrados na Tabela 4.2.
Tabela 4.2: Classificaes corretas e porcentagem de erro na classificao dos sinais que no
contm choro.
Sinal Nmero de amostras Classificaes corretas Erro
outlier8 1088 787 27,665%
outlier9 992 933 5,948%
outlier10 2712 2308 14,897%
outlier11 2307 2276 1,344%
outlier12 2400 2176 9,333%
outlier13 1263 1261 0,158%
Para os sinais que no contm choro o erro na classificao dos frames apresenta uma
mdia consideravelmente superior, de 9, 891% e desvio padro de 0, 102. Os sinais que apre-
sentaram maior porcentagem de erro, de 27, 665% e 14, 897%, correspondem a uma gargalhada
e um sinal com canto de pssaros, respectivamente. A Figura 4.1 apresenta o erro para cada
um dos sinais de teste utilizados, sem nenhuma adio de rudo. Considerando todas a soma
de todas as amostras utilizadas para treino do algoritmo, um total de 26771, e a quantidade de
acertos sendo 23954, o erro total foi de 10, 523%
8
Hard clipping o fenmeno decorrente de erros de quantizao. Quando a amplitude do sinal ultrapassa o
nmero de bits de quantizao do sistema de aquisio, esse sinal cortado.
68
ERROS
30,000%
25,000%
20,000%
15,000%
10,000%
5,000%
0,000%
Figura 4.1: Porcentagem de erro na classificao do total de frames para os sinais de teste.
Esse resultado mostra que o algoritmo capaz de identificar sinais de choro mesmo em
ambientes ruidosos, porm apresenta erro na classificao do sinal completo quando a ampli-
tude do rudo supera o sinal de interesse. Uma vez que a utilizao pensada para ambientes
fechados com a plataforma de aquisio prxima ao beb, verifica-se que o desempenho muito
satisfatrio. Porm a habilidade de classificar sinais corretamente no o nico parmetro de
69
O sinal com menor erro, para sinais encurtados se manteve com 100% de classificaes
corretas, enquanto que o sinal completo com maior erro, apesar de apresentar erro alto entre suas
amostras, ainda assim foi classificado como choro. A partir dessas informaes, considera-se
que razovel que seja realizado o processamendo do sinal de entrada no sistema de aquisio
a cada 2 segundos. Assim, a seo seguinte apresenta os resultados para processamento em
tempo real, considerando os resultados apresentados para classificao de sinais gravados.
A fim de lidar com o problema de sinais de choro contaminados por rudo foram realiza-
dos testes de anlise de autocorrelao e testes de fator de harmonicidade (Harmonicity Factor),
porm nenhum deles resultou numa correta classificao dos sinais. Como exposto no captulo
70
Fator de harmonicidade para rudo branco Fator de harmonicidade para sinal de fala
4 3
3,5
2,5
2
2,5
HF
HF
2 1,5
1,5
1
0,5
0,5
0 0
0 20 40 60 80 100 120 140 160 0 100 200 300 400 500 600 700 800 900 1000
Amostras Amostras
(a) [HF para rudo branco. (b) [HF para sinal de fala.
Fator de harmonicidade para sinal de fala Fator de harmonicidade para sinal de fala
6000 6000
5000 5000
4000 4000
HF
HF
3000 3000
2000 2000
1000 1000
0 0
0 100 200 300 400 500 600 0 100 200 300 400 500 600
Amostras Amostras
(c) [HF para o primeiro sinal de choro. (d) HF para o segundo sinal de choro.
Ao observar os resultados obtidos para esse parmetro, o sinal que obteve o comporta-
mento esperado e assim, demonstrando ser um sinal harmnico, foi o sinal de fala. Os sinais de
choro no condisseram com as expectativas de harmonicidade para um sinal de choro.
O problema de classificao para sinais contaminados por rudo, fica portanto em aberto
para futuros estudos.
71
5 CONCLUSES
REFERNCIAS
BOSER, B. E.; GUYON, I. M.; VAPNIK, V. N. A Training Algorithm for Optimal Margin
Classiers. Proceedings of the 5th Annual Workshop on Computational Learning Theory,
[S.l.], 1992.
COHEN, R.; LAVINER, Y. Infant Cry Analysis and Detection. IEEE 27th Convention of
Electrical and Electronics Engineers in Israel, [S.l.], 2012.
DENES, P. B.; PINSON, E. N. The Speech Chain: the physics and biology of spoken language.
[S.l.]: LLC, 2012.
HUANG, X.; ACERO, A.; HON, H. Spoken Language Processing: a guide to theory, algo-
rithm, and system development. [S.l.]: Prentice Hall, 2001.
I. PITAS, A. N. V. Nonlinear Digital Filters: principles and applications. 1.ed. [S.l.]: Springer
US, 1990. (The Springer International Series in Engineering and Computer Science 84).
KENT, R. D.; READ, C. The Acoustic Analysis of Speech. [S.l.]: Thomson Learning, 2002.
LAGASSE, L. L.; NEAL, A. R.; LESTER, B. M. Assessment of infant cry: acoustic cry analy-
sis and parental perception. Mental retardation and developmental disabilitiesresearch re-
views, [S.l.], 2005.
SHIN, K.; HAMMOND, J. Fundamentals of Signal Processing for Sound and Vibration
Engineers. [S.l.]: Wiley, 2008.
STEVENS, S. S.; VOLKMANN, J. The relation of pitch to frequency: a revised scale. The
American Journal of Psychology, [S.l.], 1940.
TAN, L. Digital Signal Processing: fundamentals and application. [S.l.]: Academic Press,
2008.