Sei sulla pagina 1di 74

UNIVERSIDADE FEDERAL DE SANTA MARIA

CENTRO DE TECNOLOGIA
CURSO DE GRADUAO EM ENGENHARIA ACSTICA

APLICAO DA TEORIA DE
PROCESSAMENTO DIGITAL DE SINAIS A
UM PROBLEMA DE IDENTIFICAO DO
CHORO DE BEBS

TRABALHO DE CONCLUSO DE CURSO

Rafael G. L. Andrade

Santa Maria, RS, Brasil


2017
APLICAO DA TEORIA DE PROCESSAMENTO DIGITAL
DE SINAIS A UM PROBLEMA DE IDENTIFICAO DO
CHORO DE BEBS

Rafael G. L. Andrade

Trabalho de Concluso de Curso para graduao em Engenharia Acustica, da


Universidade Federal de Santa Maria (UFSM, RS),
como requisito parcial para obteno do grau de
Bacharel em Engenharia Acstica

Orientador: Prof. Dr. William DA. Fonseca

Santa Maria, RS, Brasil


2017
Andrade, Rafael G. L.
Aplicao da teoria de processamento digital de sinais a um pro-
blema de identificao do choro de bebs / por Rafael G. L. Andrade.
2017.
74 f.: il.; 30 cm.
Orientador: William DA. Fonseca
Trabalho de Concluso de Curso - Universidade Federal de Santa
Maria, Centro de Tecnologia, Curso de graduao em Engenharia Acs-
tica, RS, 2017.
1. Processamento digital de sinais. 2. Cepstrum. 3. Classificao
de sinais. I. Fonseca, William DA.. II. Ttulo.

2017
Todos os direitos autorais reservados a Rafael G. L. Andrade. A reproduo de partes ou do
todo deste trabalho s poder ser feita mediante a citao da fonte.
E-mail: rafael.gl.andrade@gmail.com
Universidade Federal de Santa Maria
Centro de Tecnologia
Curso de graduao em Engenharia Acstica

A Comisso Examinadora, abaixo assinada,


aprova a Trabalho de Concluso de Curso

APLICAO DA TEORIA DE PROCESSAMENTO DIGITAL DE SINAIS


A UM PROBLEMA DE IDENTIFICAO DO CHORO DE BEBS

elaborada por
Rafael G. L. Andrade

como requisito parcial para obteno do grau de


Bacharel em Engenharia Acstica

COMISSO EXAMINADORA:

William DA. Fonseca, Dr.


(Presidente/Orientador)

Joo Kanieski, Prof. Dr. (UFSM)

Paulo Mareze, Prof. Dr. (UFSM)

Santa Maria, 13 de Julho de 2017.


A Elias Leal (in memorian), meu maior exemplo de sabedoria e erudio, por todo
aprendizado e cuidado.
AGRADECIMENTOS

Ao Autor de toda cincia e conhecimento.


Agradeo aos meus pais o investimento e incentivo, principalmente nos momentos finais
em que o trabalho parecia interminvel. Vocs so os maiores responsveis por ter chegado at
aqui. Agradeo tambm s avs Wilma e Geni, tia ngela e tio Welton. Imensa gratido a dois
dos meus maiores exemplos e incentivos, e que no terei ao lado para compartilhar a alegria da
minha formao, v Elias e tio Wesley.
Ao orientador de tantos anos, Prof. William Fonseca, obrigado pela pacincia em cada
uma das fases, da IC ao TCC, aos professores que tanto se dedicam em nossa formao e Prof.
Dinara, cuja entrega ao sonho e ideal de engenharia acstica tornou nossa profisso possvel,
obrigado!
No posso deixar de agradecer a todos os colegas e amigos da Engenharia Acstica,
que se fizeram presentes em tantos momentos durante todos esses anos de curso. Aos que j
formaram e que deixaram saudade nos ltimos semestres de curso: Xuxa e Nessa, Fi, Jean,
Vini, Marcel, Sorin, Bolovo, Gilzo. Aos colegas da turma de 2011: Michael, Pri, Motta (que
ajudou muito com os filtros Mel), Bia. Aos que entraram depois: Brbara, Zorzo, Rina, Laza,
Fujita, Tiago, Iam Kim, Vic, Fred entre tantos outros que me sinto injusto ao no citar devido
ao pouco espao.
De fora do curso, mas muito presentes em cada momento, registro meus agradecimentos
a Felipe, Camila e Ina, que foram meu suporte, principalmente nos ltimos meses; Duda, amiga
de todas as horas e momentos, de altos e baixos; Felipe, Raisa, Dudinha e Mini Rafa, quase
minha famlia em Santa Maria desde meus primeiros dias na cidade; Lus Ademir, Lilian e
Larri, que me aguentaram morando com vocs por tanto tempo; Doug, que apareceu agora no
finzinho, mas que contribuiu demais em diversos processos e se mostrou disposto a ajudar no
que fosse. Ainda cabe um agradecimento a um amigo de longe, mas que incansavelmente me
importunou para que fizesse o TCC: Obrigado Eler.
Agradeo aos irmos da IPSM e ao Rev. Ronaldo Vasconcelos, por apoio e oraes.
Agradecimento especial Dona Enedir e famlia, que foram essenciais aos progressos nesse
trabalho ao "me adotar".
Enfim, diversas foram as pessoas que tornaram a concretizao desse trabalho poss-
vel, incentivando, apoiando e me ajudando sobreviver aos anos de faculdade com todas suas
mazelas. A vocs, meus sinceros agradecimentos.
I hear babies cry and watch them grow. Theyll learn much more, than Ill ever know.
L OUIS A RMSTRONG
RESUMO

Trabalho de Concluso de Curso


Curso de graduao em Engenharia Acstica
Universidade Federal de Santa Maria

APLICAO DA TEORIA DE PROCESSAMENTO DIGITAL DE SINAIS A UM


PROBLEMA DE IDENTIFICAO DO CHORO DE BEBS
AUTOR: RAFAEL G. L. ANDRADE
ORIENTADOR: WILLIAM DA. FONSECA
Local da Defesa e Data: Santa Maria, 13 de Julho de 2017.
Antes mesmo que seja possvel a utilizao da linguagem, crianas se utilizam de pro-
cessos de comunicao institivos. Isso se reflete, por exemplo, num recm nascido que chora
ou em crianas que mesmo surdas e cegas so capazes de gargalhar e emitir sons que exprimem
de alguma forma o estado de esprito desse indivduo, sem nunca mesmo terem ouvido esses
sons. Esses processos instintivos do comunicador, porm, no so necessariamente institivos
por parte dos receptores. Pais de um recm nascido so capazes de atribuir significados aos
diferentes choros de seu beb, podendo identificar o motivo do choro e o procedimento a ser
tomado. Isso configura um canal importante de comunicao entre um infante e seus tutores.
Esse canal de comunicao, porm, pode ser bloqueado quando os receptores so incapazes de
acessar a informao transmitida.
Tendo em vista o dficit de tecnologias assistivas nesse sentido, por meio de estudos
da teoria de processamento digital de sinais foi proposto um algoritmo de classificao a fim
de identificar em sinais sonoros o choro de bebs, para que notificaes sejam enviadas aos
tutores surdos facilitando o processo da paternidade surda. A principal motivao iniciar o
desenvolvimento de um prottipo de baixo custo que seja de acessvel comunidade surda.
Aps a escrita do algoritmo, que tem como parmetro principal os Mel-frequency ceps-
trum coefficients (MFCC), foram realizados diversos testes com sinais variados. O algoritmo
mostrou-se deficitrio para a anlise de sinais com a presena de rudo e requer mais desenvol-
vimentos que lhe confiram robustez para esse tipo de classificao.

Palavras-chave: Processamento digital de sinais. Cepstrum. Classificao de sinais.


ABSTRACT

Undergraduate Final Work


Undergraduate Course in Acoustical Engineering
Federal University of Santa Maria

DIGITAL SIGNAL PROCESSING THEORY APPLICATION IN A BABIES CRY


RECOGNITION PROBLEM
AUTHOR: RAFAEL G. L. ANDRADE
ADVISOR: WILLIAM DA. FONSECA
Defense Place and Date: Santa Maria, March 13st , 2017.

Even before the possibility of using language, children communicate instinctively. That
is reflected, for example, when a newborn child cries or when deaf and blind children can gig-
gle and emit sounds that can express their state of mind, without hearing that sound before.
But those instinctive processes from the communicator are not always instinctive for the recep-
tors. Parents of a newborn child are capable of understand the meaning of the different cries
from theis babies, and so, identify the reason for the cry and how to deal with it. That poses
an important communication channel between an infant and its parents. That communication
channel, although, may be blocked when the receptors are not able to access the transmitted
informations.
With all the deficits of assistive technologies in that area, through signal processing
theory, it is presented a classification algorithm in order to recognize the sound of a babys cry,
and send notifications to a deaf parent, making their lives easier in any way. So, the main goal
of this work is the beginning of a low cost prototype development, affordable for those of the
deaf community.
After the conclusion of the algorithm, that uses primarily the Mel-frequency cepstrum
coefficients (MFCC) as the classification parameter, tests with several audio signals were per-
formed. The algorithm turned out inefficient when facing noise-contaminated signals and re-
quires better developments in order to provide a more robust classification.

Keywords: Digital signal processing. Cepstrum. Signal classification.


LISTA DE FIGURAS

Figura 1.1 Bracelete de alerta Aria. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16


Figura 1.2 Conjunto do sistema Vibe Ring. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Figura 1.3 Conjunto do sistema de monitorao de bebs Graco. . . . . . . . . . . . . . . . . . . . . . . 18
Figura 1.4 Interface do aplicativo Cry Translator. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

Figura 2.1 Superposio entre espectros de sinais subamostrados. . . . . . . . . . . . . . . . . . . . . . 23


Figura 2.2 Espectro de um frame do sinal evidenciando o fenmeno de espelhamento. . 23
Figura 2.3 Bits de quantizao para um sistema de 4 bits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Figura 2.4 Representao digital de um sinal analgico quantizado. . . . . . . . . . . . . . . . . . . . 25
Figura 2.5 Sinal com janela de anlise no mltipla ao perodo, gerando descontinuidade. 27
Figura 2.6 Comparao entre os espectros com nmero inteiro de perodos e com n-
mero no inteiro de perodos, evidenciando a influncia do fenmeno de
leakage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Figura 2.7 Comportamento temporal e respectiva transformada para o domnio da frequn-
cia da janela Barlett. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Figura 2.8 Comportamento temporal e respectiva transformada para o domnio da frequn-
cia da janela Hamming.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Figura 2.9 Comportamento temporal e respectiva transformada para o domnio da frequn-
cia da janela Hanning. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Figura 2.10 Comparao de smearing e leakage entre janelas retangular, Hamming e
Hann.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
Figura 2.11 Diagrama de caixas exemplificando a combinao linear de um sinal de
entrada x(t) com a resposta impulsiva de um sistema h(t), resultando no
sinal de sada y(t). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Figura 2.12 Demonstrao do tamanho do bloco e frame rate. . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Figura 2.13 Diagrama de blocos para um sistema de processamento em frames. . . . . . . . . . 33
Figura 2.14 Comparao entre a forma de onda para a palavra skills e a STE desse sinal. 34
Figura 2.15 Comparao entre a forma de onda para a palavra skills e a ZCR do sinal. . . . 35
Figura 2.16 Exemplo de espectrograma de um trecho de sinal de udio genrico. . . . . . . . . 36
Figura 2.17 Decomposio linear de um sistema homomrfico.. . . . . . . . . . . . . . . . . . . . . . . . . 37
Figura 2.18 Curva da mel-scale de Stevens e Volkmann. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Figura 2.19 Anlises temporal, espectral e espectrograma para um sinal de choro. . . . . . . . 41
Figura 2.20 Espectrogramas de diferentes sinais de choro. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
Figura 2.21 Cadeia da fala, dividida entre nveis lingusticos, fisiolgicos e acsticos,
para produo e percepo do sinal de fala. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Figura 2.22 Sistema fonador. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Figura 2.23 Diagrama de blocos da produo da fala. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
Figura 2.24 Distribuio espectral de um sinal de fala de longa durao. . . . . . . . . . . . . . . . . 45
Figura 2.25 Conjunto de treinamento e trs diferentes hipteses. Na primeira ocorre
overfitting, a segunda apresenta um bom ajuste e na terceira ocorre under-
fitting. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Figura 2.26 Exemplo visual da aplicao de SVM para classificao. . . . . . . . . . . . . . . . . . . . 48

Figura 3.1 Detalhe do trecho de sinal que contm o bloco de fala utilizado nas anlises. 52
Figura 3.2 Bloco utilizado nas anlises de janela para sinal de fala anecoico. . . . . . . . . . . . 52
Figura 3.3 Comparao de diferentes janelas a um mesmo bloco de sinal de fala.. . . . . . . 53
Figura 3.4 Comparao de diferentes janelas a um mesmo bloco de sinal de fala.. . . . . . . 54
Figura 3.5 Detalhe do trecho de sinal que contm o bloco de choro utilizado nas anlises. 54
Figura 3.6 Comparao de diferentes janelas a um mesmo bloco de sinal de fala.. . . . . . . 55
Figura 3.7 Comparao de diferentes janelas a um mesmo bloco de sinal de fala.. . . . . . . 55
Figura 3.8 Comparao da STE calculada de duas formas diferentes. . . . . . . . . . . . . . . . . . . 57
Figura 3.9 Banco de filtros sobrepostos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
Figura 3.10 Espectro Mel para o frame utilizado como exemplo. . . . . . . . . . . . . . . . . . . . . . . . . 59
Figura 3.11 Comparao entre o sinal no tempo com adio de rudo e diferentes SNRs. . 62
Figura 3.12 Combinao dos sinais choro14 e outlier13. . . . . . . . . . . . . . . . . . . . . . . . . . 63
Figura 3.13 Comparao entre a STE para sinal de fala e sinal de rudo branco. . . . . . . . . . 64

Figura 4.1 Porcentagem de erro na classificao do total de frames para os sinais de


teste. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
Figura 4.2 Comparao entre as HFs para diferentes sinais. . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
LISTA DE TABELAS

Tabela 3.1 Banco de sinais de no choro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

Tabela 4.1 Classificaes corretas e porcentagem de erro na classificao dos sinais de


choro, sem adio de rudo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
Tabela 4.2 Classificaes corretas e porcentagem de erro na classificao dos sinais
que no contm choro. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
Tabela 4.3 Resultados para os sinais combinados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
Tabela 4.4 Resultados de classificao para trechos curtos dos sinais. . . . . . . . . . . . . . . . . . . 69
LISTA DE ABREVIATURAS E SIGLAS

SNR Signal-to-noise ratio


DFT Discrete Fourier Transform
FFT Fast Fourier Transform
STE Sort-time energy
ZCR Zero Crossings Rate
MFCC Mel-frequency Cepstrum Coefficients
DLO Diferena no limiar do observvel
kNN k-Nearest Neighbours
SVM Support Vector Machine
SUMRIO

1 INTRODUO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.1.1 Objetivos especficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2 REVISO BIBLIOGRFICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1 Processamento de sinais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1.1 Amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1.2 Quantizao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.1.3 Relao sinal-rudo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.1.4 Anlises de Fourier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.1.4.1 Efeitos de janelamento temporal e truncagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.1.5 Convoluo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.1.6 Processamento em blocos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.1.6.1 Efeito de janelas no processamento em blocos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.1.6.2 Short-time Energy (STE) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.1.6.3 Zero-crossings rate (ZCR) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.1.6.4 Espectrograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.1.7 Cepstrum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.1.8 Mel-Frequency Cepstrum Coefficients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.1.8.1 Pitch e escala Mel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.2 Caractersticas do choro de bebs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.3 Caractersticas de sinais de fala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.4 Aprendizado de mquina. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.4.1 Definies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.4.2 K Nearest Neighbours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.1 Anlises do sinal no domnio do tempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.1.1 Janelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.1.1.1 Aplicao de janelas bloco a bloco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.1.1.2 Aplicao de janelas por convoluo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.1.2 Short-time Energy (STE) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2 Anlises cepstrais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.3 Classificao dos sinais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.3.1 Implementao de k-NN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.3.2 Teste de classificao na presena de rudo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.4 Identificao de rudo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.5 Classificao de sinais contaminados por rudo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.1 Classificao de sinais gravados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.1.1 Classificao de sinais contaminados por rudo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5 CONCLUSES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
REFERNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
15

1 INTRODUO

A habilidade de comunicao humana atravs da fala considerada o fator determinante


de distino entre seres humanos e outros animais. Nossa fisiologia preparada para exercer
funes especficas de produo da fala articulada, mas alm da simples articulao, nosso c-
rebro capaz de realizar a abstrao de significados das palavras, organizar ideias e produzir
um discurso lgico que obedea as regras sintticas de cada idioma (SLOBIN, 1979). Dessa
forma, indivduos que sofrem de afasias1 e distrbios de produo de fala, ainda assim con-
seguem processar informaes de alguma forma. Pessoas surdas, mesmo que no se utilizem
de comunicao verbal atravs de fala e audio, podem se comunicar com a utilizao de uma
lngua sinalizada, no caso do Brasil, por meio da LIBRAS (Lngua Brasileira de Sinais). Assim,
a principal caracterstica humana a capacidade de abstrao de significados.
Dada a importncia da linguagem e da fala, se desenvolveram tcnicas para seu estudo.
Essas tcnicas se voltaram aos aspectos de produo e percepo da fala que so inacessveis
sem a utilizao de instrumentos e que fornecem recursos para tratamentos fonoaudiolgicos,
ou para a indstria de telecomunicaes e comunicao entre homem e mquina (BARBOSA;
MADUREIRA, 2015). A rea de estudo em processamento de sinais de fala desenvolveu di-
versas formas de anlise, considerando os sinais nos domnio de tempo, frequncia e outros, de
forma a acessar parmetros e aspectos diferentes dos sinais de fala.
Todavia, antes mesmo que seja possvel a utilizao da linguagem, crianas se utilizam
de processos de comunicao institivos. Isso se reflete, por exemplo, num recm nascido que
chora ou em crianas que mesmo surdas e cegas so capazes de gargalhar e emitir sons que
exprimem de alguma forma o estado de esprito desse indivduo, sem nunca mesmo terem
ouvido esses sons (SLOBIN, 1979). Esses processos instintivos do comunicador, porm, no
so necessariamente institivos por parte dos receptores. Pais de um recm nascido so capazes
de atribuir significados aos diferentes choros de seu beb, podendo identificar o motivo do
choro e o procedimento a ser tomado. Isso configura um canal importante de comunicao
entre um infante e seus tutores. Esse canal de comunicao, porm, pode ser bloqueado quando
os receptores so incapazes de acessar a informao transmitida.
Segundo dados estatsticos levantados pelo IBGE em 2010 (IBGE, 2010), cerca de 7,5
1
Distrbio de linguagem que afeta a capacidade de comunicao da pessoa, podendo afetar tanto a produo de
linguagem, quanto sua compreenso. Existem diversos tipos de afasias que interferem de formas diferentes no
processamento e produo da linguagem.
16

milhes de pessoas possuem alguma deficincia auditiva, perdas auditivas em algum nvel.
Alm desses, 2 milhes de pessoas so surdas, ou seja, possuem perdas totais ou muito ele-
vadas, somando um total de 9,5 milhes de pessoas com deficincia auditiva no pas, nmeros
que representam aproximadamente 5% da populao nacional.
Apesar da possibilidade de comunicao atravs da lngua de sinais, j comentada an-
teriormente, algumas informaes puramente auditivas so perdidas. Nelas se incluem as in-
formaes transmitidas instintivamente por bebs, informaes acerca do ambiente em que o
indivduo surdo est inserido, entre outros tipos de sinais sonoros que so utilizados para alerta e
comunicao no-verbal. Se considerado o nmero de pessoas que no podem acessar esse tipo
de informao, so muito poucos os desenvolvimentos de tecnologias que possibilitam maior
acessibilidade.
Alguns exemplos dessas tecnologias podem ser citados, por inovao e utilidade, e so
brevemente descritos a seguir:

Aria: um bracelete que possui sistema de alerta (Figura 1.1), idealizado pela designer
May Wilson (WILSON, 2009). capaz de identificar entre uma sries de sinais sonoros,
como buzina de carros, despertadores, campainhas e choro de bebs. O receptor do sinal
sonoro fica no prprio bracelete, e quando algum dos sinais identificado o usurio recebe
estmulos tteis e uma luz se acende indicando qual o tipo de sinal recebido.

Figura 1.1: Bracelete de alerta Aria.

Vibe Ring: um prottipo de sistema composto por um par de anis e um relgio de pulso
(KWANG-SEOK; MIN-HEE; HYUN-JOONG, 2008), sua data de lanamento e preos
ainda no foram divulgados apesar de o conceito ter sido apresentado ainda em 2008. Os
anis sero receptores, usados um na mo esquerda e outro na mo direita. Ao identificar
algum dos tipos de sinais contemplados (por exemplo, o nome do usurio ou rudo de
automveis), por conter dois receptores, o sistema ser capaz de apresentar no display do
17

relgio qual o tipo de fonte sonora, distncia e posio aproximada da fonte em relao
ao usurio. O conjunto de relgio e anis mostrado na Figura 1.2.

Figura 1.2: Conjunto do sistema Vibe Ring.

Apesar desses dispositivos inclurem funcionalidades interessantes, devido ao elevado


custo, so por vezes inacessveis a indivduos em situao de vulnerabilidade financeira e so-
cial, excluindo dos benefcios de seu uso a maioria da classe trabalhadora. Esse trabalho aborda
questes tericas relacionadas ao processamento de sinais e suas aplicaes na anlise de pa-
rmetros que possibilitem a identificao de um sinal de choro de bebs. A motivao dessas
aplicaes est no desenvolvimento futuro de um sistema de baixo custo, voltado especialmente
para a ligao entre o canal de comunicao dos bebs aos canais de recepo sensorial de est-
mulos por parte de pessoas surdas, que so visuais ou tteis. Um sistema com custo de produo
baixo poderia at mesmo ser includo em polticas pblicas de assistncia social, beneficiando
ento um nmero bem maior de cidados.
Alguns produtos disponveis no mercado que so voltados ao cuidado com bebs no
apresentam, necessariamente, uma conexo com sistemas sensoriais de surdos, como o Graco
Secure Coverage Digital Baby Monitor e o aplicativo Cry Translator (TECHNOLOGIC, 2009)
descritos abaixo.

Graco Secure Coverage Digital Baby Monitor: um sistema composto por receptor, co-
mumente posicionado no ambiente em que o beb se encontra. Esse sistema possui duas
unidades de alerta para os pais, que podem ser presas ao cinto e transmitem sinais vibra-
trios e luminosos. Porm, o inconveniente das unidades de alerta que so grandes e
no possuem muita praticidade. Alm disso, o sistema no diferencia o choro do beb de
outros sinais sonoros, observe a Figura 1.3.
18

Figura 1.3: Conjunto do sistema de monitorao de bebs Graco.

Cry Translator: um aplicativo para celulares com sistema iOS, voltado ao pblico ou-
vinte, que permite a classificao do choro de um beb, informando se o motivo do choro
fome, dor, sono ou desconforto. A interface do aplicativo apresentada na Figura 1.4.

Figura 1.4: Interface do aplicativo Cry Translator.

Durante o processo de pesquisa, foi encontrado um artigoo com propostas muito seme-
lhantes, desenvolvido por estudantes da Universidade Federal da Paraba (SILVA; VILLANU-
EVA; SOUZA, 2013), o que demonstra a importncia e necessidade desse tipo de tecnologia
assistiva. O artigo apresenta um sistema de classificao em tempo real, que com a utilizao
de Short-time energy e Zer-crossings rate identifica se o sinal analisado ou no um sinal de
choro de bebs.
As ferramentas e tcnicas desenvolvidas para anlise de sinais de fala podem ser apli-
cadas tambm aos sinais de choros de bebs, que por suas caractersticas de formao e mo-
dulao pelo sistema fonador, podem ser considerados um caso especfico de produo de fala.
Assim, para a realizao dos procedimentos de extrao de atributos dos sinais, que tornam esse
sistema possvel, so utilizadas aplicaes da teoria de processamento digital de sinais em dife-
rentes etapas de processamento, aplicando essa teoria ao problema de deteco e classificao
especfico, de sinais de choro de bebs. As aplicaes envolvem principalmente a deteco do
pitch e a aquisio de coeficientes de cepstrum em escala de frequncias Mel (MFCC - Mel
19

Frequency Cepstrum Coefficients) (COHEN; LAVINER, 2012).

1.1 Objetivos

Conforme mencionado anteriormente, o objetivo do projeto consiste num sistema que,


por meio de um algoritmo, detecte o choro de bebs e transmita notificaes a tutores surdos,
luminosas ou tteis, que integrem suas formas de se comunicar s dos infantes. A fim de cumprir
tal objetivo, uma srie de requisitos devem ser cumpridos, conforme listado abaixo.

1.1.1 Objetivos especficos

A fim de tornar o projeto descrito realizvel diversos objetivos devem ser cumpridos.
Esses objetivos so descritos a seguir:

Estudo da natureza do choro de bebs, seus aspectos acsticos e compreenso de sua


semelhana em relao aos sinais acsticos de fala humana articulada;

Estudo do sistema fonador humano, suas caractersticas e especificidades, bem como


mtodos de processamento de sinais de fala que podem ser utilizados de forma especfica
aos sinais de interesse deste trabalho;

Estudo da teoria de processamento de sinais e as vantagens de sua aplicao a sinais de


fala, bem como aos sinais de interesse deste trabalho, o choro de bebs;

Criao de um banco de sinais de choros de bebs e de sinais sonoros recorrentes no


dia-a-dia, a fim de possibilitar a diferenciao dos primeiros sinais em relao a sinais
genricos;

Processamento dos sinais do banco de dados criados, a fim de adquirir as caractersticas


de cada um;

Seleo dos aspectos dos sinais de choro que os diferenciem de outros sinais, possibili-
tando at mesmo a utilizao do sistema em ambientes que contenham rudo;

Comparao da aplicao de diversos procedimentos diferentes, evidenciando a funo


de cada tcnica e como colabora para o objetivo final, de classificao de sinais;

Desenvolvimento de um algoritmo de classificao de sinais, baseado em sinais utilizados


em seu treinamento, se um sinal contm choro de um beb ou no.
20

Mais detalhes acerca de cada um dos objetivos especficos declarados sero fornecidas
mais adiante neste documento, que organizado da seguinte forma:

1. Introduo: apresenta o conceito principal do trabalho, bem como os objetivos a serem


alcanados no desenvolvimento do trabalho;

2. Reviso bibliogrfica: apresenta a teoria utilizada e a base bibliogrfica necessria para a


realizao das classificaes dos sinais contidos no banco de dados;

3. Metodologia: expe com detalhes a forma de desenvolvimento do trabalho, os algoritmos


escritos e os testes realizados;

4. Resultados: descreve os resultados obtidos na fase de testes do algoritmo em cada uma


de suas etapas;

5. Consideraes finais: apresenta as concluses acerca do projeto e dos resultados, os su-


cessos, possveis falhas e desenvolvimentos futuros.
21

2 REVISO BIBLIOGRFICA

A primeira forma de comunicao de qualquer ser humano com o mundo que o cerca
o choro, sendo manifestado pela primeira vez logo aps seu nascimento. Esse mecanismo ins-
tintivo como um sinal de alarme biolgico, cumprindo o papel de chamar a ateno dos pais e
auxiliar no alvio de estresse do beb (VARSHARANI; SARDAR, 2015). Essa forma de comu-
nicao no possui apenas um padro, sendo possvel diferenciar at entre 5 tipos de choros que
carregam significados diferentes, demonstrando assim qual a fonte de desconforto da criana
(DUNSTAN, 2009). Informaes como fome, sono, dor e at mesmo prazer so transmitidas
dessa forma, o que permite afirmar que, quanto funo de comunicar, o choro de um beb e
a fala so equivalentes, desconsiderando-se a complexidade dos significados transmitidos por
cada um.
Estudos realizados por Priscila Dunstan sobre o assunto levaram criao da Dunstan
Baby Language, ou Linguagem de Dunstan. A musicista australiana com grande facilidade de
memorizao de sons, notou uma relao entre padro de choro e seu significado. Em sua pes-
quisa, conduzida experimentalmente com mais de mil bebs, Dunstan classifica choros de bebs
em 5 tipos diferentes, cada tipo traduzido por uma informao a respeito das necessidades do
beb, sendo elas fome, sonolncia, necessidade de eructao, dores de barriga e desconforto,
este relacionado a fatores diversos (DUNSTAN, 2009). A partir dessa pesquisa foram elabora-
dos materiais, como DVDs e livros, para treinamento de pais e cuidadores de crianas na iden-
tificao de cada tipo de choro. O que permite essa identificao so caractersticas acsticas
dos sinais, tanto em seu comportamento temporal, quanto aspectos espectrais do som emitido.
Alm da classificao de Dunstan, a anlise do choro de bebs tambm permite a identifica-
o eficiente de doenas e distrbios como apnia, asfixia, hipotiroidismo, fenda palatina, entre
outros (BALANDONG, 2013).
O presente captulo inicia portanto bases tericas de processamento de sinais, incluindo
aplicaes a sinais de fala. Aps isso, apresenta caractersticas dos sinais de choro de bebs
e justifica sua interpretao como um sinal de fala, possibilitando a aplicao de tcnicas de
processamento de fala sobre esses sinais. Ao final do captulo so expostos de forma suscinta
alguns conceitos de aprendizado de mquina aplicados classificao de sinais.
22

2.1 Processamento de sinais

Existem diversas aplicaes da teoria de processamento de sinais relacionados a sinais


de fala, como codificao, compresso, reconhecimento e transmisso. Para a rea de interesse
especfica desse trabalho, sero consideradas as aplicaes e mtodos relacionados ao reconhe-
cimento de sinais de fala, uma vez que essas aplicaes sero utilizadas com sinais de choro de
bebs. necessrio porm, antes de abordar as questes especficas da fala, que algumas bases
do processamento digital de sinais sejam construdas.
A teoria de processamento digital de sinais contm conceitos bsicos que sero utiliza-
dos em aplicaes mais avanadas. Esses conceitos passam pela teoria de amostragem, filtros,
janelas e aquisio de sinais e sero trabalhados nas sees que seguem.

2.1.1 Amostragem

Uma vez que o processamento de sinais digital, inevitavelmente surgem questes re-
lacionadas a amostragem e quantizao. Sinais analgicos, como na sada de um microfone,
variam continuamente no tempo, e se considerados dois instantes de tempo qualquer, entre eles
existem infinitos valores de amplitude. Assim, para armazenar um sinal digitalizado em sua
completude seria necessria uma capacidade infinita de armazenamento. Havendo essa im-
possibilidade, necessrio que o sinal passe por um processo de discretizao temporal e de
amplitude.
Tendo em vista essa discretizao, deve-se considerar que os sinais analgicos recebidos
pelo dispositivo de converso analgico-digital devem ser amostrados a certa frequncia de
amostragem fs , de modo que seu armazenamento se d atravs de uma sequncia finita de
informaes (BARBOSA; MADUREIRA, 2015). A frequncia de amostragem informa quantas
amostras so tomadas por segundo, e dada em Hertz (Hz).
O espectro de um sinal contm partes negativa e positiva simtricas em relao a 0 Hz,
a parte negativa, porm, no utilizada na anlise espectral de sinais. Ao submeter um si-
nal amostrado s anlises de Fourier, observa-se o fenmeno de aliasing ou dobramento, que
consiste em cpias deslocadas do espectro do sinal em torno da frequncia de amostragem, con-
forme mostra a Figura 2.1, em que, devido subamostragem, esses espectros esto sobrepostos
gerando distores.
23

Figura 2.1: Superposio entre espectros de sinais subamostrados,


retirado de (SHIN; HAMMOND, 2008).

Para que a anlise do sinal no seja prejudicada por esses efeitos de aliasing, interes-
sante que se observe a frequncia de amostragem do sinal em relao ao Teorema de Nyquist
(SHIN; HAMMOND, 2008). Esse teorema estabelece que para evitar distores no espectro a
frequncia de amostragem do sinal deve ser:

fs > 2fmax , (2.1)

em que fmax a frequncia mxima de interesse para as anlises espectrais realizadas. Um valor
comum para fs utilizado de 44.100 Hz, utilizado na maior parte das aplicaes de amostragem
para a rea do udio, uma vez que no provoca distores na faixa audvel de frequncias.
A Figura 2.2 apresenta o espectro plotado at a frequncia de amostragem (fs = 44.100Hz)
do sinal, evidenciando o espelhamento do espectro. Nesse caso o espelhamento no provoca
distores na faixa de frequncias de interesse, uma vez que a fs de 44.100 Hz.

Espectro para um frame do sinal


600

500

400
Magnitude

300

200

100

0
-20000 -15000 -10000 -5000 0 5000 10000 15000 20000
Frequncia (Hz)

Figura 2.2: Espectro de um frame do sinal evidenciando o fenmeno de espelhamento.

2.1.2 Quantizao

O processo de quantizao, tambm motivado pela limitao de armazenamento digital


de informaes, discretiza os valores contnuos de amplitude de um sinal gravado. Atravs da
quantizao apenas um nmero finito de valores de amplitude podem ser armazenados, e esses
24

valores so determinados pelo nmero de bits de quantizao disponibilizados pelo sistema


de converso do sinal. usual encontrarmos equipamentos com 8, 16, 24 bits dedicados
quantizao em udio e acstica. O total de nveis de quantizao dado em forma de uma
potncia de 2, como segue:
Nmero de nveis = 2n , (2.2)

sendo n o nmero de bits de quantizao do sistema. Assim, para um sistema com amostragem
de 16 bits dispe-se de 65536 nveis, distribudos entre os valores de -1 e 1 (BARBOSA; MA-
DUREIRA, 2015). O que ocorre, na verdade, que so disponilizados 2n1 valores possveis,
pois um dos bits atribui o sinal (positivo ou negativo) ao valor, o que faz com que o nmero de
nveis seja o dobro do nmero de valores possveis.
Exemplificando com um sistema de 4 bits, a Figura 2.3 apresenta a distribuio de bits
para quantizao da amplitude, sendo o primeiro o bit de sinal e os outros 3 para os valores,
lidos de forma binria com a combinao de zeros e uns que ser lida pelo computador.

Figura 2.3: Bits de quantizao para um sistema de 4 bits,


adaptado de (SHIN; HAMMOND, 2008).

Essa sequncia possibilita ento a distribuio de valores conforme ilustrado na Fi-


gura 2.4, em que existem um sinal analgico e sua representao na forma digital. Existem
ento 8 valores (23 ) que podem receber sinal positivo e negativo, fornecendo um total de 16
nveis possveis.
25

Figura 2.4: Representao digital de um sinal analgico quantizado,


adaptado de (SHIN; HAMMOND, 2008).

2.1.3 Relao sinal-rudo

Outro conceito importante em processamento de sinais a relao sinal-rudo (ou Signal-


to-noise ratio, SNR). A aplicao desse conceito ser feita no Captulo 3. A SNR consiste na
relao entre a potncia dos sinais de interesse e de rudo contidos num sinal gravado ou medi-
o e descrita por:  
PS
SNR = 10log10 dB, (2.3)
PN
em que PS a potncia do sinal de interesse e PN a potncia do rudo. interessante para a
anlise de sinais que a relao sinal-rudo seja alta, para tanto, os dispositivos de gravao de-
vem prover uma faixa dinmica ampla para a gravao, evitando transtornos devido influncia
de rudos.

2.1.4 Anlises de Fourier

Alm das anlises temporais do sinal, muito importante a realizao de anlises no


domnio da frequncia ou hbridos entre tempo e frequncia. Para isso, as anlises de Fou-
rier em sinais digitais, especificamente DFT (Discrete Fourier Transform) e FFT (Fast Fourier
Transform), sero abordadas de forma breve.
A Transformada discreta de Fourier (TDF ou DFT) uma expanso da teoria das Sries
de Fourier, aplicada a sinais finitos e discretos (ou amostrados). A definio da transformada
26

discreta de Fourier dada por:


N
X 1
X(k) = x(n)ej2kn/N , (2.4)
n=0

em que X(k) so os componentes espectrais para os k pontos de discretizao na frequncia, N


o nmero de amostras do sinal no tempo e x(n) o sinal no domnio do tempo. O resultado
dessa operao o espectro para o sinal analizado x(n).
A FFT, ou Transformada rpida de Fourier, um algoritmo muito eficiente, e consequen-
temente, muito utilizado para o clculo da Transformada discreta de Fourier (DFT) mencionada
acima. Esse algoritmo requer que o tamanho do sinal no tempo seja uma potncia de base 2,
e caso no seja, se utiliza da tcnica de zero-padding2 , ou atribuio de amostras com valor 0,
para aumentar o nmero de amostras. O uso dessa tcnica no implica em mais informaes
espectrais, nem melhora a acurcia da representao em frequncia, apenas diminui o espa-
amento entre frequncias calculadas, realizando a interpolao entre valores e melhorando a
visualizao do espectro (TAN, 2008).

2.1.4.1 Efeitos de janelamento temporal e truncagem

Antes da avaliao do efeito das janelas, necessrio que se conceitue o que so janelas
e por que seu uso em processamento de sinais importante. Janelas so filtros temporais, com
durao estabelecida de acordo com as necessidades de anlise, que rejeitam as pores de sinal
anteriores ao ponto inicial de aplicao da janela e posteriores ao seu final. Assim, janelamento
o processo de aplicao desse filtro, truncando um sinal a fim de obter uma sequncia finita de
amostras para anlise. A utilizao de janelas fundamental para a anlises de sinais temporais,
uma vez que impossvel realizar anlises de sinais infinitos e sinais muito grandes impe um
alto custo computacional, ou ainda para analisar trechos muito curtos de sinal a fim de obter
respostas sobre eventos especficos de curta durao.
Teoricamente, ao aplicar a DFT a um sinal, de forma implicita considera-se que esse
sinal peridico e as amostras contnuas. Porm, comum que a continuidade do sinal seja
de alguma forma desrespeitada, por exemplo, ao analisar uma janela que no contm um n-
mero de perodos inteiros do sinal. Quando isso ocorre, surge uma descontinuidade, tal como
apresentada na Figura 2.5, em que a janela de anlise do sinal considera 2,25 perodos do sinal
senoidal analisado (TAN, 2008).
2
27

Figura 2.5: Sinal com janela de anlise no mltipla ao perodo do sinal, gerando desconti-
nuidade,
adaptado de (TAN, 2008).

O corte, ou descontinuidade, provoca no espectro o efeito de leakage, ou vazamento, que


consiste no acrscimo de frequncias harmnicas que no esto presentes no sinal original. O
espectro resultante da transformada do sinal com descontinuidade apresentado na Figura 2.6b
em comparao com o espectro obtido atravs do sinal cuja janela corresponde a mltiplos
inteiros de seu perodo, Figura 2.6a. Quanto mais abrupta a descontinuidade presente no sinal
temporal janelado, maior ser o efeito de leakage presente no espectro, o que representa um
problema para anlises de sinais no-senoidais, que possuem energia em diversas frequncias.
A janela utilizada nos exemplos anteriores era retangular, que consiste simplesmente
em truncar o sinal num ponto, sem a utilizao de funes especiais nas extremidades do si-
nal. A fim de controlar o problema de leakage geralmente so utilizadas outras funes para
janelamento temporal de sinais.

(a) Espectro de um trecho de sinal que con- (b) Espectro de um trecho de sinal que con-
tm nmero inteiro de perodos. tm nmero no inteiro de perodos, ge-
rando o fenmeno de leakage.

Figura 2.6: Comparao entre os espectros com nmero inteiro de perodos e com nmero
no inteiro de perodos, evidenciando a influncia do fenmeno de leakage,
adaptado de (TAN, 2008).
28

So comparadas abaixo algumas das funes de janelamento mais comuns utilizadas:

Barlett ou triangular,definida pela funo:


 
|t|
w(t) = A 1 , |t| 6 T /2, (2.5)
T /2

em que t referente ao ponto no tempo, para o qual a janela definida, e T o perodo


da janela, ou seu tempo de durao. Essa funo apresenta o comportamento temporal e
sua transformada para o domnio frequncia conforme mostra a Figura 2.7.

(a) Comportamento temporal da funo de (b) Espectro da janela Barlett.


janelamento Barlett.

Figura 2.7: Comportamento temporal e respectiva transformada para o domnio da frequncia


da janela Barlett,
adaptado de (SHIN; HAMMOND, 2008).
29

Hamming,definida por:

2t
w(t) = 0, 54 + 0, 46cos , |t| 6 T /2, (2.6)
T

cujos comportamentos temporal e em frequncia so mostrados pela Figura 2.8.

(a) Comportamento temporal da funo de (b) Espectro da janela Hamming.


janelamento Hamming.

Figura 2.8: Comportamento temporal e respectiva transformada para o domnio da frequncia


da janela Hamming,
adaptado de (SHIN; HAMMOND, 2008).

Hanning, cuja funo dada por


   
2 t A 2t
w(t) = Acos = 1 + cos , (2.7)
T 2 T

mostrada na Figura 2.9 em relao ao tempo e seu espectro.

(a) Comportamento temporal da funo de (b) Espectro da janela Hanning.


janelamento Hanning.

Figura 2.9: Comportamento temporal e respectiva transformada para o domnio da frequncia


da janela Hanning,
adaptado de (SHIN; HAMMOND, 2008).
30

visto ento que cada funo aplicada ao sinal influencia de forma diferente no espectro
do sinal, e a escolha da janela deve ser pensada de acordo com as necessidades de anlise. O
que se procura um compromisso entre os efeitos de smearing e leakage. Sendo smearing o
aumento da largura de banda da componente de frequncia, o que resulta em menor acurcia. A
Figura 2.10 apresenta sobrepostas as respostas em frequncia das janelas retangular, Hamming
e Hanning, em que possvel notar as diferenas de smearing e leakage.

Figura 2.10: Comparao de smearing e vazamento entre janelas retangular, Hamming e


Hann,
retirado de (BRANDO, 2012).

necessrio observar que quando se trata da escolha de janelas, um compromisso entre


acurcia e SNR deve ser feito, uma vez que se a largura de banda da janela muito grande,
devido ao smearing, isso pode comprometer a visualizao de picos em frequncias prximas,
porm seu estreitamento levar ao aumento dos lbulos laterais (vazamento), resultando numa
piora da SNR. Tambm importante salientar que janelas, com exceo da janela retangular,
retiram energia do sinal e, com isso, necessrio realizar uma correo de energia atravs do
fator de correo: vR
u T /2 2
u T /2 wrect (t)dt
SF = t R T /2 , (2.8)
w 2 (t)dt
T /2

em que wrect a energia da janela retangular e w a janela cuja energia ser corrigida (BRANDO,
2012).

2.1.5 Convoluo

A resposta temporal y(t) de um sistema para uma entrada qualquer x(t) funo apenas
de suas resposta ao impulso h(t), ou seja, h(t) impe as caractersticas desse sistema a um sinal
31

de entrada, veja Figura 2.11. Assim, a sada de qualquer sistema linear invariante no tempo
(SLIT) uma combinao linear entre sua resposta impulsiva e a entrada.

Figura 2.11: Diagrama de caixas exemplificando a combinao linear de um sinal de entrada


x(t) com a resposta impulsiva de um sistema h(t), resultando no sinal de sada y(t).

A essa combinao linear d-se o nome de convoluo, sendo definida por:


Z
y(t) = x(t) h(t) = x(t)h(t )d, (2.9)

em que o sinal y(t) na sada do sistema o resultado da convoluo entre o sinal de entrada x(t)
com a resposta impulsiva h(t) do sistema.
Porm, custoso trabalhar com a integral de convoluo, principalmente invert-la a
fim de determinar a resposta do sistema. importante ento que se conhea a propriedade da
convoluo, que afirma que:
Y (j) = H(j)X(j), (2.10)

ou seja, uma convoluo no tempo representa uma multiplicao no domnio da frequncia, e


vice versa. Dessa forma, o prximo captulo aborda a transformao de sinais do domnio no
tempo para o domnio da frequncia atravs das anlises de Fourier.

2.1.6 Processamento em blocos

Quando os sinais analisados contm informaes que variam muito em um curto espao
de tempo, como o caso de sinais de fala, ou analogamente, de choro de bebs, so utilizados
conceitos mais especficos de processamento de sinais, cujo conjunto de tcnicas e procedi-
mentos pode ser chamado de processamento em blocos (ou block processing). As tcnicas de
processamento em blocos se baseaiam na diviso do sinal em blocos, frames ou segmentos
do sinal original com durao muito curta. Dividir os sinais dessa forma possibilita que cada
bloco do sinal seja estudado como um sinal quasi-perdico3 (STUTTLE, 2005). A durao
dos segmentos do sinal escolhida de acordo com o tipo de sinal que se deseja analisar, sendo
3
Sinais quasi-periidicos so sinais descritos por um somatrio de sinais peridicos, ou seja, possuem vrias
frequncias que se repetem em sua durao
32

usualmente de 10 ms para sinais de fala, que o tempo mnimo necessrio para as mudanas
mais rpidas de fonemas. Como o choro de bebs possui variaes um pouco mais lentas do
que sinais de fala, a janela de anlise de cada segmento utilizada neste trabalho de 25 ms.
Para garantir que no haver perda de informaes importantes do sinal devido aos efei-
tos de janelas, realizado o overlapping entre os blocos, ou seja, o incio de um bloco so-
breposto pelo fim do anterior, e o fim de cada bloco sobreposto pelo incio do seguinte. O
nvel em que ocorrem essas sobreposies definido pelo analisador, e para esse trabalho ser
utilizado um overlap de 50%, que significa que o incio de um bloco se d na metade do bloco
anterior e seu fim ocorre na metade do bloco seguinte.
Parmetros importantes em processamento em blocos so:

Tamanho do bloco (N ): o nmero de amostras contidas num bloco de sinal. O clculo


de N depende da durao do bloco e da frequncia de amostragem do sinal e dado por:

N = tframe fs . (2.11)

em que tframe a durao do bloco e fs a frequncia de amostragem do sinal.

Frame shift (R): consiste no intervalo entre o incio de cada bloco, e pode ser dado em
amostras ou segundos, sendo definido por:

R = overlap.N = overlap.tframe , (2.12)

assim, para um overlap de 50% tem-se R = N/2.

Frame rate (fr ): a quantidade de blocos contida em um segundo, calculada por:


1
fr = , (2.13)
RT
em que R corresponde ao frame shift em amostras.

A Figura 2.12 representa a relao entre esses parmetros para um sinal analisado.

Figura 2.12: Demonstrao do tamanho do bloco e frame rate,


adaptado de (STUTTLE, 2005).
33

De forma genrica, possvel representar o processamento em blocos da seguinte forma:



!
X
Qn = T (x[n])w[n m] , (2.14)
m= n=n

em que Qn a sequncia de valores locais de T (x[n]) e w[n] a sequncia de janelas que dividiro
o sinal. Este pode ser visualizado por meio de um diagrama de blocos, como o representado na
Figura 2.13 (RABINER, 2012).

Figura 2.13: Diagrama de blocos para um sistema de processamento em frames.

Sendo o processo da aplicao de janelas fundamental para a realizao de processa-


mento em blocos, algumas propriedades e efeitos de janelas especficos a esse tipo de aplicao
sero abordados a seguir.

2.1.6.1 Efeito de janelas no processamento em blocos

Dada a Equao (2.14), nota-se que o processo de aplicao de janelas corresponde a


uma convoluo entre sinais discretos, logo:

Qn = T (x[n]) w[n]|n=n . (2.15)

A aplicao de janelas causa um efeito de filtragem passa-baixas no espectro do sinal


e esse efeito depende muito do tamanho da janela a ser aplicada. Assim como os efeitos de
filtragem, as anlises, genericamente representadas por T (), tambm so dependentes do tama-
nho das janelas. Se a janela tiver durao muito longa ela corresponder, na frequncia, a um
filtro passa-baixas com banda estreita, podendo comprometer a investigao de frequncias de
interesse. Alm disso, as variaes rpidas do fenmeno de anlise sero perdidas e, assim, os
valores obtidos no sofrero muitas variaes com o tempo. Isso leva a uma representao err-
nea do fenmeno de interessse, pois no refletir as alteraes rpidas dos sinais de fala/choro
(RABINER, 2012).
No entanto, uma janela muito curta pode sofrer com a falta de informaes para realizar
mdias que representem bem o parmetro analisado. A seleo do tamanho da janela deve
ser feita ento visando um compromisso entre quantidade suficiente de informao e curta o
suficiente a fim de representar bem as variaes rpidas do sinal (RABINER, 2012).
34

No existe um tamanho ideal para janelas para todos os casos, porm comum a utili-
zao de janelas com durao entre 10 e 20 ms. Como as variaes para sinais de choro so
menores, neste trabalho so utilizadas janelas com dura de 25 ms. O nmero de amostras para
cada janela depende da frequncia de amostragem do sinal analisado, e dado pela Equao
2.11.

2.1.6.2 Short-time Energy (STE)

A energia de um sinal definida como:



X
E= x2 [m], (2.16)
m=

em que E a energia do sinal, e x[m] o valor assumido pelo sinal no ponto m. Para sinais com
variao rpida no tempo, esse parmetro possui pouca utilidade. Assim, utiliza-se o processa-
mento em blocos para a obteno da Short-time energy (STE), em que o termo genrico T (x[n])
utilizado anteriormente, pode ser substitudo por x2 , que a funo que define o parmetro que
se deseja obter partir do processamento em blocos. Logo, esse parmetro do sinal dado por:


X
En = x[m]2 w[n m]. (2.17)
m=

Ao observar a representao grfica da STE nota-se que apresenta valores altos para
trechos vozeados4 do sinal, como mostra a Figura 2.14. De forma complementar, o prximo
parmetro apresentado ser Zero-Crossings Rate (ZCR), que apresenta valores altos para sons
de fala desvozeados. Analisando esses dois parmetros possvel identificar momentos de
silncio no sinal.

Figura 2.14: Comparao entre a forma de onda para a palavra skills e a STE desse sinal,
adaptada de (STUTTLE, 2005).
4
trechos de fala em que h a excitao das pregas vocais, ser comentado com mais ateno na Seo 2.3 deste
documento.
35

2.1.6.3 Zero-crossings rate (ZCR)

Zero-crossings rate, ou taxa de cruzamentos por zero, simplesmente o nmero de vezes


que a amplitude do sinal no tempo cruza o eixo 0, sendo definida por:

N 1
1 X
ZCR[n] = |sign(x[n m]) sign(x[n m 1])|w[m], (2.18)
N m=0
em que N o nmero de amostras do sinal x[m], w[n] corresponde janela aplicada ao trecho
analisado e sign igual a 1 para x[m] > 0 e -1 caso contrrio. Conforme j comentado, os
valores de ZCR so maiores para sons desvozeados, por exemplo na Figura 2.15, em que a
mesma palavra utilizada na comparao com STE utilizada.

Figura 2.15: Comparao entre a forma de onda para a palavra skills e a ZCR do sinal,
adaptada de (STUTTLE, 2005).

2.1.6.4 Espectrograma

O espectrograma uma forma de anlise hbrida que contempla os domnios de tempo


e frequncia. Consiste numa anlise de Fourier de curto tempo (Short-time Fourier Transform),
em que para pedaos pequenos de sinal realizada a transformada de Fourier e o espectro
apresentado com a amplitude em escala de cores para cada pequeno trecho do sinal, em sequn-
cia, e apresentado como uma representao do sinal completo. A escala de cores varivel e
depende dos critrios que o analisador julgar mais adequados para uma melhor visualizao.
A Figura 2.19c apresenta um exemplo de um espectrograma de um sinal genrico, comparado
com a forma de onda do sinal.
36

Figura 2.16: Exemplo de espectrograma de um trecho de sinal de udio genrico.

Esse tipo de anlise fornece uma visualizao mais completa do sinal e de suas variaes
espectrais com o decorrer do tempo. No foram feitas anlises minunciosas do espectrograma
no desenvolvimento deste trabalho, porm alguns dos sinais foram representados dessa forma
em sees e captulos subsequentes.

2.1.7 Cepstrum

Enquanto trabalhando na Bell Labs em 1959, empresa de pesquisa e desenvolvimento


pertencente AT&T na poca, Bogert notou ondulaes peridicas no espectro de sinais ssmi-
cos, e que essas ondulaes eram caractersticas de qualquer sinal que possusse ecos, e que o
espaamento em frequncia dessas ondulaes eram recprocas diferena temporal de chegada
do sinal e do eco. Tukey, tambm pertencente ao corpo de pesquisadores da Bell Labs, sugeriu
que a diferena de frequncia poderia ser obtida ao tomar o logartmo do espectro, tornando
as ondulaes aproximadamente cossenoidais e assim, uma anlise espectral do logaritmo do
espectro forneceria a "frequncia"em que aconteciam as ondulaes. A partir de anlises re-
alizadas atravs dessa teoria, Bogert, Tukey e Healy cunharam novos termos, encontrados no
artigo The Quefrency Alanysis of Time Series for Echoes: Cepstrum, Pseudo-Autoovariance,
Cross-Cepstrum and Saphe Cracking, em que apresentam as bases da anlise cepstral. Esses
novos termos foram cunhados ao se inverter a posio das consoantes nas palavras originais,
como a troca entre spectrum e cepstrum, frequency e quefrency, filtering e liftering, trocas jus-
tificadas pelos autores por se operar no domnio da frequncia da mesma forma que se opera no
domnio do tempo ou vice-versa (NOLL, 1966; OPPENHEIM; SCHAFER, 2004).
37

As aplicaes at o momento eram feitas em sinais ssmicos e os prprios autores no


obtiveram muito xito na utilizao dessa anlise para esse tipo de sinal, at que Schroeder
notou que essa anlise poderia ser adequada sinais de fala, uma vez que esses sinais pos-
suem uma natureza quasi-peridica e sugeriu em 1962 a utilizao do cepstrum para extrao
do pitch de gravaes de voz. Aps isso, outros estudos foram realizados acerca da utiliza-
o do cepstrum, tais como a realizao da deconvoluo de sinais proposta por Oppenheim
(OPPENHEIM, 1966).
O cepstrum , como j mencionado, baseado na transformada inversa do logaritmo do
espectro de um sinal. Sua definio para sinais discretos dada pela Equao (2.19) abaixo,

Z
1
c[n] = log|X(ej )|ejn d, (2.19)
2
em que c[n] so os valores do cepstrum obtidos e o espectro X(ej ) do sinal de anlise x[n]
dado por:

X
j
X(e ) = x[n]ejn . (2.20)
n=
A varivel independente do cepstrum foi denominada quefrency. Baixas quefrencies
correspondem a componentes com variao lenta no espectro logartmico, enquanto que que-
frencies altas correspondem s componentes que variam rapidamente. Picos isolados em ml-
tiplos da frequncia P0 no cepstrum correspondem a uma componente peridica na magnitude
logartmica com perodo igual a fs /P0 (JACOB BENESTY M. MOHAN SONDHI, 2008).
Oppenheim desenvolveu uma abordagem baseada em lgebra linear para caracterizao de sis-
temas no lineares, utilizando propriedaades de adio entre espaos vetoriais para representar
multiplicaes e convolues de sistemas (OPPENHEIM, 1965). Assim, classes de sistemas
no lineares poderiam ser definidas atravs do princpio de superposio, sistemas esses que
foram definidos como sistemas homomrficos. Uma classe especfica de sistemas homomrfi-
cos relativa aos sistemas para os quais entrada e sada so combinadas por convoluo. Esses
sistemas tm sua decomposio cannica expressa pela Figura 2.17 (I. PITAS, 1990).

Figura 2.17: Decomposio linear de um sistema homomrfico.


38

Na figura anterior L um sistema linear que opera com a adio dos sinais, sendo res-
ponsvel pelas caractersticas do filtro, enquanto que os operadores D e Dx so chamados de
sistemas caractersticos de convoluo e fazem a transformao da convoluo do sinal para
adio e de volta convoluo. Baseado nessa teoria, o cepstrum pode ser visto como um um
sistema caracterstico de convoluo, uma vez que possibilita a transformao da convoluo
de sinais em adio. A utilizao do cepstrum para filtragem homomrfica, ou ainda, separao
da contribuio de sistemas diferentes em um mesmo sinal (deconvoluo) foi denotada por
Bogert et al. como liftering (OSUNA, 2011).

2.1.8 Mel-Frequency Cepstrum Coefficients

O mtodo de Mel-frequency Cepstrum Coefficients (MFCC), em traduo livre Coefici-


entes de Cepstrum em escala Mel se baseia na teoria de cepstrum e na escala Mel de frequncias,
desenvolvida por Stevens and Volkmann para percepo do pitch (STEVENS; VOLKMANN,
1940).

2.1.8.1 Pitch e escala Mel

O termo pitch pode assumir significados e conceitos distintos de acordo com a rea de
estudo em que se utiliza. Na psicoacstica esse termo comumente compreendido como o
correlato psicolgico da frequncia, porm essa associao deve ser feita com cautela, uma vez
que a relao entre os dois parmetros no linear, ou seja, alteraes na frequncia nem sempre
acarretam em alteraes na percepo do pitch, apesar de os parmetros serem diretamente
proporcionais. A alterao na percepo est relacionada diferena no limiar do observvel
(DLO), ou DL (difference limen), que representa a mnima alterao necessria na frequncia
que gere alterao na percepo do sinal (GELFAND, 2009).
A relao entre pitch e frequncia foi traada atravs de experimentos psicoacsticos
resultando numa escala para pitch em funo da frequncia, em que a referncia adotada foi o
valor de 1000 mels (pitch) correspondendo a 1000 Hz (frequncia) (STEVENS; VOLKMANN,
1940). A escala, que recebeu o nome de mel-scale, exibida na Figura 2.18 abaixo, em compa-
rao com a curva correspondente s alteraes em mels iguais s alteraes em Hz.
39

Figura 2.18: Curva da mel-scale de Stevens e Volkmann,


adaptada de (STEVENS; VOLKMANN, 1940).

Tendo em vista essa escala que se aproxima mais da resposta do sistema auditivo
variao de frequncias, uma nova forma de representao para o cepstrum foi proposta por
Davis e Mermelstein, cuja ideia bsica realizar uma anlise de frequncias baseada num banco
de filtros triangulares espaados de acordo com as bandas crticas. A implementao consiste na
realizao da anlise de Fourier, atravs da transformada discreta, e ento ponderao de acordo
com os filtros da escala mel, obtendo-se o espectro nessa escala, ou Mel-Spectrum. Sobre esse
espectro ento so aplicados os procedimentos para obteno do cepstrum, como o logaritmo e
a transformada inversa, sendo assim obtidos os MFCCs, sendo o nmero de coeficientes igual
ao nmero de filtros utilizados para obter o espectro em escala mel (DAVIS; MERMELSTEIN,
1980; RABINER; SCHAFER, 2007).

2.2 Caractersticas do choro de bebs

O sinal de choro de bebs possui um padro temporal que alterna entre o som caracte-
rstico emitido pela criana, com intervalos para inspirao de ar, e possui uma natureza quasi-
peridica. Seu som caracterstico produzido durante a expirao, com a fonao produzida
pela laringe, que formada pelas pregas vocais e glote. A laringe exerce trs funes principais,
deglutio, respirao (que ocorre com a glote totalmente aberta) e fonao (que ocorre com a
glote fechada).
O processo de produo desse tipo de som se inicia no sistema nervoso, partir de est-
40

mulos externos, porm as caractersticas acsticas so relacionadas s etapas que ocorrem aps
a sada do ar dos pulmes at que atravessem o trato vocal, terminando nos lbios ou narinas.
Quando o ar empurrado pelos msculos respiratrios para as pregas vocais fechadas o fluxo de
ar acelerado devido passagem de ar atravs de um tubo constrito, no que conhecido como
efeito de tubos de Venturi. Isso resulta numa queda de presso, que provoca abertura e fecha-
mento rpidos das pregas vocais, colocando-as em vibrao. Essa vibrao ocorre na frequncia
fundamental (f 0) do sinal de choro, que conforme exposto anteriormente, varia dentro da faixa
de 250 a 500 Hz. A variao na tenso dos msculos da laringe e nos msculos respiratrios do
abdomem definem essa frequncia fundamental, influenciando tambm na densidade espectral
do sinal de choro.
A produo do choro pode ser vista ento como um conjunto de sistemas complexos,
muito semelhante produo da fala e, como a fala, apresenta duas formas principais de gerao
de som, uma vozeada e outra no vozeada. A primeira ocorre na laringe com a excitao das
pregas vocais e a segunda resultante do fluxo turbulento do ar que atravessa a laringe e
produzido por alteraes do trato vocal (LEDERMAN, 2002). O trato vocal atua como um
filtro na cadeia de sistemas de produo de choro, atenuando certas frequncias e amplificando
outras, de acordo com seu formato. As duas formas podem ocorrer simultaneamente.
Sinais de choro de bebs possuem caractersticas temporais e espectrais distintas, que
so fundamentais para sua diferenciao de outros sinais. De forma geral, possuem frequn-
cias fundamentais (ou pitch) em regies consideravelmente altas do espectro se comparadas a
sinais de fala. Esses sinais tambm possuem estruturas harmnicas evidentes e padres "mel-
dicos"(VARSHARANI; SARDAR, 2015). As caractersticas temporais, bem como o loudness,
so relacionadas regio subgltica do trato vocal, enquanto que a parte supragltica, que
compreende lbios, bochechas e cavidade oral, produzem as frequncias de ressonncia, ou
formantes, fornecendo ao sinal suas caractersticas harmnicas. Comumente, apenas as duas
primeiras formantes so analisadas, sendo a primeira em torno de 1100 Hz e a segunda por
volta dos 3300 Hz (LAGASSE; NEAL; LESTER, 2005).
Para um mesmo sinal de choro so exibidas na Figura 2.19 abaixo sua representao no
tempo, espectro e espectrograma.
41

Representao temporal de um sinal de choro Espectro de um sinal de choro


1,00 4000

0,80
3000

0,60
2000
0,40

1000
0,20
Amplitude

Amplitude
0,00 0

-0,20
-1000

-0,40
-2000
-0,60

-3000
-0,80

-1,00 -4000
5 10 15 20 25 2000 4000 6000 8000 10000 12000 14000 16000 18000 20000 22000 24000
Tempo (s) Frequncias Hz

(a) Representao temporal, (b) espectro e


Espectrograma de um sinal de choro

5 -40

4 -60

Power/frequency (dB/Hz)
Frequncia (Hz)

-80
3

-100
2

-120

-140

0
0 1 2 3 4 5 6 7 8
Tempo (s)

(c) espectrograma para um mesmo sinal de


choro.

Figura 2.19: Anlises temporal, espectral e espectrograma para um sinal de choro.

Para servir de exemplo, tambm foram plotados na Figura 2.20 espectrogramas para
alguns outros sinais de choro que compe o banco de sinais utilizado no trabalho. poss-
vel notar por observao a regio da frequncia fundamental e os diversos harmnicos, bem
como o comportamento temporal que contm momentos de choro intervalados por momentos
de inspirao.
42

Espectrograma de um sinal de choro Espectrograma de um sinal de choro


-40
10
-40
20
-60
8 -60

Power/frequency (dB/Hz)

Power/frequency (dB/Hz)
Frequncia (Hz)

Frequncia (Hz)
-80 15
-80
6

-100
10 -100
4
-120
-120
5
2
-140 -140

0 0
0 1 2 3 4 5 6 0 1 2 3 4 5 6 7 8
Tempo (s) Tempo (s)

(a) Espectrograma de um sinal de choro (b) Espectrograma de um sinal de choro


Espectrograma de um sinal de choro

-40
20

-60

Power/frequency (dB/Hz)
Frequncia (Hz)

15
-80

10 -100

-120
5

-140

0
0 2 4 6 8 10
Tempo (s)

(c) Espectrograma de um sinal de choro

Figura 2.20: Espectrogramas de diferentes sinais de choro.

Considerando a forma de produo do sinal de choro, nota-se a semelhana com o pro-


cesso de formao da prpria fala, diferindo apenas no fato de que o choro no um sinal
conscientemente articulado a fim de lhe atribuir significado. Classificamos ento o choro como
um tipo especfico de sinal de fala, e consequntemente, importante tambm que alguns as-
pectos relativos fala em si sejam estudados. O incio do estudo da fala deve se dar, portanto,
atravs de um breve comentrio sobre a fisiologia humana e suas influncias nas caractersticas
do sinal sonoro emitido.

2.3 Caractersticas de sinais de fala

O trato vocal de um beb difere essencialmente do trato vocal adulto por seu tamanho
e, principalmente, pela posio da laringe, que mais elevada e inicia o processo de alocao
adulto aos 6 meses, alcanando a posio final em torno dos 2 anos de idade da criana. Para
o estudo das caractersticas dos sinais de fala ser considerada apenas a fisiologia do sistema
43

fonador adulto.
O processo que compreende as etapas de formulao do discurso e produo da fala, at
a percepo e compreenso de seu significado foi nomeado por Denes e Pinson como "Cadeia
da Fala"(DENES; PINSON, 2012), apresentada na Figura 2.21. Se inicia no crebro com a for-
mulao da mensagem a ser transmitida, num processo lingustico, passando ento produo
do sinal sonoro em nvel fisiolgico, que chega ao receptor da informao por meios acsticos, e
aps processos auditivos convertido em informao inteligvel ao ouvinte. O interesse princi-
pal neste trabalho uma abstrao do processo fisiolgico de quem produz a fala, interpretando
o choro como forma de transmisso de informaes originadas por processos neurolgicos,
portanto o foco ser na produo do sinal sonoro.

Figura 2.21: Cadeia da fala, dividida entre nveis lingusticos, fisiolgicos e acsticos, para
produo e percepo do sinal de fala,
adaptada de (RABINER; SCHAFER, 2007).

A produo da fala, tambm chamada de fonao, ocorre no sistema fonador (Figura 2.22),
composto pelas cavidades oral e nasal. No processo de expirao o ar sai dos pulmes e, na
laringe, coloca em vibrao as pregas vocais, produzindo uma excitao do trato vocal, formado
pela faringe, cavidade bucal, lngua, dentes e lbios (ZEMLIN, 2000). Para a produo de sons
nasais o palato muscular se abre, permitindo a passagem do ar para a cavidade nasal, fazendo
com que o som seja radiado pelo nariz. Alm desses sons produzidos atravs da vibrao das
pregas vocais, chamados sons vozeados, existem tambm os sons desvozeados que incluem a
maioria das consoantes. A produo desses sons consonantais gerada por um rudo de banda
larga resultante do fluxo de ar turbulento que modificado no trato vocal. Cada configura-
o do trato vocal combinada com sons vozeados ou desvozeados gera diferentes fonemas, e
44

a frequncia de ressonncia alterada conforme se alteram essas configuraes dos articula-


dores (por exemplo: lngua, dentes, lbios, palato). Essas frequncias so importantes para a
produo dos sons relativos a cada fonema e so chamadas frequncias formantes (RABINER;
SCHAFER, 2007).

Figura 2.22: Sistema fonador,


retirado de (JOHN R. DELLER JR. JOHN H. L. HANSEN, 1999).

O sistema fisiolgico pode ser dividido entre dois subsistemas: larngeo e articulatrio.
O subsistema larngeo corresponde fonte sonora do sistema fonador, enquanto que o sistema
articulatrio vai definir as caractersticas dos sons e fonemas emitidos durante a fala (KENT;
READ, 2002). As caractersticas espectrais dos sinais de fala so portanto influenciadas pela
fonte, pela forma do trato bucal e caractersticas de radiao (GLASS, 2007). O sinal pode ser
ento compreendido como a convoluo das respostas de diferentes sistemas, desde a gerao
de sinal sonoro na laringe at a emisso pela boca e modelado atravs de um diagrama de blocos,
em que cada bloco um sistema que modifica o sinal, conforme a Figura 2.23.
45

Figura 2.23: Diagrama de blocos da produo da fala,


adaptado de (PELEG, 2010).

Ao considerar sinais acsticos de fala, sua energia distribuda essencialmente at a


faixa de 10 kHz, porm com maior densidade espectral em baixas frequncias. A Figura 2.24
apresenta o espectro de um sinal de fala de longa durao, exemplificando essa distribuio.

Figura 2.24: Distribuio espectral de um sinal de fala de longa durao,


adaptado de (KENT; READ, 2002).

O espectro de um sinal de longa durao representa uma distribuio energtica acumu-


lada de todo o sinal. Apesar da maior parte da energia estar concentrada em baixas frequncias,
a energia espalhada por quase toda a faixa de frequncias audveis. Porm, para a maior parte
das aplicaes de anlise e processamento de sinais de fala a anlise at 10 kHz mais do que
suficiente. A transmisso de sinais em telefonia, por exemplo, compreende apenas a faixa entre
46

500 e 3500 Hz, sem que haja perdas na inteligibilidade da mensagem falada. Outra varivel
importante na anlise de sinais de fala o tempo, uma vez que ocorrem variaes rpidas, como
nas consoantes plosivas. Essas variaes podem ocorrer num tempo mnimo de at 10 ms.
A faixa dinmica de sinais de fala de aproximadamente 60 dB, ou seja, a diferena na
potncia sonora entre sinais fortes e fracos de 60 dB. Os sons fortes normalmente so os sons
voclicos, j os sons mais fracos so as consoantes fricativas, como o "f". As vogais so os
sons produzidos com a vibrao da laringe, e um trato vocal relativamente aberto, cuja forma
gera determinados padres de ressonncia, funcionando como um filtro. Os sons fricativos so
produzidos com uma constrio estreita na glote. O ar passando por essa constrio, conforme
mencionado anteriormente, gera um fluxo turbulento, produzindo um rudo de banda larga. Esse
rudo a fonte sonora, que filtrada pela ao dos articuladores.
A capacidade de comunicao do ser humano, como comentado na introduo deste tra-
balho, sua maior diferenciao em relao a qualquer outro animal. Desde a primeira grande
inovao em transmisso de sinais de fala, com Graham Bell, diversas tecnologias para grava-
o, transmisso e decodificao desse tipo de sinal surgiram, dando origem a diversos sistemas
de comunicao. Para o desenvolvimento desses sistemas foi imprescindvel o conhecimento
do sinal de fala humana, tanto em sua questo fisiolgica, quanto acstica. A partir desses tra-
balhos realizados, surgiram ento mtodos de processamento de sinais de fala, com inmeras
aplicaes. Alguns desses mtodos e aplicaes sero abordados a seguir.

2.4 Aprendizado de mquina

O estudo de aprendizado de mquina, ou machine learning, se fez necessrio para o


desenvolvimento e aplicao de um algoritmo que realizasse a classificao dos sinais entre
sinais de choro e sinais fora do escopo de interesse, rotulados como "no-choro". Algumas
definies acerca dessa rea de estudo e algumas tcnicas so abordadas em sequncia.

2.4.1 Definies

O termo aprendizado de mquina compreende uma srie de tcnicas quem empregam


induo, ou seja, baseado num conjunto particular de exemplos, toma decises e concluses
genricas. Algoritmos de aprendizado podem ser divididos entre aprendizado supervisionado
ou no-supervisionado, sendo a tcnica aplicada na realizao deste trabalho uma tcnica de
47

aprendizado supervisionado. Para tcnicas de aprendizado supervisionado existe uma entrada


de dados externa, um conjunto de exemplos de entrada/sada. O algoritmo ento, aprende
partir desses dados e espera-se que gere sadas corretas para novos conjuntos de entrada (LO-
RENA; CARVALHO, 2007; NG, 2016).
O conjunto de entrada/sada utilizado para treino do algoritmo composto pelos atri-
butos do sinal e seus respectivos rtulos. Por exemplo, para sinais de choro de bebs, as ca-
ractersticas extradas do sinal (MFCC, pitch, etc.) so a entrada e um valor atribudo de 1
considerado o rtulo desse sinal, 1 representando a classe de choros. Para sinais aleatrios que
no contm choro, portanto, o rtulo atribudo 0. Portanto, para novos sinais o algoritmo faz
a classificao entre os uns e zeros a fim de determinar a qual classe o novo sinal analisado
pertence. Uma vez que os rtulos que se deseja obter so valores discretos, o problema con-
siderado um problema de classificao. Caso os valores assumidos fossem contnuos, teria-se
ento um problema de regresso.
O objetivo de um algoritmo de classificao encontrar uma hiptese, ou modelo, que
separe de forma correta, e com boa exatido, as classes dos dados de treino disponveis. Alguns
problemas comuns em aprendizado de mquina, fontes de erros na classificao, so chama-
dos de overfitting e underfitting. Overfitting ocorre quando o ajuste do algoritmo se especializa
muito aos dados de treino, provocando um superajustamento e gerando erros para novas entra-
das. J o underfitting o oposto, apresentando muitos erros ainda na etapa de treino, devido
a exemplos de entrada pouco representativos ou um modelo muito simples. A Figura 2.25
apresenta exemplos dessas situaes.

Figura 2.25: Conjunto de treinamento e trs diferentes hipteses. Na primeira ocorre overfit-
ting, a segunda apresenta um bom ajuste e na terceira ocorre underfitting,
adaptado de (SHAW, 2016).

Os mtodos pelos quais os novos sinais so analisados variam e a prxima seo apre-
senta o mtodo k-NN, utilizado na realizao da classificao dos sinais deste trabalho.
48

2.4.2 K Nearest Neighbours

Algumas tcnicas foram pesquisadas, a fim de encontrar a mais apropriada ao problema


de classificao tratado no desenvolvimento desta pesquisa. A deciso final foi tomada entre
os mtodos Support Vector Machine (SVM) e k Nearest Neighbours (k-NN), dentre os quais o
segundo foi escolhido.
As SVMs consistem num mtodo de aprendizado estatstico, desenvolvido em 1992
por Boser et al. (BOSER; GUYON; VAPNIK, 1992), aplicado primeiramente identificao e
reconhecimento de caligrafia e teve aplicao expandida devido ao considervel sucesso e baixo
erro (LAW, 2011). De forma resumida, o mtodo realiza a transformao do problema para uma
ordem superior, num espao de atributos, em que se produz uma funo que no plano inicial
dos dados de entrada faz a separao entre as amostras a serem classificadas. A Figura 2.26
abaixo representa o processo mencionado, de criao de uma funo que permita a separao
dos dados de treino para um problema de classificao. No entanto, para o problema simples
de classificao proposto neste trabalho, o mtodo k-NN apresenta pouco erro e de menor
dificuldade de implementao e apesar de certo custo computacional para um nmero grande
de conjuntos de exemplo para treino, mas ainda assim, o mtodo mais simples dentro das
tcnicas de aprendizado de mquina.

Figura 2.26: Exemplo visual da aplicao de SVM para classificao,


retirado de (YEH, 2016).

O mtodo k-NN um mtodo de aprendizado estatstico que tem aplicaes para reco-
nhecimento de padres e classificao desde a dcada de 1970. um algoritmo simples, que
armazena todos os conjuntos exemplos disponveis e, partir desses conjuntos, classifica novas
entradas por similaridade. A similaridade dada atravs da medio da distncia entre os atri-
butos da nova entrada em relao aos dados utilizados para treino do algoritmo. As distncias
medidas podem ser Euclidiana, Manhattan, Minkowski entre outras. Para um problema que
49

considera apenas dois atributos, sejam eles x e y, a distncia Euclidiana dada por:

p
D= (x1 x2 )2 + (y1 y2 )2 , (2.21)

em que x e y so atributos, que so compreendidos como coordenadas e partir delas, dada a


distncia D. Uma vez calculada a distncia da nova entrada no sistema em relao aos pontos do
conjunto de treino do algoritmo, a classificao feita de acordo com o K selecionado. O K o
nmero de vizinhos analisados, por exemplo, para K = 7 o algoritmo classifica a nova entrada
atravs de seus 7 vizinhos mais prximos. A deciso tomada por maioria simples, sendo a
entrada classificada de acordo com a moda entre os vizinhos. Detalhes acerca da implementao
sero fornecidos no Captulo 3.
50

3 METODOLOGIA

Com base na teoria exposta foi desenvolvida a metodologia apresentada neste captulo,
que est dividido em duas partes principais: a primeira, referente criao do banco de da-
dos, extrao de atributos do sinal e classificao para sinais gravados e a segunda, referente
aquisio e processamento de sinais em tempo real.
Foram utilizados 16 sinais de choro de bebs, num banco de dados disponibilizado por
Varallyay (VARALLYAY, 2000). J os sinais que no contm choros de bebs so apresentados
na Tabela 3.1.

Tabela 3.1: Banco de sinais de no choro


Nome do arquivo Descrio do sinal Durao
outlier1.wav Sirene de ambulncia 00:17
outlier2.wav Passos 00:10
outlier3.wav Helicptero sobrevoando 00:19
outlier4.wav Carro arrancando e cantando pneu 00:09
outlier5.wav Cavalo trotando 00:09
outlier6.wav Avio comercial decolando 00:18
outlier7.wav Tosse masculina 00:07
outlier8.wav Gargalhada masculina 00:14
outlier9.wav Motocicleta passando 00:12
outlier10.wav Canto de pssaros e avio ao longe 00:34
outlier11.wav Trovo 00:29
outlier12.wav Caminho dando partida e saindo 00:30
outlier13.wav Buzinas 00:16

Alm desses sinais foi utilizado um sinal de fala anecoico. Sua aplicao foi feita como
um sinal teste, sendo submetido a diversas alteraes, como subamostragem, superamostra-
gem e adio de rudo, servindo para avaliar a capacidade do algoritmo de distinguir sinais em
condies diferentes.
Os sinais que no contm choro foram selecionados a fim de contemplar uma certa
variedade de sinais que sejam comuns e gerais. O banco de sinais foi dividido ento entre os
sinais que seriam utilizados para o treino do algoritmo e os que posteriormente seriam os sinais
de teste. Assim, 7 sinais de choro e os 7 primeiros sinais apresentados na tabela acima foram
utilizados para treino.
51

3.1 Anlises do sinal no domnio do tempo

As anlises no domnio do tempo compreendem desde a aplicao de janelas, aos cl-


culos de short-time energy (STE) e zero-crossings rate (ZCR).

3.1.1 Janelas

Inicialmente foram verificados os efeitos de janelas e das diferentes formas de aplicao.


Conforme exposto no Captulo 2, a aplicao de uma sequncia de janelas para a anlise de
sinais em blocos consiste numa convoluo temporal entre sinal e janela, uma vez que a janela
equivale resposta que um sistema impe ao sinal. Assim, duas formas de aplicar as janelas
so possveis:

Diviso do sinal utilizando o comando buffer do MATLAB, que gera uma matriz com-
posta por todos os vetores resultantes da diviso do sinal, e consequente multiplicao de
cada um dos vetores pela janela que se deseja utilizar;

Multiplicao entre as respostas em frequncia do sinal e da janela, seguida pela transfor-


mada inversa de Fourier;

Os dois mtodos foram implementados e so discutidos a seguir. Dois sinais de anlise


so utilizados para essas anlises, sendo o primeiro um sinal de fala anecoico e o segundo, um
sinal de choro de bebs.

3.1.1.1 Aplicao de janelas bloco a bloco

A forma de onda para o sinal de fala anecoico apresentada na Figura 3.1, em que h
um aumento na regio em que est contido o bloco sobre o qual sero realizadas as anlises de
janelas. notvel pelo comportamento aproximadamente peridico do sinal que uma regio
de fala vozeada, num perodo de pronncia de vogal.
52

Figura 3.1: Detalhe do trecho de sinal que contm o bloco de fala utilizado nas anlises.

O bloco utilizado exibido sem janelamento na Figura 3.2. Os blocos foram obtidos
com a utilizao da funo buffer do MATLAB, segundo a sintaxe mostrada no Cdigo 3.1.
Cdigo 3.1: Separao do sinal de entrada em blocos.

%% framing
frT=25e-3; % duracao de cada frame
frN=ceil(frT*fs); % tamanho de cada frame
frOverlap=50/100; % porcentagem de overlap
frStep=ceil(frN*frOverlap); % passo entre cada frame

F=transpose(buffer(signal,frN,frStep));

Frame de sinal de fala anecoico - janela retangular


1,00

0,80

0,60

0,40

0,20

0,00

-0,20

-0,40

-0,60
0,000 0,005 0,010 0,015 0,020 0,025
Tempo (s)

Figura 3.2: Bloco utilizado nas anlises de janela para sinal de fala anecoico.

A aplicao das janelas ento foi realizada atravs de um loop, aplicando as janelas a
cada bloco do sinal da forma descrita pelo Cdigo 3.2.
Cdigo 3.2: Aplicao das janelas a cada bloco do sinal.


for n=1:size(F)
F2(n,:)=F(n,:).^2;
F_hann(n,:)=F(n,:).'.*w_hann;
F_ham(n,:)=F(n,:).'.*w_ham;
F_black(n,:)=F(n,:).'.*w_black;
end


53

O resultado da aplicao das janelas pode ser observado na Figura 3.3, que compara o
mesmo bloco de sinal submetido s janelas Hann, Hamming e Blackmann.

Frame do sinal de fala anecoico - janela Hanning Frame do sinal de fala anecoico - janela Hamming
0,80 0,80

0,60 0,60

0,40 0,40

0,20 0,20

0,00 0,00

-0,20 -0,20

-0,40 -0,40

-0,60 -0,60
0,000 0,005 0,010 0,015 0,020 0,025 0,000 0,005 0,010 0,015 0,020 0,025
Tempo (s) Tempo (s)

(a) Bloco de sinal submetido janela Hann. (b) Bloco de sinal submetido janela Hann.

Frame do sinal de fala anecoico - janela Blackman


0,80

0,60

0,40

0,20

0,00

-0,20

-0,40

-0,60
0,000 0,005 0,010 0,015 0,020 0,025
Tempo (s)

(c) Bloco de sinal submetido janela Blackmann.

Figura 3.3: Comparao de diferentes janelas a um mesmo bloco de sinal de fala.

O efeito de cada janela na frequncia pode ser observado se comparados os espectros,


e para o sinal em questo a Figura 3.4 apresenta os espectros sem aplicao de janela e com
aplicao da janela Hann. possvel observar na comparao entre os dois espectros os efeitos
de smearing e de vazamento. A largura de banda diferente para os picos de frequncia so
ntidas, para o sinal janelado inclusive juntando dois picos em um com largura maior.
54

Espectro para um frame do sinal Espectro para um frame janelado do sinal (Hanning)
200 200

180 180

160 160

140 140

120 120

100 100

80 80

60 60

40 40

20 20

0 0
500 1000 1500 2000 2500 3000 3500 4000 500 1000 1500 2000 2500 3000 3500 4000
Frequncia (Hz) Frequncia (Hz)

(a) Espectro para o bloco de sinal com corte (b) Espectro para o bloco de sinal submetido ja-
abrupto nas bordas (janela retangular). nela Hann.

Figura 3.4: Comparao de diferentes janelas a um mesmo bloco de sinal de fala.

Os mesmos processos foram empregados para sinais de choro de bebs, porm como
a janela selecionada para o presente trabalho foi a Hann, s sero apresentados os resultados
obtidos para essa janela. A Figura 3.5 apresenta a forma de onda para o sinal de choro anali-
sado, destacando a regio de onde foi retirado o bloco sobre o qual os efeitos da janela foram
considerados.

Figura 3.5: Detalhe do trecho de sinal que contm o bloco de choro utilizado nas anlises.

Os blocos sem aplicao de janela e com aplicao de janela Hann so exibidos na


Figura 3.6.
55

Frame de sinal de choro - janela retangular Frame do sinal de choro - janela Hanning
0,20 0,20

0,15 0,15

0,10 0,10

0,05 0,05

0,00 0,00

-0,05 -0,05

-0,10 -0,10

-0,15 -0,15

-0,20 -0,20
0,000 0,005 0,010 0,015 0,020 0,025 0,000 0,005 0,010 0,015 0,020 0,025
Tempo (s) Tempo (s)

(a) Bloco de sinal com corte abrupto nas bordas (b) Bloco de sinal submetido janela Hann.
(janela retangular).

Figura 3.6: Comparao de diferentes janelas a um mesmo bloco de sinal de fala.

E os respectivos espectros so apresentados na Figura 3.7, em que so notados os mes-


mos efeitos de smearing e vazamento. O espectro para o sinal de choro apresenta um primeiro
pico em 538 Hz, que representa a frequncia fundamental ou pitch. Porm este muito me-
nor do que o segundo, em 1637 Hz. Isso ocorre porque o trato vocal pode modificar o sinal,
incluindo harmnicas, inclusive com maior energia do que a frequncia fundamental.

Espectro para um frame do sinal Espectro para um frame janelado do sinal (Hanning)
18 20

16 18

16
14

14
12
12
10
10
8
8
6
6

4
4

2 2

0 0
500 1000 1500 2000 2500 3000 3500 4000 500 1000 1500 2000 2500 3000 3500 4000
Frequncia (Hz) Frequncia (Hz)

(a) Espectro para o bloco de sinal com corte (b) Espectro para o bloco de sinal submetido ja-
abrupto nas bordas (janela retangular). nela Hann.

Figura 3.7: Comparao de diferentes janelas a um mesmo bloco de sinal de fala.

3.1.1.2 Aplicao de janelas por convoluo

Como j descrito na reviso bibliogrfica, o janelamento para diviso de um sinal em


blocos realizado atravs da convoluo entre sinal e janela. Uma vez que a convoluo tem-
56

poral representa uma multiplicao na frequncia, conveniente que se proceda dessa forma.
Ao aplicar a janela atravs da multiplicao ponto a ponto na frequncia dificil apre-
sentar as caractersticas individuais de cada bloco, porm fcil reconstruir o sinal como um
todo, o que mais complicado para o mtodo de janelamento apresentado anteriormente.
O Cdigo 3.3 apresenta o desenvolvimento da rotina que realiza a aplicao da janela
ao sinal, em que L representa o tamanho da janela, x o sinal de entrada e w a janela a ser
aplicada. importante comentar que a operao na frequncia facilita o processo, uma vez que
ao utilizar a varivel NFFT para definir o nmero de pontos, sinal e janela ficam do mesmo
tamanho, possibilitanto assim a operao entre os dois sinais.
Cdigo 3.3: Aplicao das janelas a cada bloco do sinal.

NFFT = 2^(nextpow2(length(x)+L));
X = fft(x,NFFT); W = fft(w,NFFT);
Y = X.*W;
y = ifft(Y,NFFT);

Cada mtodo possui vantagens e desvantagens. Para a aplicao bloco a bloco o pro-
cesso de compilao leva muito mais tempo, porm permite a anlise de cada frame separado e
as modificaes que cada etapa do processamento ocasiona. Ento o estudo e anlise minunci-
osa foram realizados dessa forma, enquanto para a obteno mais rpida de resultados, utilizada
a multiplicao em frequncia.

3.1.2 Short-time Energy (STE)

O clculo de STE foi feito de duas formas diferentes, cada uma referente a um dos modos
de aplicar janelas ao sinal. O primeiro, feito bloco a bloco, foi calculado partir da soma dos
quadrados de todos os elementos contidos no bloco. O Cdigo 3.4 apresenta a implementao
da STE dessa forma.
Cdigo 3.4: Clculo bloco a bloco da STE.

for n=1:size(F)
s(n,:)=ifft(S_hann(n,:),NFFT);
s2(n,:)=s(n,:).^2;

E(n,:)=(sum(s2(n,:))/frN);

end

J atravs da multiplicao ponto a ponto na frequncia, o espectro do quadrado do sinal


foi multiplicado pela janela, conforme exposto no Cdigo 3.5.
Cdigo 3.5: Clculo bloco a bloco da STE.

57

x2 = x.^2;

NFFT = 2^(nextpow2(length(x2)+L));
X2 = fft(x2,NFFT); W = fft(w,NFFT);
STE = X2.*W;
ste = ifft(STE,NFFT);

Aps a compensao de energia e a subamostragem do vetor de energia calculado atra-


vs da multiplicao na frequncia, os resultados obtidos foram bem semelhantes. importante
comentar que a diferena no nmero de pontos para os dois clculos era esperada, uma vez
que pelo clculo atravs da multiplicao na frequncia, o nmero de amostras definido pela
NFFT. A Figura 3.8 apresenta a comparao entre as STE calculadas, que apresentam um des-
locamento temporal crescente.

Comparao entre STE calculadas


1,20
Processamento bloco a bloco
Convoluo sinal-janela
1,00

0,80
Amplitude

0,60

0,40

0,20

0,00

-0,20
50 100 150 200 250 300 350 400 450
Amostra

Figura 3.8: Comparao da STE calculada de duas formas diferentes.

3.2 Anlises cepstrais

Entre as anlises que se utilizam da teoria de cepstrum, a utilizada e implementada neste


trabalho foi a MFCC, j abordada no captulo anterior. A presente seo aborda a implementa-
o da MFCC.
A rotina utilizada para extrao de atributos e clculo do MFCC utiliza a tcnica de
diviso e operao bloco a bloco, atravs de um lao for e at a obteno do espectro de cada
bloco identica ao que j foi exposto.
Aps a obteno do espectro do sinal o procedimento que se segue visa a obteno
do coeficientes de cepstrum em escala Mel, explicados na Seo 2.1.8. Para tanto obtido o
espectro Mel, atravs da aplicao de um banco de 26 filtros triangulares. Para o clculo e
criao do banco de filtros Mel importante estabelecer as relaes existentes entre essa escala
e a escala de frequncias em Hertz. O calculo da frequncia Mel dado por:

M (f ) = 1125ln(1 + f /700), (3.1)


58

e a operao inversa:

M 1 (m) = 700(exp(m/1125) 1), (3.2)

em que f a frequncia em Hertz e m a frequncia transformada para escala Mel. Fazendo uso
da relao expressa na Equao (3.1), so obtidas as frequncias mnima e mxima de anlise
do sinal em mels, sobre o qual sero aplicados os filtros. Obtidos os valores de frequncia Mel, o
intervalo entre mximo e mnimo dividido linearmente de acordo com o nmero de filtros que
se deseja implementar, que para a implementao realiza consiste em 26 filtros. Neste trabalho,
as frequncias mnima e mxima de anlise correspondem a 200 Hz (282,72 mels) e metade
da frequncia de amostragem fs do sinal. Para o sinal utilizado como exemplo a frequncia
mxima de anlise corresponde a 5512 Hz (2456 mels). A escolha de uma frequncia mnima
de anlise relativamente alta foi feita pois sinais de choro no possuem informao espectral
relevante em frequncias baixas, uma vez que o pitch do sinal de choro usualmente varia entre
300 e 700 Hz. Obtidos os valores linearmente espaados em mel, utiliza-se da Equao (3.2)
para obter os valores correspondentes em Hertz, o que resulta em valores de frequncias no
linearmente espaados. Como o sinal amostrado, porm, possvel que os valores em Hertz
correspondam a valores no amostrados de frequncia e para tanto feita a converso do valor
da frequncia para o fft bin5 mais prximo. A construo dos vetores em mels, transformao
para vetor de frequncias em Hertz e o clculo do fft bin esto apresentados no Cdigo 3.6.
Cdigo 3.6: Construo dos vetores de frequncia e clculo dos fft bins.

mels=linspace(min_M,max_M,28);
H=700*(exp(mels./1125)-1);
f=floor((frame_lenght+1)*(H./fs));

Utilizando os valores dos fft bins, o banco de filtros ento calculado como segue:


0, se k < f (m 1)
kf (m1)
se f (m 1) k f (m)


f (m)f (m1)
,
Hm (k) = f (m+1)k (3.3)
, sef (m) k f (m + 1)
f (m+1)f (m)


0, sek > f (m + 1)

em que Hm m-simo filtro, e que com m=1:26 forma o banco de filtros que se deseja calcular.
O banco de filtros calculados e sobrepostos exibido na Figura 3.9.
Observa-se que os filtros so mais estreitos nas frequncias mais baixas e vo alargando
conforme se aumenta a frequncia, o que gera uma maior discretizao e portanto, priorizando
5
Fft bins so os pontos amostrados da da fft, correspondendo s frequncias em Hz.
59

Banco de filtros mel


1

0.9

0.8

Amplitude normalizada
0.7

0.6

0.5

0.4

0.3

0.2

0.1

0
500 1000 1500 2000 2500 3000 3500 4000 4500 5000
Frequncia (Hz)

Figura 3.9: Banco de filtros sobrepostos.

a anlise na parte mais baixa do espectro. Assim, para a obteno do espectro Mel, basta
multiplicar o espectro pelo banco de filtros, processo ilustrado pela Figura 3.10. O vetor do
espectro Mel possui ento nmero de valores igual ao nmero de filtros aplicados, ou seja, 26.

Filtros Mel aplicados ao espectro S


16

14

12
Amplitude normalizada

10

0
5 10 15 20 25
Coeficientes Mel

Figura 3.10: Espectro Mel para o frame utilizado como exemplo.

Seguindo ento a teoria de cepstrum, opera-se o logaritmo do sinal filtrado e ento


aplicada a Transformada cossenoidal, ou Discrete Cosenoidal Transform (DCT) para obteno
dos coeficientes cepstrais (LYONS, 2015; HUANG; ACERO; HON, 2001). Assim ento tem-
se o vetor de MFCCs para o frame e o procedimento repetido para todos os frames do sinal,
em todos os sinais utilizados para treino. Foram escritas duas rotinas similares, a primeira para
60

extrao de atributos dos sinais de choro e outra para a extrao dos atributos dos outros sinais
utilizados. Cada uma delas tem como sada um arquivo de texto contendo todas os atributos dos
grupos de sinais.

3.3 Classificao dos sinais

Aps obtidos os coeficientes de MFCC para todos os frames de todos os sinais utilizados
para treino e teste do algoritmo de classificao, essas informaes so aplicadas implemen-
tao de k-NN.

3.3.1 Implementao de k-NN

Em posse dos arquivos de atributos dos sinais de treino, possvel ento desenvolver
o procedimento de classificao de novos sinais. Os sinais so divididos em dois grupos,
um grupo de targets6 e um grupo de outliers7 . A rotina de classificao inicia abrindo os
arquivos que contm as matrizes de atributos, nomeadas como features_choro.txt
e feature_out.txt e as alocando em uma matriz nica, que aps isso recebe rtulos
conforme a classificao das amostras nela contidas. Conforme j exposto, cada frame tem um
vetor de coeficientes Mel (MFCC), portanto cada um deles ser interpretado como uma amos-
tra. Assim, considerando todos os frames de todos os sinais, so utilizados 6363 amostras para
target e 6590 amostras para outlier. O trecho mostrado no Cdigo 3.7 apresenta a alocao
dos atributos em uma nica matriz, bem como a atribuio dos rtulos 1 e 0, correspondendo
respectivamente a choro e no-choro, ou target e outlier.
Cdigo 3.7: Criao das matrizes de atributos e rtulos para classificao.

Xtrain=[features_tgt;features_out];

label1=transpose(ones(1,length(features_tgt)));
label0=transpose(zeros(1,length(features_out)));

Ltrain=[label1;label0];

A rotina permite a seleo de um arquivo de udio a ser classificado e, para o arquivo


selecionado, repete todos os passos de extrao de atributos apresentados anteriormente. Ter-
minado o processo de extrao, obtida a matriz de atributos para o sinal de teste, Xtest
6
Target utilizada aqui como o sinal alvo, o sinal de interesse para classificao, ou seja, os sinais de choro
utilizados no processo de treino do algoritmo.
7
Outlier uma palavra inglesa utilizada em estatstica, para valores atpicos, que se distanciam de valores de
interesse e no algoritmo desenvolvido, corresponde a todos os valores obtidos nos sinais de no choro.
61

=features_testsig. As matrizes Xtrain, Ltrain e Xtest constituem os dados de


entrada para a funo que executa o mtodo k-NN, exposto na Seo 2.4.2. O algoritmo de
k-NN implementado exibido no Cdigo 3.8.
Cdigo 3.8: Implementao de k-NN.


[N , ] = size(Xtrain);
[Ntest,] = size(Xtest);
distance = zeros(N,Ntest);

for i = 1: Ntest
for j = 1: N
distance(j,i) = norm(Xtest(i,:)-Xtrain(j,:));
end
end

[,Index]= sort(distance,'ascend');

Ltest = zeros(K,Ntest);
for i = 1:Ntest
for j=1:K
Ltest(j,i) = Ltrain(Index(j,i));
end
end

test_Predicted_labels = mode(Ltest);

O cdigo acima consitudo por dois processos: o primeiro consiste em determinar a


distncia entre cada amostra do sinal de entrada em relao a todas as amostras dos sinais de
treino, o segundo verifica os rtulos impostos aos pontos correspondentes aos vizinhos mais
prximos e ento, atravs do clculo da moda, classifica o sinal como choro ou no choro. Fo-
ram usados como sinais de teste, num primeiro momento, todos os sinais do banco de udios
que foram excludos da etapa de treino, uma vez que os sinais usados nessa etapa devem ser
diferentes dos sinais utilizados para ensinar o algoritmo. Os resultados obtidos sero comen-
tados no Captulo 4.

3.3.2 Teste de classificao na presena de rudo

Para avaliar a eficincia do algoritmo em situaes mais prximas do real e estimar


quanto de rudo pode haver no sistema foi adicionado rudo a alguns sinais de choro, com
SNRs diferentes. Para isso foi utilizada a funo para adio de rudo branco gaussiano do
Communication Systems Toolbox do MATLAB. Foram testados sinais com SNR de 50dB, 40dB,
30dB, 20dB e 10dB. A Figura 3.11 apresenta exemplos da altero do sinal pelo rudo em cada
um dos casos de variao da SNR.
62

Sinal "choro2.wav" com adio de rudo: SNR 50dB Sinal "choro2.wav" com adio de rudo: SNR 40dB Sinal "choro2.wav" com adio de rudo: SNR 30dB
1 1 1

0.8 0.8 0.8

0.6 0.6 0.6


Amplitude normalizada

Amplitude normalizada

Amplitude normalizada
0.4 0.4 0.4

0.2 0.2 0.2

0 0 0

-0.2 -0.2 -0.2

-0.4 -0.4 -0.4

-0.6 -0.6 -0.6

-0.8 -0.8 -0.8

-1 -1 -1
1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8
Tempo (s) Tempo (s) Tempo (s)

(a) Sinal de choro com adio (b) Sinal de choro com adio (c) Sinal de choro com adio
de rudo e SNR de 50 dB. de rudo e SNR de 40 dB. de rudo e SNR de 30 dB.
Sinal "choro2.wav" com adio de rudo: SNR 20dB Sinal "choro2.wav" com adio de rudo: SNR 10dB
1 2

0.8
1.5
0.6
1
Amplitude normalizada

Amplitude normalizada
0.4
0.5
0.2

0 0

-0.2
-0.5
-0.4
-1
-0.6
-1.5
-0.8

-1 -2
1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8
Tempo (s) Tempo (s)

(d) Sinal de choro com adio (e) Sinal de choro com adio
de rudo e SNR de 20 dB. de rudo e SNR de 10 dB.

Figura 3.11: Comparao entre o sinal no tempo com adio de rudo e diferentes SNRs.

importante ressaltar que as figuras acima so apenas ilustrativas, pois so referentes


ao sinal de exemplo, que utilizado como sinal de treino e a adio do rudo realizada apenas
nos sinais de teste.
Ainda, foram utilizados os sinais com menor porcentagem de erro na classificao de
suas amostras, tanto o sinal de choro, quanto o sinal que no contm choro, a fim de avaliar
o desempenho do algoritmo numa situao em que o beb esteja imerso num ambiente com
rudos cotidianos. Assim, o sinal de choro 14 foi combinado ao sinal que contm rudo de
trnsito, principalmente buzinas. Foram construdos dois sinais, com SNRs diferentes, atravs
da utilizao do software gratuito Audacity. Os sinais combinados so exibidos na Figura 3.12.
63

Primeiro sinal combinado Segundo sinal combinado


0.6 1

0.8
0.4
0.6
Amplitude normalizada

Amplitude normalizada
0.4
0.2
0.2

0 0

-0.2
-0.2
-0.4

-0.6
-0.4
-0.8

-0.6 -1
1 2 3 4 5 6 7 8 9 10 11 1 2 3 4 5 6 7 8 9 10 11
Tempo (s) Tempo (s)

(a) Combinao dos sinais, SNR = 11 dB. (b) Combinao dos sinais, SNR = -4 dB.

Figura 3.12: Combinao dos sinais choro14 e outlier13.

Conforme ser apresentado no prximo captulo, o algoritmo se mostrou eficiente para


a combinao de sinais de choro com os sinais definidos como outliers, porm com adio de
rudo branco todas as classificaes foram enviesadas, uma vez que o prprio rudo branco, por
sua caracterstica espectral de banda larga, foi classificado como choro. A fim de contornar esse
problema outras medidas foram tomadas.

3.4 Identificao de rudo

Uma vez que o rudo se mostrou potencialmente problemtico, enviesando todos os


resultados, foram pensadas solues para o problema. Em primeiro lugar era necessrio separar
sinais que continham apenas rudo de outros sinais. A ideia para contornar o problema baseada
na anlise da energia do sinal. A Figura 3.13 abaixo apresenta a energia para um sinal de rudo
e um sinal de fala.
64

Short-time Energy
1,00

0,80

0,60

0,40

0,20
Amplitude

0,00

-0,20

-0,40

-0,60

-0,80 Sinal
STE
-1,00
0 2 4 6 8 10 12 14
Tempo (s)

(a) STE para sinal de fala.

Short-time Energy
1,00

0,80

0,60

0,40

0,20
Amplitude

0,00

-0,20

-0,40

-0,60 Sinal
STE

-0,80

-1,00
0,000 0,200 0,400 0,600 0,800 1,000 1,200 1,400 1,600 1,800 2,000
Tempo (s)

(b) STE para sinal de rudo branco.

Figura 3.13: Comparao entre a STE para sinal de fala e sinal de rudo branco.

ntida, a partir dessa comparao, que a energia de um sinal de fala tem muito mais
variao temporal, apresentando perodos de silncio alternados por perodos de fala, enquanto
a energia do rudo mais constante.
Assim, a soluo encontrada foi, com utilizao da relao entre a energia do sinal e
o valor RMS da energia, encontrar o desvio padro. O clculo foi feito conforme apresenta o
Cdigo 3.9.
Cdigo 3.9: Determinao do desvio padro da energia de um sinal.
65


std1=std(E/rms(E));

Caso o desvio padro seja menor do que 0,5 o sinal ento classificado como rudo. O
teste foi feito com sinais de choro, sinais de fala e rudo branco, rosa e azul.
Uma vez que a identificao e separao de rudo obtiveram sucesso, foi abordado o
problema de sinais contaminados por rudo.

3.5 Classificao de sinais contaminados por rudo

Foram aplicadas diferentes tcnicas a fim de possibilitar a classificao dos sinais con-
taminados por rudo. A mais proeminente delas foi o clculo do fator de harmonicidade. A
definio desse parmetro dada por:
k
X
HF = hi modf0 , (3.4)
i=1

em que hi corresponde s frequncias para os k maiores picos do sinal e f0 a frequncia


fundamental, ou pitch do sinal. Dessa forma, para um sinal harmnico espera-se que HF tenha
valores baixos, tendendo a zero.
A implementao de HF exibida no Cdigocode:hf.
Cdigo 3.10: Implementao de HF.

for n=1:size(F)
[pks(n,:),locs(n,:)]=sort(abs(S(n,:)),'descend');
locs(n,:)=locs(n,:).*(fs/NFFT);

f0(n)=min(locs(n,1:10));

for i=1:5
Hf(i)=mod(locs(n,i),f0(n));
end
HF(n,:)=sum(Hf);
end

Os resultados de HF obtidos dessa forma so expostos no prximo captulo.


66

4 RESULTADOS

Este captulo ser dividido da seguinte maneira: em primeiro lugar sero apresentados
os resultados para a classificao utilizando sinais gravados, comentrios acerca do acrscimo
de rudo e da eficincia do algoritmo em detectar choro corretamente. Aps sero abordadas
as questes referentes ao processamento em tempo real, abordando questes relacionadas ao
tempo de processamento e a velocidade de notificao do sistema.

4.1 Classificao de sinais gravados

A classificao de um sinal feita atravs da anlise de cada frame, como explicado


anteriormente neste documento. Cada frame portanto classificado de acordo com a moda dos
rtulos dos vizinhos analisados. O K utilizado neste trabalho igual a 7, portanto, os 7 vizinhos
mais prximos so considerados para classificao do sinal. O sinal ento classificado de
acordo conforme a classificao da maioria simples de seus frames. Todos os sinais de treino,
tanto choros (com e sem rudo), quanto outliers foram classificados corretamente. Porm para
a avaliao do algoritmo, mais importante do que a classificao final a quantidade de acertos
e erros dentro dos sinais, considerando a classificao dos frames. Os resultados obtidos das
anlises detalhadas da classificao dos sinais so expostos a seguir.
Alm da moda geral, o resultado da classificao de cada frame foi obtido. A Tabela 4.1
apresenta, para sinais sem adio de rudo, o nmero total de frames de cada sinal e quantos
foram classificados corretamente.

Tabela 4.1: Classificaes corretas e porcentagem de erro na classificao dos sinais de choro,
sem adio de rudo.
Sinal Nmero de amostras Classificaes corretas Erro
choro8 1931 1868 3,263%
choro9 1357 1314 3,169%
choro10 3308 3213 2,872%
choro11 2894 2128 26,469%
choro12 2440 2387 2,172%
choro13 3170 2892 8,770%
choro14 909 907 0,220%

Na identificao de sinais de choro, considerando que o choro 11, um sinal que passou
67

por hard clipping8 , apresenta um valor de erro discrepante, a mdia de erro de 6, 705% e
apresenta desvio padro de 0, 091. Com a excluso do referido sinal a mdia de erro cai para
3, 411% e o desvio padro para 0, 028. Apesar dos erros, uma vez que a classificao de um
sinal completo feita considerando a maioria simples das classificaes de seus frames, nenhum
dos sinais de choro foi classificado incorretamente. O sinal 11 foi utilizado a fim de demonstrar
que para sinais com rudo e distores tambm podem ser classificados de forma correta.
O mesmo procedimento foi realizado para os sinais que no apresentam sinal de choro
e os resultados so mostrados na Tabela 4.2.

Tabela 4.2: Classificaes corretas e porcentagem de erro na classificao dos sinais que no
contm choro.
Sinal Nmero de amostras Classificaes corretas Erro
outlier8 1088 787 27,665%
outlier9 992 933 5,948%
outlier10 2712 2308 14,897%
outlier11 2307 2276 1,344%
outlier12 2400 2176 9,333%
outlier13 1263 1261 0,158%

Para os sinais que no contm choro o erro na classificao dos frames apresenta uma
mdia consideravelmente superior, de 9, 891% e desvio padro de 0, 102. Os sinais que apre-
sentaram maior porcentagem de erro, de 27, 665% e 14, 897%, correspondem a uma gargalhada
e um sinal com canto de pssaros, respectivamente. A Figura 4.1 apresenta o erro para cada
um dos sinais de teste utilizados, sem nenhuma adio de rudo. Considerando todas a soma
de todas as amostras utilizadas para treino do algoritmo, um total de 26771, e a quantidade de
acertos sendo 23954, o erro total foi de 10, 523%
8
Hard clipping o fenmeno decorrente de erros de quantizao. Quando a amplitude do sinal ultrapassa o
nmero de bits de quantizao do sistema de aquisio, esse sinal cortado.
68

ERROS
30,000%

25,000%

20,000%

15,000%

10,000%

5,000%

0,000%

Figura 4.1: Porcentagem de erro na classificao do total de frames para os sinais de teste.

Assim, para os sinais de teste iniciais, no houveram erros de classificao e a mdia de


acertos considerando todos os frames de sinal superior a 90%.
Conforme antecipado no captulo anterior, foram realizados teste utilizando os sinais de
choro poludos com rudo e relaes sinal-rudo variveis, sendo elas 50 dB, 40 dB, 30 dB, 20
dB e 10 dB. Quanto menor a SNR, maior a taxa de classificao como choro. A princpio o
resultado parece no fazer sentido, porm ao considerar que o rudo branco consiste em energia
aproximadamente constante para todas as frequncias, possvel compreender o porque desses
resultados.
Para a combinao entre sinal de choro (choro14.wav) e o sinal de buzinas e trnsito
(outlier13.wav) e SNR varivel os resultados so exibidos na Tabela 4.3.

Tabela 4.3: Resultados para os sinais combinados.


Sinal Classificao SNR Amostras Classificadas corretamente Erro
combinado1.wav Choro 11 dB 909 833 8,361%
combinado2.wav No choro -4 dB 909 411 54,785%

Esse resultado mostra que o algoritmo capaz de identificar sinais de choro mesmo em
ambientes ruidosos, porm apresenta erro na classificao do sinal completo quando a ampli-
tude do rudo supera o sinal de interesse. Uma vez que a utilizao pensada para ambientes
fechados com a plataforma de aquisio prxima ao beb, verifica-se que o desempenho muito
satisfatrio. Porm a habilidade de classificar sinais corretamente no o nico parmetro de
69

interesse para a avaliao da eficincia do sistema desenvolvido. A rotina implementada em


MATLAB leva em torno de 40 segundos para determinar se o sinal de entrada ou no um sinal
de choro. A implementao em tempo real deve avaliar o tempo de processamento do cdigo,
uma vez que necessria a emisso do alerta vibratrio no menor tempo possvel. A preocu-
pao com o tempo, ento, levanta duas questes importantes: a primeira em relao a quantas
amostras de sinal so necessrias para que seja classificado corretamente, ou seja, qual o menor
tempo em que possvel classificar o sinal? A segunda relativa ao tempo de processamento,
ou seja, quanto tempo meu sistema de aquisio e processamento leva para fazer toda a anlise
do sinal e enviar uma notificao ao usurio?
Para responder primeira pergunta, sem agregar ainda a preocupao com o tempo
de processamento, foram feitos testes utilizando o sinal de choro com menor erro, o sinal de
choro com maior erro e o sinal combinado com rudo de trnsito que apresentou classificao
correta. Esses sinais foram cortados de modo que o nmero de amostras em cada um deles fosse
consideravelmente reduzido. Os resultados so expostos na Tabela 4.4 abaixo.

Tabela 4.4: Resultados de classificao para trechos curtos dos sinais.


Sinal Amostras Classificaes corretas Erro
choro 11 - 5s 402 216 46,269%
choro 14 - 5s 401 401 0,000%
combinado - 5s 401 345 13,965%
choro 11 - 2s 162 140 13,580%
choro 14 - 2s 161 161 0,000%
combinado - 2s 161 137 14,907%

O sinal com menor erro, para sinais encurtados se manteve com 100% de classificaes
corretas, enquanto que o sinal completo com maior erro, apesar de apresentar erro alto entre suas
amostras, ainda assim foi classificado como choro. A partir dessas informaes, considera-se
que razovel que seja realizado o processamendo do sinal de entrada no sistema de aquisio
a cada 2 segundos. Assim, a seo seguinte apresenta os resultados para processamento em
tempo real, considerando os resultados apresentados para classificao de sinais gravados.

4.1.1 Classificao de sinais contaminados por rudo

A fim de lidar com o problema de sinais de choro contaminados por rudo foram realiza-
dos testes de anlise de autocorrelao e testes de fator de harmonicidade (Harmonicity Factor),
porm nenhum deles resultou numa correta classificao dos sinais. Como exposto no captulo
70

anterior, foram realizadas tentativas de implementao do fator de harmonicidade (HF). Foram


obtidos grficos para esse parmetro em 3 sinais de choro, um sinal de fala e um sinal de rudo
branco, dos quais a fala, um dos sinais de choro e o rudo so apresentados na Figura 4.2.

Fator de harmonicidade para rudo branco Fator de harmonicidade para sinal de fala
4 3

3,5
2,5

2
2,5
HF

HF
2 1,5

1,5
1

0,5
0,5

0 0
0 20 40 60 80 100 120 140 160 0 100 200 300 400 500 600 700 800 900 1000
Amostras Amostras

(a) [HF para rudo branco. (b) [HF para sinal de fala.

Fator de harmonicidade para sinal de fala Fator de harmonicidade para sinal de fala
6000 6000

5000 5000

4000 4000
HF

HF

3000 3000

2000 2000

1000 1000

0 0
0 100 200 300 400 500 600 0 100 200 300 400 500 600
Amostras Amostras

(c) [HF para o primeiro sinal de choro. (d) HF para o segundo sinal de choro.

Figura 4.2: Comparao entre as HFs para diferentes sinais.

Ao observar os resultados obtidos para esse parmetro, o sinal que obteve o comporta-
mento esperado e assim, demonstrando ser um sinal harmnico, foi o sinal de fala. Os sinais de
choro no condisseram com as expectativas de harmonicidade para um sinal de choro.
O problema de classificao para sinais contaminados por rudo, fica portanto em aberto
para futuros estudos.
71

5 CONCLUSES

Este trabalho permitiu extensivo estudo da teoria e mtodos de aplicao de proces-


samento de sinais e processamento de sinais de fala, incluindo tcnicas especficas para pro-
cessamento em blocos. Estudo esse que forneceu ferramentas para o desenvolvimento de um
algoritmo de classificao para sinais de choro de bebs, como um primeiro passo em direo
a um sistema de baixo custo que permita a notificao de pais surdos caso seus bebs precisem
de assistncia. Os resultados apresentados para a classificao de sinais gravados sem adio de
rudo foram satisfatrios, permitindo a identificao do sinal de choro de bebs inclusive com a
adio de sinais contidos na biblioteca para sons cotidianos aleatrios.
Quando, porm o sinal foi contaminado por rudo (branco, rosa e azul utilizados nos
testes), ou quando subamostrados, o algoritmo no foi eficiente em realizar a classificao dos
sinais de forma correta e mesmo quando a classificao de choro ocorria para um sinal que
de fato continha choro, esse resultado era enviesado pela presena do rudo, uma vez que o
rudo sempre apresenta classificao positiva. Assim, foram testados novos parmetros que
pudessem contribuir para a correta classificao ou para serem includos em uma avaliao que
se utilizasse de ponderaes, porm no houve sucesso.
Dessa forma, reconhecida uma falha no algoritmo que dever ser corrigida em estudos
futuros sobre o tema, possibilitando novas pesquisas e o desenvolvimento do sistema final para
aplicao ao pblico alvo que motivou este trabalho.
72

REFERNCIAS

BALANDONG, R. P. Acoustic analysis of baby cry. University of Malaysia, [S.l.], 2013.

BARBOSA, P. A.; MADUREIRA, S. Manual de fontica acstica experimental. [S.l.]: Cor-


tez Editora, 2015.

BOSER, B. E.; GUYON, I. M.; VAPNIK, V. N. A Training Algorithm for Optimal Margin
Classiers. Proceedings of the 5th Annual Workshop on Computational Learning Theory,
[S.l.], 1992.

BRANDO, E. Notas de aula - Processamento Digital de Sinais I. 2012.

COHEN, R.; LAVINER, Y. Infant Cry Analysis and Detection. IEEE 27th Convention of
Electrical and Electronics Engineers in Israel, [S.l.], 2012.

DAVIS, S. B.; MERMELSTEIN, P. Comparison of parametric representations for monosyllabic


word recognition in continuously spoken sentences. IEEE Transactions on Acoustics Speech
and Signal Processing, [S.l.], 1980.

DENES, P. B.; PINSON, E. N. The Speech Chain: the physics and biology of spoken language.
[S.l.]: LLC, 2012.

DUNSTAN, P. Child Sense. [S.l.]: Hodder & Stoughton Ltd, 2009.

GELFAND, S. A. Hearing: an introduction to psychological and physiological acoustics. 1.ed.


[S.l.]: CRC Press, 2009.

GLASS, J. A Brief Introduction to Automatic Speech Recognition, Lecture notes. 2007.

HUANG, X.; ACERO, A.; HON, H. Spoken Language Processing: a guide to theory, algo-
rithm, and system development. [S.l.]: Prentice Hall, 2001.

I. PITAS, A. N. V. Nonlinear Digital Filters: principles and applications. 1.ed. [S.l.]: Springer
US, 1990. (The Springer International Series in Engineering and Computer Science 84).

IBGE. Censo Demogrfico IBGE 2010 - Caractersticas gerais da populao, religio e


pessoas com deficincia. Acessado em 04/04/2016, http://biblioteca.ibge.gov.
br/visualizacao/periodicos/94/cd_2010_religiao_deficiencia.pdf.
73

JACOB BENESTY M. MOHAN SONDHI, Y. A. H. Springer Handbook of Speech Proces-


sing. 1.ed. [S.l.]: Springer-Verlag Berlin Heidelberg, 2008.

JOHN R. DELLER JR. JOHN H. L. HANSEN, J. G. P. Discrete-Time Processing of Speech


Signals. [S.l.]: Wiley-IEEE Press, 1999.

KENT, R. D.; READ, C. The Acoustic Analysis of Speech. [S.l.]: Thomson Learning, 2002.

KWANG-SEOK, J.; MIN-HEE, K.; HYUN-JOONG, K. Vibering Watch - Sensor to help


detect noises for hearing impaired. 2008.

LAGASSE, L. L.; NEAL, A. R.; LESTER, B. M. Assessment of infant cry: acoustic cry analy-
sis and parental perception. Mental retardation and developmental disabilitiesresearch re-
views, [S.l.], 2005.

LAW, M. A Simple Introduction to Support Vector Machines. 2011.

LEDERMAN, D. Automatic Classification of Infants Cry. 2002. Dissertao (Mestrado em


Cincia da Computao) Ben-Gurion University of Negev.

LORENA, A. C.; CARVALHO, A. C. P. L. F. de. Uma introduo s Support Vector Machines.


RITA, [S.l.], 2007.

LYONS, J. Mel Frequency Cepstral Coefficient (MFCC) tutorial. 2015.

NG, A. Machine Learning Online Course. 2016.

NOLL, A. M. Cepstrum Pitch Determination. Journal of the Acoustical Society of America,


[S.l.], 1966.

OPPENHEIM, A. V. Superposition in a class of nonlinear systems. [S.l.]: MIT - Research


Laboratory of Electronics, 1965.

OPPENHEIM, A. V. Nonlinear Filtering of Convolved Signals. Research Laboratory of Elec-


tronics, MIT, [S.l.], 1966.

OPPENHEIM, A. V.; SCHAFER, R. W. From Frequency to Quefrency: a history of the ceps-


trum. IEEE Signal Processing Magazine, [S.l.], 2004.

OSUNA, R. G. Notas de aula: cepstrum analysis. 2011.


74

PELEG, N. Notas de aula - Speech Signal Basics. 2010.

RABINER, L. E. Notas de Aula - Digital Speech Processing. 2012.

RABINER, L. R.; SCHAFER, R. W. Introduction to Digital Speech Processing. [S.l.]: Now


Publishers Inc., 2007.

SHAW, T. R. Introduction to Machine Learning with Naive Bayes. 2016.

SHIN, K.; HAMMOND, J. Fundamentals of Signal Processing for Sound and Vibration
Engineers. [S.l.]: Wiley, 2008.

SILVA, H. T. P. da; VILLANUEVA, J. M. M.; SOUZA, A. A. L. de. Tecnologia assistiva: uso


de processamento de sinais e transmisso sem fio para o auxlio de mes e pais portadores de
necessidades especiais (deficincia auditiva) - anlise do sinal (choro). PROBEX, [S.l.], 2013.

SLOBIN, I. Psicolingustica. [S.l.]: Nacional, 1979.

STEVENS, S. S.; VOLKMANN, J. The relation of pitch to frequency: a revised scale. The
American Journal of Psychology, [S.l.], 1940.

STUTTLE, M. Notas de Aula - CSTIT Speech Signal Processing. 2005.

TAN, L. Digital Signal Processing: fundamentals and application. [S.l.]: Academic Press,
2008.

TECHNOLOGIC, B. Cry Translator App. 2009.

VARALLYAY, G. Daby Cry Samples. 2000.

VARSHARANI, V. B.; SARDAR, V. M. An Automatic Infants Cry Detection Using Linear


Frequency Cepstrum Coefficients. International Journal of Technology Enhancements and
Emerging Engineering Research, [S.l.], 2015.

WILSON, M. Assistive Listening Device. 2009.

YEH, C. Support Vector Machines for classification. 2016.

ZEMLIN, W. R. Princpios de anatomia e fisiologia em Fonoaudiologia. [S.l.]: Artmed, 2000.

Potrebbero piacerti anche