Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Resumo—Este trabalho aborda o tema de Redes Neurais [4] propuseram uma arquitetura de rede neural que trata
profundas com um olhar da área de Visão Computacional, deformações e oclusões de partes do pedestre.
traçando um paralelo entre as duas áreas. Em experimentos Para este trabalho escolhemos como foco de pesquisa o
iremos comparar duas abordagens clássicas para detecção de
pedestres, com a utilização de Redes Neurais Convolucionais, artigo apresentado por J. H. Hosang et al. [5], no qual os
cujos resultados são considerados o estado da arte para o experimentos serão detalhados na seção IV. Os mesmos auto-
problema em questão. res também relacionaram os avanços em 10 anos de pesquisa
Keywords-Detecção de Pedestres, Visão Computacional, Apren- de Detecção de Pedestres em [6].
dizado de Máquina, CNN, SVM, HOG, Adaboost, Haar features
II. R EDES N EURAIS C ONVOLUCIONAIS
Abstract—This work addresses the Deep Neural Networks Uma Rede Neural Convolucional (ou Convolutional Neural
regarding to Computer Vision area, drawing a parallel between Network - CNN) é uma variação das redes de Perceptrons de
the two areas. In experiments we will compare two classic
approaches to pedestrian detection with the use of Convolutional Múltiplas Camadas, tendo sido inspirada no processo biológico
Neural Networks , whose results are considered state of the art de processamentos de dados visuais. De maneira semelhante
to the problem in question. aos processos tradicionais de visão computacional, uma CNN
Keywords-Pedestrian Detection, Computer Vision, Machine é capaz de aplicar filtros em dados visuais, mantendo a
Learning, CNN, SVM, HOG, Adaboost, Haar features relação de vizinhança entre os pixels da imagem ao longo
do processamento da rede. A Figura 1 ilustra uma CNN. Este
I. I NTRODUÇ ÃO tipo de rede vem sendo amplamente utilizado, principalmente
O aprendizado profundo com redes neurais é um tema bas- nas aplicações de classificação, detecção e reconhecimento em
tante discutido e difundido atualmente, devido ao seu grande imagens e vı́deos.
sucesso. Em muitos problemas de Visão Computacional as
Redes Neurais de Convolução hoje apresentam os melhores
resultados. Este trabalho busca vistar os conceitos tradicional- Convolução Pooling Convolução Pooling
Completamente
conectada
Entrada
mente abordados em Aprendizado de Máquina sob o ponto
de vista da Visão Computacional e para efeito de comparação 0
1
o treinamento da cascata do AdaBoost foram: 5 estágios • HOG com SVM: HOG ou técnica 2;
(classificadores em cascata) 5, com a taxa de mı́nima de acerto • Rede Alexnet: CNN ou técnica 3;
e a taxa máxima de falso alarme sendo estimada pelo número Com relação a sensitividade e a especificidade quanto mais
de estágios. próximas de 100% melhor é o classificador. Porém, devemos
A abordagem do descritor HOG juntamente com o classi- atentar ao detalhe de qual medida é mais importante para a
ficador SVM [10] é uma solução proposta diretamente para o aplicação em questão: sempre acertar um caso positivo ou
problema de detecção de pedestres. Os parâmetros utilizados nunca errar um caso negativo. O primeiro caso favorece a
no descritor HOG foram os mesmos do trabalho original: sensitividade e o segundo, a especificidade. De maneira geral,
pixels por célula 8 × 8, passo 8 × 8, células por bloco 2 × 2 acredito que a sensitividade deva ser mais valorizada, pois é
e 9 orientações no histograma de gradientes. pior perder um pedestre do que classificar incorretamente o
fundo. A Tabela I mostra os resultados de cada abordagem.
B. Redes Neurais Convolucionais Como pode ser observado na tabela, todas as técnicas obti-
A estratégia utilizada por [5] e que replicaremos aqui é de veram excelentes resultados no quesito sensitividade, sendo o
utilizar arquiteturas, e os pesos treinados, de redes propostas melhor valor obtido pela abordagem com as Features de Haar.
para tarefa mais geréricas, como de distinção entre 1000 Porém, quando avaliada a especificidade, tanto o HOG quando
classes de objetos, e fazer uma calibragem, conhecida como a CNN obtiveram bons números, mas para o caso do Haar o
fine tuning, dos pesos treinados para a tarefa. resultado foi muito ruim. Neste dois quesitos a técnica 3 foi
Foram abordadas no trabalho [5] duas redes, a CifarNet e a a que apresentou o melhor conjunto de resultados.
AlexNet. Ambas as redes foram reimplementadas no projeto A Tabela II mostra o resultado de cada técnica considerando
open source Caffe [13] e para nossos experimentos utilizamos as medidas de fall-out e miss-rate. As estatı́sticas se referem
integrado ao Digits versão 2.2 [14]. Replicamos apenas a a probabilidade de ser um falso positivo ou falso negativo,
abordagem com a rede AlexNet uma vez que esta apresentou respectivamente. Para o caso da técnica 1, os resultados foram
melhores resultados [5]. muito desbalanceados, com uma alta probabilidade de falso
A AlexNet é uma rede com aproximadamente 6 × 107 positivo e baixı́ssima de falso negativo. Para o caso da técnica
parâmetros. A Figura 2 ilustra sua arquitetura. Ela foi treinada 2, os resultados foram melhores e mais balanceados, com 5%
Tabela II
Fall-out E Miss-rate DE CADA ABORDAGEM . a classificação de imagens negativas, ocasionando um alto
número de falsos positivos e resultando em um desempenho
ruim. A explicação para isto por ser dado pelo fato das
Abordagem Fall-out Miss-rate
Haar + AdaBoost 42,59% 0,38% Features de Haar terem sido para detecção de face.
HOG + SVM 5,04% 5,65%
CNN 0,83% 1,06% VI. C ONCLUS ÃO
Atualmente inúmeras abordagens utilizando Redes Neurais
Tabela III
P RECIS ÃO E ACUR ÁCIA DE CADA ABORDAGEM .
com aprendizado profundo estão alcançando os melhores
resultados em diversos problemas de Visão Computacional.
Por isso é importante entender como como elas funcionam,
Abordagem Precisão Acurácia para assim projetar melhores arquiteturas e obter melhores
Haar + AdaBoost 68,78% 96,64%
HOG + SVM 94,63% 91,53% resultados.
CNN 99,12% 95,98% Para este trabalho, foi proposta uma comparação de duas
técnicas tradicionais de Visão Computacional com uma técnica
de Rede Neural Convolucional que apresenta o resultados
para as duas estatı́sticas. Para a técnica 3 os resultados foram do estado da arte. Comparamos a utilização de Features de
os melhores, com valores próximos a 1%. Haar com o classificador AdaBoost, Histograma de Gradiente
Avaliando os valores de precisão e acurácia como mostrado Orientados com o classificador de Máquina de Vetores de
na Tabela III: A abordagem com Haar apresentou a pior Suporte e um ajuste da Rede Neural Convolucional AlexNet
precisão e a melhor acurácia . A abordagem com HOG para o problema abordado nesse trabalho. Nos testes realizados
apresentou boa precisão e um bom resultado na acurácia. A a abordagem com a CNN obteve os melhores resultados na
CNN apresentou a melhor precisão e a uma boa acurácia. maioria dos casos, comprovando o fato de ser considerada a
Para ilustrar as estatı́sticas encontradas a Figura 3 e Figura 4 técnica em estado da arte.
mostram exemplos classificados errados pelas técnicas.
R EFER ÊNCIAS
[1] M. D. Zeiler and R. Fergus, Computer Vision – ECCV 2014: 13th Eu-
ropean Conference, Zurich, Switzerland, September 6-12, 2014, Proce-
edings, Part I. Springer International Publishing, 2014, ch. Visualizing
and Understanding Convolutional Networks, pp. 818–833.
[2] Y. LeCun, Y. Bengio, and G. Hinton, “Deep learning,” Nature, vol. 521,
pp. 436–444, 2015.
[3] P. Sermanet, K. Kavukcuoglu, S. Chintala, and Y. Lecun, “Pedestrian
detection with unsupervised multi-stage feature learning,” in The IEEE
(a) Haar (b) Haar (c) HOG (d) HOG Conference on Computer Vision and Pattern Recognition (CVPR), 2013.
e HOG e CNN e CNN [4] W. Ouyang and X. Wang, “Joint deep learning for pedestrian detection,”
in The IEEE International Conference on Computer Vision (ICCV),
Figura 3. Exemplos dados como falso negativo pelas técnicas listadas abaixo
2013.
de cada imagem
[5] J. H. Hosang, M. Omran, R. Benenson, and B. Schiele, “Taking a deeper
look at pedestrians,” CoRR, vol. abs/1501.05790, 2015.
[6] R. Benenson, M. Omran, J. Hosang, and B. Schiele, “Ten years of
pedestrian detection, what have we learned?” in Computer Vision for
Road Scene Understanding and Autonomous Driving (CVRSUAD, ECCV
workshop), 2014.
[7] Y. Lecun, L. Bottou, Y. Bengio, and P. Haffner, “Gradient-based learning
applied to document recognition,” in Proceedings of the IEEE, 1998, pp.
2278–2324.
[8] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan,
V. Vanhoucke, and A. Rabinovich, “Going deeper with convolutions,”
in CVPR 2015, 2015.
(a) HOG (b) Haar (c) Haar (d) Haar [9] P. Dollár, C. Wojek, B. Schiele, and P. Perona, “Pedestrian detection:
e CNN e HOG An evaluation of the state of the art,” PAMI, vol. 34, 2012.
Figura 4. Exemplos dados como falso positivo pelas técnicas listadas abaixo [10] N. Dalal and B. Triggs, “Histograms of oriented gradients for human
de cada imagem detection,” in In CVPR, 2005, pp. 886–893.
[11] “Página oficial do projeto opencv,” http://opencv.org, 2016.
[12] P. Viola and M. Jones, “Rapid object detection using a boosted cascade
Com a análise de todas as estatı́sticas é possı́vel perceber of simple features,” 2001, pp. 511–518.
que a CNN, quando não apresenta os melhores resultados, está [13] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick,
S. Guadarrama, and T. Darrell, “Caffe: Convolutional architecture for
bem próxima do melhor, ratificando o fato desta técnica ser fast feature embedding,” arXiv preprint arXiv:1408.5093, 2014.
considerada o estado da arte. A segunda melhor técnica nesta [14] “Página oficial do projeto digits da nvidia,” https://developer.nvidia.com/
análise foi a abordagem com HOG e SVM, obtendo resultados digits, 2016.
[15] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classification
bem próximos a CNN. Esse fato pode ser explicado por ser with deep convolutional neural networks,” in Advances in Neural In-
uma técnica proposta desde sua original para o problema formation Processing Systems 25. Curran Associates, Inc., 2012, pp.
de detecção de pedestres. A abordagem com as Features de 1097–1105.
Haar com o AdaBoost apresentou grandes problemas para