Sei sulla pagina 1di 1

Nome: Lucas Fernando da Silva Cambuim

Ttulo: Computing the stereo matching cost with a convolutional neural network

Correspondncia Estreo uma importante etapa de viso estreo cujo objetivo calcular mapas de disparidades que so
imagens em escala de cinza no qual objetos que so mais claros esto mais prximos e objetos que so mais escuros esto mais
longe. O grande desafio em correspondncia estreo definir uma funo de custo de similaridade que associa a cada pixel de uma
imagem um valor de similaridade com relao a um pixel na outra imagem. Aquele pixel na outra imagem com menor valor de
similaridade escolhido como pixel correspondente e a distncia relativa entre os pixels correspondentes, chamado de disparidade,
ento calculada. O esperado que pixels nas duas imagens associados ao mesmo ponto no universo 3D tenha o menor custo de
similaridade. Tem sido provado que as abordagens com redes convolucionais conseguem aprender a funo de custo a partir de um
conjunto de imagens de treinamento e tem sido mostrado que esta funo aprendida consegue calcular custos corretamente gerando
mapas de disparidades mais precisos do que as abordagens existentes na literatura at o momento. Contudo, o emprego de tal
abordagem ainda computacionalmente custoso, no sendo adequados para aplicaes de navegao de rob e veculos autnomos,
que demandam processamento de mapas de disparidades em tempo real. Desta forma, necessrio desenvolver tcnicas para
aumentar a taxa de processamento das redes neurais convolucionais, mantendo a alta qualidade que tais abordagens oferecem ao
calcular mapas de disparidades.
Na abordagem proposta por J. bontar [2] foi desenvolvido rede convolucional que aprendem a funo de custo tratando o
problema como uma classificao binria. Dado um pedao na imagem da esquerda, a tarefa prever se um pedao na imagem da
direita a correspondncia correta. Esta abordagem apresentou grande preciso em benchmarks desafiantes, como o KITTI [4],
contudo, computacionalmente muito caro, exigindo um minuto de computao na GPU. Isso deve-se ao fato de que os autores
exploraram uma arquitetura siamesa, seguida de concatenao e processamento posterior atravs de mais algumas camadas para
calcular o resultado final. Uma opo que pode ser analisada explorar uma camada de produto que simplesmente calcula o produto
interno entre as duas representaes de uma arquitetura siamesa. Outra opo de investigao tentar reduzir a representatividade
dos pesos, a fim de diminuir a custo computacional, a quantidade de dados que precisam ser armazenados e a latncia para calcular
mapas de disparidades. Para dar suporte a esta busca por compresso de redes profundas, o trabalho [6] apresenta uma pequena
arquitetura CNN chamada "SqueezeNet" que atinge a preciso da rede AlexNet na base de imagem ImageNet com 50x menos
parmetros. Nesta abordagem os autores propem vrias otimizaes, entre elas, tornar a rede menor substituindo filtros 3x3 por
filtros 1x1. Esta estratgia reduz o nmero de parmetros 9x, substituindo um monte de filtros 3x3 por filtros 1x1. Outra proposta
deste trabalho reduzir o nmero de entradas para os filtros 3x3 atravs de uma arquitetura chamada module fire. Reduzindo o
nmero de conexes que entram nesses filtros 3x3 reduz assim o nmero total de parmetros.
Existem duas bases de imagens estreos disponveis publicamente e largamente utilizada na literatura: KITTI e Middlebury.
Estas duas bases fornecem imagens de treinamentos e testes para a avaliar abordagens baseadas em aprendizagem. O primeiro
fornece imagens estreo do mundo real a partir do contexto automotivo e o segundo oferea cenas indoor em uma configurao
controlada, simulando vrios possveis obstculos que impedem calcular precisamente mapas de disparidades. Alm disso, para a
base Middlebury disponibilizado um framework que permite avaliar um dado algoritmo com todas as imagens disponveis e
comparar sobre diversas mtricas de qualidade e taxa de processamento com um conjunto de algoritmos existentes e j ranqueados.
Com tais mtricas e base de imagens eu irei avaliar a rede convolucional implementada, variando os seus parmetros, tais
como tamanho e quantidade de filtros, funes de ativao, quantidade de camadas, entre outras e verificando ganho de qualidade e
desempenho. Tambm sero avaliados as diversas tcnicas de compresso, tcnicas de mapeamento de entradas em sadas, bem
como a maneira como criada a base de treinamento. O desenvolvimento ser realizado a priori, utilizando os frameworks pytorch
ou o tensorflow e partindo de implementao de redes convolucional para correspondncia estreo tal como a implementao
disponibilizada no trabalho de Luo [1].
Ao longo do desenvolvimento eu estarei estudando os seguintes trabalhos que ajudaro a entender tanto o contexto de redes
neurais convolucionais como o contexto de viso estreo e os benhmarks de avaliao de mtodos de viso estreo:
[1] W. Luo, A. G. Schwing and R. Urtasun, "Efficient Deep Learning for Stereo Matching," 2016 IEEE Conference on Computer
Vision and Pattern Recognition (CVPR), Las Vegas, NV, 2016, pp. 5695-5703.
[2] J. bontar and Y. LeCun, "Computing the stereo matching cost with a convolutional neural network," 2015 IEEE Conference on
Computer Vision and Pattern Recognition (CVPR), Boston, MA, 2015, pp. 1592-1599.
[3] J. bontar and Y. LeCun, Stereo Matching by Training a Convolutional Neural Network to Compare Image Patches, 2016
Journal of Machine Learning Research
[4] M. Menze and A. Geiger, "Object scene flow for autonomous vehicles," 2015 IEEE Conference on Computer Vision and Pattern
Recognition (CVPR), Boston, MA, 2015, pp. 3061-3070.
[5] S. Zagoruyko and N. Komodakis, "Learning to compare image patches via convolutional neural networks," 2015 IEEE
Conference on Computer Vision and Pattern Recognition (CVPR), Boston, MA, 2015, pp. 4353-4361.
[6] Iandola, F.N., Moskewicz, M.W., Ashraf, K., Han, S., Dally, W.J., Keutzer, K.: Squeezenet: alexnet-level accuracy with 50x
fewer parameters and << 1mb model size. arXiv preprint arXiv:1602.07360 (2016)

Potrebbero piacerti anche