Sei sulla pagina 1di 3

Evaluacion´

de tecnicas´

de aprendizaje de maquina

para la identificacion´

de imagenes´

de edificios

historicos´

de la ciudad del Cusco basado en

Bag-Of-Words y Redes Neuronales Convolucionales

Jeanfranco David Farfan-Escobedo

Escuela Profesional de Ingenier´ıa Informatica´

Universidad Nacional de San Antonio Abad del Cusco, Peru

Email: jeanfrancodfe@gmail.com

y de Sistemas

Abstract—Actualmente existen muchas tecnicas´ de aprendizaje de maquina´ efectivas durante la tarea de clasificacion.´ Sin embargo, existe la necesidad de identificar que tecnica´ destaca por encima del resto. Por consiguiente, es necesario evaluar un conjunto de tecnicas´ de aprendizaje de maquina´ en un escenario desafiante. En particular, el escenario seleccionado en este trabajo corresponde al reconocimiento de edificios a partir de imagenes,´ para ello es necesario evaluar tecnicas´ de aprendizaje de maquina´ que resuelvan este tipo de problemas de una manera mas´ precisa. Se propone evaluar tecnicas´ de aprendizaje de maquina´ como Support Vector Machine, Random Forest, Neuronal Network y K- Nearest Neighbod, a partir de metodos´ basados en Bag-of-Words y Redes Neuronales Convolucionales, para obtener vectores de caracter´ısticas efectivos y realizar un reconocimiento de edificios preciso. Por ultimo,´ se espera que los resultados permitan una mejor comprension´ de las tecnicas´ de aprendizaje de maquina´ aplicado al problema del reconocimiento de edificios de la ciudad del Cusco. Keywords—Deep Learning, Aprendizaje de Maquina,´ Re- conocimiento de Edificios, Bag-of-Words, Redes Neuronales Con- volucionales, Transfer Learning

I.

´

INTRODUCCI ON

El reconocimiento de imagenes´ se ha convertido en uno de los desaf´ıos ms discutidos en los ultimos´ aos. En particular, esto se debe a la amplia gama de aplicaciones, por ejemplo, Robots de navegacion,´ veh´ıculos autonomos,´ realidad aumen- tada y otros. Con el desarrollo de enfoques de aprendizaje profundo, la investigacin sobre reconocimiento de edificios se ha vuelto ms intensivo[1]. El reciente exito´ de aplicaciones que utilizan tecnicas´ de aprendizaje de maquina´ genera una necesidad, identificar que tecnica´ destaca por encima del resto. Sin embargo, la verdadera dificultad de estas tecnicas´ radica en el escenario de prueba. En particular, en este trabajo el escenario seleccionado es el re- conocimiento de imagenes´ de edificios historicos´ de la ciudad del Cusco, De igual modo, uno de los desaf´ıos mas importantes es diferencias edificios historicos´ visualmente similares (por ejemplo, imagenes´ de iglesias), As´ı mismo, muchos eventos son realizados en la ciudad del Cusco tales como el Inti Raymi, Corpus Christi y otros; estos eventos generan oclusiones. Es

decir, objetos transitorios(personas, veh´ıculos y otros) ocultan

la imagen de analisis.´

Por lo visto anteriormente se muestra que los metodos´ mas´ utilizados al abordar problemas como el estilo arquitectonico, reconocimiento visual de lugares y el reconocimiento de objetos a partir de la base de datos ImageNet son Bag-of- words y Redes Neuronales Convolucionales. As´ı mismo, para

identificar de forma precisa edificios historicos´ de la ciudad del Cusco existe la necesidad de comparar estos metodos.´ De forma similar, se utiliza un conjunto de metricas´ de aprendizaje (Accuracy, Recall, Precision´ y F1 Score)[2] para evaluar un grupo de tecnicas´ de aprendizaje de maquina´ (Support Vector Machine, Random Forest, k Nearest Neighbor

y Neural Network), para identificar la tecnica´ mas´ adecuado

durante esta tarea. Ademas,´ con la finalidad de apoyar a la comunidad cient´ıfica de vision´ computacional, se recolecto una base de datos de imagenes´ de edificios historicos´ de la ciudad del Cusco; estas imagenes´ presentan desaf´ıos como: rotacion,´ condiciones de iluminacion´ variada, capturas de diferentes

angulos, oclusiones y otros. De esta forma, esta es la primer base de datos de edificios historicos´ de la ciudad del Cusco que sera utilizada con fines de investigacion´ sin costo alguno. La construccion´ del conjunto de datos para la fase de entrenamiento y prueba exig´ıa recolectar imagenes´ de edifi- cios historicos´ de la ciudad del Cusco. Sin embargo, por el arduo trabajo que esta tarea representa, se limita el numero´ de edificios historicos´ de interes´ a 14, estos son: La Casa del Inca Garcilaso de la Vega, La Catedral del Cusco, La Compania de Jesus,´ El Coricancha, El Cristo Blanco, El Templo de la Merced, El Mural de Historial Inca, La Paccha de Pumaqchupan, La Pileta de San Blas, El Monumento del Inca Pachacutec, Sacsayhuaman, La Iglesia de San Francisco, La Iglesia de San Pedro y La Iglesia de Santo Domingo. As´ı mismo, durante el proceso de clasificacion´ de imagenes´ de edificios historicos,´ se limita el numero´ de tecnicas´ de aprendizaje de maquina,´ estos son: Support Vector Machine, Neural Network, K-Nearest Neighbors y Random Forest. De

forma similar, el numero de metricas a utilizar se limita a 4, estas son: Accuracy, Recall, Precision y F1 Score.

´

II. MATERIALES Y METODOLOG IA

Para solucionar este problema se utiliza el metodo´ de in- vestigacion´ descriptivo para recopilar y comparar informacion´ existente. Ademas,´ a partir de la identificacion´ de la tecnica´ de aprendizaje de maquina´ mas´ optima´ el problema adquiere una naturaleza aplicativa.

A. Descripcion´ de las fases

de la

ciudad del Cusco se resuelve a partir de dos fases:

La primera fase (Entrenamiento y construccion´ del mod- elo) tiene por objetivo aprender las particularidades de una imagen de un edificio historico´ de la ciudad del Cusco.

La segunda fase (Prediccion)´ tiene por objetivo pronos- ticar a que categor´ıa pertenece una imagen de consulta. 1) Entrenamiento y construccion´ del modelo: En esta etapa se extraen todas las caracter´ısticas relevantes de una imagen y estas son cuantificadas a traves´ de la construccion´ de un mod- elo clasificador. Esta fase se resuelve a partir de dos tecnicas´ como son Bag-of-Words o redes neuronales convolucionales. 2) Bag-of-Words: Antes de empezar con esta etapa, se realiza un preprocesamiento, las imagenes son redimension- adas a un tamano de 300 300. A partir de esta entrada se utiliza el modelo Bag-of-Words. Este se divide en 3 fases:

Extraccion´ de caracteristicas, construccion´ del codebook y representacion´ de la imagen, Finalmente se realiza un proceso de clasificacion.[1]´ 3) Codebook: El objetivo del codebook es encontrar las palabras visuales mas´ representativas de cada clase. Para su construccion´ se toma como entrada los vectores de carac- ter´ısticas extra´ıdos en la etapa anterior, mientras que para identificar las palabras visuales mas´ representativas se utiliza un algoritmo de agrupacion,´ el mas´ utilizado es el algoritmo k- means, siendo los centroides de cada cluster la palabra visual mas representativa de cada clase.[3] 4) Redes Neuronales Convolucionales (CNN): Ademas´ del modelo Bag-of-Words, en este trabajo se utiliza otra tecnica´ durante la fase de Entrenamiento y Construccion´ del modelo, como son las redes neuronales convolucionales. Sin embargo, implementar una arquitectura CNN desde cero trae problemas como: Una fase de entrenamiento costosa, hardware especial- izado e inicializacion´ de los parametros.´ Por consiguiente, en este trabajo se utiliza una tecnica´ conocida como Transfer Learning, esta permite utilizar un arquitectura de red neuronal convolucional previamente entrenada y ajustar el modelo con una base de datos personalizada. En otras palabras, el modelo pre-entrenado se utiliza como un extractor de caracter´ısticas. En espec´ıfico, en este trabajo se utilizan varias arquitecturas pre-entrenadas de redes neuronales convolucionales desarrol- ladas durante el ImageNet Challenge.[4] 5) Clasificacion:´ En este trabajo se utilizan 4 tecnicas´ de aprendizaje de maquina´ para medir el desempeno de los modelos Bag-of-Words y redes neuronales convolucionales, en un escenario de clasificacion´ de imagenes´ de edificios

El reconocimiento de imagenes´

de edificios historicos´

historicos´ de la ciudad del Cusco. Las tecnicas´ de aprendizaje de maquina´ seleccionados en este trabajo son: Support Vector Machine (SVM), Random Forest (RF), K-Nearest Neighbors (kNN) y Neural Network (NN). Estos toman como entrada un conjunto de datos como son feature vectors y etiquetas. Estas tecnicas´ tienen por objetivo realizar un proceso de aprendizaje, construccion´ del modelo y evaluacion´ sobre un conjunto de datos de prueba. Es necesario mencionar que las salidas de los metodos´ Bag- of-Words y redes neuronales convolucional tienen las mismas caracter´ısticas. Por lo tanto, se utiliza las mismas tecnicas´ de aprendizaje de maquina´ durante este proceso.[5]

III. RESULTADOS

A. Base de Datos

La evaluacion´ de los metodos´ propuestos se realiza uti- lizando la primera version´ de la base de datos CuscoBID, este conjunto consta de 14 clases de edificios historicos´ en la ciudad de Cusco. Esta primera version´ contiene 2000 imgenes, algunas de ellas tomadas de varios sitios web, y otras cap- turadas con diferentes condiciones fotometricas.´ Asimismo, esta base de datos se ampli a una segunda version;´ esta vez que contiene por 4560 imagenes´ de los 14 edificios anteriores, algunas imgenes de esta base de datos se muestran en la Fig.

1.

imgenes de esta base de datos se muestran en la Fig. 1. Fig. 1. Algunas imagenes´

Fig. 1.

Algunas imagenes´

de la segunda version´

de Cusco Building Image

Dataset

B. Resultados e interpretaciones

A partir de los resultados de la fig 2. se puede observar que

Support Vector Machine

la tecnica´

de aprendizaje de maquina´

obtiene los resultados mas elevados en un escenario de identi-

ficacion´ de edificios historicos´ de la ciudad del Cusco (ya sea utilizando Bag-of-Words o redes neuronales convolucionales), debido a que los parametros´ del kernel se calculan de forma eficiente a partir de un proceso de busqueda´ (Grid Search). As´ı mismo, los hiperplanos de separacion´ demuestran ser los mas´ efectivos a la hora de separar categor´ıas (clases). Por otro lado, la tecnica´ Neural Networks presenta un numero elevado de parametros,´ como el numero de capas, el numero´ de neuronas por capa, la funcion de coste y otros; diversos trabajos como [Bashiri and Geranmayeh, 2011] [6]., hacen mencion´ sobre el hecho de que no hay un metodo´ definido

y expl´ıcito para seleccionar los parametros´ optimos´ para esta

tecnica.´ Mientras tanto, los parametros´ de la tecnica´ Random Forest se establecieron a partir de los valores seleccionados del trabajo previo [Biau, 2012][7], en este se consiguen buenos resultados utilizando un numero de arboles equivalentes a 500

y una profundidad maxima´ de 50. Sin embargo, en este trabajo los resultados son pobres comparados con la tecnica´ SVM.

Finalmente, knn presenta los resultados mas limitados. A pesar de que, la teor´ıa indica que el parametro´ mas´ optimo´ para

k es equivalente a 1. Por lo tanto, knn es la tecnica´ menos

recomendable a la hora de identificar imagenes´ de edificios hitoricos.´ Tamb´ıen, se espera que trabajos futuros realicen un

benchmarking modificando el valor de estos parametros,´ para elevar los resultados.

el valor de estos parametros,´ para elevar los resultados. Fig. 2. : Comparacion´ de aprendizaje de

Fig. 2. : Comparacion´

de aprendizaje de maquina´

Network y k Nearest Neighbor.

de los mejores resultados generados por las tecnicas´

Support Vector Machine, Random Forest, Neural

IV.

´

DISCUSI ON

Los mejores resultados del modelo corresponden a la tecnica´

de aprendizaje de maquina´ Support Vector Machine, Por lo

tanto, la tecnica´ de aprendizaje de maquina´ Support Vector Machine basada en el modelo de red neuronal convolucional (en espec´ıfico InceptionV3 ) es la mas´ optima´ al abordar

el problema del reconocimiento de imagenes´ de edificios

historicos´ de la ciudad del Cusco. Ademas como el campo del Deep Learning esta en con- state avance, se recomienda realizar experimentos utilizando arquitecturas basadas en Densely Connected Convolutional Networks (DenseNet), este es un tipo de red neuronal con-

volucional muy similar a ResNet; en ResNet la entrada a la

capa Li se obtiene mediante la suma de las salidas de las capas anteriores. Mientras tanto, en DenseNet la entrada a la capa

Li se obtiene mediante la concatenacion´ de las salidas de las

capas anteriores, como lo describe [Huang et al., 2017][8]. As mismo, la razon´ a utilizar esta arquitectura deep learning

basada en DenseNet, es el numero reducido de parametros´ y el rendimiento elevado durante el desaf´ıo ImageNet.

REFERENCES

[1] T.-H. Wang, H.-J. Huang, J.-T. Lin, C.-W. Hu, K.-H. Zeng, and M. Sun,

“Omnidirectional cnn for visual place recognition and navigation,” arXiv preprint arXiv:1803.04228, 2018. [2] J. D. Farfan-Escobedo, L. Enciso-Rodas, and J. E. Vargas-Mu noz, “To- wards accurate building recognition using convolutional neural networks,” in Electronics, Electrical Engineering and Computing (INTERCON), 2017 IEEE XXIV International Conference on. IEEE, 2017, pp. 1–4. [3] J. Leon-Malpartida,´ “Transfer learning for general image recog- nition,” https://github.com/WozMit/Transfer-learning-for-general-image- recognition, 2018.

S. Garg, N. Suenderhauf, and M. Milford, “Don’t look back: Robustifying

[4]

place categorization for viewpoint-and condition-invariant place recogni- tion,” arXiv preprint arXiv:1801.05078, 2018. [5] C. Zhu, “Place recognition: An overview of vision perspective,” arXiv preprint arXiv:1707.03470, 2017.

[6] J. C. Platt, “Probabilistic outputs for support vector machines and com- parisons to regularized likelihood methods,” in ADVANCES IN LARGE MARGIN CLASSIFIERS. MIT Press, 1999, pp. 61–74. [7] K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” in arXiv preprint arXiv:1409.1556v6,

2015.

[8] H. Kaiming, Z. Xiangyu, R. Shaoqing, and S. Jian, “Deep residual learning for image recognition,” in 2016 IEEE Conference on Computer

Vision and Pattern Recognition (CVPR), 2016, pp. 770–778.