Articulo Seminario PDF

Evaluación de técnicas de aprendizaje de maquina
para la identificación de imágenes de edificios

históricos de la ciudad del Cusco basado en
Bag-Of-Words y Redes Neuronales Convolucionales
Jeanfranco David Farfan-Escobedo
Escuela Profesional de Ingenierı́a Informática y de Sistemas
Universidad Nacional de San Antonio Abad del Cusco, Peru
Email: jeanfrancodfe@gmail.com
Abstract—Actualmente existen muchas técnicas de aprendizaje decir, objetos transitorios(personas, vehı́culos y otros) ocultan
de máquina efectivas durante la tarea de clasificación. Sin la imagen de análisis.
embargo, existe la necesidad de identificar que técnica destaca Por lo visto anteriormente se muestra que los métodos más
por encima del resto. Por consiguiente, es necesario evaluar un
conjunto de técnicas de aprendizaje de máquina en un escenario utilizados al abordar problemas como el estilo arquitectonico,
desafiante. En particular, el escenario seleccionado en este trabajo reconocimiento visual de lugares y el reconocimiento de
corresponde al reconocimiento de edificios a partir de imágenes, objetos a partir de la base de datos ImageNet son Bag-of-
para ello es necesario evaluar técnicas de aprendizaje de máquina words y Redes Neuronales Convolucionales. Ası́ mismo, para
que resuelvan este tipo de problemas de una manera más precisa. identificar de forma precisa edificios históricos de la ciudad
Se propone evaluar técnicas de aprendizaje de máquina como
Support Vector Machine, Random Forest, Neuronal Network y K- del Cusco existe la necesidad de comparar estos métodos.
Nearest Neighbod, a partir de métodos basados en Bag-of-Words De forma similar, se utiliza un conjunto de métricas de
y Redes Neuronales Convolucionales, para obtener vectores de aprendizaje (Accuracy, Recall, Precisión y F1 Score)[2] para
caracterı́sticas efectivos y realizar un reconocimiento de edificios evaluar un grupo de técnicas de aprendizaje de máquina
preciso. Por último, se espera que los resultados permitan una (Support Vector Machine, Random Forest, k Nearest Neighbor
mejor comprensión de las técnicas de aprendizaje de máquina
aplicado al problema del reconocimiento de edificios de la ciudad y Neural Network), para identificar la técnica más adecuado
del Cusco. durante esta tarea. Además, con la finalidad de apoyar a la
Keywords—Deep Learning, Aprendizaje de Máquina, Re- comunidad cientı́fica de visión computacional, se recolecto una
conocimiento de Edificios, Bag-of-Words, Redes Neuronales Con- base de datos de imágenes de edificios históricos de la ciudad
volucionales, Transfer Learning del Cusco; estas imágenes presentan desafı́os como: rotación,
condiciones de iluminación variada, capturas de diferentes
I. I NTRODUCCI ÓN angulos, oclusiones y otros. De esta forma, esta es la primer
base de datos de edificios históricos de la ciudad del Cusco
El reconocimiento de imágenes se ha convertido en uno de que sera utilizada con fines de investigación sin costo alguno.
los desafı́os ms discutidos en los últimos aos. En particular, La construcción del conjunto de datos para la fase de
esto se debe a la amplia gama de aplicaciones, por ejemplo, entrenamiento y prueba exigı́a recolectar imágenes de edifi-
Robots de navegación, vehı́culos autónomos, realidad aumen- cios históricos de la ciudad del Cusco. Sin embargo, por el
tada y otros. Con el desarrollo de enfoques de aprendizaje arduo trabajo que esta tarea representa, se limita el número
profundo, la investigacin sobre reconocimiento de edificios se de edificios históricos de interés a 14, estos son: La Casa
ha vuelto ms intensivo[1]. del Inca Garcilaso de la Vega, La Catedral del Cusco, La
El reciente éxito de aplicaciones que utilizan técnicas de Compania de Jesús, El Coricancha, El Cristo Blanco, El
aprendizaje de máquina genera una necesidad, identificar que Templo de la Merced, El Mural de Historial Inca, La Paccha
técnica destaca por encima del resto. Sin embargo, la verdadera de Pumaqchupan, La Pileta de San Blas, El Monumento del
dificultad de estas técnicas radica en el escenario de prueba. Inca Pachacutec, Sacsayhuaman, La Iglesia de San Francisco,
En particular, en este trabajo el escenario seleccionado es el re- La Iglesia de San Pedro y La Iglesia de Santo Domingo.
conocimiento de imágenes de edificios históricos de la ciudad Ası́ mismo, durante el proceso de clasificación de imágenes
del Cusco, De igual modo, uno de los desafı́os mas importantes de edificios históricos, se limita el número de técnicas de
es diferencias edificios históricos visualmente similares (por aprendizaje de máquina, estos son: Support Vector Machine,
ejemplo, imágenes de iglesias), Ası́ mismo, muchos eventos Neural Network, K-Nearest Neighbors y Random Forest. De
son realizados en la ciudad del Cusco tales como el Inti Raymi, forma similar, el numero de metricas a utilizar se limita a 4,
Corpus Christi y otros; estos eventos generan oclusiones. Es estas son: Accuracy, Recall, Precision y F1 Score.
II. M ATERIALES Y M ETODOLOG ÍA históricos de la ciudad del Cusco.
Para solucionar este problema se utiliza el método de in- Las técnicas de aprendizaje de máquina seleccionados en
vestigación descriptivo para recopilar y comparar información este trabajo son: Support Vector Machine (SVM), Random
existente. Además, a partir de la identificación de la técnica Forest (RF), K-Nearest Neighbors (kNN) y Neural Network
de aprendizaje de máquina más óptima el problema adquiere (NN). Estos toman como entrada un conjunto de datos como
una naturaleza aplicativa. son feature vectors y etiquetas. Estas técnicas tienen por
objetivo realizar un proceso de aprendizaje, construcción del
A. Descripción de las fases modelo y evaluación sobre un conjunto de datos de prueba.
Es necesario mencionar que las salidas de los métodos Bag-
El reconocimiento de imágenes de edificios históricos de la
of-Words y redes neuronales convolucional tienen las mismas
ciudad del Cusco se resuelve a partir de dos fases:
caracterı́sticas. Por lo tanto, se utiliza las mismas técnicas de
• La primera fase (Entrenamiento y construcción del mod-
aprendizaje de máquina durante este proceso.[5]
elo) tiene por objetivo aprender las particularidades de
una imagen de un edificio histórico de la ciudad del III. R ESULTADOS
Cusco.
• La segunda fase (Predicción) tiene por objetivo pronos-
A. Base de Datos
ticar a que categorı́a pertenece una imagen de consulta. La evaluación de los métodos propuestos se realiza uti-
1) Entrenamiento y construcción del modelo: En esta etapa lizando la primera versión de la base de datos CuscoBID,
se extraen todas las caracterı́sticas relevantes de una imagen y este conjunto consta de 14 clases de edificios históricos en la
estas son cuantificadas a través de la construcción de un mod- ciudad de Cusco. Esta primera versión contiene 2000 imgenes,
elo clasificador. Esta fase se resuelve a partir de dos técnicas algunas de ellas tomadas de varios sitios web, y otras cap-
como son Bag-of-Words o redes neuronales convolucionales. turadas con diferentes condiciones fotométricas. Asimismo,
2) Bag-of-Words: Antes de empezar con esta etapa, se esta base de datos se ampli a una segunda versión; esta vez
realiza un preprocesamiento, las imagenes son redimension- que contiene por 4560 imágenes de los 14 edificios anteriores,
adas a un tamano de 300 300. A partir de esta entrada se algunas imgenes de esta base de datos se muestran en la Fig.
utiliza el modelo Bag-of-Words. Este se divide en 3 fases: 1.
Extracción de caracteristicas, construcción del codebook y
representación de la imagen, Finalmente se realiza un proceso
de clasificación.[1]
3) Codebook: El objetivo del codebook es encontrar las
palabras visuales más representativas de cada clase. Para su
construcción se toma como entrada los vectores de carac-
terı́sticas extraı́dos en la etapa anterior, mientras que para
identificar las palabras visuales más representativas se utiliza
un algoritmo de agrupación, el más utilizado es el algoritmo k-
means, siendo los centroides de cada cluster la palabra visual
mas representativa de cada clase.[3]
4) Redes Neuronales Convolucionales (CNN): Además del
modelo Bag-of-Words, en este trabajo se utiliza otra técnica
durante la fase de Entrenamiento y Construcción del modelo,
como son las redes neuronales convolucionales. Sin embargo,
implementar una arquitectura CNN desde cero trae problemas
como: Una fase de entrenamiento costosa, hardware especial-
izado e inicialización de los parámetros. Por consiguiente, en
este trabajo se utiliza una técnica conocida como Transfer
Learning, esta permite utilizar un arquitectura de red neuronal
convolucional previamente entrenada y ajustar el modelo con
una base de datos personalizada. En otras palabras, el modelo
pre-entrenado se utiliza como un extractor de caracterı́sticas.
En especı́fico, en este trabajo se utilizan varias arquitecturas
pre-entrenadas de redes neuronales convolucionales desarrol- Fig. 1. Algunas imágenes de la segunda versión de Cusco Building Image
Dataset
ladas durante el ImageNet Challenge.[4]
5) Clasificación: En este trabajo se utilizan 4 técnicas
de aprendizaje de máquina para medir el desempeno de los B. Resultados e interpretaciones
modelos Bag-of-Words y redes neuronales convolucionales, A partir de los resultados de la fig 2. se puede observar que
en un escenario de clasificación de imágenes de edificios la técnica de aprendizaje de máquina Support Vector Machine
obtiene los resultados mas elevados en un escenario de identi- IV. D ISCUSI ÓN
ficación de edificios históricos de la ciudad del Cusco (ya sea Los mejores resultados del modelo corresponden a la técnica
utilizando Bag-of-Words o redes neuronales convolucionales), de aprendizaje de máquina Support Vector Machine, Por lo
debido a que los parámetros del kernel se calculan de forma tanto, la técnica de aprendizaje de máquina Support Vector
eficiente a partir de un proceso de búsqueda (Grid Search). Machine basada en el modelo de red neuronal convolucional
Ası́ mismo, los hiperplanos de separación demuestran ser los (en especı́fico InceptionV3 ) es la más óptima al abordar
más efectivos a la hora de separar categorı́as (clases). Por el problema del reconocimiento de imágenes de edificios
otro lado, la técnica Neural Networks presenta un numero históricos de la ciudad del Cusco.
elevado de parámetros, como el numero de capas, el número Ademas como el campo del Deep Learning esta en con-
de neuronas por capa, la funcion de coste y otros; diversos state avance, se recomienda realizar experimentos utilizando
trabajos como [Bashiri and Geranmayeh, 2011] [6]., hacen arquitecturas basadas en Densely Connected Convolutional
mención sobre el hecho de que no hay un método definido Networks (DenseNet), este es un tipo de red neuronal con-
y explı́cito para seleccionar los parámetros óptimos para esta volucional muy similar a ResNet; en ResNet la entrada a la
técnica. Mientras tanto, los parámetros de la técnica Random capa Li se obtiene mediante la suma de las salidas de las capas
Forest se establecieron a partir de los valores seleccionados anteriores. Mientras tanto, en DenseNet la entrada a la capa
del trabajo previo [Biau, 2012][7], en este se consiguen buenos Li se obtiene mediante la concatenación de las salidas de las
resultados utilizando un numero de arboles equivalentes a 500 capas anteriores, como lo describe [Huang et al., 2017][8].
y una profundidad máxima de 50. Sin embargo, en este trabajo As mismo, la razón a utilizar esta arquitectura deep learning
los resultados son pobres comparados con la técnica SVM. basada en DenseNet, es el numero reducido de parámetros y
Finalmente, knn presenta los resultados mas limitados. A pesar el rendimiento elevado durante el desafı́o ImageNet.
de que, la teorı́a indica que el parámetro más óptimo para
k es equivalente a 1. Por lo tanto, knn es la técnica menos R EFERENCES
recomendable a la hora de identificar imágenes de edificios [1] T.-H. Wang, H.-J. Huang, J.-T. Lin, C.-W. Hu, K.-H. Zeng, and M. Sun,
hitóricos. Tambı́en, se espera que trabajos futuros realicen un “Omnidirectional cnn for visual place recognition and navigation,” arXiv
preprint arXiv:1803.04228, 2018.
benchmarking modificando el valor de estos parámetros, para [2] J. D. Farfan-Escobedo, L. Enciso-Rodas, and J. E. Vargas-Mu noz, “To-
elevar los resultados. wards accurate building recognition using convolutional neural networks,”
in Electronics, Electrical Engineering and Computing (INTERCON),
2017 IEEE XXIV International Conference on. IEEE, 2017, pp. 1–4.
[3] J. León-Malpartida, “Transfer learning for general image recog-
nition,” https://github.com/WozMit/Transfer-learning-for-general-image-
recognition, 2018.
[4] S. Garg, N. Suenderhauf, and M. Milford, “Don’t look back: Robustifying
place categorization for viewpoint-and condition-invariant place recogni-
tion,” arXiv preprint arXiv:1801.05078, 2018.
[5] C. Zhu, “Place recognition: An overview of vision perspective,” arXiv
preprint arXiv:1707.03470, 2017.
[6] J. C. Platt, “Probabilistic outputs for support vector machines and com-
parisons to regularized likelihood methods,” in ADVANCES IN LARGE
MARGIN CLASSIFIERS. MIT Press, 1999, pp. 61–74.
[7] K. Simonyan and A. Zisserman, “Very deep convolutional networks
for large-scale image recognition,” in arXiv preprint arXiv:1409.1556v6,
2015.
[8] H. Kaiming, Z. Xiangyu, R. Shaoqing, and S. Jian, “Deep residual
learning for image recognition,” in 2016 IEEE Conference on Computer
Vision and Pattern Recognition (CVPR), 2016, pp. 770–778.
Fig. 2. : Comparación de los mejores resultados generados por las técnicas

de aprendizaje de máquina Support Vector Machine, Random Forest, Neural
Network y k Nearest Neighbor.

Articulo Seminario PDF

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Articulo Seminario PDF

Caricato da

Copyright:

Formati disponibili

Evaluación de técnicas de aprendizaje de maquina

para la identificación de imágenes de edificios

Fig. 2. : Comparación de los mejores resultados generados por las técnicas

Potrebbero piacerti anche