Sei sulla pagina 1di 12

Comparación de clasificaciones de ortofotografías aéreas de la ciudad de

Universidad de Cuenca
Cuenca mediante Máxima Verosimilitud y Random Forest
Ortega Luis, Montalván Paul, Espejo Juan, Sánchez Samuel Año:2016
Ciclo Septiembre-Febrero

Comparación de clasificaciones de ortofotografías aéreas de la

ciudad de Cuenca mediante Máxima Verosimilitud y Random

Forest
Ortega Luis
e-mail: luis.ortega@ucuenca.ec
Montalván Paul
e-mail: paul.montalvan@ucuenca.ec
Espejo Juan
e-mail: juan.espejo@ucuenca.ec
Sánchez Samuel
e-mail: samuel.sanchez@ucuenca.ec

ABSTRACT

In the current Cuenca is very important to distinguish the different types of elements that are part of the city for its
later use; for example, in territory arrangement plans. This is why it's possible to get ortophotos information to
perform the respective semiautomatic classification , based on decicison making algorythms. This was made with
the methods: Random Forest and Maximum Likelihood. With these it’s possible to obtain a very detailed
representation of the soil coverage due to the fact that it’s based on the purpose of transforming cuantitative data
into cualitative data, therefore a theme map is created rather than an image. It’s possible to say that the
vegetation is predominant and the change between old town structures and surrounding areas is really
noticeable.

RESUMEN

En la actual Cuenca es de gran importancia distinguir los diferentes tipos de elementos que conforman la ciudad
para su posterior uso; como por ejemplo, planes de ordenamiento territorial. Por lo que, se ha realizado un
mosaico de las imágenes de las ortofotos facilitadas, para luego proceder con la clasificación semiautomática
respectiva, basados en algoritmos de toma de decisiones. Esto se realizó con los métodos: Random Forest y
Maximum Likelihood. Con estos se obtiene una representación muy detallada de la cobertura del suelo ya que

1
Comparación de clasificaciones de ortofotografías aéreas de la ciudad de
Universidad de Cuenca
Cuenca mediante Máxima Verosimilitud y Random Forest
Año:2016
Ortega Luis, Montalván Paul, Espejo Juan, Sánchez Samuel
Ciclo Septiembre-Febrero

se basa en el propósito de transformar datos cuantitativos en datos cualitativos, por lo tanto se obtiene un mapa
temático (clases) y no una imagen. Se puede afirmar que predomina la vegetación y se nota un cambio muy
marcado entre las estructuras del centro histórico y las zonas aledañas al mismo.

INTRODUCCIÓN
Este artículo da un análisis de información más práctica y fácil de interpretar en cuanto a los diferentes espacios
urbanos y rurales en la ciudad de Cuenca, con sus respectivos elementos. Esto se logra ya que existe una alta
disponibilidad de datos para la digitalización requerida, ya que estos requieren unas metodologías operativas y
que sean susceptibles a tener un alto grado de automatización. Por lo que el objetivo de este análisis es evaluar
los diferentes algoritmos de clasificación supervisada. Para efectuar la clasificación, se utilizaron dos algoritmos:
Random Forest que usa árboles de decisiones y Maximum Likelihood que se basa en métodos estadísticos; con
la realización de polígonos de entrenamiento.

MÉTODO
El algoritmo de Máxima Verosimilitud (Maximum Likelihood) se basa en métodos estadísticos; conociendo la
media y desviación típica que caracteriza una clase podemos suponer una función de densidad y con los valores
de un elemento dado estimar la probabilidad de que estos corresponden a cada clase. La clase con una mayor
probabilidad es aquella a la que se asigna el elemento(Olaya, 2011).

Random Forest es un clasificador de conjunto que utiliza árboles de decisión como clasificadores base, en el
que cada clasificador contribuye con un voto para la asignación de la clase más frecuente al vector de entrada.
Random Forest incrementa la diversidad de los árboles de decisión haciéndolos crecer a partir de diferentes
subconjuntos de datos creados mediante un procedimiento denominado bagging (Breiman, 1996).Bagging es
una técnica diseñada para la creación de datos de entrenamiento que re muestrea aleatoriamente el conjunto de
datos originales con reemplazamiento, es decir, sin eliminar el conjunto de datos seleccionados de forma previa
a la elección del siguiente subconjunto (Breiman, 2001)

Primeramente, se procedió a realizar un mosaico de las 40 ortofotos, con el fin de obtener una sola que
contemple la zona urbana y rural de la ciudad de Cuenca, con un total de 2.382.631.264 píxeles con una
resolución de 30cm x 30 cm cada uno (Fig. 1)
Comparación de clasificaciones de ortofotografías aéreas de la ciudad de
Universidad de Cuenca
Cuenca mediante Máxima Verosimilitud y Random Forest
Año:2016
Ortega Luis, Montalván Paul, Espejo Juan, Sánchez Samuel
Ciclo Septiembre-Febrero

Fig. 1 Mosaico obtenido de las 40 ortofotografías.

Fig. 2. Bandas del mosaico.


Comparación de clasificaciones de ortofotografías aéreas de la ciudad de
Universidad de Cuenca
Cuenca mediante Máxima Verosimilitud y Random Forest
Año:2016
Ortega Luis, Montalván Paul, Espejo Juan, Sánchez Samuel
Ciclo Septiembre-Febrero

En segundo lugar, se definieron las 14 clases que se utilizaron para la clasificación entre las cuales están: 1)
césped, 2) arboles, 3) agua, 4) tierra, 5) superficies de hormigón, 6) teja café, 7) metal, 8) teja verde, 9) teja roja,
10) teja naranja, 11) teja azul, 12) teja amarilla, 13) hormigón con sombra, 14) agua con sombra. En la definición
de estas, por ejemplo, se unió las diferentes superficies de hormigón como una sola clase, incluyendo techos,
calles de pavimento hidráulico y asfáltico, patios, canchas, etc.

A continuación se realizaron los polígonos de entrenamiento para cada clase, con un promedio de 48 polígonos
para cada una (Fig. 3). La realización de los polígonos de entrenamiento se logró en distintos ordenadores a la
vez, con un promedio de 160 polígonos en cada uno con un total de 665. La unión de los polígonos se realizó
con la herramienta MERGE incluida en ArcMap 10.2.1 en Data Management, la cual permite unir varias entradas
de datasets en un solo dataset de salida que conserva las propiedades de los valores de entrada; en este caso
serían los valores de las clases en las columnas de la tabla de atributos. Estos polígonos también fueron
utlizados para la clasificación con Random Forest.

Fig. 3 Polígonos de entrenamiento.


Comparación de clasificaciones de ortofotografías aéreas de la ciudad de
Universidad de Cuenca
Cuenca mediante Máxima Verosimilitud y Random Forest
Año:2016
Ortega Luis, Montalván Paul, Espejo Juan, Sánchez Samuel
Ciclo Septiembre-Febrero

Luego de esto, se procedió a encontrar las firmas espectrales en las zonas de entrenamiento. Una vez obtenidas
estas firmas se realizó la clasificación supervisada con el método de máxima verosimilitud de acuerdo a las
clases previamente definidas.

Posteriormente se establecieron los polígonos de validación, con un total de 324 con las mismas 14 clases ya
definidas. Luego de esto se realizó un proceso de filtración 6 veces para eliminar el ruido. A continuación, en la
matriz de confusión se han comparado, la clasificación con los polígonos de entrenamiento y la clasificación con
los polígonos de validación para obtener el índice de confiabilidad y el coeficiente kappa. Luego de numerosos
ensayos de clasificación se pudo observar que era necesario dar prioridad a la clase de techos, clasificándolos
por sus diferentes colores como se mencionó anteriormente.

Para realizar la clasificación mediante este método, se utilizó el lenguaje de programación R, específicamente
sus librerias: Raster, Rgdal y Random Forest.
El código utilizado para la clasificación fue facilitado por la Dra Daniela Ballari, que lo adaptó a partir de uno
previamente definido por la Universidad Wageningen (https://geoscripting-
wur.github.io/AdvancedRasterAnalysis/#classifying-raster-data), y a su vez fue modificado ligeramente.
Los criterios de procesamiento fueron:

CRITERIO VALOR DESCRIPCIÓN

ntree 500 Numero de Arboles de Decisión

importance TRUE Evaluación de la importancia de los predictores.


Comparación de clasificaciones de ortofotografías aéreas de la ciudad de
Universidad de Cuenca
Cuenca mediante Máxima Verosimilitud y Random Forest
Año:2016
Ortega Luis, Montalván Paul, Espejo Juan, Sánchez Samuel
Ciclo Septiembre-Febrero

RESULTADOS Y DISCUSIONES

Máxima Verosimilitud

Tabla 1: Tabla con el número de pixeles, porcentaje y área en km2 para cada clase con el método de Máxima
Verosimilitud.

Clasificación
1,200,000,000

1,000,000,000

800,000,000

600,000,000

400,000,000

200,000,000

Fig. 4 Histograma de frecuencias para las clases.


Comparación de clasificaciones de ortofotografías aéreas de la ciudad de
Universidad de Cuenca
Cuenca mediante Máxima Verosimilitud y Random Forest
Año:2016
Ortega Luis, Montalván Paul, Espejo Juan, Sánchez Samuel
Ciclo Septiembre-Febrero

Fig. 5 Detalles de la clasificación.

Tabla 2 Matriz de confusión por método de Máxima Verosimilitud.


Comparación de clasificaciones de ortofotografías aéreas de la ciudad de
Universidad de Cuenca
Cuenca mediante Máxima Verosimilitud y Random Forest
Año:2016
Ortega Luis, Montalván Paul, Espejo Juan, Sánchez Samuel
Ciclo Septiembre-Febrero

En la tabla 2 se comparan las zonas de validación (lo observado en la realidad) con la imagen clasificada.
Podemos observar que de 1.040.384 píxeles se clasificaron correctamente 981.025, es decir un índice de
confiabilidad del 94,3% y un coeficiente kappa de 0,92. Con respecto a la exactitud de la clasificación se puede
observar en la matriz de confusión que la clase mejor clasificada es “césped” con Ec=8% y Eo=1%, seguida de
“metal” y “árboles”; mientras que las peores clasificadas son “agua con sombra” y “hormigón con sombra”.

En la Fig. 4 podemos observar que el 45.90% corresponde a césped y áreas verdes, lo cual se debe
mayormente a que el sitio de estudio contempla un porcentaje considerable de sitios rurales aledaños a la
ciudad. En la Fig. 5 podemos observar cómo se clasifican correctamente el césped (áreas verdes), los árboles,
superficies de hormigón que en su mayoría representan las calles.
De igual manera para las tejas de los diferentes colores, se ilustra muy claramente su diferenciación.

Random Forest

Por el número excesivo de pixeles en el mosaico, el paquete “Random Forest” incluido en R no tiene la
capacidad necesaria para realizar la clasificación por el método de Random Forest , ya que cada píxel
representa una celda de la matriz que se genera dentro de nuestro algoritmo para realizar la clasificación (más
de 2000 millones de píxeles), por lo que se optó en disminuir la resolución de la ortofotografía en cuestión,
definiendo un píxel de 2m x 2m.

Fig. 6: Clasificación con Random Forest.


Comparación de clasificaciones de ortofotografías aéreas de la ciudad de
Universidad de Cuenca
Cuenca mediante Máxima Verosimilitud y Random Forest
Año:2016
Ortega Luis, Montalván Paul, Espejo Juan, Sánchez Samuel
Ciclo Septiembre-Febrero

Clasificación
25,000,000
20,000,000
15,000,000
10,000,000
5,000,000
0

Fig. 7: Distribución de frecuencia para la clasificación con Random Forest.

Clase Píxeles Porcentaje Área (km2)


1 cesped 20145429 43.69 80.581716
2 arboles 14475089 31.39 57.900356
3 agua 1447919 3.14 5.791676
4 tierra 587881 1.28 2.351524
5 superficies de hormigon 4921369 10.67 19.685476
6 teja café 2635694 5.72 10.542776
7 metal 446946 0.97 1.787784
8 teja verde 493068 1.07 1.972272
9 teja roja 44164 0.10 0.176656
10 teja naranja 681614 1.48 2.726456
11 teja azul 119386 0.26 0.477544
12 teja amarilla 64506 0.14 0.258024
13 hormigon con sombra 32428 0.07 0.129712
14 agua con sombra 12697 0.03 0.050788
total 46108190 100.00 184.43276
Tabla 3 Tabla con el número de pixeles, porcentaje y área en km2 para cada clase con el método de Random
Forest.
Comparación de clasificaciones de ortofotografías aéreas de la ciudad de
Universidad de Cuenca
Cuenca mediante Máxima Verosimilitud y Random Forest
Año:2016
Ortega Luis, Montalván Paul, Espejo Juan, Sánchez Samuel
Ciclo Septiembre-Febrero

Tabla 4: Matriz de confusión para la clasificación con Random Forest.

En la tabla 4 podemos observar que de 153174 píxeles se clasificaron correctamente 151045, es decir un índice
de confiabilidad del 98.60% y un coeficiente kappa de 0,98, los cuales estan dentro del rango aceptable.

Según las resultados de la Fig. 7 podemos observar que la banda número cuatro (b4) es la que presenta mayor
desigualdad en la clasificación de pixeles, por lo tanto es la que tiene mayor influencia en la clasificación
general.

Fig. 8: Diagrama de importancia de banda.

Ventajas y desventajas entre Máxima Verosimilitud y Random Forest


Comparación de clasificaciones de ortofotografías aéreas de la ciudad de
Universidad de Cuenca
Cuenca mediante Máxima Verosimilitud y Random Forest
Año:2016
Ortega Luis, Montalván Paul, Espejo Juan, Sánchez Samuel
Ciclo Septiembre-Febrero

DESVENTAJAS VENTAJAS
RANDOM FOREST MAXIMUM LIKELIHOOD RANDOM FOREST MAXIMUM LIKELIHOOD

Se realiza en un tiempo
Se encuentra en
No posee un programa Requiere de una repetición más corto el proceso de
programado en programas
aplicado en los principales de la clasificación mediante clasificación de imágenes
de sistemas de información
Software SIG ROI de validación ya que no requiere
geográfica
polígonos de validación

Al ser relativamente nuevo


no está refinado para la
Los tiempos de
clasificación de imágenes Posee facil interfaz gráfica
procesamiento de firmas Se encuentra una librería
de gran tamaño por lo que en los programas SIG y no
espectrales en imágenes muy completa
requiere de un poder requiere el aprendizaje de
de gran resolución y completamente gratuita en
computacional un lenguaje de
tamaño son demasiado R
considerablemente programación
largos.
superior al del algoritmo de
máxima verosimilitud.

La interfaz R no es tan
Al encontrarse en
amigable si es que no se
Requiere de un procesador Realiza automaticamente la programas SIG es capaz de
tiene un previo
gráfico potente. matriz de confusión trabajar con imágenes de
conocimiento de su
gran tamaño
lenguaje de programación

DISCUSIÓN Y CONCLUSIONES

Las tasas de éxito en las clasificaciones supervisadas con Máxima Verosimilitud y Random Forest son de 94% y
98%, se puede concluir que ambas son válidas y utilizables.

Las ortofotografías obtenidas, a pesar de tener solo 4 bandas resultan muy buenas para la clasificación de
suelos, mediante el método de Máxima Verosimilitud. Con el método Random Forest en R no resultaron muy
eficaces debido a su gran número de pixeles, ya que R no admite valores demasiado grandes, y se tuvo que
reducir la resolución del pixel para poder llevar a cabo la clasificación.

En las clasificaciones se puede notar claramente el empleo de tejas en el centro histórico de la ciudad, por lo
que podríamos también encontrar cambios de épocas de acuerdo a los materiales utilizados en las
construcciones.

No se pudo establecer una comparación significativa entre los dos métodos ya que se utilizó la misma imagen
pero con diferentes resoluciones para adaptarla a clasificación en R con Random Forest.

Random Forest resulta una clasificación muy eficaz como se puede ver en la tabla 4, pero debido a sus
limitaciones en el paquete que ofrece R no se puede trabajar con imágenes muy grandes y de alta resolución.

En la figura 8 se puede apreciar que la banda más significativa para esta clasificación fue la banda 4, pero
también fue la que más fallos tuvo al momento de la clasificación.
Comparación de clasificaciones de ortofotografías aéreas de la ciudad de
Universidad de Cuenca
Cuenca mediante Máxima Verosimilitud y Random Forest
Año:2016
Ortega Luis, Montalván Paul, Espejo Juan, Sánchez Samuel
Ciclo Septiembre-Febrero

REFERENCIAS

Breiman, L. (1996). Bagging predictors. Machine learning, 24(2), 123–140.

Breiman, L. (2001). Random forests. Machine learning, 45(1), 5–32.

Olaya, V. (2011). Sistemas de Información Geográfica.

Potrebbero piacerti anche