Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Resumen
La biodiversidad es esencial para la vida en la tierra y motiva muchos esfuerzos para la
conservación, la recopilación, la codificación y la divulgación de datos sobre especímenes
vegetales, que son utilizados por instituciones como INCIVA, investigadores y la comunidad en
general. Sin embargo, dado que el INCIVA administra y almacena estos datos en diferentes
formatos, carece de herramientas tecnológicas de la Web Semántica para la combinación e
integración con otros datos de biodiversidad presentes en la web, impidiendo contribuir de
manera parcial en la misión organizacional donde la divulgación del conocimiento es una acción
importante del instituto.
El objetivo general de este proyecto es elaborar un Dataset con información referente a los
especímenes vegetales del Jardín Botánico del Valle Juan María Céspedes en el municipio de
Tuluá, bajo los principios del Linked Open Data, planteando entonces el diseño de un sistema
informático que brinde soportes a tres módulos (administración, publicación y divulgación de
datos de especies vegetales, permitiendo finalmente la integración de estos módulos y sus
funcionalidades en una solución tecnológica escalable.
Palabras claves: Colecciones Biológicas, Linked Open Data, RDF, Web Semántica
Introducción
Las colecciones biológicas [1] son un conjunto de especímenes, o partes de éstos, organizados
con el fin de proporcionar información sobre la procedencia, colecta e identificación de cada uno
de ellos y cumplen un papel fundamental para la conservación del patrimonio biológico de
Colombia. La administración, publicación y divulgación de estos conjuntos de datos en
plataformas se conoce como sistematización de colecciones biológicas y tienen como objetivo la
consulta y la preservación de estas a través de una infraestructura la cual involucra una
herramienta online de publicación IPT (Integrated Publishing Toolkit) que permite incorporar y
compartir conjuntos de datos de biodiversidad compatible a través de internet.
El Instituto para la Investigación y la Preservación del Patrimonio Cultural y Natural del Valle
del Cauca (INCIVA) [2], institución pública adscrita a la Gobernación de dicho departamento, en
su visión expone, entre otras cosas, ser reconocida regionalmente, nacionalmente e
internacionalmente por la generación y divulgación del conocimiento. Para esto puede resultar
pertinente crear procesos y mecanismos de gestión que aceleren los procesos de aprendizaje, la
creación, adaptación y difusión del conocimiento, a esto se le conoce como gestión del
conocimiento que se basa en el reconocimiento y la utilización del valor más importante de las
organizaciones: los recursos humanos, el conocimiento y la disposición de colocarlo al servicio
de la comunidad.
Para una adecuada gestión del conocimiento existen procesos estratégicos, dentro de los cuales
está la divulgación del conocimiento. Si bien el conocimiento se puede divulgar a través de
acciones personales, estas se pueden apoyar o soportar en herramientas tecnológicas que facilitan
compartir o divulgar el conocimiento.
En este orden de ideas, la Web Semántica [3] es una herramienta útil para la divulgación de
cualquier tipo de información, ya que el objetivo de la Web Semántica es dotar a los ordenadores
de la capacidad de estructurar y manejar la información con base a una valoración semántica de
sus contenidos, con la finalidad de que los ordenadores puedan entender el contenido,
posibilitando que estos y las personas trabajen en cooperación.
Con el fin de lograr ese objetivo, existen diversos lenguajes que estructuran la información de
manera similar al análisis semántico del lenguaje humano, por ejemplo, el lenguaje Resource
Description Framework (RDF) [4] que es un marco en el que es posible describir la información
para que la procesen las máquinas e intentar aportar significado a la estructura de los
documentos. El lenguaje anterior es un componente del Linked Open Data [5] que es un método
de publicación de datos estructurados para que puedan ser interconectados y más útiles, este
método permite que sean conectados y consultados datos de diferentes fuentes.
Si bien en Colombia existen plataformas para la publicación de la información, esto como
iniciativa de una estrategia llamada Gobierno Abierto, la información es publicada como Datos
Abiertos, es decir que es compartida públicamente en formatos digitales estandarizados y se
percibe después de investigar que no hay iniciativas que involucren el uso de los LOD para los
datos referentes a colecciones de especímenes vegetales en el municipio de Tuluá que aporten a
la comunidad conocimiento, consciencia sobre el cuidado de la biodiversidad, entre otras y así
mismo a la misión organizacional del INCIVA.
Se observa que debido a los problemas tecnológicos que manifiesta dicha institución, el proceso
de transferencia del conocimiento con las comunidades interesadas, tales como agrupaciones
científicas y no científicas, no está apoyado en herramientas tecnológicas que integren técnicas
especializadas, más bien, utilizan herramientas dispersas, así como lo presenta la Figura 1, con
utilidades funcionales parciales y limitadas; así pues, se cumple con el propósito de publicar los
datos referentes a los especímenes vegetales, pero no se contribuye de forma completa con la
misión organizacional, siendo notoria entonces, la necesidad de contribuir con la gestión del
conocimiento a través del fortalecimiento de los procesos de divulgación y transferencia del
mismo.
Figura 1. Estado actual de la gestión que realiza la institución en diversas plataformas.
Con base en lo visto anteriormente se plantea la siguiente pregunta de investigación principal:
¿Cómo publicar y enlazar la información sobre especímenes vegetales que conserva el Jardín
Botánico del Valle Juan María Céspedes en el municipio de Tuluá para apoyar el proceso de
divulgación con el fin de contribuir con su misión organizacional?
Justificación
Este proyecto se realiza con el ánimo de contribuir con la misión organizacional del INCIVA,
esto a través de la implementación de una herramienta tecnológica integrada y especializada que
apoye la divulgación del conocimiento a la comunidad a través de la presentación de información
por medio de formatos digitales, facilitando así la transferencia de los datos, la toma de
decisiones en las políticas públicas, el incentivo de consumir estos datos que generan el
desarrollo y apoyo a procesos de investigación y el estímulo para la conservación y preservación
de la biodiversidad.
Puesto que esta herramienta tecnológica estará desarrollada de manera integrada, resulta
pertinente para sustituir el uso de herramientas dispersas, permitiendo de esta forma publicar y
administrar la información sin depender de otras plataformas que poseen capacidades limitadas y
no son controladas directamente, también permitirá disminuir la incertidumbre de la
disponibilidad de los datos.
Por otro lado, para disminuir el desaprovechamiento de las tecnologías que conciernen a la web
semántica, esta herramienta tecnológica estará soportada por el uso de los LOD, oportunos
cuando se quiere divulgar el conocimiento a la comunidad científica y no científica, ya que
permiten publicar, divulgar y enlazar la información de manera que pueda ser legible para los
ordenadores y los seres humanos, lo cual garantiza una buena fuente de obtención de información
para diferentes actividades que desee realizar la comunidad.
Finalmente, divulgar el conocimiento referente a especímenes vegetales del Jardín Botánico Juan
María Céspedes está en la línea de iniciativa de mayor orden, tal como el “Objetivo 15: Vida en
la tierra” [6] de los ODS (Objetivos de Desarrollo Sostenible) de la ONU (Organización de
Naciones Unidas).
Objetivos
Objetivos General
Elaborar un Dataset con información referente a los especímenes vegetales del Jardín Botánico
del Valle Juan María Céspedes en el municipio de Tuluá, bajo los principios del LOD.
Objetivos Específicos
1. Modelar la información de especímenes vegetales en formato RDF.
2. Enlazar el Dataset referente a los especímenes vegetales con otros Datasets presentes en la
web de datos.
3. Publicar el Dataset construido y enlazado.
4. Desarrollar un prototipo de aplicación web para la gestión de los datos referentes a los
especímenes vegetales, que incluya los principios del LOD.
Referente Teórico
Conceptos
Linked Open Data
La iniciativa de Linked Open Data surge a partir de la unión de dos conceptos, Open Data y
Linked Data. El primero hace referencia a la publicación de datos bajo licencia libre en formatos
que facilitan su reutilización, esto con el fin de que personas e instituciones puedan acceder a
ellos. Por su lado, Linked Data consiste en enlazar datos a través de tecnologías pertenecientes a
la Web Semántica; por lo general, se utiliza RDF, el cual es un estándar de la W3C usado para
describir recursos web, metadatos o para representar información. No obstante, cabe aclarar que,
aunque los datos se encuentren enlazados no implica que estos sean abiertos o gratuitos.
En este orden de ideas, cuando estos dos conceptos se unifican forman lo que se conoce como
Linked Open Data, esto quiere decir entonces que cualquier usuario tiene la posibilidad tanto de
enlazar como de explorar datos procedentes de distintas fuentes de forma libre y sin restricciones.
Colecciones Biológicas
Las colecciones biológicas son conjunto de organismos, o partes de éstos, organizados con el fin
de proporcionar informaciones sobre la procedencia, colecta e identificación de cada uno de sus
especímenes. Estas son de muchos tipos, con diversas funciones y usos, esto depende de la
institución a la que representan y a la comunidad a la que va dirigida.
Metodología
Metodología de la Investigación
Investigación aplicada tipo tecnológica con fases exploratorias y descriptivas, todo en el contexto
de un método cuantitativo; además, como parte de su desarrollo incluye la producción de
componentes y prototipos tipo software, se apoya en propuestas como la de Arboleda y
Chavarriaga [7], así pues, se prevé las siguientes fases (Figura 2):
Finalmente, con la etapa exploratoria se busca clarificar las ideas que posibiliten responder a las
preguntas de investigación formuladas en capacités anteriores y materializar los insumos
necesarios para plantear sus soluciones; adicionalmente, se abordará una segunda etapa de
naturaleza descriptiva, la cual consistirá en describir los resultados producto de la etapa de
exploración por medio de la recopilación y tabulación de sus resultados.
Metodología de Publicación
Metodología de Desarrollo
Después de evaluar cuatro metodologías (TDD, Scrum, XP e Iconix), se evidenciaron dos
metodologías opcionadas para elegir, las cuales son Scrum y Extreme Programming (XP), ambas
con unos criterios que pueden acoplarse fácilmente al presente proyecto, sin embargo, finalmente
se optó por elegir la metodología de desarrollo de software Extreme Programming, ya que esta
además de tener un framework adaptable, tiene unos objetivos claros, el ciclo de vida es liviano y
por fases y su facilidad de uso es alta. Además, teniendo en cuenta el tiempo, presupuesto y el
tamaño del equipo resulta oportuna esta metodología.
Resultados Esperados
Objetivo Específico Resultados Esperados
Modelar la información de especímenes ● Información preprocesada.
vegetales en formato RDF. ● URIs generadas para la
identificación de los datos.
● Vocabularios identificados para la
descripción de los datos.
● Grafos generados que describen la
información de especímenes
vegetales.
● Grafos RDF que describen la
información de especímenes
vegetales almacenados.
Enlazar el dataset referente a los ● Datasets identificados que se
especímenes vegetales del Jardín Botánico vinculan con la información de
del Valle Juan María Céspedes en el especímenes vegetales.
municipio de Tuluá con otros datasets ● Elementos relacionados con
presentes en la web de datos. biodiversidad encontrados a través
de las interfaces de búsqueda de los
datasets identificados.
● Generación de enlaces desde otros
datasets hacia la información sobre
especímenes vegetales.
Publicar el dataset construido y enlazado. ● Documentación sobre los requisitos
para publicar un dataset en la web
de datos.
● Implementación de los requisitos
para publicar y pertenecer a la Web
de Datos.
Desarrollar un prototipo de aplicación web ● Requisitos de software
para la administración y publicación de los especificados.
datos de especímenes vegetales del Jardín ● Documentación propuesta por la
Botánico del Valle Juan María Céspedes metodología de software
en el municipio de Tuluá. seleccionada.
● Conjunto de datos de especímenes
en formatos no propietarios y
Dataset de datos de especímenes
vegetales.
● Mecanismo de consultas SPARQL
implementado.
● Mecanismo de consulta SPARQL
integrado al prototipo de aplicación
web.
Impactos
Social: tener a disposición datos de especímenes vegetales en la web para que puedan ser
consultados y consumidos libremente, también promover la preservación de la biodiversidad. En
otras palabras, se fortalecerá la función social del jardín botánico del valle Juan María Céspedes,
por medio de la generación de conciencia y cuidado por los especímenes biológicos, se
producirán afectos, emociones, y por tanto, un tipo de conocimiento que permitirá aportar a la
protección y conservación de la biodiversidad colombiana.
Ambiental: permite el desarrollo de diversas actividades sin que sea necesario afectar de manera
negativa los especímenes publicados como colección biológica, debido a que es posible
estudiarlos a través de la plataforma, respetando de esta manera, su entorno natural, y por ende
contribuyendo a la mantención y preservación de la biodiversidad.
En este orden de ideas, las autoridades ambientales contarán con datos referentes a especímenes
vegetales accesibles y libres para consumir, de modo que dichas autoridades podrán apoyarse en
estos datos para el desarrollo de estudios y análisis y posteriormente dictaminar medidas
ambientales de manera objetiva y oportuna.
Económico: la oportunidad de tener la disponibilidad de la información, el que esté preprocesada
para el uso de la comunidad en general indirectamente genera impactos económicos. Por otro
lado, el contar con una plataforma propia para la administración, publicación y divulgación de los
especímenes vegetales reduciría los costos que pueden presentarse a mediano o largo plazo si
todavía se usarán plataformas de manera dispersas.
Conclusiones Parciales
● La actualización incremental de grafos RDF se puede hacer a partir de la detección de
cambios en la base de datos relacional, evitando así la generación total del grafo RDF. Es
decir que es posible realizar operaciones de inserción, actualización y eliminación en
ambos sentidos relacional-grafo y grafo-relacional.
● El preprocesamiento de los datos se puede sistematizar a través de algoritmos especiales
para esto. Existe una librería muy robusta y eficaz para este procedimiento llamada
Pandas, desarrollada en Python. Por tanto el preprocesamiento de los datos puede
incluirse dentro de las funcionalidades del prototipo, haciendo este proceso de manera
automática.
● En la página de Datos Abiertos Colombia se ha encontrado muy poca participación por
parte del departamento del Valle del Cauca, al menos en el contexto ambiental, siendo la
ciudad de Cali la única que constantemente aporta datos a dicho portal.
● Se han realizado pruebas de concepto sobre las herramientas planteadas para desarrollar la
presente propuesta. Una de ellas es Angular, un framework que permite trabajar a partir
de componente lo cual resulta óptimo para desarrollar el proyecto de una forma
organizada y sobre todo colaborativa.
Referencias
[1] “Colecciones Biológicas”, EcuRed. [En línea]. Disponible en:
https://www.ecured.cu/Colecciones_Biol%C3%B3gicas. [Accedido: 25-09-2018]
[2] “¿Quienes somos?”, Instituto para la Investigación y la Preservación del Patrimonio Cultural y
Natural del Valle del Cauca. [En línea]. Disponible en:
http://www.inciva.gov.co/la-institucion/quienes-somos. [Accedido: 25-09-2018]
[3] “Ontologías y la Web Semantica”, Carlos Gonzalo - Ph.D. Comunicación Social. [En línea].
Disponible en: http://www.carlosgonzalo.es/ontologias-y-la-web-semantica/. [Accedido: 3-10-2018]
[4] “¿Qué es RDF y para qué es bueno?”, Semantizando la web. [En línea]. Disponible en:
https://semantizandolaweb.wordpress.com/2011/11/07/que-es-rdf-y-para-que-es-bueno/. [Accedido:
3-10-2018]
[5] “Linked Open Data: ¿Qué es?”, Sitio Datos abiertos enlazados. [En línea]. Disponible en:
https://datos.bcn.cl/es/informacion/que-es. [Accedido: 29-10-2018]
[6] “Objetivo 15: Vida en la tierra”, Programa de las Naciones Unidas para el Desarrollo. [En
línea]. Disponible en:
https://www.undp.org/content/undp/es/home/sustainable-development-goals/goal-15-life-on-land
.html. [Accedido: 20-02-2019]
[7] J. Chavarriaga, H. Arboleda. “Modelo de Investigación en Ingeniería del Software: una
propuesta de investigación tecnológica”. [En línea]. Disponible en:
https://dialnet.unirioja.es/servlet/articulo?codigo=4404823.
[8] V. Zuluaga y C. Moreno, “Creación de dataset sobre Información Ecoturística del Centro del
Valle del Cauca para publicar y enlazar con la Web de Datos”, tesis pregrado, Universidad del
Valle, 2016.