Sei sulla pagina 1di 107

Informtica y biodiversidad: el caso de la e-taxonoma

Layla Michn Departamento de Biologa Evolutiva, Facultad de Ciencias, UNAM. laylamichan@ciencias.unam.mx

Contenido
Introduccin
Taxonoma E-ciencia

Informtica y taxonoma
Aplicaciones WEB Acceso Abierto Semntica Interoperatividad Colecciones Meta-anlisis E-taxonoma

Informtica y biodiversidad: el caso de la e-taxonoma

INTRODUCCIN

Laboratorio de Ciencimetra, Informacin e Informtica en Ciencias Biolgicas Facultad de Ciencias, UNAM


PROBLEMAS 1. (R)evolucin digital en las ciencias biolgicas 2. Caractersticas de la E-biologa 3. Dinmica, estructura y relaciones de la biologa reciente 4. Publicacin cientfica en la Web 5. Recursos web y ciberinfraestructura para biologa 6. Colecciones de datos 7. Meta-anlisis de literatura: bibliometra, anlisis de redes, minera de textos, semntica

TIPOS 1.Biolgica 2.Bibliogrfica 3.Institucional REAS 1.Biodiversidad 2.Biomedicina

INFORMACIN BIOLGICA

ENFOQUE MULTIDISCIPLINARIO 1.Biologa 2. Ciencias de la informacin y documentacin 3. Tecnologas de la Informacin y comunicacin 4.Ciencias de la computacin e informtica 5.Historia, sociologa y filosofa de la ciencia.

APLICACIONES 1.Anlisis de la ciencias biolgicas actuales: desarrollo, estructura, relaciones y tendencias 2.Informacin e informtica en ciencias biolgicas, relacionadas y afines 3.Obtencin de nuevo conocimiento biolgico 4.Planeacin, evaluacin, gestin y poltica cientfica

La sistemtica y/o taxonoma


Es la subdisciplina de la biologa encargada de la descripcin, la nomenclatura, la clasificacin, la teora y la historia de la clasificacin de los seres vivos (Wiley, 1981), incluyendo sus bases, principios, procedimientos y reglas (Simpson, 1961). Constituye el sistema de referencia de la biologa, porque entre sus tareas principales estn: descubrir, identificar, nombrar y clasificar a los seres vivos.

Informtica Biolgica
Ciencias de la Informacin biolgica: La recopilacin, clasificacin, almacenamiento, recuperacin y difusin de la informacin biolgica, en especial la literatura. Bioinformtica: Investigacin, desarrollo o aplicacin de herramientas computacionales y enfoques para ampliar el uso de datos biolgicos, mdicos, de comportamiento o de salud, incluidos los de adquirir, almacenar, organizar, archivar, analizar o visualizar estos datos. Biologa computacional: El desarrollo y aplicacin de mtodos de datos analticos y tericos, modelos matemticos y tcnicas computacionales de simulacin para el estudio de sistemas biolgicos, conductuales y sociales. Informtica biolgica: estudio de los problemas sobre la informacin biolgica para su sistematizacin, recuperacin, manejo, anlisis, publicacin, difusin e intercambio.

e-science/ cyberinfraestructure
cyberinfraestructure (USA) United States National Science Foundation (NSF) blue-ribbon committee in 2003 .

Describe el nuevo ambiente de investigacin apoyado por la adquisicin de datos avanzados, el almacenamiento, gestin, integracin, minera, visualizacin, computacin y servicios de procesamiento de informacin a travs del Internet.

e-science (europe) United Kingdom's Office of Science and Technology in 1999.

Se refieren a la ciencia a gran escala, que se lleva a cabo a travs de colaboracin global habilitada por el Internet.

Ciberinfraestructura
Entorno tecnolgico-social que permite crear, difundir y preservar los datos, informacin y conocimientos mediante la adquisicin, almacenamiento, gestin, integracin, informtica, minera, visualizacin y otros servicios a travs de Internet (NSF 2003, 2007). Incluye un conjunto interoperable de diversos elementos:
1) Infraestructura, los sistemas computacionales (hardware, software y redes), servicios, instrumentos y herramientas. 2) Colecciones de datos. 3) Grupos virtuales de investigacin (colaboratorios y observatorios).

E-ciencia (ciberciencia)
Resulta del uso y aplicacin de la Ciberinfraestructura en la prctica cientifica, Se caracteriza por la inter y multidisciplinariedad. Colaboracin, la participacin de un gran nmero de investigadores (en algunos casos cientos) localizados en diversas regiones y con diferentes especialidades que se forman grupos trabajo (Hey y Trefethen, 2005; Barbera et al.,2009).

E-ciencia
Transformacin en 30 aos:
Tecnolgica
Computadoras Web Documentos digitales

Terica
Nuevos campos del conocimiento

Metodolgica
In slico

Social
Colaboracin Democratizacin Masiva

Cultural:
Acceso abierto

Explorar Buscar

I Generales
Buscadores Metabuscadore Buscadores especializados s Editores Proveedores

II Colecciones de datos bibliogrficas

I. Aplicaciones Web y programas


Marcar (marck) Sistematizar / Organizar

FUNCIONES Web 2.0 y 3.0 Etiquetar (Tagging) Compartir (share) Calificar (ranking) Suscribirse (feeds) Comentar

II. Colecciones bibliogrficas


CARACTERSTICAS Personalizacin Inmediatez Automatizacin Eficiencia

Difundir

III. Meta-anlisis de III literatura Meta-anlisis


Layla Michn, 2010

Infometra Anlisis de Redes Descubrimiento basado en literatura

Informtica y biodiversidad: el caso de la e-taxonoma

APLICACIONES WEB Y PROGRAMAS

Web 2 y 3 para taxonoma


Actualizar

Buscar Marcar Analizar

Manejar

Explorar

La Web 2.0 (Social) Se centra en la capacidad de las personas para colaborar y compartir informacin en lnea. Transicin de la Web esttica a una dinmica, que es ms organizada. Comunicacin abierta con un nfasis en comunidades de usuarios e intercambio de informacin. Ya no slo se trata de ofrecer la posibilidad de encontrar informacin, sino de lograr objetivos especficos, pues es factible, crear, etiquetar jerarquizar y compartir datos. Lenguaje HTLM. Web 3.0 (Semntica) Basada en la idea de aadir metadatos semnticos e informacin (a travs de mapas cognitivos). Desarrollar nuevos sistemas de interoperabilidad que permitan interpretar metadatos para adaptarse a las acciones de los usuarios . Minera de textos y ontologas. Lenguajes: XML (etiquetas) y RDF (metadatos).

Navegadores Google, Bing 1 Navegar

Alertas Correos electrnicos Listas de discusin Agregadores Recomendacin

COLECCIONES DE DATOS Bases de datos Sistemas de informacin Proveedores

Buscar

Meta-anlisis
Seleccin 2 Recuperacin 3

Bibliometra Anlisis de redes Descubrimiento Basado en Literatura

PUBLICACIN

PDF HTLM TXT 5

Lectura

Guardar 4 Obtener metadatos

Referencias Comentar 6 Comentar PDFs Acrobat PDF Exchange*

Citar 7 Citar mientras escribo 1/100

Gestores de bibliografa Endnote Refworks Mendeley* Zotero Citeulike*

Marcadores Google marcadores y block Facebook Folkosomias Delicious Citeulike Gestores de bibliografa

Ciberinfraestructura

Modificado de Hull, 2009

Marcadores/Guardar etiquetar
Marcador bibliografa Marcador web Marcador imgenes

Manejador bibliografaca

Library

Torres-Salinas, D. and E. Delgado-Lpez-Czar (2009, September). Estrategia para mejorar la difusin de los resultados de investigacin con la web 2.0. El Profesional de la Informacion 18 (5), 534-539.

Redes sociales/Marcar compartir

Artculos de vanguardia
c
Bibliometra Calificar Ranking

c
Buscar

Marcar Compartir

Varios

http://www.tolkin.org/

Aplicacin para publicacin de datos taxonmicos

http://www.gbif.org/informatics/primary-data/publishing/

La Web semntica
(del ingls semantic web) es la "Web de los datos".1 Se basa en la idea de aadir metadatos semnticos y ontolgicos a la World Wide Web. Esta informacin adicional que describen el contenido, el significado y la relacin de los datos se deben proporcionar de manera formal, para que as sea posible evaluarlas automticamente por mquinas de procesamiento. El objetivo es mejorar Internet ampliando la interoperabilidad entre los sistemas informticos usando "agentes inteligentes". Agentes inteligentes son programas en las computadoras que buscan informacin sin operadores humanos.

Tim Berners-Lee, el creador de la idea, la expres de la siguiente manera: "Mi sueo es una Web en la que las mquinas sean capaces de analizar todos los datos contenido, enlaces y transacciones entre la gente y los ordenadores. La 'Web Semntica', que hara esto posible, est todava por llegar, pero cuando llegue, la rutina de nuestras compras, burocracia y vida diaria ser gestionada por mquinas hablando con mquinas. Los 'Agentes Inteligentes' que han sido anunciados durante dcadas se harn por fin realidad".

Interoperatibilidad
La interoperabilidad es la propiedad de un producto o sistema, cuyas interfaces se conocen por completo, para trabajar con otros productos o sistemas, presentes o futuros, sin ningn tipo de acceso restringido o de ejecucin.

Estndares
XML (eXtensible Markup Language) RDF (Resource Description Framework) SPARQL (an RDF Query Language)

XML
XML, siglas en ingls de eXtensible Markup Language ('lenguaje de marcas extensible'), es un metalenguaje extensible de etiquetas desarrollado por el World Wide Web Consortium (W3C).

Ontologas taxonoma
Una ontologa es una manera formal de representar el conocimiento en el que los conceptos son descritos por su significado y su relacin con los dems. Se asignan identificadores nicos que se asocian con cada concepto en ontologas biolgicas (bioontologas) puede ser utilizada para enlazar informacin de diversas bases de datos.

http://richard.cyganiak.de/2007/10/lod/lod-datasets_2010-09-22_colored.html

Dublin Core Metadata Element Set (DCMES)


15 elementos de meta-datos bsicos.

http://www.tdwg.org/standards/

Leong, L. K. W., Coddington, P., & Wendelborn, A. (2005). Data grid services for biodiversity informatics. URL http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.86.9774

http://www.gbif.org/documents/ss5hobern.pdf

Guralnick, R., & Hill, A. (2009). Biodiversity informatics: automated approaches for documenting global biodiversity patterns and processes. Bioinformatics , 25 (4), 421-428. URL http://dx.doi.org/10.1093/bioinformatics/btn659

Cmputo en grid
No hay otro gran avance tecnolgico que haya demostrado el poder de los individuos que el grid computing. Donar su tiempo en la computadora sin usar.

Cloud computing (cmputo en nube)


Es un enfoque transformador de la computacin que involucra muchos aspectos, entre los que se incluyen:
algoritmos a gran escala que se ejecutan en diversos conjuntos de datos (estructurados, semi-estructurados y no estructurados), almacenados en grandes equipos con enormes cantidades de datos de enorme, utilidades basadas en la rpida provisin de recursos informticos personalizados, y la web ubicua con aplicaciones accesibles desde cualquier lugar.

Sin embargo, es mucho ms que lo que la tecnologa promete: transformar radicalmente nuestra manera de interactuar con la informacin.

Ecosistemas digitales
En el mundo de Internet, el rpido crecimiento y el uso exponencial de los medios digitales ha dado lugar a la aparicin de entornos virtuales denominados ecosistemas digitales. Estn integrados por varias entidades independientes, como: individuos, organizaciones, servicios, software y aplicaciones para compartir una o varias misiones y centrarse sobre las interacciones e interrelaciones entre ellos. Permiten la auto-organizacin de los ambientes, gracias a la recombinacin y la evolucin de sus "componentes digitales", en los que los recursos proporcionados por cada entidad estn bien conservadas y son factibles de gestionar y utilizar en conjunto. Debido a la naturaleza multidisciplinar de los ecosistemas digitales y sus caractersticas, son muy complejos para el estudio y diseo. http://130.102.71.54/medes

Programas informticos
Software para : Sistematizar informacin taxonmica, Realizar claves de indentificacin, Analizar grandes cantidades de caracteres (moleculares y morfolgicos), Manejar grandes volmenes de imgenes, Hacer anlisis fenticos y filogenticos complejos.

Ventajas/Desventajas
Estos avances tecnolgicos han tenido sus ventajas y desventajas (Godfray et al. 2007). Entre las primeras estn que permiten el uso de estndares internacionales, Aumentan la eficiencia de los procesos y la capacidad de almacenar informacin, Optimizan el meta-anlisis Integran informacin que se encuentra dispersa en tiempo y espacio.

Informtica y biodiversidad: el caso de la e-taxonoma

COLECCIONES

Colecciones
Colecciones de datos digitales (megabases de datos) taxonmicas, curatoriales, bibliogrficas y de distribucin (Shanmughavel 2007) que se pueden consultar en lnea; resaltan iniciativas mundiales como encyclopedia of life (http://www.eol.org/), tree of life (http://tolweb.org/tree/), genBank (http://www.ncbi.nlm.nih.gov/Genbank/), barcode of life (http://www.barcoding.si.edu/), Biodiversity Heritage Library (www.biodiversitylibrary.org/) y Global Biodiversity Information Facility (http://data.gbif.org/welcome.htm). Biosis, Zoological Record y Epic

Colecciones/Sistematizar

Clasificacin de las Colecciones digitales para biodiversidad


Tipos de datos Texto, nmeros e imgenes Video , pelculas y audio Software, algoritmos y ecuaciones, Animaciones modelos, simulaciones, etc Tipo de informacin Bibliogrfica Curatorial Nomenclatural Biolgica (morfolgica bioqumica, molecular) Geogrfica Ecolgica Institucional

Regional Local Institucional Personal


Siglo XIX 1975-2010 1865-2010

Cobertura temporal

Origen de la informacin ndogena (A.L) Exgena Iniciativa Acadmica Gubernamental Privada

Cobertura temtica Gupos y/o taxones


Nivel de organizacin Genes Especies Ecosistemas Cobertura geogrfica Mundial

Acceso

Libre Restringido Cantidad de registros Memoria virtual (Teras o Gigas)

Tamao

669 al 7 agosto 2011

http://www.animalbase.de/

Entrez

Colecciones bibliogrficas
Repositorios Editoriales y revistas Catlogos e ndices Sistemas de informacin E-bibliotecas

http://epic.kew.org/searchepic/searchpage.do;jsessionid=F E84A5745BC3C8E853696798AB4D8D00

Algunas cifras
Ulrichss 300, 000 revistas. DOAJ: 6, 715 La revista cientfica PLoS ONE public su artculo nmero 10.000 (1 dic 2006- 2 abril 2010, 41 meses) PubMed Central 2.2 millones de artculos. PubMed 20 millones de registros. Scopus ms de 40 millones de registros. ISI Web of Knowledge (WOK) 40 millones de registros. Google Scholar Arif Jinha en la Universidad de Ottawa ha estimado recientemente que el nmero de artculos publicados desde siempre es alrededor de 50 millones. Desde 1665, cuando inici la Philosophical Transactions of the Royal Society,
http://duncan.hull.name/2010/07/15/fifty-million/

http://www.botanicus.org/About.aspx

Mundiales
BIOLGICA INSTITUCIONAL Investigacin sobre biodiversidad DOCUMENTAL

Genetic databases
Organismos y sus partes Diarios y Etiquetas ndices y abstracts

Pginas electrnicas

Memorias Artculos Catlogos Checklist Libros Revisiones Libros de texto Enciclopedias Manuales

Colecciones Bibliotecas y hemerotecas

Catlogos

Bases de datos biolgicas

Bases de datos bibliogrficas

Bases de datos institucionales

Science Citation Index

The Tree of Life

Zoological Record BIOSIS Previews Biological Abstracts

2002 1996 1990 1984 1978

Taxonoma AL

1972 1966 1960 1954 1948 1942 1936 1930 1924

Periodica

Scopus

1918 1912 1906 1900 1894 1888

Biosis CAB

SCI

SCI

ZR

1882 1876 1870 1864

10

1000

100000

10000

log Documentos

100

Boqum y biol mol

Peridica

Biosis

ZR CAB SCI

Agricultura Forestal Enfer infecc Fisiologa

Taxonoma Amrica Latina

Biol reprod Parasitologa

Taxonoma AL

Gentica y herencia Biodiv y conserv Biol mar y acut Paleontologa Botnica Anat y morf Cienc biolog Ecol y cienc amb Zoolooga Biol Evolut

90

80

70

60

50

40

30

20

100

10

Acceso abierto
Costo de la literatura cientfica. La ciencia se subvenciona con fondos gubernamental (pblicos). Mandatos
Welcome trust NIH

No hay mandatos para biodiversidad.

All research would be more useful if it were OA. But Im an incrementalist. Ill take what we can get when we can get it. I dont expect OA to classified military research, and I dont even argue for it. I dont expect OA to patentable discoveries until after the discoverers voluntarily decide to publish. I dont expect OA to copyrighted books except when OA would increase net sales or bring benefits that exceed royalties.

Gratuito: se refiere a que la consulta del documento completo en lnea es sin costo

Repositorio

Acceso abierto
Libre: ofrece algunos derechos de uso adicionales como el de modificar y distribuir la obra siempre y cuando se cite a el o los autores

Acceso abierto va oro (Gold Route) Acceso abierto va verde (Green Route) Licencia que especifica los derechos de uso: Creative Commons (http://creativecommons.org.mx/ )

e-print (e-impreso)
Es la versin digital de un documento de investigacin (generalmente un artculo de revista, pero tambin podra ser una tesis, ponencias, captulos de libros, o un libro) que est accesible en lnea porque ha sido depositado en un repositorio digital Interactividad Diseo Integracin Agregacin

e-print

Movilidad

Pre-prints (artculos antes de que sean evaluados por pares)

Post-prints (la versin resultado de la revisin por pares)

Revistas electrnicas de vanguardia


Formato electrnico Datos complementarios Barato Mltiples formatos Identificadores digitales Interactividad Sin lmites de extensin Eficiencia e inmediatez Acceso abierto Uso libre Evaluacin por pares identificados (no annimos) Indizacin y archivo en bases de datos Indicadores bibliomtricos Las medidas de impacto Informacin sobre la Cita artculos relacionados Web 2.0 social Marcadores sociales Comentarios y notas Blog de cobertura Cdigo de tica de publicacin cientfica explcito Polticas explcitas de Autoarchivo

(Hull, D. et al., 2008)


Figure 1. A mind map [207] summarizing the contents of this article in a convenient manner. doi:10.1371/journal.pcbi.1000204.g001

The Advantages
Unmatched speed of publication In this era of elevated extinction rates of World's living animal species, rapid publications of taxonomic papers are not only desirable to authors, but also important to our science. Zootaxa aims to publish most manuscripts within a month or two after the final revisions are accepted by editors. Great flexibility Unlike many other journals, Zootaxa does not restrict the length of manuscripts. A paper of a few pages describing a new species is not too short and a monograph of a few hundred pages is not too long. The only requirement is that peers/editors consider it a quality paper that is well-presented and makes a good contribution to animal diversity research. As an option for monographs, ISBNs are assigned to papers of 60 pages or more. Subscription is also flexible. You can have a standing order to the online or print edition, or both. You can also have a standing order to a subset of papers (e.g. papers on insects, papers on fishes). You can also purchase individual papers and both PDF or paper copies can be ordered this way. Maximal online exposure Accessed daily by more systematic zoologists daily than any other zoology journal, your papers are more likely to be read and cited if you publish them in Zootaxa. Minimized cost to authors and readers No page charge is required for publication of papers or monographs. Free e-reprint (a printable, high-resolution PDF) is also provided for authors' personal use (including exchange with other individual scientists, but not for deposition in libraries/websites/ftp-sites for public access). Authors with funding for publication can opt to pay a fee of US$20 per printed page to make his/her paper free online at this site. Colour images can be published in the online edition without any fees to authors. Unlike many other journals, which require subscribers to buy a full issue or volume containing many papers not needed by a particular reader, Zootaxa allows subscribers to purchase each individual paper based on his/her needs and budget. An issue cost as little as US$4.00. Optimized use of technology Internet will be used to maximize the benefits of online journals: reduced cost in production and delivery, enhanced access, and interactive links in online files. The print edition is also produced concurrently for permanent records, using state-of-the-art printing technology. Environmental soundness The use of paper is minimized to save our forests and environment: free e-reprint is provided to authors instead of paper ones so that authors can print out only enough paper copies that are needed; paper reprints can be ordered as few as 25 copies to avoid waste; correspondence /invoices to subscribers are sent electrically without paper whenever possible; submissions and reviews of manuscripts are handled electronically whenever possible.

Informtica y biodiversidad: el caso de la e-taxonoma

META-ANLISIS

Browse
Web Browsers

I Aplicaciones Web
Metabrowser s web browsers specialized Editors Suppliers

II Colecciones bibliogrficas
Libraries

Search

Information systems

Bookmark

Indexes and catalogs

Manage

Share

III Meta-analisis
Scientometrics Network Analysis Text mining Semantics

Repositories

Meta-anlisis
Simultneo al desarrollo de ciencias de la informacin (CI) y las tecnologas la informacin y la comunicacin (TICS), en especial con el desarrollo de las bases de datos y la Internet, se han producido formas sistmicas de anlisis de cantidades colosales de informacin (terabites). Tcnica cuantitativa que usa mediciones especficas para indicar la fuerza (tendencias) de relaciones variables en los estudios incluidos en el anlisis. La tcnica enfatiza los resultados entre mltiples estudios en oposicin a los resultados obtenidos de una sola investigacin.

Meta-anlisis

Meta-anlisis
1. Anlisis evolutivos 2. Bibliometra (cienciometra, infometra, cienciometra, cibermetra, alt-metra): Volumen de publicaciones, productividad y temtica de la investigacin 3. Anlisis de Redes: Conexiones entre nodos que muestran informacin y sus relaciones. 4. Minera de Textos (Descubrimiento Basado en Literatura, descubrimiento basado en bases de datos) : Vinculacin de conceptos para la obtencin de nuevo conocimiento 5. Semntica: Es un conjunto de estndares y tecnologas que proporciona herramientas para una caracterizacin explcita de la semntica de la informacin para encontrar informacin distribuida heterogneamente y relacionada.

Propsitos
1. 2. 3. 4. Recuperacin de informacin. Obtencin de nuevo conocimiento. Evaluacin. Anlisis, desarrollo, estructura y relaciones de la dinmica cientfica.

http://bioinfo.dacya.ucm.es/

Entomology

E-taxonoma
Aplicaciones web y programas Colecciones Grids, nube y semntica Meta-datos Meta-anlisis Estndares e interoperatividad Resignificado Acceso abierto y creative commons Colaboratorios y observatorios Principales iniciativas GBIF, Vibrant, iplant, Edit

E-taxonoma muchas herramientas Poco impacto en la prctica taxonmica, En las publicaciones no se reporta

http://biiiogeek.blogspot.com/

Esta investigacin se lleva a cabo gracias al financiamiento de: DGAPA, UNAM. Proyecto PAPIME PE 201509 CONACYT, Ciencia Bsica. Proyecto 13276 2011-2014.

Licencia Creative Commons


Forma de citar este trabajo
Michn, L. 2011. Presentacin

http://creativecommons.org/licenses/by/3.0/deed.es_GT

Potrebbero piacerti anche