Sei sulla pagina 1di 39

Documtica

Tema BIII-11

Documtica. Gestin y archivo electrnico de documentos. Sistemas de gestin documental. Gestores de contenidos. Sindicacin de contenido. Sistemas de gestin de flujos de trabajos. Bsqueda de informacin: robots, spiders, otros.

Pg 1 de 39

Documtica NDICE

Tema BIII-11

1 DOCUMTICA.......................................................................................................................4

2 GESTIN Y ARCHIVO ELECTRNICO DE DOCUMENTOS......................................4 2.1 INTRODUCCIN............................................................................................................................4 2.2 ALGUNAS RESEAS LEGALES..........................................................................................................7 3 SISTEMAS DE GESTIN DOCUMENTAL......................................................................10 3.1 TECNOLOGAS DE UN SISTEMA DE GESTIN DOCUMENTAL...............................................................10 3.2 PROCESOS INVOLUCRADOS EN UN SISTEMA DE GESTIN DOCUMENTAL..............................................11 4 GESTORES DE CONTENIDOS.........................................................................................13 4.1 INTRODUCCIN..........................................................................................................................13 4.2 FUNCIONALIDAD DE UN PORTAL DE CONTENIDOS............................................................................13 4.3 PROCESOS INVOLUCRADOS EN LA GESTIN DE CONTENIDOS.............................................................15 4.4 ARQUITECTURA LGICA..............................................................................................................17 4.4.1 GESTIN DE CONTENIDOS..........................................................................................................18 4.4.2 EL MDULO DE PERSONALIZACIN...............................................................................................20 4.4.3 EL REPOSITORIO DE CONTENIDOS.................................................................................................22 4.4.4 INTERFAZ CON OTROS SISTEMAS..................................................................................................22 5 SINDICACIN DE CONTENIDO......................................................................................23

6 SISTEMAS DE GESTIN DE FLUJOS DE TRABAJOS................................................24 6.1 INTRODUCCIN..........................................................................................................................24 6.2 VENTAJAS DE LOS WORKFLOWS..................................................................................................26 6.3 CLASIFICACIN DE LOS DIFERENTES TIPOS DE WORKFLOW............................................................27 6.4 MODELO DE REFERENCIA DE WORKFLOW (WFMC)..................................................................28 7 BSQUEDA DE INFORMACIN: ROBOTS, SPIDERS, OTROS.................................30 7.1 INTRODUCCIN..........................................................................................................................30 7.2 EL SOFTWARE DE RECUPERACIN DE INFORMACIN.......................................................................31 7.3 MODELOS Y TCNICAS DE RECUPERACIN.....................................................................................31 7.3.1 MODELO BOOLEANO.................................................................................................................32 7.3.2 NDICES INVERTIDOS.................................................................................................................32 7.3.3 LENGUAJE NATURAL.................................................................................................................33 7.3.4 INDEXACIN Y RECUPERACIN AUTOMTICAS VECTORIALES.............................................................33 7.3.5 LGICA BORROSA.....................................................................................................................33 7.3.6 MODELOS VECTORIALES Y PROBABILSTICOS.................................................................................34
Pg 2 de 39

Documtica

Tema BIII-11

7.3.7 RETROALIMENTACIN...............................................................................................................34 7.3.8 NORMAS-GAMMA....................................................................................................................35 7.3.9 INDEXACIN AUTOMTICA (IA) Y SISTEMAS EXPERTOS.................................................................36 7.3.10 SISTEMAS QUE HOJEAN (HIPERTEXTO E HIPERMEDIA)....................................................................36 7.4 EVALUACIN DE LOS RESULTADOS...............................................................................................37 7.5 ROBOTS Y MOTORES DE BSQUEDA..............................................................................................38

Pg 3 de 39

Documtica

Tema BIII-11

1 Documtica
La utilizacin del trmino documtica se empez a utilizar a finales de los aos 90 y fue rpidamente aceptado como denominacin de una nueva forma de entender la gestin de la informacin en las empresas. En esta concepcin se entiende la gestin de todo tipo de documentos creados y/o utilizados en la empresa y su acceso por cualquier persona de la organizacin. En la prctica la documtica une la gestin de contenidos y de documentos (la archivstica aplicada a los documentos electrnicos), con la gestin de los sitios Web y las intranets y con la gestin de las fuentes externas de informacin, primando la idea de descentralizacin de la gestin y la unin inevitable a los procesos de negocio o flujos de trabajo. Aunque en la introduccin anterior no est clara la delimitacin entre gestin de contenidos y documental, en la exposicin del tema separaremos ambos conceptos, si bien en el mercado de SW existen soluciones tecnolgicas que anan las funciones de gestin documental y de contenidos de manera conjunta o modular.

2 Gestin y archivo electrnico de documentos


2.1 Introduccin
Si consideramos que la informacin, tanto la interna como la externa, es un elemento clave y estratgico dentro de las organizaciones y un elemento de competitividad para las mismas, las diversas formas por las que se producen los documentos electrnicos, la variedad de tipologas de los mismos, y la adecuacin de las actuales herramientas informticas para la gestin integral de la documentacin circulante, sern factores esenciales que se han de analizar detenidamente por parte de los servicios de informacin y documentacin de toda institucin que produzca y maneje este tipo de documentos a la hora del diseo y conceptualizacin de un sistema de gestin electrnica de la informacin. La proliferacin de los documentos electrnicos ha permitido que esta conceptualizacin cobre una especial importancia en nuestros das. El Electronic Document Management (EDM) o la gestin electrnica de documentos (GED) ha ido evolucionando rpidamente desde los aos 80. En esas primeras etapas, esta gestin se defina bsicamente como el sistema de tratamiento de la documentacin de una organizacin que combina la imagen con informacin textual asociada a ella. Este concepto surge a raz de la irrupcin de las tecnologas pticas para la captura de la informacin. Los documentos en papel eran digitalizados a travs de escneres producindose una imagen electrnica de dicho documento, a la cual se le asociaban una serie de ndices para la bsqueda y recuperacin. En estas primeras etapas cobrara tambin una especial importancia las tecnologas surgidas para el reconocimiento ptico de caracteres (OCR) pues permita que los contenidos de los documentos impresos de carcter textual fueran convertidos rpidamente a formatos electrnicos interpretables por el ordenador. De este modo los sistemas clsicos de gestin documental fueron incorporando estas tecnologas dentro de las funcionalidades que ofrecan al mercado. Pero en la actualidad la gestin documental es entendida como un proceso global, corporativo e integral del proceso documental de una organizacin. Es por ello ms
Pg 4 de 39

Documtica

Tema BIII-11

acertado hablar de Sistemas de Gestin Integrada de la Documentacin, los cuales controlan la produccin, la circulacin, el almacenamiento y la recuperacin de cualquier tipo de informacin. Aspiran, a administrar y controlar de modo conjunto, mediante el auxilio de la informtica, todo tipo de datos, documentos, conocimiento y habilidades existentes en la organizacin en la que se aplica. Las caractersticas principales de estos sistemas de gestin integral de la informacin seran: Responden de forma corporativa a las necesidades y problemas de la gestin de la informacin dentro de las organizaciones. Tienen un carcter abierto y dinmico, evolucionando junto a la trayectoria de la organizacin. Aportan soluciones que incluyen todo el ciclo vital de los documentos. Contemplan y gestionan los diferentes soportes documentales existentes en la organizacin. La gestin documental se incluye en un entorno ms amplio dentro de la gestin de la calidad total de la organizacin (ISO 9000).

El elemento clave en esta concepcin de la gestin integral de la informacin es el documento electrnico. Las caractersticas y funcionalidades de esta clase especial de documentos ha permitido que se replantee el significado y alcance tradicionales del mismo pasando de ser una fuente de informacin esttica, a considerarse un elemento clave y fundamental para la toma de decisiones, con un alto valor intrnseco, y que representa, como decamos, un pilar bsico para proveer de ventajas competitivas a toda organizacin. Esta concepcin del valor actual del documento dentro de las organizaciones viene derivada de las caractersticas que determinan a los actuales documentos electrnicos, entre las que se pueden destacar las siguientes: combina diferentes unidades de informacin (texto, imgenes fijas o en movimiento, voz, grficos, etc.), son legibles por mquinas y no por personas, su contenido puede cambiar de soporte con el tiempo, permite establecer relaciones con otros documentos, la estructura fsica carece de importancia, su contenido puede ser modificado rpidamente, fcilmente reproducible dando lugar a infinitas rplicas, admite mltiples formatos de lectura, estructurales y estticos, etc. Es por ello que actualmente se habla de documentos inteligentes como contenedores dinmicos de conjuntos de informacin creados por distintas aplicaciones y que son revisados y actualizados de manera automtica. En este entorno conceptual han venido apareciendo en el mercado, en especial en esta ltima dcada, distintos productos informticos orientados especficamente al control y la gestin integral de este tipo especial de documentacin conocidos por sistemas o herramientas GED (Gestin Electrnica de Documentos) o por el trmino anglosajn de EDMS (Electronic Document Management Systems). Aunque se trata de una tecnologa relativamente reciente, ha revolucionado el concepto de gestin documental dentro de las organizaciones. Algunos autores denominan a esta nueva forma de gestin documental con el nombre de Sistema de Gestin Corporativa de la Informacin. En la mayor parte de los casos estos productos EDM son una evolucin lgica de los tradicionales sistemas de gestin documental, a los que se les han ido aadiendo ms o
Pg 5 de 39

Documtica

Tema BIII-11

menos funcionalidades, e integrando otras tecnologas informticas ya existentes en el mundo empresarial para dar una respuesta global a las necesidades informativas y documentales de dichas organizaciones. Esta integracin de tecnologas hace de estos productos herramientas potentes para la gestin electrnica de la documentacin, orientados, principalmente, a grandes entidades con estructuras organizativas y funcionales muy complejas, con multitud de series y tipos documentales y con redes de usuarios, internos y externos, muy variadas. Entre las ventajas proporcionadas por estos sistemas se encuentran: Disminucin del tiempo de localizacin y recuperacin de los documentos al ser accesible desde el propio puesto de trabajo. Disminucin del tiempo en tratamiento y gestin, el usuario no tiene que rearchivar cada documento al trabajar con l en pantalla. Disminucin del coste de distribucin; al estar los documentos accesibles en cualquier puesto, se eliminan los gastos de mensajera, fax, etc. Disminucin de costes administrativos, Drstico recorte del espacio de almacenamiento y reaprovechamiento del mismo. Los originales en papel pueden enviarse a un espacio ms barato o un almacn de custodia. Un CD-ROM puede almacenar 120.000 pginas de listados o 15.000 pginas escaneadas. Eliminacin de los documentos duplicados al estar accesibles en cualquier momento desde cualquier puesto. Drstica reduccin en material de archivo al suprimirse los listados en papel y las copias. Mayor control y seguridad; el acceso a los documentos puede restringirse a determinados usuarios definiendo niveles de confidencialidad que llegan a partes de un documento. No existen documentos extraviados o perdidos. Mejora de la calidad del servicio ofrecido; los clientes son respondidos "in situ" en sus demandas de documentos pudiendo recibir copia de los mismos en el acto. Aumento de la productividad. Rendimiento en la consulta, con multiplicidad de criterios de recuperacin. Mejora de la gestin; la respuesta del sistema es ms gil y eficaz permitiendo una ventaja competitiva a la empresa.

Ahora bien, la implantacin de estos sistemas entraa una serie de problemas, entre los que se pueden mencionar los siguientes: Longevidad: la vida estimada para un Cd-Rom u otro tipo de soportes similares es de 30 aos, a lo que habra que aadir la vida de los equipos (tanto ordenadores como perifricos) que aunque se pueda situar en 15 aos, lo cierto es que el desfase que sufren deja su vida media en la empresa en aproximadamente 7 aos.
Pg 6 de 39

Documtica

Tema BIII-11

Legalidad: pese a existir jurisprudencia sobre el particular y evolucionar el marco jurdico para aceptar la legalidad tanto de la documentacin electrnica (ley 30/1992, as como la aceptacin de documentacin en formato electrnico de carcter fiscal) como de la firma electrnica (Ley 59/2003), lo cierto es que no existe an ninguna norma que d cobertura legal a los documentos en formato electrnico, si bien tampoco existe ley que manifieste lo contrario. En este sentido cabe resear los intentos de las diferentes administraciones espaolas y de la Unin Europea para buscar una solucin, siendo una cuestin de tiempo la promulgacin de legislacin especfica sobre el tema (futura Ley de Administracin electrnica). En cualquier caso, y mientras esto se produce, debe seguir existiendo el archivo tradicional en papel como prueba documental. Cambio cultural: quizs es el mayor obstculo a vencer. El hbito del uso del papel, incluso para las operaciones ms sencillas, no se elimina en 24 horas, si bien el contar con un sistema amigable para los usuarios, reduce este impacto considerablemente.

2.2 Algunas reseas legales


Entre las reseas legales y las normas aplicables en la Administracin se pueden citar las siguientes:

Ley 34/2002 de servicios de la sociedad de la informacin y del comercio electrnico (LSSICE). Sin tratar explcitamente el tema se dibuja un panorama para los prestadores de servicios de la sociedad de la informacin, que implica que estos deban tener organizado su sistema de gestin de documentos y registros electrnicos provenientes de sus operaciones. Especialmente cuando se refiere a los datos que deben guardarse o a la validez de los contratos electrnicos. Ley 11/2007 de acceso de los ciudadanos a los servicios pblicos. Dentro del ttulo segundo se encuentra el captulo cuarto, dedicado a los documentos y los archivos electrnicos, que se regulan en los artculos 29 a 32, ambos incluidos. El artculo 29 hace referencia al documento administrativo electrnico. Establece que las Administraciones Pblicas podrn emitir vlidamente por medios electrnicos documentos administrativos. Para ello, el artculo 29 establece dos requisitos: Que los documentos incorporen una o varias firmas electrnicas Que incluyan una referencia temporal

En el artculo 30 se introducen las copias electrnicas. En primer lugar, se establece que las copias realizadas por medios electrnicos de documentos electrnicos emitidos por el propio interesado o por las Administraciones Pblicas tendrn la consideracin de copias autnticas. Para ello se establecen los siguientes requisitos: Que el documento electrnico original se encuentre en poder de la Administracin Que se pueda comprobar la informacin de firma electrnica Que se pueda comprobar la informacin de sellado de tiempo
Pg 7 de 39

Documtica

Tema BIII-11

La ley permite tambin a las Administraciones Pblicas realizar copias de documentos emitidos originalmente en soporte papel por dichas Administraciones Pblicas utilizando medios electrnicos. En ese caso, las copias tambin tienen la consideracin de copias autnticas. El punto tercero del artculo 30 permite a las Administraciones Pblicas obtener imgenes electrnicas de documentos privados aportados por los ciudadanos, con la misma validez y eficacia, cuando en el proceso de digitalizacin se garantice la autenticidad, integridad y conservacin del documento imagen. Cuando se hayan realizado copias electrnicas de documentos emitidos originalmente en soporte papel, se podr proceder a la destruccin de los documentos originales, en los trminos previstos por cada Administracin Pblica. Por ltimo, la ley establece que las copias realizadas en soporte papel de documentos pblicos administrativos emitidos por medios electrnicos y firmados electrnicamente, tendrn la consideracin de copias autnticas siempre que incluyan la impresin de un cdigo generado electrnicamente u otros sistemas de verificacin que permitan contrastar su autenticidad. El artculo 31 regula el archivo electrnico de documentos. Establece que podrn almacenarse por medios electrnicos todos los documentos utilizados en las actuaciones administrativas. En cualquier caso, los documentos electrnicos que contengan actos administrativos que afecten a derechos o intereses de los particulares debern conservarse en soportes de esta naturaleza, ya sea en el mismo formato a partir del que se origin el documento o en otro cualquiera que asegure la identidad e integridad de la informacin necesaria para reproducirlo. Adems, los medios o soportes en que se almacenen documentos, debern contar con medidas de seguridad que garanticen la integridad, autenticidad, confidencialidad, calidad, proteccin y conservacin de los documentos almacenados. Por ltimo, el artculo 32 regula el expediente electrnico. La ley define el expediente electrnico como el conjunto de documentos electrnicos correspondientes a un procedimiento administrativo, cualquiera que sea el tipo de informacin que contengan. El foliado de los expedientes electrnicos se llevar a cabo mediante un ndice electrnico, firmado por la Administracin, rgano o entidad actuante, segn proceda. Este ndice garantizar la integridad del expediente electrnico y permitir su recuperacin siempre que sea preciso, siendo admisible que un mismo documento forme parte de distintos expedientes electrnicos. La remisin de expedientes podr ser sustituida a todos los efectos legales por la puesta a disposicin del expediente electrnico, teniendo el interesado derecho a obtener copia del mismo.

Real Decreto 1164/2002, de 8 de noviembre, por el que se regula la conservacin del patrimonio documental con valor histrico, el control de la eliminacin de otros documentos de la Administracin General del Estado y sus organismos pblicos y la conservacin de documentos administrativos en soporte distinto al original. Sin
Pg 8 de 39

Documtica

Tema BIII-11

entrar especficamente en materia se abre la puerta para que incluso los documentos con valor patrimonial puedan conservarse en soportes electrnicos, lo que abre otra puerta ms a la gestin documental en el entorno de la Administracin pblica.

ESTROFA, SICRES y ATRIO: El Consejo Superior de Administracin Electrnica ha establecido tres normas relacionadas con la gestin integral de la documentacin en formato electrnico: SICRES, ESTROFA, y ATRIO. Estas normas versan sobre los siguientes aspectos: ATRIO: Almacenamiento, Tratamiento y Recuperacin de Informacin de Oficinas).

ESTROFA: Especificaciones para el Tratamiento de Flujos Administrativos Automatizados. Es una especificacin conceptual, un modelo de referencia, sobre sistemas de control de flujos de tareas, concebido como una capa adicional a las de ATRIO. SICRES: Sistema de Informacin Comn de Registros de Entrada y Salida. Es un mdulo operacional de ATRIO, que funciona como una aplicacin cerrada orientada a satisfacer la exigencia de informatizacin de los Registros.

Esquemas Nacionales de Seguridad e Interoperabilidad La Ley 11/2007 prev la aprobacin de dos esquemas nacionales, uno de seguridad y otro de interoperabilidad, que se aprobarn por Real Decreto del Gobierno, a propuesta de la Conferencia Sectorial de Administracin Pblica y previo informe de la Comisin Nacional de Administracin Local. Ambos esquemas se elaborarn con la participacin de todas las Administraciones. El Esquema Nacional de Interoperabilidad comprender el conjunto de criterios y recomendaciones en materia de seguridad, conservacin y normalizacin de la informacin, de los formatos y de las aplicaciones que debern ser tenidos en cuenta por las Administraciones Pblicas para la toma de decisiones tecnolgicas que garanticen la interoperabilidad. El Esquema Nacional de Seguridad tiene por objeto establecer la poltica de seguridad en la utilizacin de medios electrnicos en el mbito de la presente Ley, y est constituido por los principios bsicos y requisitos mnimos que permitan una proteccin adecuada de la informacin. En la elaboracin de ambos Esquemas se tendrn en cuenta las recomendaciones de la Unin Europea, la situacin tecnolgica de las diferentes Administraciones Pblicas, as como los servicios electrnicos ya existentes. A estos efectos considerarn la utilizacin de estndares abiertos as como, en su caso y de forma complementaria, estndares que sean de uso generalizado por los ciudadanos.

Criterios SNC (Criterio de Seguridad, Normalizacin y Conservacin) La Resolucin de 26 de mayo de 2003, de la Secretara de Estado para la Administracin Pblica, dispone la publicacin del Acuerdo por el que se aprueban los Criterios de seguridad, normalizacin y conservacin de las aplicaciones utilizadas por la Administracin General del Estado (AGE) en el ejercicio de potestades (BOE 23-6-2003).
Pg 9 de 39

Documtica

Tema BIII-11

El volumen Criterios de conservacin expone los requisitos, criterios y recomendaciones para la conservacin de la informacin en soporte electrnico en las aplicaciones para el ejercicio de potestades. La conservacin de la informacin no debe considerarse de forma aislada; junto con la utilizacin y acceso a la informacin, es una etapa ms del ciclo de vida de la misma en soporte electrnico. La gestin de dispositivos, soportes electrnicos y formatos debe ponerse en prctica aplicando procedimientos orientados a la manipulacin de datos sensibles, especialmente si son de carcter personal; a la salvaguarda frente al deterioro, dao, robo o acceso no autorizado; a la eliminacin o destruccin de soportes; a la gestin de los soportes removibles, etc. Estas medidas para la conservacin de la informacin deben adoptarse de acuerdo con los especialistas en la gestin de archivos para disear soluciones prcticas a la medida de sus necesidades. Los Criterios de conservacin se estructuran en los siguientes captulos: 1. Conservacin de la informacin en soporte electrnico. 2. Ciclo de vida de la informacin en soporte electrnico. 3. Formato de la informacin en soporte electrnico. 4. Soportes. 5. Medidas de almacenamiento y conservacin. 6. Sistema de archivos. Los criterios y recomendaciones incluidos en este documento tienen en cuenta trminos de referencia ampliamente aceptados y difundidos como la Gua de la informacin electrnica elaborada por el DLM Forum.

3 Sistemas de gestin documental


3.1 Tecnologas de un sistema de gestin documental
Esta variedad e integracin de tecnologas de las herramientas EDM abarca principalmente los siguientes campos: Gestin de imgenes: utilizacin de la tecnologa que permite la captura digital a travs del escner de los documentos impresos. Normalmente se suele distinguir entre digitalizacin grfica y digitalizacin del texto, segn sea el propsito final de dicha digitalizacin del documento. Tecnologas de reconocimiento ptico de caracteres: la digitalizacin del texto tiene como finalidad poder interpretar y tratar electrnicamente ese texto a travs de programas OCR (Optical Character Recognition) o ICR (Intelligent Character Recognition). El OCR es citado con frecuencia como la alternativa ms rpida, econmica y segura para la entrada automtica del contenido de los documentos impresos en papel a soportes electrnicos. Tecnologas de almacenamiento ptico: para el almacenamiento de los documentos electrnicos, y ms an en el caso de imgenes digitales, es necesario disponer de sistemas de almacenamiento masivo. El sistema de almacenamiento ptico ms
Pg 10 de 39

Documtica

Tema BIII-11

conocido es el CD-ROM, pero dado que se trata de un disco pregrabado y slo de lectura, se suelen utilizar por ello los discos WORM (Write Once Read Many) y los WARM (Write Always Read Many), pues permiten grabar datos para su posterior recuperacin. En la actualidad se est investigando en una serie de nuevos soportes que prometen incrementar drsticamente la capacidad de almacenamiento de la informacin electrnica. Se trata de la holografa, los nano-CDs y el papel electrnico. Gestin electrnica de documentos: se trata de los mdulos clsicos de la gestin documental pero aplicados a los documentos electrnicos por lo que aqu sern factores claves, la recuperacin de informacin mediante la gestin de ndices de los atributos de cada documento y sobre el contenido de los mismos y la automatizacin de los ciclos de vida dentro de los procesos de la organizacin. Trabajo en grupo (groupware): las herramientas EDM han ido evolucionando hacia conceptos ms amplios de generacin y control de la informacin. De este modo es posible obtener un aprovechamiento mximo del capital intelectual y del conocimiento que se genera en la organizacin. Bsicamente se puede definir al groupware como el software que permite trabajar de forma cooperativa a un equipo u organizacin a travs del correo electrnico, bases de datos compartidas, gestin de flujos de trabajo, etc. Control de los flujos de trabajo (workflow): estrechamente relacionado con el software de trabajo en grupo permite establecer una serie de reglas y pautas en las que se especifican las tareas y pasos que se han de seguir para la consecucin de un proceso de negocio. En estos procesos se suele generar abundante informacin y es ah donde entra en juego el servicio de informacin y documentacin para la captura, almacenamiento, procesamiento y gestin del conocimiento que se est generando de forma continua.

3.2 Procesos involucrados en un sistema de gestin documental


Los procesos involucrados en un sistema de gestin documental van estrechamente ligados a las tecnologas existentes. En un sistema de gestin documental pueden existir una gran cantidad de procesos. Los ms tpicos son los siguientes: Captura de los documentos Captura de documentos es el proceso de conversin mediante el cual los documentos son transformados en documentos electrnicos, constituidos por texto, imgenes digitales y datos indexados. Las imgenes generalmente se almacenan como archivos del tipo TIFF o PDF en sistemas de medio ptico y los ndices en bases de datos relacionales mediante sistemas de manejo de documentos o workflow. Existen tres formas principales de introducir documentos en un sistema de gestin documental: En primer lugar, mediante el escaneado de documentos en papel. Una vez escaneado, es posible tratar las imgenes digitales para almacenarlas con mayor calidad, y en un fichero de menor tamao. Por otra parte, es posible pasar el documento a travs de un sistema OCR, y transformar el texto en un fichero ASCII.
Pg 11 de 39

Documtica

Tema BIII-11

En segundo lugar, es posible realizar la importacin de ficheros electrnicos. Los ficheros pueden ser almacenados en el sistema en su formato nativo. En tercer lugar, se puede realizar la conversin de documentos electrnicos. De esta forma, los ficheros se almacenan en formato raster, sin posibilidad de ser modificados.

Indexacin de los documentos Un sistema de gestin documental debe realizar la recuperacin de documentos de una forma rpida, eficiente y sencilla, y debe ofrecer la posibilidad de indexar o categorizar la informacin. La indexacin permite a los usuarios clasificar rpidamente grandes volmenes de datos, y encontrar el documento buscado. Cualquiera que sea la combinacin de mtodos de indexacin, los mtodos de bsqueda deben ser fcilmente utilizados y comprendidos por las personas que encargadas de la recuperacin de los documentos, as como de aquellas que los almacenan. Hay tres formas bsicas de indexacin de ficheros en un sistema de gestin documental: Indexacin del texto completo, o indexacin de cada palabra contenida en un documento. Campos ndices, o indexacin a travs de categoras de palabras claves Estructura de carpetas y ficheros, o indexacin por grupos de documentos asociados.

Distribucin de los documentos Un sistema de gestin documental debera permitir a mltiples usuarios acceder al mismo fichero al mismo tiempo, as como distribuir documentos a usuarios autorizados dentro y fuera de una organizacin, a travs de una intranet, por correo electrnico, o a travs de la publicacin en un web. Un sistema de gestin documental debe salvaguardar una copia inalterable del documento original al mismo tiempo que permite al usuario distribuir copias del mismo en el formato que mejor se adapta a las necesidades de la organizacin. Cuando los administradores del sistema deciden implantar un sistema de gestin de documentos en una organizacin, sea a travs de una intranet o de una internet, deberan permitir a los usuarios la bsqueda, la recuperacin y la visin de los documentos con cualquier navegador. De esta forma, el acceso a documentos asociados a navegadores elimina los problemas logsticos asociados a la existencia de distintas plataformas. Archivo de los documentos Una vez introducidos en el sistema, los documentos deben ser almacenados. Los sistemas de almacenamiento de los gestores documentales deben ser capaces de acomodarse a las continuas evoluciones tecnolgicas, de manera que se pueda preservar el crecimiento de la organizacin. La independencia del hardware es crtica para asegurar que un sistema de gestin documental satisfar todas las necesidades futuras. Un sistema de gestin documental verstil debe ser compatible con todos los sistemas de almacenamiento existentes en un momento determinado, con el objetivo de proporcionar almacenamiento seguro a medio y largo plazo. Para asegurar el futuro acceso a los documentos, y la posibilidad de leerlos, los ficheros deberan almacenarse en formatos no propietarios, tales como TIFF o ASCII. El
Pg 12 de 39

Documtica

Tema BIII-11

almacenamiento de ficheros de texto o de imgenes en formatos propietarios puede provocar que la organizacin dependa de la continuidad empresarial de otras compaas.

4 Gestores de contenidos
4.1 Introduccin
La informacin, ms conocida actualmente por el trmino genrico de contenidos, se ha convertido, dentro de un portal, en uno de los principales elementos de fidelizacin de los clientes o empleados. Si se analiza la bibliografa existente alrededor del concepto de informacin se observa como algunos autores separan los trminos dato, informacin y conocimiento. Sin querer entrar en toda una definicin conceptual de dichos trminos, hay que decir que el conocimiento se deriva de la informacin, que a su vez se deriva de los datos. Sin embargo, para que la informacin se convierta en conocimiento, las organizaciones y las personas deben asimilarla y plasmarla para un fin y objetivo. Actualmente, el trmino contenidos comprende todas aquellas noticias, artculos, reportajes, cotizaciones de acciones, fragmentos de un fondo editorial, cursos de formacin, conferencias, informes, estudios, etc. con formatos que van desde un simple texto plano a msica, animaciones, videos, fotografa, etc. concebidos para informar, formar o entretener y que se encuentran dentro de la cadena dato-informacinconocimiento. Los contenidos se ofrecen tanto de forma gratuita como comercializados en la red. La cadena informativa juega un papel primordial en el desarrollo de las ventajas competitivas de una organizacin. La informacin debe transmitirse dentro de la institucin de una manera efectiva y eficiente. Un elemento importante que permite en una organizacin alimentar de una manera estructurada el dato-informacin y convertirlo en conocimiento para los individuos que forman la organizacin, es su Intranet, permitiendo mejorar los activos intangibles de dicha institucin.

4.2 Funcionalidad de un portal de contenidos


El portal est diseado para ser un nico punto de acceso a la mayora de los recursos que diariamente se necesitan en el trabajo. El objetivo de cualquier portal es convertirse en la herramienta de trabajo principal, minimizando, en la medida de lo posible, las horas de navegacin por la red, el nmero de pasos necesarios para realizar las tareas ms cotidianas, etc. Podemos llamar a esto inteligencia econmica, permitiendo de esta forma aumentar la productividad del usuario y mejorar su percepcin del sistema. Un portal proporciona un ndice con las diferentes utilidades y recursos que pone a disposicin de sus usuarios. Algunos portales avanzados incluso poseen herramientas de bsqueda basadas en estadsticas Bayesianas, con redes neuronales que permiten potenciar si cabe an ms la bsqueda en grandes volmenes de informacin. Gartner Group define un portal de contenidos como el acceso y la interaccin con informacin relevante, aplicaciones y procesos comerciales bajo un tipo de audiencia y de manera personalizada. El desarrollo de un portal de contenidos pasa por definir en primer lugar unas pautas para la puesta en marcha de dicho portal, lo que conlleva definir claramente el objetivo
Pg 13 de 39

Documtica

Tema BIII-11

que va a perseguir, el pblico al que est destinado y lo que ste espera encontrar, cmo va a afectar en el usuario y cmo va a interactuar el mismo. La funcin de un portal de nueva generacin es la integracin de la informacin relevante de la compaa. Empezando por la informacin interna, como el acceso a sus aplicaciones Enterprise Resource Planning (ERP), Customer Relationship Management (CRM), a la comunicacin interna, el acceso a las bases de datos, etc. Tampoco se debe olvidar la informacin externa como peridicos, bases de datos, newsgroup, listas de distribucin etc. que permitan conocer el entorno de la empresa, competencia, situacin del mercado, etc. Todo ello, con el objetivo de poder tomar decisiones en un periodo corto de tiempo y adaptarse a los cambios del mercado y nuevas tendencias. Teniendo en cuenta lo anterior, se puede considerar que entre las necesidades ms importantes de un gestor de contenidos se encuentran las siguientes:

Inclusin de nuevas funcionalidades en el web. Esta operacin puede implicar la revisin de multitud de pginas y la generacin del cdigo que aporta las funcionalidades. Con un sistema de gestin de contenidos eso puede ser tan simple como incluir un mdulo realizado por terceros, sin que eso suponga muchos cambios en la web. El sistema puede crecer y adaptarse a las necesidades futuras. Mantenimiento de gran cantidad de pginas. En una web con muchas pginas hace falta un sistema para distribuir los trabajos de creacin, edicin y mantenimiento con permisos de acceso a las diferentes reas. Tambin se tienen que gestionar los metadatos de cada documento, las versiones, la publicacin y caducidad de pginas y los enlaces rotos, entre otros aspectos. Reutilizacin de objetos o componentes. Un sistema de gestin de contenidos permite la recuperacin y reutilizacin de pginas, documentos, y en general de cualquier objeto publicado o almacenado. Pginas interactivas. Las pginas estticas llegan al usuario exactamente como estn almacenadas en el servidor web. En cambio, las pginas dinmicas no existen en el servidor tal como se reciben en los navegadores, sino que se generan segn las peticiones de los usuarios. De esta manera cuando por ejemplo se utiliza un buscador, el sistema genera una pgina con los resultados que no existan antes de la peticin. Para conseguir esta interaccin, los sistemas de gestin de contenidos conectan con una base de datos que hace de repositorio central de todos los datos de la web. Cambios del aspecto de la web. Si no hay una buena separacin entre contenido y presentacin, un cambio de diseo puede comportar la revisin de muchas pginas para su adaptacin. Los sistemas de gestin de contenidos facilitan los cambios con la utilizacin, por ejemplo, del estndar CSS (Cascading Style Sheets u hojas de estilo en cascada) con lo que se consigue la independencia de presentacin y contenido. Consistencia de la web. La consistencia en un web no quiere decir que todas las pginas sean iguales, sino que hay un orden (visual) en vez de caos. Un usuario nota enseguida cundo una pgina no es igual que el resto de las de la misma web por su aspecto, la disposicin de los objetos o por los cambios en la forma de navegar. Estas diferencias provocan sensacin de desorden y dan a entender
Pg 14 de 39

Documtica

Tema BIII-11

que el web no lo han diseado profesionales. Los sistemas de gestin de contenidos pueden aplicar un mismo estilo en todas las pginas con el mencionado CSS, y aplicar una misma estructura mediante patrones de pginas.

Control de acceso. Controlar el acceso a un web no consiste simplemente al permitir la entrada a el web, sino que comporta gestionar los diferentes permisos a cada rea del web aplicados a grupos o individuos.

4.3 Procesos involucrados en la gestin de contenidos


Una plataforma de gestin de contenidos engloba toda una serie de procesos que abarcan desde la captacin de los contenidos hasta la forma que adoptan stos cuando son ofrecidos finalmente al usuario. Este punto cobra especial relevancia en aquellos sistemas dirigidos a usuarios finales que acceden con dispositivos mviles, donde la apariencia de la informacin es una pieza importante dentro de la cadena de provisin de los servicios. El principal objetivo es centralizar y gestionar todos los procesos y fases involucradas en los workflows definidos para el tratamiento de los diferentes contenidos, con cierta independencia del proveedor e incluso de los formatos gestionados. Dentro de este framework, un sistema de gestin de contenidos tambin deber encargarse de proporcionar polticas de control de acceso y gestin de los diferentes roles definidos en el sistema (editores, maquetadores, diseadores grficos, marketing, desarrolladores, etc.). Los procesos involucrados dentro del workflow clsico de una herramienta de gestin de contenidos engloban toda una serie de fases que abarcan el flujo completo de los servicios soportados. A continuacin se describen estas fases: Captacin. En esta fase los datos se encuentran inicialmente "en bruto" y pueden proceder de variadas fuentes: bases de datos de proveedores, servicios on-line, agencias de informacin, etc., as como tener diferentes vas de comunicacin: satlite, NFS, FTP, etc. Su principal cometido es, por tanto, capturar esa informacin y transformarla de tal forma que quede almacenada en un formato unificado que permita su procesado posterior (homogeneizacin). La tendencia actual, buscando facilitar esta tarea, es la de usar como estructura de intercambio documentos basados en XML (Extensible Markup Language), para los que se prefija de antemano una DTD (Document Type Definition) comn a proveedores y receptores. En muchos casos, los procesos que componen la fase de captacin procuran la automatizacin, favoreciendo as la progresin directa de los contenidos. Categorizacin. En esta fase los contenidos son caracterizados y validados, de modo que posteriormente puedan ser localizados y usados de modo lgico y ordenado. En la medida de lo posible este proceso suele tender a automatizarse, aunque tiene sus limitaciones: no conoce el contenido de las imgenes o desconoce la semntica de los textos, y por tanto en muchos casos necesita de una supervisin manual, a no ser que el proveedor proporcione esta informacin explcitamente. La forma clsica de resolver este problema pasa por el trabajo de documentalistas y catalogadores, que en estrecho contacto con los redactores (en algunos casos son la misma persona) se encargan de caracterizar, clasificar y filtrar los contenidos.

Pg 15 de 39

Documtica

Tema BIII-11

Redaccin. Esta fase involucra el proceso de incluir contenidos propios en el sistema. Normalmente suele ser de fcil implantacin, debido a que los formatos de los contenidos y la lgica de negocio de la empresa son conocidos por los redactores. Edicin. En esta fase se hace uso de los contenidos, que han pasado a formar parte de la base de datos de contenidos una vez finalizados los procesos de clasificacin, por lo que habr que dotar al sistema de potentes herramientas que faciliten la bsqueda y localizacin de aquellos contenidos requeridos en cada momento (una misma noticia puede haber sido proporcionada por distintos proveedores y se debe localizar cul es la ms recomendable). Los redactores se encargan de retocar los contenidos procedentes de los proveedores, proporcionando un acabado periodstico, o al menos publicable. Los procesos de tratamiento de imgenes y las tareas de traduccin suelen formar parte de esta fase. Distribucin. Esta fase tambin suele ser denominada como difusin o sindicacin, y tiene como objetivo proporcionar a los clientes (entendiendo como clientes a los usuarios de servicios que proporcionan bienes digitales y aquellos sites sobre los que se est actuando como proveedor, independientemente que sean de la misma organizacin o agentes externos), de manera organizada y flexible, aquellos contenidos a los que se han suscrito. Para que esta difusin de informacin se realice con xito, ambas partes deben poseer un vocabulario y protocolo de intercambio comn. La utilizacin de estndares como XML e ICE (Information & Content Exchange protocol) permitirn la reutilizacin de gran parte de los esfuerzos empleados en el desarrollo. Por utilizar una terminologa comnmente aceptada en este tipo de entornos, se puede decir que el sistema actuara como distribuidor o publicador, puesto que difunde informacin a otros que como afiliados o suscriptores aceptaran y haran uso de esa informacin. Composicin. Esta fase tiene como objetivo final el de previsualizar y autorizar la publicacin de los contenidos procesados. Para ello, los maquetadores se encargarn de darles el formato final adecuado y de dotarles de los elementos grficos y de los mecanismos de navegacin necesarios para poder ser presentados a los distintos usuarios finales. De nuevo es conveniente automatizar y utilizar componentes de formateo para permitir que progrese automticamente la informacin. Publicacin. En esta fase finaliza el workflow definido y es la encargada de poner los contenidos a disposicin de los usuarios, tras recibir la debida autorizacin (procedente de lo que podra llamarse un "consejo de redaccin"). Las plataformas de gestin de contenidos ms comunes (Vignette, BroadVision, Portal-to-Go o Cold Fussion) hacen uso de plantillas (templates) para presentar de modo dinmico y transparente los contenidos en el formato requerido, segn el dispositivo de acceso utilizado por el usuario, y en donde normalmente se suelen aplicar las reglas de personalizacin establecidas. El uso de plantillas cobra mayor importancia si se considera que, en el mundo wap, el estndar WML no funciona correctamente en todos los terminales, sino que depende en buena medida del dispositivo, modelo, o versin de microbrowser de cada fabricante. Actualmente la tendencia ms aceptada, a la hora de desarrollar plantillas para presentar los contenidos, pasa por el uso de XSL para interpretar contenidos XML. El uso de
Pg 16 de 39

Documtica

Tema BIII-11

estos estndares garantiza una completa abstraccin entre la lgica de presentacin y el contenido a mostrar.

4.4 Arquitectura lgica


Se presenta a continuacin una posible arquitectura lgica para un sistema completo de gestin de contenidos y personalizacin, en la que destacan cuatro grandes mdulos: 1. Gestin de contenidos. 2. Personalizacin. 3. Repositorio de contenidos. 4. Interfaz con otros sistemas. De estos cuatro elementos, el primero y el tercero son elementos tpicos de un gestor de contenidos, mientras que el mdulo de personalizacin, aunque externo, aparece en casi todos los gestores de contenido usuales del mercado.

Pg 17 de 39

Documtica

Tema BIII-11

4.4.1 Gestin de contenidos


Tiene como cometido proporcionar el framework principal de la plataforma de gestin de contenidos. Sus capacidades abarcan todas aquellas tareas que normalmente se suelen asociar a una herramienta de este tipo y que cubren todo el proceso, desde la captura de contenidos hasta su presentacin al usuario final, contemplando en todo momento la correcta gestin de los diferentes roles definidos en el sistema. Estos componentes son: 1.- El servidor de gestin de contenidos. Este mdulo se presenta como el ncleo del sistema, y su principal cometido es proporcionar la plataforma para el resto de los elementos involucrados en la arquitectura. Entre sus funciones destaca la gestin y almacenamiento de plantillas (tanto las que definen los formularios de entrada de datos como las que se encargan de proporcionar la presentacin final), as como de la informacin asociada a los contenidos mantenidos por el sistema. Toda esa informacin queda almacenada en el repositorio, bien como registros de la base de datos o bien como ficheros estticos accesibles por el sistema. Dentro de su mbito tambin se encuentra el control sobre las tareas del sistema (tareas temporales programadas). Los componentes para los que este mdulo acta de plataforma, y que normalmente suelen estar asociados a herramientas de backoffice o procesos automticos, son: El captador de contenidos. Este componente acta de interfaz con los sistemas proveedores externos, a fin de garantizar la conversin de dichos contenidos a los requerimientos de estructura y almacenamiento impuestos en el sistema. Entre sus tareas
Pg 18 de 39

Documtica

Tema BIII-11

destacan la de proporcionar mecanismos automticos de recogida de informacin, categorizacin y homogeneizacin, al formato interno de los contenidos gestionados por la plataforma. Asimismo, otro de sus cometidos ser proporcionar mecanismos de aviso que garanticen que los contenidos de los proveedores son entregados en el periodo temporal y con la estructura de informacin acordada. En la actualidad, el uso de XML/XSL en el intercambio de contenidos con los proveedores se convierte en la propuesta tcnica ms vlida y es utilizada en muchas herramientas de gestin de contenidos. Asimismo, como la conversin de contenidos es muy dependiente del formato de cada tipo de contenido en concreto, este mdulo deber ser cubierto en la mayora de los sistemas como una herramienta ad-hoc. La gestin de usuarios. Se encarga de la gestin (alta, baja y modificacin) de los usuarios del sistema (editores, personal de marketing, desarrolladores, diseadores grficos, etc.) y de la definicin de los permisos de acceso a los diferentes componentes de la plataforma. El mdulo de gestin de usuarios deber proporcionar una estrecha relacin con el mdulo de workflow, ya que la plataforma deber poder establecer capacidades de notificacin y asignacin de tareas a los usuarios y perfiles definidos en el sistema. Tambin puede encargarse de realizar la gestin de los usuarios que son externos al sistema, y que se conectan en busca de informacin. El sistema puede permitir la navegacin annima por determinadas zonas del portal, y solicitar la inscripcin al portal cuando se acceda a determinadas zonas de contenido (o la introduccin de usuario y contrasea si el usuario ya est inscrito). Esta gestin de usuarios debe ser siempre respetuosa con la legislacin relativa a datos personales. El gestor del rbol de navegacin. Este componente se encarga de gestionar la estructura de navegacin, proporcionando un nivel de abstraccin entre los elementos de navegacin y los contenidos reales. Entre otras tareas, es responsable de gestionar aquellas pginas que mantienen listas de enlaces a otras pginas, formando por tanto una estructura arborescente y ofreciendo una vuelta atrs controlada, hacia niveles superiores. El workflow. Este componente proporcionar capacidades para la definicin y control de los workflows definidos en el sistema, as como para la notificacin a los usuarios o perfiles involucrados en cada proceso. En la definicin de un workflow, gracias a la posibilidad de realizar una secuenciacin restrictiva (no continuar hasta la completa finalizacin de la tarea anterior), se pueden plantear dentro de cada hito la paralelizacin de subtareas. Esta cualidad se establece como una premisa para poder facilitar la elaboracin del trabajo de modo distribuido, que cobra especial importancia en aquellos sistemas disponibles 24 horas al da, 7 das a la semana, con una amplia distribucin geogrfica. La norma general, en las aplicaciones de gestin de contenidos, es definir un workflow genrico para cada tipo de tarea del sistema, pudiendo ser heredado por todas las tareas de similares caractersticas, y posteriormente particularizar cada uno en funcin de los subtipos de contenidos que se gestionen en concreto. El editor de contenidos. Este componente proporciona capacidad para el tratamiento especfico de los contenidos del sistema. Para ello, suele disponer de formularios que facilitan la introduccin y edicin tanto de los contenidos propios como de los que han proporcionado los proveedores externos. Este mdulo deber mantener una estrecha relacin con el mdulo de previsualizacin, de modo que se pueda garantizar la
Pg 19 de 39

Documtica

Tema BIII-11

visualizacin de los contenidos editados dentro de un entorno de preproduccin similar al real, antes de realizar su publicacin definitiva. La previsualizacin. Este componente proporcionar un entorno de preproduccin donde se pueda realizar una correcta previsualizacin de los contenidos gestionados por el sistema en un entorno equivalente al que tendr en produccin. Esto permitir evitar posibles problemas derivados de su publicacin directa en produccin. El gestor de distribucin. Este componente se encargar de proporcionar una interfaz para la distribucin de los contenidos, bien entre los diferentes entornos u organizaciones de una empresa, o bien a terceros, donde se actuara como proveedor de contenidos. De considerarse esta ltima opcin, debern plantearse mecanismos que garanticen polticas de afiliacin y suscripcin, gestin de catlogos y mantenimiento de ofertas. Normalmente, suele llevar asociados procesos automticos que se encargan de generar paquetes con los contenidos solicitados por los afiliados, en funcin de las ofertas y catlogos establecidos. 2.- El servidor de contenidos. Este mdulo tiene asignada la funcin de obtener los contenidos requeridos, teniendo en cuenta polticas de cach y de personalizacin, y proporcionrselos al modulo de presentacin. Debido al aspecto crtico de su labor, deber tener una estrecha y optimizada relacin con los mdulos gestor de cach, buscador de contenidos y personalizacin (tendr en cuenta los contenidos y resultados de personalizacin, a fin de montar las pginas definitivas a publicar). 3.- El gestor de cach. Este mdulo mantiene la sincronizacin entre la base de datos de contenidos, la estructura de los contenidos estticos en los sistemas de ficheros y los contenidos mantenidos en cach, a fin de liberar al servidor de contenidos de la tarea de obtencin de los contenidos actualizados. 4.- El buscador de contenidos. Este mdulo dispone de la capacidad de bsqueda de contenidos en la base de datos, plantendose como una API robusta y segura que recubra el acceso a los contenidos almacenados en la base de datos y que podr ser accedida por los servicios del sistema. 5.- El servidor de presentacin. El servidor de presentacin puede ser entendido como el elemento sobre el que recae la responsabilidad de detectar y ajustar los contenidos a cada dispositivo en concreto. Este concepto lgico puede ser cubierto por herramientas comerciales o bien mediante la elaboracin de un desarrollo ad hoc que implemente su funcionalidad, por ejemplo, a travs de interpretacin de pginas XML mediante XSL.

4.4.2 El mdulo de personalizacin


Las demandas de los usuarios y las tendencias del mercado han propiciado que los servicios de Internet hayan evolucionado desde la simple publicacin de informacin esttica hasta convertirse en canales para el comercio electrnico. Sin embargo, ante la creciente oferta de nuevos servicios y portales web, los usuarios tienden a demandar una relacin ms estrecha con el site, en vez de disponer de un simple acceso a una gama de servicios y funcionalidades genricas. Esto es lo que se llama personalizacin. Algunos de los ms prestigiosos analistas de mercado se atreven a enunciar que la clave del xito de los negocios en la Red, pasa por la capacidad de atraer, y sobre todo retener, clientes on-line. Para ello, establecen como premisa conocer las preferencias y
Pg 20 de 39

Documtica

Tema BIII-11

necesidades de los clientes, y as tener la capacidad para prever y poder favorecer la rpida respuesta a sus peticiones. Puede decirse que la personalizacin pasa por ofrecer al usuario aquello que quiere ver, en el momento adecuado. El mdulo de personalizacin es considerado en muchas ocasiones como un elemento cercano, pero independiente, a las plataformas de gestin de contenidos. Aunque bastantes plataformas comerciales permiten poder integrar herramientas de recomendacin y personalizacin de terceros, normalmente suelen incorporar uno en sus versiones comerciales. Los principales componentes del mdulo de personalizacin son: El servidor de personalizacin. Este componente se presenta como el ncleo del sistema de personalizacin y su principal cometido es proporcionar la plataforma para el resto de los elementos, favoreciendo la gestin de los mecanismos necesarios para la correcta recogida de informacin de usuario, tanto de modo explcito como implcito, y de la aplicacin de los criterios de personalizacin establecidos. El servidor de observacin. Este componente ser el encargado de gestionar los puntos de observacin (zonas identificadas para recoger informacin de los hbitos y acciones de los usuarios). Este elemento se presenta como crtico si se pretenden usar tcnicas de personalizacin implcita. Por cuestiones de rendimiento debera actuar de modo aislado para no sobrecargar la labor del servidor de contenidos. Del mismo modo, deber gestionar colas de eventos que permitan realizar un correcto tratamiento de las actualizaciones en la base de datos, para lo que deber apoyarse en el mdulo gestor de datos de personalizacin. El gestor de segmentacin. Este componente proporciona al sistema mecanismos para poder realizar una correcta segmentacin de los usuarios que acceden al sistema, a fin de poder ofrecer recomendaciones en funcin del segmento en que se encuadre a cada usuario. Debe poder incorporar capacidades de datamining que puedan servir de fuente de informacin para el personal de marketing. El gestor de reglas de negocio. Este componente tiene como objetivo gestionar y facilitar la definicin de reglas de negocio que permitan establecer criterios de personalizacin. Este elemento deber tener un conocimiento exhaustivo de la estructura de almacenamiento de los contenidos en la base de datos, a fin de propiciar la definicin de reglas en funcin del modelo de datos empleado. Este elemento suele quedar restringido a su utilizacin por parte del personal de marketing y est muy relacionado con la aplicacin de reglas del tipo "ofrecer a los usuarios mayores de x aos tal tipo de contenidos" u "ofrecer a los usuarios de Ciudad Real tal tipo de contenidos", por lo que suelen basarse en la informacin recogida de modo explcito. El motor de recomendaciones. Este mdulo proporcionar la lgica que permite particularizar y adaptar los contenidos a presentar a cada usuario (en funcin de los valores obtenidos durante la navegacin a travs del servidor de observacin), tras la aplicacin de reglas de negocio explcitas (definidas normalmente por el personal de marketing), mediante polticas de segmentacin y uso de filtros colaborativos (permite inferir preferencias de un usuario en funcin de las preferencias de los usuarios de su grupo), a travs de la gestin de la informacin explcita (recogida normalmente mediante formularios que el usuario rellena) y con herramientas de anlisis que
Pg 21 de 39

Documtica

Tema BIII-11

permiten analizar el comportamiento de los usuarios (en muchos casos involucran herramientas de datamining). El gestor de informes. Este componente es el encargado de proporcionar al personal de marketing informes de las acciones realizadas por los usuarios en el sistema, estos informes posteriormente suelen ser utilizados para plantear reglas de negocio y orientacin en las polticas de personalizacin. El gestor de datos de personalizacin. Este componente es el encargado de proporcionar acceso a la informacin registrada en la base de datos. Entre sus principales labores destaca la de realizar una abstraccin del modelo de datos respecto a la informacin requerida de personalizacin, proporcionar gestin de colas de eventos que actualicen la base de datos, mantener informacin de carcter general en memoria y proporcionar mecanismos para actualizar la misma.

4.4.3 El repositorio de contenidos


El repositorio de contenidos puede gestionar tres tipos de informacin: contenidos estticos, contenidos estticos reutilizables y contenidos dinmicos. A la hora de gestionar estos contenidos, el sistema procurar que esta subdivisin sea lo ms transparente posible a todos los niveles. El primer grupo estar formado por los contenidos estticos puros que no necesitan ningn tipo de composicin, como pueden ser las imgenes o los formularios (HTML o WML) que no presenten ningn tipo de variacin, ni por personalizacin, ni por ningn tipo de lgica de negocio. Estos contenidos dependen directamente del servidor web o del servidor de presentacin. El segundo grupo estar formado por aquellos contenidos que, aunque se presentan como estticos (por ejemplo, un XML con lista de provincias de Espaa), pueden verse afectados por polticas de personalizacin, o requieren que el servidor de contenidos realice un proceso de composicin con otros contenidos antes de la presentacin al usuario. Estos contenidos estn almacenados en documentos XML. El tercer grupo estar compuesto por los contenidos almacenados en la base de batos que en la mayora de los casos presentan un carcter dinmico, por lo que la eleccin del contenido a mostrar en cada momento podr variar en funcin de la lgica de aplicacin o de las polticas de personalizacin que se apliquen. Debido a que la base de datos puede ser accedida por diferentes sistemas, debera dejarse en manos de un servidor de aplicaciones las tareas de seguridad en las transacciones, la gestin de los pool de conexiones a la base de datos y las capacidades de clustering de los servicios.

4.4.4 Interfaz con otros sistemas


Debido a la necesidad de integrar la plataforma de gestin de contenidos y personalizacin con el resto de componentes que compondran un portal, se plantea el uso de un middleware de tipo EAI que facilite las labores de integracin. Como ya se ha mencionado, en la actualidad el uso de XML como mecanismo de intercambio de datos e informacin se plantea como una opcin muy recomendable. Siguiendo este criterio, se ha establecido, como una posible opcin para el intercambio de informacin, el uso de SOAP, protocolo basado en el intercambio de XML sobre HTTP.
Pg 22 de 39

Documtica

Tema BIII-11

Otro aspecto a tener en cuenta es la obtencin de contenidos de modo on-line, no mediante captura de contenidos, sino a travs de invocaciones a servicios externos. Un ejemplo claro de servicios de estas caractersticas puede ser la venta de entradas o de billetes de avin, donde el sistema slo puede actuar de intermediario, quedando siempre la validacin y actuacin en manos de terceros.

5 Sindicacin de contenido
En la Web existen multitud de sitios que son de nuestro inters y que se actualizan regularmente. Hace pocos aos, la rutina tpica al empezar la jornada consista en visitar estos sitios para estar al tanto de las ltimas novedades. Con el paso del tiempo, la lista de sitios se ha incrementado notablemente y la frecuencia de actualizacin es cada vez mayor, llegando a decenas de actualizaciones diarias. En estas condiciones, estar al da de estas actualizaciones es una tarea complicada y, segn se incrementa la lista de sitios, puede llegar a ser imposible. La solucin a este problema es lo que se conoce como sindicacin de contenidos. Bajo este nombre se encuentra un conjunto de formatos y aplicaciones (RSS, Atom, feeds, agregadores...) que permiten crear un resumen unificado de una serie de sitios. La base del sistema es RSS (Rich Site Summary), un formato especial, basado en XML, que permite indicar los cambios realizados. Un fichero RSS (tambin llamado alimentador, canal, feed, fuente o sumario) se puede ver, de forma simplificada, como un conjunto de actualizaciones, avisos, noticias... con sus datos asociados. Aunque es el ms extendido, no es el nico formato con este cometido, pudiendo usarse RDF o Atom. Al tratarse de un formato estndar es posible desarrollar aplicaciones que puedan utilizar esa informacin: los agregadores. Un agregador, tambin llamado lector, es un programa al que se le indican una serie de RSS de ciertos sitios de inters (subscripciones) y que peridicamente comprueba si hay entradas nuevas y las almacena. De esta forma, el usuario puede ver en el lector todas las novedades de los sitios de su inters en un nico lugar, en lugar de visitar todas las pginas. Adems, suelen incorporar valores aadidos como bsquedas, gestin de categoras, estructurarlas en rbol, agregacin de subgrupos, filtros, envo por correo electrnico...

Pg 23 de 39

Documtica

Tema BIII-11

La mayora de los agregadores soportan el formato OPML. OPML es otro formato estndar basado en XML en el que se recogen todas las subscripciones de un agregador, es decir, es la lista de los canales RSS que tiene subscritos. Como la mayora de los agregadores permiten importar/exportar este formato se puede utilizar para cargar las subscripciones cuando se cambia de agregador o para intercambiarlas. En el mercado existen multitud de agregadores entre los que se pueden distinguir tres grandes grupos:

On-line: Son pginas web que muestran los titulares de las fuentes que se le indiquen. Cada una de ellas tiene unas caractersticas diferentes, por lo que lo mejor es probar varios servicios para ver cul se ajusta a las necesidades. El primero en aparecer y el ms utilizado es Bloglines. De escritorio: Se trata de un pequeo programa que suele esconderse en el rea de notificacin y que realiza la misma labor avisando de las novedades encontradas y, habitualmente, descargando el contenido para poder verlo sin conexin. Al igual que en el caso anterior existen mltiples opciones para cada sistema operativo, por lo que se deben probar varias aplicaciones hasta encontrar la ms apropiada. Extensiones: Se trata de plugins o aadidos a otra aplicacin para que soporte la descarga y presentacin de los canales, por lo que la eleccin depende del uso del programa en cuestin. En algunos casos la extensin se ha incorporado como funcionalidad en el propio programa. Algunos ejemplos son Maxthon (incorporado desde la versin 1.0), Thunderbird (incorporado), Sage (Firefox) o RssPopper (para Outlook).

Todos los agregadores tienen un funcionamiento similar: Se busca en la pgina el icono de canal RSS (o el viejo con XML sobre fondo naranja) y se copia la direccin del feed en el agregador (en algunos, basta con dar la direccin de la pgina que ellos buscan las direcciones). A partir de ese momento el agregador comprobar las actualizaciones de ese sitio.

6 Sistemas de gestin de flujos de trabajos


6.1 Introduccin
Los Workflows son sistemas que ayudan a administrar y automatizar procesos de negocios. Un workflow puede ser descrito como el flujo y control en un proceso de negocio. La WfMC1 (Workflow Management Coalition) define los workflows como la automatizacin de un proceso de negocio, total o parcial, en la cual documentos, informacin o tareas son pasadas de un participante a otro para efectos de su procesamiento, de acuerdo a un conjunto de reglas establecidas.

La WFMC es una agrupacin compuesta por compaas, vendedores, organizaciones de usuarios, y consultores. El objetivo de esta agrupacin es ofrecer una forma de dilogo comn a todos. De esta forma las diferentes herramientas que se implementen en esta rea podrn tener cierto nivel de interoperabilidad, es decir, podrn comunicarse entre ellas para poder realizar las distintas tareas involucradas en un sistema de Workflow. Pg 24 de 39

Documtica

Tema BIII-11

Tambin definen lo que es un proceso de negocio como un conjunto de uno o ms procedimientos o actividades directamente ligadas, que colectivamente realizan un objetivo del negocio, normalmente dentro del contexto de una estructura organizacional que define roles funcionales y relaciones entre los mismos. Entre otros, tenemos multitud de ejemplos de procesos de negocios: procesamiento de rdenes, reportes de gastos, reporte de incidencias, procedimientos de desarrollo/produccin, etc. Cabe mencionar que las tecnologas de Workflows son slo un camino para la informacin, para reducir tiempo, dinero y esfuerzo en la ejecucin de un proceso de negocio. Las funciones ms comunes que proporcionan los Workflows son: Optimizar las inversiones en TI, implementando una arquitectura abierta basada en estndares de la industria, simplificando la integracin con cualquier sistema de back-office, Middleware o ERP en cualquier plataforma y sistema operativos. Como se observa en el grfico existen diferentes capas en la arquitectura Empresarial. El objetivo del Worflow es gestionar de forma automatizada los procesos y flujo de actividades, documentos, imgenes y datos orquestando e integrando los recursos informticos y los roles. Asignar tareas y recursos (documentos, informacin o aplicaciones) a las personas de manera automtica y segn cualquier criterio o carga de trabajo. Recordar a las personas sus actividades, las cuales son parte de una cola de Workflow. Automatizar y controlar el flujo de documentos, datos e imgenes. Definir y controlar alertas segn criterios de tiempo, de evento o condicin, provocando as algn mensaje al supervisor, un escalado automtico a otras personas para la resolucin o una reasignacin automtica. Alertas que se pueden notificar utilizando tecnologas Web, email, sms, o cualquier dispositivo. Proveer una vista On-Line a los supervisores de los procesos. Proveer de mtricas para los responsables de organizacin, gestores de calidad y control de gestin.

Pg 25 de 39

Documtica

Tema BIII-11

6.2 Ventajas de los Workflows


La automatizacin de los procesos de negocio de una empresa trae grandes beneficios como la reduccin del tiempo de bsqueda de papeles o el menor gasto en papelera. Estos problemas son los primeros que se abordaron con la tecnologa de Workflow. A continuacin conoceremos algunas ventajas adicionales por las cuales las organizaciones adoptan una solucin de Workflow: Eficiencia en los procesos y estandarizacin de los mismos. Esto conlleva a: o Una reduccin de costos dentro de la organizacin. o La estandarizacin de los procesos lleva a tener un mayor conocimiento de los mismos, lo que a su vez conduce a obtener una mejor calidad de estos. o Administracin de los Procesos. Utilizando la tecnologa de Workflow es posible monitorizar el estado actual de las tareas as como tambin observar como evolucionan los planes de trabajo realizados. Detectar tareas crticas y cuellos de botella. Asignacin de tareas a la gente. La asignacin de tareas se realiza mediante la definicin de roles dentro de la empresa, eliminando la tediosa tarea de asignar los trabajos caso por caso. Proveer de manera automtica del acceso a datos y documentos necesarios para la ejecucin del flujo en el formato necesario segn el perfil del usuario. Facilidad y flexibilidad a la hora de disear los procesos de la organizacin. Control y monitorizacin operacional. Seguimiento del proceso en ejecucin, histrico, tareas pendientes, bloqueos, alarmas, etc. Asegura la participacin y colaboracin de todo el personal en el proceso. Ejecucin en paralelo de tareas.
Pg 26 de 39

Documtica

Tema BIII-11

Aunque no se ha mencionado, una de las ventajas directas del uso de sistemas de WorkFlow est en su aplicacin en proyectos de reingeniera de procesos, siendo una herramienta prcticamente imprescindible para el diseo eficiente y eficaz de los nuevos procesos: Optimizacin de recursos humanos y tcnicos, alinendolos con la estrategia del negocio. Eliminacin de partes innecesarias en la secuencia de los procesos y la automatizacin de dicha secuencia.

6.3 Clasificacin de los diferentes tipos de Workflow


Aunque existen distintos tipos de clasificacin, la ms extendida es la que siguiente: a) Workflow de Produccin Frecuentemente este tipo de Workflow es llamado Workflow de Transacciones. Esto se debe a que la transaccin en una base de datos es considerada la clave de todo proceso. Este tipo de Workflow es el segmento ms grande en el mercado. En general automatizan procesos de negocios que tienden a ser repetitivos, bien estructurados y con gran manejo de datos. Las aplicaciones de Workflow que resuelven procesos de negocios donde participa gente para lograr una meta comn son llamadas Workflow de Colaboracin. Tienen mucha relacin con el Groupware. Los Workflows de colaboracin estructuran o semi-estructuran procesos de negocios donde participan personas, con el objetivo de lograr una meta comn. Tpicamente involucran documentos, los cuales son los contenedores de la informacin. Se sigue la ruta de stos paso a paso, adems de las acciones que se toman sobre ellos. Los documentos son la clave, y por lo tanto es esencial para la solucin de Workflow mantener la integridad de dichos documentos. El Workflow Administrativo como lo dice su nombre es aquel que involucra procesos de administracin en una empresa tales como rdenes de compra, reportes de ventas, etc. Estos workflows se emplean cuando existe una gran cantidad de procesos administrativos dentro de la empresa y es necesaria la distribucin de soluciones a diferentes usuarios. Una solucin de Workflow Administrativo difiere para cada organizacin, y los cambios son frecuentes. Por esto, la posibilidad de poder hacer cambios de diseo es muy importante.

b) Workflow de Colaboracin

c) Workflow de Administracin

Pg 27 de 39

Documtica

Tema BIII-11

6.4 Modelo de Referencia de WorkFlow (WfMC)


El modelo de referencia de WorkFlow, mostrado en la figura siguiente, fue desarrollado por la WfMC como estndar para tener una estructura genrica en el desarrollo de aplicaciones de Workflow.

Motor de Workflow (Workflow Engine) El motor de workflow es el software que provee el control del ambiente de ejecucin de una instancia de Workflow. Tpicamente el motor provee facilidades para: Interpretacin de la definicin de procesos. Control de las instancias de los procesos: creacin, activacin, terminacin, etc. Navegacin entre actividades. Soporte de interaccin con el usuario. Control de datos hacia el usuario o hacia otras aplicaciones. Invocacin de aplicaciones externas.

Servicio de Representacin de Workflow (Workflow Enactment Service) Este componente interpreta la descripcin de procesos y controla las diferentes instancias de los procesos, secuencia de actividades, aade elementos a la lista de trabajo de los usuarios, e invoca las aplicaciones necesarias. Todas estas tareas son realizadas por uno o ms motores de Workflow, los cuales manejan la ejecucin de las distintas instancias de varios procesos. La lista de trabajo forma parte de los datos del Workflow, ya que la interaccin con los usuarios es necesaria en algunos casos. El motor de Workflow maneja esta lista de trabajo para controlar tal interaccin. El motor deposita en la lista de trabajo los elementos que han ser ejecutados por cada usuario. La lista de trabajo puede ser visible
Pg 28 de 39

Documtica

Tema BIII-11

o invisible para los usuarios dependiendo del caso, ya que muchas veces se deja que el usuario seleccione elementos y los procese en forma individual. Interfaz de Programacin de Aplicaciones de Workflow (WAPI) Las WAPI pueden ser vistas como un conjunto de APIs (Application Programming Interface) y funciones de intercambio soportadas por el servicio de representacin de workflow. Las WAPI permiten la interoperabilidad del servicio de representacin de workflow con otros recursos y aplicaciones. Herramientas de definicin de procesos (interfaz 1) Existe una gran variedad de herramientas utilizadas para el anlisis de procesos (Ej. Visio). Estas herramientas pueden variar desde las ms informales hasta las ms formales y sofisticadas. La salida de este proceso de modelado y diseo es una definicin de procesos la cual puede ser interpretada en tiempo de ejecucin por el o los motores de Workflow. En este caso ser necesario que la herramienta disponga de los traductores adecuados para realizar la importacin del nuevo template desde herramientas no incluidas en la solucin de WF. Aplicaciones clientes (interfaz 2) En el modelo planteado la interaccin entre las aplicaciones clientes y el motor de Workflow est sostenido en gran parte por el concepto de lista de trabajo ya descrito anteriormente. Parte de la informacin almacenada en la lista de trabajo es utilizada para trasmitirle al manejador de la lista de trabajo qu aplicaciones hay que invocar. La interfaz entre una aplicacin cliente de Workflow y el motor de Workflow debe ser lo suficientemente flexible en los siguientes puntos: identificadores de procesos y actividades, estructuras de datos, diferentes alternativas de comunicacin. Aplicaciones Invocadas (interfaz 3) Esta interfaz est orientada a interactuar con agentes de una aplicacin, o con toda la aplicacin. Dichas aplicaciones deben estar orientadas al contexto general de un sistema de Workflow, es decir, deben poder interactuar directamente con el motor de Workflow. La aplicacin invocada es manejada localmente por un motor de Workflow, usando la informacin suministrada en la definicin del proceso para identificar la naturaleza de la actividad. La aplicacin invocada puede ser local al motor de Workflow, es decir, residente en la misma plataforma, o estar en otra plataforma dentro de una red. En este caso la definicin del proceso debe contener informacin necesaria para poder encontrar la aplicacin que se va a invocar (por ejemplo la direccin dentro de la red). Funciones de Interoperabilidad WAPI (interfaz 4) Existen dos aspectos necesarios para la interoperabilidad: Alcance de la interpretacin comn de la definicin de procesos que ser realizada. Soporte en tiempo de ejecucin para el intercambio de diferentes tipos de informacin de control y transferencia de los datos relevantes del Workflow, y/o de las aplicaciones entre los distintos servicios de representacin.

Pg 29 de 39

Documtica

Tema BIII-11

Desde el punto de vista de la gestin de procesos de negocio, los servicios Web y SOA prometen tambin ser una tecnologa clave. Por una parte, suponen un mecanismo de comunicacin idneo para la integracin de aplicaciones heterogneas en los procesos de negocio internos de una organizacin. Por otra, permiten implementar procesos de negocio llevados a cabo entre distintas organizaciones. Herramientas de administracin y monitorizacin (interfaz 5) El propsito de esta interfaz es permitir una vista completa del estado del flujo de trabajo, adems de poder realizar auditoras sobre los datos y procesos del sistema, funciones habituales de operacin de sistemas.

7 Bsqueda de informacin: robots, spiders, otros


7.1 Introduccin
La Recuperacin de la informacin (RI) es actualmente un campo multidisciplinario en el que investigan bibliotecarios, lingistas, psiclogos y especialistas de la informacin de ordenadores, abordando problemticas documentales tan diversas como anlisis de textos, indexacin y representacin, almacenamiento, acceso y presentacin del conocimiento. Las dos tecnologas informticas ms prximas a la RI son los Sistemas de Gestin de Bases de Datos (SGBD) y la Inteligencia Artificial (IA), pero la RI, an habiendo surgido a su abrigo, presenta caractersticas propias que la diferencia de ambas: a) trabaja con informacin no estructurado, a diferencia de los S.G.B.D. b) su objeto de trabajo es el texto, combinado normalmente con nmeros e imgenes, c) maneja volmenes de informacin enormes, con frecuencia superiores a los de cualquier S.G.B.D. por un lado, y de carcter mucho ms heterogneo que el usual en el campo de la I.A. por el otro. Una diferencia entre estos tres sistemas es el volumen de estructura usable en sus objetos de datos. Los documentos gestionados por un SRI, siendo, en general, primariamente de texto, poseen menos estructura usable que las tablas de datos gestionadas por un SGBDR, y estructuras tales como las redes semnticas usadas por un sistema IA. Otra caracterstica distinta de un SRI es que la recuperacin es probabilstica. Esto es, uno no puede estar seguro de que en un documento extrado se recoge la informacin exacta que necesita el usuario. En una bsqueda tpica en SRI, algunos documentos relevantes se pierden y otros no relevantes son recuperados. Esto puede ser contrastado con resultados de bsqueda de un SGBDR, donde la recuperacin es determinstica. En este caso, la pregunta consiste en un par de atributo-valor que coinciden o no con los registros en una base de datos. Un rasgo distintivo de los SRI, en comparacin con muchos SGBDR, es que sus bases de datos son muy grandes (algunas veces en el rango de gigabyte). Las bases de datos de catlogos de bibliotecas, por ejemplo, pueden contener millones de registros. Los servicios comerciales de recuperacin online (como Dialog o BRS) proporcionan a sus usuarios acceso en tiempo real a bases de datos de muchos gigabytes. La necesidad de buscar en colecciones tan grandes en tiempo real genera mltiples demandas en el
Pg 30 de 39

Documtica

Tema BIII-11

sistema usado para buscar en ellas. La seleccin de la mejor estructura de datos y de los algoritmos para construir tales sistemas es a menudo crucial. Otra caracterstica de un SRI, que comparte con los SGBDR, es que los datos no son voltiles. Una coleccin de documentos gestionada por una tpica aplicacin SRI (como puede ser un sistema para bibliotecas o de consulta a servicios comerciales de recuperacin de documentos), cambia constantemente a medida que se van aadiendo documentos (aunque algunos pueden modificarse o borrarse). En resumen, un SRI representativo debe tener los siguientes requerimientos funcionales y no funcionales: Debe permitir a los usuarios aadir, borrar y cambiar documentos en la base de datos. Debe proporcionar a los usuarios la manera de buscar documentos tecleando preguntas, y examinando los documentos recuperados. Debe acomodar bases de datos en el rango de MB a GB Debe permitir recuperar documentos relevantes en respuesta a preguntas interactivamente, en un tiempo de 1 a 10 segundos.

El mayor problema an pendiente de los sistemas informatizados de recuperacin contina siendo la semntica, dada la dificultad de acertar con los trminos exactos que solo aparezcan en los textos buscados y no en otros, y que el vocabulario (de las consultas) cambia con el tiempo y el punto de vista del emisor.

7.2 El software de recuperacin de informacin


Tiene como funcin principal asistir la bsqueda de textos en bases de datos documentales o textuales para localizar los documentos o referencias interesantes o relevantes ignorando todas las dems, por lo que deben mostrar una precisin y una calidad de retorno elevadas. Para un ordenador, la forma de bsqueda ms sencilla es la secuencia, que podemos asimilar como equivalente a la lectura normal de una pgina, pero aunque existen algoritmos que aceleran la bsqueda e incluso algn hardware especial, la bsqueda exhaustiva pierde eficacia conforme las consultas aumentan de complejidad y crece el volumen de informacin a examinar. Prcticamente todos los mtodos de recuperacin se basan en el mismo paradigma: identificacin de claves (palabras, frases, fragmentos de palabras) contenidas en el texto de la consulta y su bsqueda en la base de informacin o en ficheros auxiliares.

7.3 Modelos y tcnicas de recuperacin


Lo insatisfactorio de los sistemas de recuperacin por bsqueda exhaustiva y los problemas semnticos inherentes a la RI han generado una gran investigacin y diversidad de modelos de recuperacin. Aunque unos sean evolucin de otros, y algunos de ellos no puedan ser considerados ms que como meras tcnicas que se presentan conjuntamente, los principales formalismos de recuperacin son los siguientes:

Pg 31 de 39

Documtica

Tema BIII-11

7.3.1 Modelo booleano


Ha sido el ms defendido y utilizado tradicionalmente, siendo necesarios buenos conocimientos del lgebra booleana y experiencia de las claves o trminos de aparicin ms frecuente para lograr elaborar buenas consultas. Las consultas imprecisas suelen generar gran cantidad de ruido (textos indeseados o sin inters) mientras que las muy precisas pueden ignorar textos interesantes. Los parmetros de recuperacin habituales en una consulta booleana son a menudo bajos, generalmente con un 50% de textos interesantes (IR=0,5) y otro 50% de indeseados (IP=0,5). Casi todos los sistemas de recuperacin implementados sobre este modelo obligan al usuario a exponer el objeto de su consulta en trminos de una expresin booleana que combina palabras claves y otros elementos unitarios (races, sinnimos, etc.) en clusulas unidas mediante operadores booleanos Y, O y NO. Construir por tanto una buena consulta booleana resulta difcil y con frecuencia exige la colaboracin de intermediarios expertos, cuya labor consiste en aadir trminos no incluidos en principio (que se daban por supuestos), eliminar los generales o demasiado vagos, aportar sinnimos o reducir trminos a sus races (stemming). La sintaxis de una consulta normal se compone habitualmente de sucesivas clusulas O (con peligro de mucho ruido), concatenadas con clusulas Y (con peligro de excesivo acotamiento) y raramente el operador NO (peligro de construccin mal elaborada por aplicacin de las leyes de Morgan que originen grandes reas de sombra en la bsqueda). En aquellas ocasiones en que resulta necesario alcanzar una precisin elevada se recurre a operadores no booleanos, tales como operadores mtricos de proximidad o de contigidad, basndose en que la probabilidad de que dos trminos aparezcan contiguos o cercanos en un mismo documento objeto es mucho ms baja que la de que simplemente aparezcan. El proceso de consulta basado en el modelo booleano se caracteriza por ser del tipo prueba con reintento con alto grado de retroalimentacin hasta obtener una versin definitiva de la consulta que suministre una cantidad razonable de documentos, aunque dicha versin tendr seguramente al final una sintaxis bastante compleja y una estructura semntica extraa y poco inteligible. Es habitual, una vez construida la consulta, que si esta se va a repetir peridicamente sea almacenada como un perfil de bsqueda para posteriores ocasiones.

7.3.2 ndices invertidos


En grandes bases el modelo booleano obliga a examinar cantidades enormes de textos irrelevantes con el fin de localizar los que importan, por lo que desde la dcada de los 50 la investigacin realizada se ha orientado hacia el perfeccionamiento mediante mtodos de acceso no booleanos. La solucin inmediata para minimizar el tiempo que representa la bsqueda exhaustiva fue la generacin durante el proceso de catalogacin de unos ficheros auxiliares, que o bien contienen ndices de palabras o trminos claves fichero de trminos-, o bien mantienen la referencias -ficheros de apuntadores- de los documentos base donde aparecen -los ficheros de documentos fuente-. Por cada trmino, bien sea palabra clave, frase especial, o tem del tesauro existe una lista de todos los documentos en los que aparece, a la que se suele aadir la longitud de
Pg 32 de 39

Documtica

Tema BIII-11

esa lista (nmero de referencias contenidas). El proceso de recuperacin booleano se acelera as enormemente, ya que basta con aplicar los operadores O, Y y NO a las referencias contenidas en los ndices o listas de cada palabras clave de la consulta.

7.3.3 Lenguaje natural


La dificultad de aprender los lenguajes de acceso booleanos ha limitado el uso de los sistemas de recuperacin a quienes estaban dispuestos a esforzarse en dominarlos. Lo deseable para cualquier usuario sera disponer de un lenguaje natural en el cual establecer la consulta, considerando como natural aquel que permite expresar la bsqueda en un lenguaje corriente, sin necesidad de acudir a la lgica de Boole. Existen sistemas de recuperacin de informacin mediante texto coloquial sin formatear, que prescinden de la gramtica y tratan los textos y las consultas como simples listas de palabras clave que se confrontan contra los ndices invertidos para seleccionar las referencias comunes; a pesar de su simplicidad, con estos sistemas de recuperacin se alcanzan resultados similares a los de acceso booleanos.

7.3.4 Indexacin y recuperacin automticas vectoriales


Los sistemas booleanos presentan numerosos problemas y limitaciones: como es difcil de limitar a priori el nmero de documentos que deben ser recuperados una vez realizada la consulta, el resultado puede ser tanto un exceso de documentos como ausencia de ellos. Adems, tampoco se pueden seleccionar los ms relevantes ni tan siquiera pueden presentarse para su examen en orden de inters, provocando muchas veces que se desprecien los que estn al final durante el examen exhaustivo de los documentos fuente. Una solucin a este problema consiste en almacenar junto a cada trmino el nmero de ocasiones que aparece el mismo en un documento, quedando los textos representados mediante vectores cuyos elementos son las frecuencias de todas las claves de dichos textos: un vector siempre tiene tantos elementos como claves distintas haya en el ndice. Teniendo los textos vectorizados de esta forma es posible realizar consultas mediante texto no estructurado o bien en lenguaje natural. Primeramente se examina el texto de la consulta para localizar en l las claves necesarias y eliminar los trminos vacos o irrelevantes. A continuacin se construye el vector de bsqueda, cuyos elementos son las frecuencias de cada una de las claves de la bsqueda que trata de hacerse, normalmente ponderados por la funcin inversa de la frecuencia de cada clave en la base de datos. El criterio de recuperacin se basa en la similitud entre los vectores de texto y los de consulta, representados por el producto interno de los vectores u otras funciones similares. Este mtodo proporciona resultados semejantes al booleano (ndices del 50% en retorno y 50% en precisin), con la ventaja de que los textos pueden clasificarse por orden de relevancia respecto a la consulta.

7.3.5 Lgica borrosa


Una forma de mejorar la recuperacin booleana consiste en admitir diversos grados de certeza mediante lo que se ha dado en llamar lgica borrosa, que permite la aplicacin de tcnicas de cuantificacin del grado de relevancia de las claves y la combinacin de
Pg 33 de 39

Documtica

Tema BIII-11

los valores obtenidos con el fin de clasificar los textos con arreglo a su relevancia estimada. Para poder especificar qu trminos son los ms importantes, se ha propuesto una notacin para expresar la importancia relativa generalizando la lgica booleana de modo que haya grados de verdad variables entre 0 y 1. De este modo, todo documento puede ser indexado parcialmente mediante un trmino, considerndose los valores de verdad como una medida de la similitud entre una consulta y un documento. Si reordenamos los documentos obtenidos de la consulta de acuerdo a sus grados de similitud, podremos entregar primero aquellos que probablemente son los ms relevantes. Las pruebas experimentales con sistemas basados en lgica borrosa muestran buenos resultados, ya que adems de tener un IP superior, el IR aumenta de forma notable.

7.3.6 Modelos vectoriales y probabilsticos


Los modelos vectoriales y probabilsticos surgieron de las primeras investigaciones en torno a las propiedades estadsticas de las colecciones de textos. Se basan los primeros en la observacin de las frecuencias de aparicin de trminos, - presumiendo que son indicativas de su importancia -, y los segundos en el teorema de Bayes, al suponer que la importancia de un trmino puede estimarse comparando las caractersticas de aparicin en una serie de documentos relevantes con las correspondientes en el resto de la coleccin. En ambos modelos es necesario construir primero una matriz M donde se almacenan las frecuencias de todos los trminos del tesauro en todos los documentos de la base de datos. La matriz M es de dimensiones DxT, donde D son las filas que representan los documentos almacenados y T son las columnas con los conceptos o trminos presentes en el tesauro. El valor almacenado en una casilla M(i,j) indica la importancia del trmino Tj en el documento Di; una fila cualquiera Dn representar por tanto un determinado documento N desde el punto de vista de la importancia de su trminos contenidos, mientras que una columna Tm revelar la importancia del trmino M a lo largo de todos los documentos de la base de datos. La matriz as obtenida es muy grande pero tambin muy dispersa, lo que permite representarla en poco espacio. Si los datos se almacenan por columnas, esto es, por los trminos T, se obtiene un fichero invertido ampliado, y si se almacena por filas el resultado ser un fichero de vectores de documentos. El procedimiento de la recuperacin consistir en localizar documentos prximos a la consulta con arreglo a una definicin de proximidad adecuada. Como medida de la similitud se pueden calcular los valores ponderados M(i,j)xIFD, donde M(i,j) es la frecuencia del trmino Tj en documento Di e IFD es la inversa de la frecuencia del documento o logaritmo de N/FDj, siendo FD el nmero de documentos en que aparece el trmino.

7.3.7 Retroalimentacin
La relacin mutua que hay entre los ndices de retorno y de precisin en los modelos booleanos y vectoriales es aceptable en bases pequeas, pero constituyen un inconveniente grave en bases de datos grandes o muy grandes, con millones de pginas
Pg 34 de 39

Documtica

Tema BIII-11

de texto. Sus limitaciones son dos: la primera es la imperfeccin e inexactitud de casi todas las consultas (dado que faltan muchas claves relevantes y existen otras irrelevantes) y la segunda es la interrelacin (no independencia) de las claves, que no estn distribuidas en la base de datos al azar. Las funciones vectoriales de similitud exigen que las claves sean condicionalmente independientes, suponindose que las claves relevantes estn distribuidas aleatoriamente en los textos relevantes, pero la realidad es que hay entre ellas un grado de dependencia muy variable. La operaciones booleanas Y y O permiten distinguir entre claves independientes (clusula O) y dependientes (clusula Y), pero no dan indicaciones sobre las situaciones intermedias. En consecuencia, el empleo de clusulas Y para detectar claves de las que se supone que aparecen juntas en los textos relevantes tiende a eliminar muchos de estos, y el uso de clusulas O para detectar las que no aparecen juntas tiende a incluir muchos irrelevantes. Estas consultas imperfectas e imprecisas mejoran notablemente cuando se les incorpora un mecanismo de retroalimentacin en el vector de recuperacin. El mtodo consiste en que el usuario indica si entre los textos recuperados hay a algunos relevantes o no, y el sistema modifica el vector hacindolo ms parecido a los correspondientes a los textos relevantes y se aleja de los que no tienen importancia. La consulta que sigue a esa operacin suele tener un Ir = Ip = 70%, y con dos o tres repeticiones se alcanzan valores del 80%, pero a partir de ah apenas mejora nada el rendimiento.

7.3.8 Normas-Gamma
Una forma de obtener documentos ordenados con arreglo a su relevancia es interpretar las consultas booleanas con arreglo a la norma-gamma investigada por Salton, Fox y Wu en 1983. Adems de asignar valores relativos de importancia a los trminos de la consulta y grados de indexacin (comprendidos entre 0 y 1) a los trminos de cada documento, es posible modificar el rigor con que se interpretan los operadores O e Y. Con ello la conjuncin de varios trminos recuperar documentos en los que no aparecern necesariamente todos a la vez, aunque lgicamente con una similitud inferior a uno respecto a la consulta. A su vez la presencia de varios trminos dar lugar a respuestas con similitud superior a la presencia de uno solo de ellos. Si elegimos unos valores de Gamma comprendidos entre 1 e infinito (), donde 1 corresponde a la interpretacin menos estricta, ese valor Gamma identifica a la familia de normas L(Gamma) que pueden emplearse para medir la distancia de los documentos a los puntos idneos de la consulta (puesto que las consultas O han de estar alejadas del punto 0 y las Y del 1), siendo la distancia euclidiana normal cuando Gamma = 2. Situando todos los posibles valores L (Gamma) en una grfica obtendremos unas curvas de equisimilitud que representan los puntos de conexin de los documentos de la base frente a consultas de dos trminos. La familia completa de curvas recoge la variacin del rigor entre Gamma = (cuando Y se considera mnimo y O mximo) y cuando Gamma = 1 (cuando Y = O = media). Los experimentos demuestran que el uso de la norma-Gamma da lugar a recuperaciones ms eficaces que las caractersticas de sistemas booleanos tradicionales. Las consultas de norma-Gamma pueden adems construirse automticamente a partir de listas
Pg 35 de 39

Documtica

Tema BIII-11

sencillas de palabras clave. Asimismo es posible elaborar una nueva consulta con retroalimentacin cuando el usuario recibe los primeros diez o veinte documentos correspondientes a una consulta de norma Gamma e indica los relevantes, presentando la segunda consulta unos resultados muy superiores a la primera.

7.3.9 Indexacin Automtica (IA) y Sistemas expertos


El campo de la Indexacin Automtica (IA) tiene muchas parcelas relacionadas con la Recuperacin de la Informacin (RI) y es lgico que sus recientes avances tengan consecuencias en las tcnicas de recuperacin de informacin. En particular, los bajos rendimientos de las consultas booleanas provocados por la imperfeccin e interdependencia de sus trminos puede considerarse como un problema de conocimiento, en el sentido que los sistemas automticos de recuperacin ignoran las relaciones que hay entre las palabras: si pudiera incorporarse el conocimiento de tales relaciones al sistema de recuperacin se obtendra un notable aumento del rendimiento. Un sistema de recuperacin automtico podra servirse de un diccionario, como corpus continente de relaciones semnticas (redes semnticas de la IA) entre palabras ordenadas, para reemplazar (mediante relaciones es-un) las claves de consulta por grupos de claves relacionadas con ellas. Ello eleva el rendimiento hasta ndices del 60% tanto de retorno como de precisin si se aplica aadido a otras tcnicas de recuperacin como el modelo vectorial. Los diccionarios considerados como reflejo de redes semnticas representan conocimientos adquiridos y estructurados antes de que se produzcan las consultas de los usuarios. Pero si se dispone de esos conocimientos tambin pueden aplicarse las tcnicas de los sistemas expertos basados en reglas a las tcnicas de recuperacin. Cada tpico conceptual del espacio problema motivo de la base documental se estructura en forma de conjunto de normas de acceso. Cada norma es una implicacin o regla: la existencia de una determinada pauta implica, con un grado de confianza dado, la existencia de un tpico conceptual en el texto. Las normas se ordenan jerrquicamente en rbol, de forma que en cada nivel del rbol, los tpicos quedan implicados por pautas de subtpicos, y as sucesivamente hasta las de nivel inferior (hojas), donde se hacen referencia a pautas de palabras o a frases del texto. Todas ellas junto con el ndice invertido conforman una base de conocimientos. El mtodo de recuperacin consiste en expresar las consultas como solicitudes de textos relevantes con relacin a un tpico particular, producindose a continuacin la bsqueda en la base de conocimientos mediante activacin de reglas, que producen finalmente una relacin clasificada de textos potencialmente relevantes. Estos mtodos son solamente aplicables en bases pequeas, pero a cambio llegan a alcanzarse ndices del 100% en retorno y del 93% de precisin. Es por lo tanto necesario investigar en su generalizacin en grandes bases, y desarrollar interfaces que permitan al usuario elaborar fcilmente y modificar sus propios conjuntos de normas de acceso.

7.3.10

Sistemas que hojean (hipertexto e hipermedia)

Los sistemas hipertexto son consecuencia directa de los ltimos adelantos en la creacin de punteros y dispositivos de presentacin. Son relativamente menos complejos, y su modo de actuacin reproduce el humano, consistente en rpidas ojeadas de seleccin buscando referencias en contextos sin anlisis con profundidad de los contenidos,
Pg 36 de 39

Documtica

Tema BIII-11

auxilindose de sealadores implcitos y explcitos para saltar de un lado a otro cuando se busca algo en particular, tal como se realiza con un libro (ndice, referencia, ojeo, etc.). Las respuestas a una consulta pueden localizarse siguiendo esos vnculos o ligaduras, como pueden ser el ndice de captulos, del ndice alfabtico, de figuras o de otros sealadores o recurriendo a tcnicas tradicionales de bsqueda de textos. Pero su mayor ventaja consiste en aprovechar la posibilidad de ventanas funcionales en pantallas de alta resolucin, que permiten al usuario visualizar varios documentos simultneamente, o tal vez diferentes partes o textos de un mismo documento, facilitando por tanto la exploracin de relaciones entre documentos que no han sido preestablecidas ni previstas.

7.4 Evaluacin de los resultados


La evaluacin de los resultados es de gran importancia a la hora de hacer un anlisis o una estimacin del xito en la recuperacin de informacin, del grado de satisfaccin de los usuarios, etc. Despus de realizar una bsqueda, los resultados pueden ser evaluados bien por el buscador o bien por el usuario. En el caso del buscador, ste slo puede valorar si los documentos o referencias bibliogrficas coinciden con la demanda de informacin hecha por el usuario y con la estrategia de bsqueda ejecutada, determinando si son relevantes o no. En el caso del usuario, ste valorar si los documentos satisfacen su necesidad de informacin, determinando si son relevantes o no. Como puede verse, la base para evaluar la eficacia de una bsqueda es el concepto de relevancia, sobre el que siempre ha existido mucho debate acerca de su carcter subjetivo u objetivo y otras cuestiones. Lancaster se refiere a la relevancia para indicar la relacin que existe entre un documento y una peticin de informacin desde el punto de vista de un evaluador, y a la pertinencia para indicar la relacin entre un documento y una necesidad de informacin, basada en la decisin del usuario. Otros autores slo hablan de relevancia, si bien distinguen la relacionada con la peticin de informacin y la relevancia para la necesidad de informacin. Para un tema o una necesidad de informacin determinada, existen en una base de datos documentos (registros) relevantes y no relevantes. Y cuando se realiza una bsqueda se recupera una cantidad de registros, pero se dejan de recuperar otros muchos. En base a esto, se puede construir una tabla de dos por dos para poder calcular de forma sencilla las medidas de evaluacin, que se expresan mediante ratios. Relevantes Recuperados No recuperados Total A xitos C Docs. Perdidos A+C B Falsos recuperados D Correctamente rechazados B+D A +B + C + D Toda la bd
Pg 37 de 39

No relevantes A+B C+D

Total

Documtica

Tema BIII-11

Las medidas que se utilizan para evaluar los resultados de una bsqueda son los siguientes: ndice de retorno o llamada: Proporcin de documentos relevantes de una base de datos que son recuperados para una bsqueda determinada; es decir, A / (A + C) ndice de pertinencia o de precisin: Proporcin de documentos recuperados de una bsqueda que son relevantes; es decir, A / (A + B). Estas dos medidas juntas expresan la capacidad de filtrado del sistema: dejar pasar lo que se busca y retener lo que no interesa. Lo ideal sera conseguir siempre un ndice de retorno y de precisin del 100%, algo que en la prctica es sumamente improbable. Por consiguiente, hay que buscar un equilibrio entre el ndice de retorno y el ndice de precisin. Dicho equilibrio puede inclinarse a favor de un ndice o de otro, segn las necesidades de informacin del usuario. Los ndices complementarios de los dos anteriores son los siguientes: Silencio: Es la proporcin de documentos relevantes de una base de datos que no se han recuperado en la bsqueda: C / (A + C) Ruido: Es la proporcin de documentos recuperados de una base de datos que no son relevantes en la bsqueda: B / (A + B) En un marco prctico se puede medir fcilmente la precisin; sin embargo, el retorno es ms difcil, ya que no podemos saber con los resultados obtenidos cul es el nmero de documentos relevantes que no se han conseguido recuperar.

7.5 Robots y motores de bsqueda


El rpido crecimiento del volumen de informacin disponible en Internet, ha hecho necesario mejorar los mecanismos de bsqueda y aprovechar al mximo las posibilidades que nos ofrece la propia Internet. Para ello es necesario conocer cmo funcionan los buscadores como herramienta bsica, as como otros mtodos para realizar bsquedas. Si se busca un documento en Internet que realmente existe, tarde o temprano lo encontraremos, pero se trata de encontrarlo en el menor tiempo posible. Un conocimiento de las caractersticas de los diferentes buscadores permite elegir el mtodo de bsqueda en cada caso. Dentro de un mismo buscador, adems, el resultado puede variar muchsimo, como veremos, refinando la interrogacin a la base de datos. Por tanto, la idea principal es saber las posibilidades de los distintos buscadores, y establecer una comparacin entre las caractersticas de cada uno de ellos. Un motor de bsqueda o mecanismo de bsqueda (search engine) es un programa que realiza bsquedas dentro de una base de datos. En el caso que nos ocupa, la base de datos es de recursos web. Un robot, segn el WWW Robots FAQ, es un programa que de manera automtica atraviesa la estructura de documentos Web extrayendo un documento y a partir de ste extrayendo recursivamente todos los documentos que estn referenciados por enlaces. Los documentos son introducidos en una base de datos e indexados para su posterior localizacin por un mecanismo de bsqueda. Un ndice o directorio es una recopilacin manual de documentos, que pueden mantenerse como directorio o bien ser introducidos tambin en una base de datos para permitir que se realicen bsquedas.
Pg 38 de 39

Documtica

Tema BIII-11

Los robots nacieron con la funcin de medir el tamao del WWW, pero rpidamente se convirtieron en herramientas muy tiles para localizar documentos. El criterio para seleccionar las pginas que visita un robot depende de cada robot. En general parten de una lista de servidores inicial, y a partir de ah va visitando los diferentes enlaces de cada pgina hasta un nivel arbitrario respecto al inicial. Cuando un robot entra en un nuevo servidor, busca un fichero que se llama robots.txt, en el que se le indican los directorios permitidos y los prohibidos. Si este fichero no existe, considera todos permitidos. Adems, se puede solicitar al robot direcciones de pginas para que sean visitadas e incluidas en la base de datos. Para esto se suele rellenar un formulario (submission form). La manera en que cada robot indexa el contenido de las pginas que visita tambin vara de unos a otros. Algunos robots indexan los ttulos de pginas HTML, los primeros prrafos o el contenido entero del documento, etc. ltimamente se ha generalizado el uso del elemento HTML <META> (etiquetas META o metaetiquetas), que est oculto para el usuario, y que permite al creador de la pgina indicar al robot qu palabras clave quiere que sean indexadas y la descripcin de la pgina que aparecer cuando un usuario la localiza. Los motores de bsqueda realizarn bsquedas dentro de una base de datos de documentos, que puede haber sido recopilada por un robot, o bien puede ser un ndice recopilado manualmente. En cualquier caso, el motor de bsqueda recibe la interrogacin del usuario (query), que consiste en una o varias palabras, realiza la bsqueda en la base de datos, y extrae una lista ordenada de documentos que cumplen entera o parcialmente con la interrogacin. El orden depende de una puntuacin (score) que asocia el programa a cada documento cuando realiza la bsqueda, y en cada caso vara. Normalmente se suelen tener cunto antes aparecen las palabras, cunto ms juntas se encuentran entre s, etc. Sustancialmente, las tcnicas de recuperacin de informacin empleadas por los motores de bsqueda en Internet, en un principio, derivaban de las empleadas tradicionalmente en el campo de los S.R.I. y es por ello que han comenzado a surgir grandes problemas cuando realizamos operaciones de recuperacin de informacin con ellos, en tanto que el entorno de trabajo no es el mismo y las caractersticas intrnsecas de los datos almacenados en los mismos difieren considerablemente. Adems, en el entorno web surgen problemas nuevos tal como es el caso del famoso fenmeno denominado "spamming", por medio del cual los constructores de pginas webs introducen en la descripcin de las mismas trminos que nada tienen que ver con el contenido de las mismas, por ejemplo: "mp3", "sex", "pamela anderson", "microsoft" (trminos todos ellos de uso muy frecuente por todos aquellos usuarios de los motores de bsqueda) y que provocarn que estos usuarios recuperen esas pginas "trucadas" cuando ellos pretenden recuperar documentos de otra temtica. Otro problema importante que afecta a la efectividad de estos sistemas reside en el enorme tamao del ndice, que poco a poco llega a alcanzar magnitudes impresionantes.

Pg 39 de 39

Potrebbero piacerti anche