ndice Definicin y orgenes Objetivos Descripcin funcional de un SRI Normalizacin de Datos Diseminacin Selectiva de la Informacin Bsqueda retrospectiva Bsqueda en ndices Estructura de un SRI Capacidades de un SRI Bsquedas Gestin de resultados Otras capacidades Definicin de SRI y orgenes SRI SRI: Sistema de informacin, generalmente automatizado, que tiene por finalidad exclusiva y excluyente el almacenamiento, el procesamiento, la recuperacin y la difusin de la informacin contenida en documentos de cualquier especie. De forma breve, es un sistema capaz de almacenar, recuperar y mantener informacin. Esta informacin podr ser de todo tipo: texto, imgenes, audio, vdeo y otros objetos multimedia De forma ms especfica a nuestro objeto, nos ceiremos al caso de que sea automatizado, es decir, al conjunto de componentes informticos (tanto hardware como software) Orgenes y evolucin de los SRI El primer SRI se cre por la necesidad de organizar la informacin contenida en grandes almacenes de informacin. Diversos autores plantean distintos enfoques de la evolucin de los SRI. Baeza-Yates plantea tres fases basndose en la adopcin y generalizacin de ciertas tcnicas y en la proyeccin de los SRI creados. Evolucin de los SRI segn Baeza-Yates 1. Desarrollos iniciales: Antes de los sistemas automatizados ya existan sistemas de recuperacin, como los ndices asociados a las colecciones de papiros o incluso las tablas de contenido en los libros. Se trata de sistemas manuales y de mbito limitado. 2. Recuperacin de la informacin en bibliotecas: Las bibliotecas fueron las primeras en implementar SRI, primero manuales y luego automatizados, por ejemplo fichas bibliogrficas. Se pueden distinguir varias subfases: medios manuales, mecanizacin local, mecanizacin con acceso remoto, interfaces integradas basadas en hipertexto 3. La era WWW: El abaratamiento de las tecnologas informticas, popularizacin de Internet y la consolidacin de la Web han producido una tendencia de los SRI a explotarse por esta va. Aparece el trmino WIS (Web Information System) Objetivos Objetivos de un SRI El principal objetivo de un Sistema de Recuperacin de la Informacin es satisfacer una necesidad de informacin. Para satisfacer distintos tipos de NI es necesario crear distintos tipos de SRI, o bien implementar diversos mecanismos en el mismo SRI en funcin de las necesidades del usuario. Objetivos de un SRI Si se trata de una NIOP, el SRI que pretenda satisfacerla debera seguir ciclos de informacin para mantener al usuario al da de las modificaciones o adiciones al fondo del SRI: Diseminacin Selectiva de la Informacin. Para una NIC no debera ser necesaria la implementacin de esta capacidad, dadas las caractersticas de este tipo de necesidad de informacin. Los SRI orientados a la satisfaccin de una NIC se denominan factogrficos o bases de datos factuales. Objetivos de un SRI La presencia de retroalimentacin (feedback) en el sistema slo tiene sentido para el caso de las NIOP. Feedback es un proceso de refinamiento de la consulta tras haber devuelto el sistema unos resultados correspondientes a dicha consulta, es decir, la utilizacin de los resultados de las consultas previas para refinar las posteriores.
Objetivos de los SRI El objetivo general de un SRI es minimizar el esfuerzo que realiza un usuario tratando de localizar la informacin que necesita. Este esfuerzo se expresa en trminos del tiempo que un usuario utiliza en todos los pasos que conducen a la lectura de un tem que contiene la informacin que necesita. Sin embargo, no es habitual que la NI del usuario se satisfaga con la consecucin de un tem. En algunas circunstancias, la informacin que necesita se puede definir como toda la informacin contenida en el sistema que tiene que ver con las necesidades del usuario. En otros casos se puede definir como la suficiente informacin que tiene el sistema y que es necesaria para completar una tarea, permitiendo incluso la prdida de datos.
Relevancia y pertinencia Segn la RAE: Relevancia es cualidad o condicin de relevante, importancia, significacin; el trmino relevante es definido como sobresaliente, destacado, importante o significativo Entendemos entonces que un documento recuperado de un SRI se considera relevante cuando el contenido del mismo posee alguna significacin o importancia con motivo de la pregunta realizada por el usuario, es decir, con su necesidad de informacin. Es muy difcil definir unos criterios para determinar cundo un documento es relevante. Es ms fcil proceder a la determinacin de la relevancia que explicar cmo la misma se ha llevado a cabo (Blair, 1990). Relevancia y pertinencia Por tanto la relevancia est fuertemente ligada a criterios subjetivos del usuario. Muchas veces el usuario sabr con certeza si considera un documento relevante pero no sabr definir los criterios usados para llegar a esa conclusin. La relevancia no podr ser por tanto definida en trminos absolutos de SI/NO, sino como una caracterstica evaluable. Relevancia y pertinencia El Diccionario de la RAE define pertinencia como calidad de pertinente y se entiende pertinente como "todo lo que viene a propsito o resulta oportuno". Por tanto un documento pertinente es un documento que resulta oportuno, porque le proporciona al usuario final la informacin que a l le cumple algn propsito. La pertinencia o no de un documento respecto a la NI de un usuario tambin tendr un fuerte componente subjetivo.
Eficiencia de un SRI Respecto de una necesidad de informacin concreta y al realizar una consulta al SRI los tems contenidos pueden clasificarse en funcin de su relevancia en: Relevantes recuperados Relevantes no recuperados No relevantes recuperados No relevantes no recuperados
Relevantes Recuperados Relevantes No Recuperados No Relevantes Recuperados No Relevantes No Recuperados Relevantes Recuperados Relevantes No Recuperados No Relevantes Recuperados No Relevantes No Recuperados Eficiencia de un SRI En funcin de lo anterior analizaremos dos conceptos para medir la eficiencia de un SRI respecto de las consultas de los usuarios:
PRECISIN EXHAUSTIVIDAD
Precisin Definiremos precisin de un sistema como el porcentaje de documentos relevantes recuperados tras una consulta respecto al total de documentos recuperados
s recuperado documentos de Total s recuperado relevantes Documentos Precisin Exhaustividad
Definiremos exhaustividad como el porcentaje de documentos relevantes recuperados tras una consulta respecto al total de relevantes que existen en el sistema para esa consulta.
relevantes documentos de Total s recuperado relevantes Documentos dad Exhaustivi Un sistema ideal debe tratar de que el nmero de documentos relevantes no recuperados se minimice, as como el nmero de no relevantes recuperados. En el primer caso se mejora la exhaustividad y en el segundo, la precisin. La falta de precisin implicar un esfuerzo del usuario tras la recuperacin para una consulta concreta, puesto que normalmente el usuario visualizar todos los resultados (o al menos los que el sistema marca como ms relevantes) que devuelve el sistema y realizar una seleccin de los que considera relevantes. La exhaustividad mide lo bien que un sistema es capaz de procesar una consulta a travs de la recuperacin de tems relevantes, puesto que un mayor grado de exhaustividad es un indicativo de que menos documentos relevantes quedan que no hayan sido ofrecidos al usuario tras una consulta. La precisin es una funcin de la recuperacin de tems no relevantes, mientras que la exhaustividad no lo es. Precisin / exhaustividad La precisin y la exhaustividad estn interrelacionadas entre s. Para ilustrar esto utilizaremos un ejemplo: Supongamos un SRI ideal, en el que para una consulta concreta existen N documentos relevantes para el usuario. Podemos evaluar como evolucionan la precisin y la exhaustividad en funcin de los documentos que se recuperen en la consulta. Puesto que el sistema es ideal, supondremos que cuando se recuperen hasta N documentos, todos ellos sern relevantes. Precisin / exhaustividad El siguiente grfico mostrar entonces esta evolucin. % 1 N Items Recuperados N PRECISION E X H A U S T I V I D A D % 1 N Items Recuperados N PRECISION E X H A U S T I V I D A D Precisin / exhaustividad Si ahora representamos cmo se comportan para este sistema ideal la precisin y la exhaustividad, una en funcin de la otra, obtenemos la siguiente grfica: N PRECISION EXHAUSTIVIDAD 100% 100% N PRECISION EXHAUSTIVIDAD 100% 100% Precisin / exhaustividad En la realidad cotidiana los SRI no se comportan de este modo. Es muy habitual encontrar grficas de relacin de la precisin frente a la exhaustividad con este aspecto PRECISION EXHAUSTIVIDAD 100% 100% 80% 60% 40% 20% 80% 60% 40% 20% PRECISION EXHAUSTIVIDAD 100% 100% 80% 60% 40% 20% 80% 60% 40% 20% Precisin / exhaustividad En el caso ideal, el sistema es preciso al 100% mientras no se alcance una exhaustividad del 100%, en cuyo caso tenemos un punto de funcionamiento ptimo (P=1, E=1), y un conjunto de puntos donde la exhaustividad se mantiene al 100% pero la precisin vara entre 0% y 100%. La explicacin es evidente: si el sistema es capaz de recuperar slo todos los documentos relevantes para una consulta, estamos en el punto ptimo. si se recuperan menos, el sistema es preciso al 100%, pero no es completamente exhaustivo si se recuperan ms, el sistema es exhaustivo al 100%, pero no es completamente preciso. Precisin / exhaustividad En el caso real, vemos que cuando tratamos de aumentar la precisin obtenemos una disminucin de la exhaustividad, y a la inversa, cuando se trata de aumentar la exhaustividad la precisin disminuye. Es decir: Si se pretende que el sistema se acerque a la recuperacin de todos los documentos relevantes, se introducir un ruido de cierta forma inevitable incluyendo documentos que no son relevantes; Si se pretende tener un elevado grado de precisin se introducir un cierto grado de silencio, de modo que se puede correr el riesgo de no incluir documentos que posiblemente sean relevantes. Las investigaciones en los SRI avanzan y stos tienden a comportarse como en el caso ideal, aunque alcanzar el ideal ser prcticamente imposible. De este modo objetivo general de los SRI se puede redefinir como la ayuda a la generacin de consultas del usuario para minimizar el esfuerzo que ste emplea en las bsquedas. Existen obstculos naturales que complicarn esta tarea, como son las ambigedades inherentes al lenguaje (sinnimos, homgrafos, homnimos, acrnimos,...) y las diferencias en el vocabulario habitual entre los usuarios y los entornos de la informacin. Descripcin funcional de un SRI Procesos de un SRI Un SRI completo se debe componer de 4 grandes procesos funcionales: La Normalizacin de Datos La Diseminacin Selectiva de la Informacin La Bsqueda Retrospectiva La Bsqueda en ndices junto a la Creacin Automtica de Ficheros.
Esquema funcional de un SRI Normalizacin de Datos Diseminacin Selectiva De la Informacin Entrada de Datos F i c h e r o s d e C o r r e o P e r f i l e s d e U s u a r i o Bsquedas retrospectivas Indexacin automtica de documentos F i c h e r o s
d e d o c u m e n t o s F i c h e r o s
d e i n d i c e s Normalizacin de Datos Diseminacin Selectiva De la Informacin Entrada de Datos F i c h e r o s d e C o r r e o P e r f i l e s d e U s u a r i o Bsquedas retrospectivas Indexacin automtica de documentos F i c h e r o s
d e d o c u m e n t o s F i c h e r o s
d e i n d i c e s Normalizacin de datos Se trata del primer paso para la inclusin de datos en el sistema Se trata no slo de traducir los mltiples formatos externos a uno comn comprensible por el sistema, sino que adems hay que reestructurar de forma lgica el dato de entrada Adems, son necesarios otros procesos para crear estructuras de datos que permitan realizar las bsquedas: identificacin de trminos, caracterizacin de trminos, stemming, etc. A continuacin veremos el flujo de trabajo en el caso de un sistema que contenga informacin documental Fases de la normalizacin de datos Estandarizar la entrada Subagrupacin lgica (zoning) Actualizar el Fichero de Documentos Identificar tokens Aplicar listas de detencin Caracterizar tokens Aplicar Stemming Crear estructura de datos buscable Estandarizar la entrada Subagrupacin lgica (zoning) Actualizar el Fichero de Documentos Identificar tokens Aplicar listas de detencin Caracterizar tokens Aplicar Stemming Crear estructura de datos buscable Subprocesos de la normalizacin Estandarizacin de la entrada: Se toman diferentes formatos externos y se convierten a uno comn comprensible por el sistema. Por ejemplo, usar el mismo formato de caracteres para almacenar los documentos (ISO-LATIN-1), en lugar de utilizar varios sistemas de codificacin (KOI-7, KOI-8, japons, rabe,...). Subagrupacin lgica (zoning). Analizar los datos y agruparlos en subdivisiones lgicas que tengan sentido para el usuario. Es un proceso visible por el usuario y se utiliza para aumentar la precisin de una bsqueda y optimizar la visualizacin de resultados. Por ejemplo, se puede dividir cada documento en autor, ttulo, resumen, texto principal, conclusin y referencias. En definitiva, se trata de estructurar el documento de forma comprensible para el usuario. (Nota: no se utiliza el trmino campo en lugar de zona puesto que no existe independencia de los datos contenidos en uno o varios contenedores). Subprocesos de la normalizacin Identificacin de tokens: identificar los trminos que se van a utilizar en bsquedas posteriores. (No se utiliza el trmino palabra en lugar de token, puesto que token es ms genrico, y puede significar un conjunto de palabras con significado propio, por ejemplo, Estados Unidos de Amrica). El proceso consiste bsicamente en identificar trminos, simples o no. Para ello se buscan tres tipos de smbolos: Smbolos pertenecientes a palabras Smbolos separadores de palabras Smbolos especiales Subprocesos de la normalizacin Aplicacin de listas de detencin. Se aplican algoritmos de detencin para ahorrar recursos al sistema y eliminar del conjunto de tokens aquellos que tienen muy poco significado o poco valor para el sistema. Las listas de detencin tambin se conocen como listas de palabras vacas. En los algoritmos de detencin se emplean tcnicas como la evaluacin de la frecuencia de aparicin de los trminos y/o su semntica. Por ejemplo, una palabra que aparece en casi todos los documentos de entrada tiene muy poco valor discriminante en una bsqueda, y los artculos, preposiciones, conjunciones, etc. tampoco son importantes.
Ley de Ziph: Frecuencia x Ranking = Constante.
A veces los trminos que aparecen muy pocas veces en la base de datos, se suelen eliminar para ahorrar recursos, porque difcilmente sern utilizadas en las bsquedas. Por ejemplo, se suelen eliminar los nmeros con ms de un cierto nmero de dgitos, palabras combinaciones de letras y nmeros, etc. Esto se hace para ahorrar recursos, pero si el sistema es lo suficientemente potente como para trabajar con estos trminos, entonces no se eliminan. Subprocesos de la normalizacin Caracterizacin de tokens. Identificacin de las caractersticas de las palabras que aparecen en el documento de entrada. Por ejemplo, se hacen distinciones para una palabra sobre si se trata de un verbo, un adjetivo, un nombre, etc. porque segn el caso tiene distintos significados. Stemming. Normalizar los tokens a una representacin semntica comn. Consiste en obtener la raz morfolgica del trmino que se est tratando, Se consigue, por ejemplo, que todas las variantes verbales de una palabra se conviertan en un solo token. Aplicar estos algoritmos mejora la exahustividad, pero con una parte de renuncia a la precisin, y se reduce la sobrecarga del sistema en las consultas puesto que se expande una bsqueda del token a tokens similares. Creacin de estructuras de datos que permitan las bsquedas. Despus de finalizar el tratamiento de los tokens, stos se utilizan para actualizar la estructura de datos que permite las bsquedas sobre los contenidos del sistema. Representacin interna de tems sobre los que el usuario puede incluso realizar bsquedas, por ejemplo ndices. Puede contener conceptos semnticos que representan tems en la base de datos, y limitan lo que el usuario puede encontrar como resultado de una bsqueda. Diseminacin selectiva de la informacin La DSI es un proceso que permite al usuario de un SRI mantenerse actualizado en lo referente a sus consultas respecto a las actualizaciones que pueda sufrir la informacin incluida en el SRI La DSI proporciona la capacidad de comparar dinmicamente nuevos tems introducidos en la base de datos con las declaraciones de inters (NI a satisfacer) de los usuarios realizadas con anterioridad. De esta forma es posible mantener a los usuarios informados de los nuevos tems que se introduzcan en el sistema y cuyos contenidos coincidan con las declaraciones de inters mencionadas. La DSI tiene dos componentes fundamentales: Perfiles de usuarios. Son las declaraciones de NI de los usuarios sobre los nuevos elementos que sean introducidos en el sistema. Se puede considerar como una consulta normal, pero generalmente ser de mayor tamao que las consultas retrospectivas (habituales). Ficheros de correo de usuarios. Consiste en una especie de almacn de informacin donde se van colocando, para cada usuario, aquellos tems nuevos en la base de datos que satisfacen su perfil de usuario. Diseminacin selectiva de la informacin Cuando se recibe un nuevo tem en la base de datos, se procesa contra todos los perfiles de usuario que existen de forma que si el tem satisface alguno de estos perfiles, pasa a formar parte del fichero de correo del usuario al que pertenece el perfil. De forma peridica (segn la frecuencia de actualizacin del sistema y las preferencias del usuario) se envan los ficheros de correo a los usuarios para informarles de las novedades del sistema. En general, el perfil de usuario contendr muchos ms trminos que una sola consulta retrospectiva porque el usuario suele tener inters en muchos temas En las bsquedas retrospectivas se contrasta una consulta con todos los documentos del sistema; en la DSI se contrasta un documento con todas las consultas que hay almacenadas en el sistema en forma de perfiles de usuario. Esto implica que a veces los perfiles sean considerados como documentos, y que el documento sea considerado como una consulta. Bsqueda retrospectiva Es el proceso mediante el cual se puede obtener informacin del SRI realizando una consulta sobre todos los tems contenidos en el sistema en un momento concreto. Los elementos que componen el proceso son: Consulta del usuario Base de datos de documentos Proceso de bsqueda La diferencia entre este tipo de consultas y los perfiles DSI es que son tpicamente ms cortas y ms enfocadas en un rea de inters. Puesto que los SRI pueden contener cientos de millones de tems y el valor de la informacin puede decrecer con el tiempo, algunos SRI proporcionan lmites temporales a las bsquedas, de forma que se pueden hacer bsquedas en intervalos de tiempo definidos por los usuarios. El procesamiento de las consultas es un proceso complejo, que depende de muchos factores que veremos en detalle.
Bsqueda en ndices Es importante distinguir entre el proceso de indexacin de documentos, y el proceso de bsqueda en ndices. Cuando un usuario considera un tem como de inters, lo puede almacenar de forma lgica en el sistema para futuras referencias. A esto se le conoce como indexacin (referencial). Existen dos posibles motivos para la indexacin: Almacenar el ndice junto con la informacin necesaria para el usuario, de modo que no se necesite referenciar o volver al tem que sirvi de base para el ndice para recuperar la informacin que el usuario necesita. Un ejemplo claro son las tarjetas de referencia bibliogrfica de las bibliotecas. Crear una base de datos estructurada que referencie los tems en la base de datos de documentos, y permita su recuperacin a travs de la bsqueda en esta base de datos. Bsqueda en ndices Existen dos clases de ficheros de ndices: Pblicos: Mantenidos por el personal responsable y especializado de los servicios documentales. Indexan la totalidad de documentos en una base de datos. Privados: Los utilizan los usuarios y referencian un conjunto pequeo de todos los tems en la base de datos. El proceso de Creacin Automtica de Ficheros (tambin llamado extraccin de la informacin) ayuda en la creacin de ficheros de ndices. Se procesan documentos de entrada y se determinan automticamente ndices potenciales para el tem. Las reglas que rigen este proceso se almacenan en los perfiles CAF. Cuando un tem se procesa, el resultado es la creacin de registros de ndices candidatos. En algunos casos esto lleva a la insercin de elementos en los ficheros de ndices pblicos. Estructura de un SRI La estructura bsica de un SRI se puede representar as: BID MO BAR BIC MA OC MC SRI I1 I2 I3 O BID MO BAR BIC MA OC MC SRI I1 I2 I3 O Estructura de un SRI El sistema debe tener al menos dos tipos de entradas: Entrada de objetos para su almacenamiento y posterior recuperacin (documentos). Entrada de requisitos para la recuperacin de objetos previamente almacenados (consultas).
Los documentos que se introducen por la entrada 1 se traducen al Lenguaje de Recuperacin Interno (LRI) en un proceso que se conoce como indexacin de documentos. El resultado de la traduccin es lo que se llama el perfil del documento. Las consultas que se introducen por la entrada 2 tambin se traducen, en un proceso llamado indexacin de consultas (si las consultas no vienen expresadas en un lenguaje que pueda entender el SRI). El resultado de la traduccin se llama formulacin de la consulta, o simplemente consulta. Estructura de un SRI Los resultados de la indexacin entran en el Bloque de Almacenamiento y Recuperacin, donde se realiza o bien el almacenamiento fsico de los perfiles de documentos de entrada, o bien la bsqueda de la informacin expresada en la consulta. El Objeto de Control no proporciona buenos resultados en una primera consulta cuando trata de satisfacer una NIOP, puesto que no considera sus propiedades. Los resultados de la primera consulta difcilmente devolvern todos los documentos esperados. Ser necesario realizar nuevas consultas para conseguir el objetivo. Es necesario, proporcionar una funcionalidad que incorpore el sistema y que sirva para evaluar la calidad de los resultados obtenidos desde el punto de vista del usuario. La optimizacin ser una tarea importante para poder controlar el SRI. La existencia de un feedback (o retroalimentacin) es una condicin indispensable para cualquier proceso de optimizacin. Dadas las caractersticas de las NIOP y de los SRI, podemos mostrar un proceso de recuperacin de informacin en un instante particular del tiempo del siguiente modo: A es el conjunto de documentos que realmente satisfacen la NI del usuario B representa los documentos que satisfacen la NIOP que el usuario es capaz de expresar C representa los documentos que el SRI entiende que satisfacen la NI expresada Hay que determinar el nivel de discrepancia entre A y C a travs de mecanismos de control que sean capaces de alterar el estado del sistema para ajustarse ms a los resultados esperados por los usuarios en consultas sucesivas. El feedback se puede entender como el mecanismo que minimiza esta diferencia entre A y C
Feedback Este control se parece ms a un mecanismo de adaptacin que de optimizacin, puesto que las mejoras que se pueden obtener en el sistema se van aplicando consulta tras consulta. Los sistemas de control tratan 4 tipos bsicos de problemas: estabilizacin, control del programa, monitorizacin adaptacin. ste ltimo es el ms complejo. El proceso de adaptacin tiene que resolver dos problemas: Elegir el mejor estado del sistema, para proporcionar la mejor salida al usuario (proceso de optimizacin). (Aplicable a consultas aisladas). Adaptarse a una NIOP cambiante, aun cuando el sistema se encuentra en el mejor estado posible, puesto que la NIOP del usuario cambia constantemente (proceso de adaptacin). (Aplicable a secuencias de consultas). El proceso de feedback afectar a la estructura del SRI. El proceso de feedback requiere una entrada: La informacin de esta entrada es la reaccin del usuario a la informacin recuperada por el sistema. Puesto que el SRI es un sistema de control y todos los sistemas de control tienen un mecanismo de control y un objeto de control, habr que considerar ambos en la estructura del SRI. Esto es lo que representan los mdulos MC y OC: El MC implementar un mecanismo de feedback que optimiza la recuperacin y se adapta a las NIOP. Deber contener dos sistemas: el Mecanismo de Optimizacin y el Mecanismo de Adaptacin. El MO y el MA interactan de la siguiente forma: si el resultado que obtiene el usuario es la unin de varios resultados obtenidos durante diferentes estados del sistema, la reaccin del usuario inicia el MO. Cuando el MO transforma el estado del sistema en el mejor estado posible, comienza a funcionar el MA. El resultado del MC afecta a la formulacin de resultados. En general podr actuar sobre los bloques BID, BIC y BAR, pero analizaremos ms adelante cul es la mejor opcin de todas. Capacidades de consulta de los SRI Bsquedas El objetivo de la funcin de bsqueda es permitir un mapeado entre las NI de un usuario y los tems en el SRI que responden a esa NI. El medio que el usuario utiliza para comunicarse con el sistema es la consulta. La consulta puede constar de un texto en lenguaje natural y/o trminos de consulta con operadores lgicos booleanos entre ellos. En algunos casos se utilizan pesos para los trminos, que permiten indicar la relevancia que tienen para el usuario en la consulta. Se suelen implementar funcionalidades que ayudan a comprender la consulta. Son funciones que definen relaciones entre trminos de la consulta (operadores booleanos, de proximidad,...) y la interpretacin de algunas palabras en particular (enmascaramiento de trminos, rango de fechas y nmeros, frases de palabras contiguas, expansin de conceptos y/o tesauros). Lgica booleana La lgica booleana permite al usuario relacionar de forma lgica mltiples criterios para definir la NI. Los operadores lgicos tpicos son AND, OR y NOT. En algunos casos, tambin se permite la utilizacin del XOR. A continuacin se detallan las tablas de verdad de estos operadores: Lgica Booleana AND NOT OR Proximidad Permite restringir la distancia permitida entre dos trminos dentro de un tem. La proximidad sirve para incrementar la precisin de un sistema, partiendo del supuesto de que cuanto ms cercanos estn dos trminos, mayor posibilidad tienen de estar relacionados. Operadores tpicos que permiten esta funcionalidad son la adyacencia, la distancia unidireccional y/o bidireccional en n trminos, la distancia en prrafos, etc. Por ejemplo: En WebSPIRS los operadores near, que busca dos trminos en el mismo prrafo o adj que los busca en ese mismo orden y sin ninguna palabra no vaca entre ellos. Por ejemplo: En Chadwyck-Healey el operador CERCA.n busca dos trminos con un nmero mximo de n trminos entre ambos Contigidad o frase Puede entenderse como un uso extendido de la proximidad. Es una forma de especificar trminos en una consulta y un operador especial que los relaciona. Una frase de palabras contiguas son dos o ms palabras que se tratan como una unidad semntica individual. Por ejemplo, Estados Unidos de Amrica. Una frase de palabras contiguas se puede utilizar con los operadores que ya hemos visto con anterioridad. Existen otras nomenclaturas para esta funcionalidad, como Frases Exactas o Literales. Por ejemplo, en WebSPIRS la bsqueda Universidad Valencia encontrar los documentos que contengan Universidad de Valencia pero no Universidad Politcnica de Valencia. Por ejemplo, en Google la bsqueda Universidad Valencia no encontrar una pgina en la que aparezca Universidad de Valencia porque las comillas permiten buscar la frase exacta, incluyendo la palabra vaca de. Bsquedas difusas Se utilizan para especificar trminos parecidos o similares al trmino introducido en la consulta. Incrementan la exhaustividad a costa de reducir la precisin. Pretende muchas veces corregir posibles errores en los trminos almacenados. Esto sera aceptable, por ejemplo, en sistemas que basan sus entradas en documentos obtenidos a travs de un proceso de OCR. El problema es que la bsqueda difusa considerar ms trminos que el que realmente se desea utilizar para la bsqueda hay que utilizar esta funcionalidad con sumo cuidado. Para mejorar el proceso de bsqueda difusa se suele permitir al usuario indicar el nmero de trminos que se van a expandir en base a la lgica difusa utilizada, e incluso seleccionar trminos de una lista de posibilidades ofrecidas por el sistema, lo cual garantiza, a priori, que los resultados van a ser mejores que si no se puede interactuar con el sistema. Mscaras Son identificadores que indican una variabilidad en los trminos de la consulta mediante la definicin de patrones. Por ejemplo, podemos estar interesados en todas las palabras que comiencen por almac, o en todas aquellas que terminen en deracin. Es por ello que los SRI incluyen los operadores mscara o de truncamiento. Normalmente se utilizan para expandir un trmino en una consulta, pero tambin se pueden utilizar cuando no se conoce de forma exacta el deletreo del trmino en cuestin. Son mucho ms tiles en los sistemas que no aplican stemming, o hacen un stemming muy simple. Los operadores de mscara ms comnmente utilizados son ? * y $ . El significado en cuanto a nmero de caracteres a sustituir depende de cada interfaz de consulta. Rangos Las mscaras son tiles para buscar en palabras, pero no en nmeros y fechas. Los rangos permiten una funcionalidad similar a las mscaras pero en el caso de valores. Por ejemplo, si queremos buscar nmeros superiores a 125, no podemos utilizar la expresin 125*, puesto que el operador * puede ser sustituido por cualquier carcter, sea nmero o no.
Algunos sistemas incorporan la posibilidad de utilizar ciertos operadores relacionados con esta funcionalidad En la mayor parte de los casos se aplican los operadores sobre los contenidos de ciertos campos o zonas definidas en el documento de forma estructural. Expansin de conceptos - Tesauri Los operadores anteriores permiten la relacin de los criterios de bsqueda a travs de los trminos, no de los conceptos que representan. Asociado tanto con las consultas de lgica booleana como de lenguaje natural est la capacidad de expandir los trminos de la bsqueda a travs de los tesauros o de las bases de datos de clases de conceptos. Un tesauro es tpicamente una expansin de varios niveles de un trmino a otros que tienen significado similar. Una clase de conceptos es una estructura arborescente que expande cada significado de una palabra en conceptos que tienen relacin con la palabra inicial. Veamos un ejemplo de cada caso a continuacin: Por ejemplo: ORDENADOR PROCESADOR DE DATOS MAINFRAME MINIORDENADOR ORDENADOR MULTITAREA PC CPU ORDENADOR PROCESADOR DE DATOS MAINFRAME MINIORDENADOR ORDENADOR MULTITAREA PC CPU Expansin de conceptos Los tesauros se usan para mejorar la exhaustividad de la bsqueda: se introducen trminos nuevos en la consulta, similares a los iniciales, que reducen el campo de bsqueda. El problema es que a veces las palabras son demasiado especficas y no estn en la base de datos. Una alternativa a este problema es utilizar la base de datos para crear listas de trminos relacionados estadsticamente. Conceptualmente, se trata de un tesauro, aunque muy dependiente de la base de datos que lo genera. Tericamente, los tesauros y los rboles de conceptos se pueden usar para expandir una consulta con trminos adicionales, o para hacerla ms especifica sustituyendo trminos por otros ms especficos. En el caso en que se expandan los trminos se gana en exhaustividad y se pierde en precisin, y en el caso de sustitucin de trminos, ocurrir lo contrario. Consultas en lenguaje natural Con este tipo de consultas es usuario crea un texto que describe la informacin que desea encontrar. Cuanto mayor es el texto (no ms largo, sino con ms trminos o variaciones de los trminos), mejores son los resultados obtenidos. La parte ms compleja del procesado del lenguaje natural es la habilidad para describir negaciones en el texto, y que el sistema las reconozca como tales. En general, las consultas realizadas en lenguaje natural mejoran la exhaustividad, como siempre, a costa de la precisin. Gestin de los resultados Gestin de resultados Al finalizar la bsqueda el usuario debe ser capaz de poder identificar cuales de los tems recibidos son de inters para l (relevantes), y visualizarlos. Es deseable que el sistema aporte ciertas facilidades para trabajar mejor con los resultados. La gestin de resultados hace referencia a este conjunto de funciones. La transicin entre la informacin mostrada al usuario y la visualizacin completa del tem debe ser lo ms sencilla posible. Los sistemas que trabajan en entornos grficos de ventanas han conseguido resolver en gran medida este problema. Cuando las bsquedas devuelven demasiados tems, el sistema debe proporcionar ayuda para indicar los que tienen ms relevancia, y situarlos de forma que sean ms fcilmente accesibles al usuario. Ranking En los sistemas booleanos, el display de estado es un contador que indica los tems encontrados en el SRI que cumplen exactamente los parmetros de la consulta. Los hits se pueden mostrar de forma ordenada atendiendo a criterios de nombre o de fecha de creacin Tambin se pueden mostrar ordenados segn relevancia El ranking basado en valores de relevancia predictivos hace que como resumen del documento se muestre un valor de relevancia asociado junto con una breve descripcin del tem. La relevancia es una estimacin del sistema de bsqueda sobre el ajuste del tem con la consulta. Sus valores se suelen normalizar entre 0 y 1 (0% - 100%). Los SRI normalmente permiten especificar un valor mnimo de relevancia para mostrar los tems recuperados. Algunos autores consideran que los valores de relevancia pueden confundir a los usuarios, y que es mejor asignar una pertenencia a un conjunto de meta-valores: alto, medio, bajo, ninguno. Zoning Al seleccionar un tem el usuario est interesado en ver la mnima informacin posible que le permita determinar si el tem es relevante o no. Esta funcin se aplica para agrupar toda aquella informacin mnima que el usuario necesita para determinar la relevancia. Este es un proceso que tambin se puede realizar a travs de la creacin automtica de resmenes. Algunos sistemas lo resuelven con una simple concatenacin de trozos de frases en los que aparecen los trminos especificados en la consulta, y otros simplemente muestran el comienzo del documento. Los sistemas ms sofisticados son capaces de elaborar resmenes del documento completo y mostrrselo al usuario. En definitiva, el objetivo final es minimizar el esfuerzo y tiempo que el usuario tiene que emplear en satisfacer su necesidad de informacin. Highlighting Consiste en indicarle al usuario el lugar del documento en el que aparecen los trminos empleados en la consulta, o lo que es lo mismo, los motivos por los que el documento fue devuelto como relevante. El objetivo es que el usuario pueda visualizar rpidamente dentro de un tem aquellas partes que pueden ser ms de su inters, generalmente resaltando de algn modo el texto en cuestin. Como ayudas adicionales est el resaltado en distintos tonos segn sea la importancia del trmino, definir funciones de salto de un resaltado al siguiente (para acceder de forma rpida y pasar secuencialmente por todos los resaltados de un documento), determinacin de la parte ms relevante del documento, etc. Otras capacidades Navegacin por el vocabulario o ndices Esta funcin muestra en orden alfabtico los trminos que contiene el sistema de informacin. Asociado a cada trmino viene el nmero de tems en los que aparece, y/o el nmero de apariciones en la base de datos. En general, se usa para obtener informacin de la existencia de los trminos en la BD y la necesidad de aplicar consultas ms concretas cuando el nmero de apariciones es muy elevado. Bsqueda iterativa e histrico de la bsqueda
En algunos casos, el usuario puede desear hacer una bsqueda restringiendo el conjunto objetivo a aquellos tems devueltos en una consulta anterior. A este proceso de refinar la bsqueda se le denomina bsqueda iterativa. Adicionalmente, durante una sesin, se pueden utilizar mltiples consultas. El SRI almacena en un fichero histrico las consultas realizadas durante la sesin, de forma que pueden ser utilizadas con posterioridad por el usuario. Almacenamiento de las consultas Es la capacidad de almacenar una consulta para utilizarla en una sesin posterior. Anteriormente hemos visto que durante la misma sesin las consultas pueden quedar almacenadas y ser reutilizadas en cualquier momento, pero siempre dentro de la misma sesin. Esta funcin, por tanto, es un valor aadido sobre la anterior. Los usuarios suelen tener ciertas reas de inters. Esta funcin se suele utilizar para iniciar consultas a partir de cierta situacin de inters que el usuario haya alcanzado en un momento dado. En algunos casos, este tipo de consultas permiten especificar variables y limitar valores especficos en tiempo de ejecucin.