Estructura y Funcionamiento de Los SRI

TEMA 2
Estructura y funcionamiento de los SRI

ndice
Definicin y orgenes
Objetivos
Descripcin funcional de un SRI
Normalizacin de Datos
Diseminacin Selectiva de la Informacin
Bsqueda retrospectiva
Bsqueda en ndices
Estructura de un SRI
Capacidades de un SRI
Bsquedas
Gestin de resultados
Otras capacidades
Definicin de SRI y orgenes
SRI
SRI: Sistema de informacin, generalmente automatizado, que
tiene por finalidad exclusiva y excluyente el almacenamiento, el
procesamiento, la recuperacin y la difusin de la informacin
contenida en documentos de cualquier especie.
De forma breve, es un sistema capaz de almacenar, recuperar y
mantener informacin.
Esta informacin podr ser de todo tipo: texto, imgenes, audio, vdeo
y otros objetos multimedia
De forma ms especfica a nuestro objeto, nos ceiremos al
caso de que sea automatizado, es decir, al conjunto de
componentes informticos (tanto hardware como software)
Orgenes y evolucin de los SRI
El primer SRI se cre por la necesidad de organizar
la informacin contenida en grandes almacenes de
informacin.
Diversos autores plantean distintos enfoques de la
evolucin de los SRI. Baeza-Yates plantea tres fases
basndose en la adopcin y generalizacin de
ciertas tcnicas y en la proyeccin de los SRI
creados.
Evolucin de los SRI segn Baeza-Yates
1. Desarrollos iniciales:
Antes de los sistemas automatizados ya existan sistemas de
recuperacin, como los ndices asociados a las colecciones de
papiros o incluso las tablas de contenido en los libros.
Se trata de sistemas manuales y de mbito limitado.
2. Recuperacin de la informacin en bibliotecas:
Las bibliotecas fueron las primeras en implementar SRI, primero
manuales y luego automatizados, por ejemplo fichas
bibliogrficas.
Se pueden distinguir varias subfases: medios manuales,
mecanizacin local, mecanizacin con acceso remoto, interfaces
integradas basadas en hipertexto
3. La era WWW:
El abaratamiento de las tecnologas informticas, popularizacin de
Internet y la consolidacin de la Web han producido una tendencia
de los SRI a explotarse por esta va.
Aparece el trmino WIS (Web Information System)
Objetivos
Objetivos de un SRI
El principal objetivo de un Sistema de Recuperacin
de la Informacin es satisfacer una necesidad de
informacin.
Para satisfacer distintos tipos de NI es necesario
crear distintos tipos de SRI, o bien implementar
diversos mecanismos en el mismo SRI en funcin de
las necesidades del usuario.
Objetivos de un SRI
Si se trata de una NIOP, el SRI que pretenda
satisfacerla debera seguir ciclos de informacin para
mantener al usuario al da de las modificaciones o
adiciones al fondo del SRI: Diseminacin Selectiva
de la Informacin.
Para una NIC no debera ser necesaria la
implementacin de esta capacidad, dadas las
caractersticas de este tipo de necesidad de
informacin.
Los SRI orientados a la satisfaccin de una NIC se
denominan factogrficos o bases de datos factuales.
Objetivos de un SRI
La presencia de retroalimentacin (feedback) en el
sistema slo tiene sentido para el caso de las NIOP.
Feedback es un proceso de refinamiento de la
consulta tras haber devuelto el sistema unos
resultados correspondientes a dicha consulta, es
decir, la utilizacin de los resultados de las consultas
previas para refinar las posteriores.

Objetivos de los SRI
El objetivo general de un SRI es minimizar el esfuerzo que
realiza un usuario tratando de localizar la informacin que
necesita.
Este esfuerzo se expresa en trminos del tiempo que un
usuario utiliza en todos los pasos que conducen a la lectura de
un tem que contiene la informacin que necesita. Sin embargo,
no es habitual que la NI del usuario se satisfaga con la
consecucin de un tem.
En algunas circunstancias, la informacin que necesita se puede
definir como toda la informacin contenida en el sistema que tiene
que ver con las necesidades del usuario.
En otros casos se puede definir como la suficiente informacin que
tiene el sistema y que es necesaria para completar una tarea,
permitiendo incluso la prdida de datos.

Relevancia y pertinencia
Segn la RAE: Relevancia es cualidad o condicin de
relevante, importancia, significacin; el trmino relevante es
definido como sobresaliente, destacado, importante o
significativo
Entendemos entonces que un documento recuperado de un
SRI se considera relevante cuando el contenido del mismo
posee alguna significacin o importancia con motivo de la
pregunta realizada por el usuario, es decir, con su necesidad de
informacin.
Es muy difcil definir unos criterios para determinar cundo un
documento es relevante. Es ms fcil proceder a la
determinacin de la relevancia que explicar cmo la misma se
ha llevado a cabo (Blair, 1990).
Por tanto la relevancia est fuertemente ligada a
criterios subjetivos del usuario. Muchas veces el
usuario sabr con certeza si considera un documento
relevante pero no sabr definir los criterios usados
para llegar a esa conclusin.
La relevancia no podr ser por tanto definida en
trminos absolutos de SI/NO, sino como una
caracterstica evaluable.
El Diccionario de la RAE define pertinencia como
calidad de pertinente y se entiende pertinente
como "todo lo que viene a propsito o resulta
oportuno".
Por tanto un documento pertinente es un documento
que resulta oportuno, porque le proporciona al
usuario final la informacin que a l le cumple algn
propsito.
La pertinencia o no de un documento respecto a la
NI de un usuario tambin tendr un fuerte
componente subjetivo.

Eficiencia de un SRI
Respecto de una necesidad de
informacin concreta y al
realizar una consulta al SRI los
tems contenidos pueden
clasificarse en funcin de su
relevancia en:
Relevantes recuperados
Relevantes no recuperados
No relevantes recuperados
No relevantes no recuperados

Relevantes
Recuperados Relevantes
No Recuperados
No Relevantes
Recuperados No Relevantes
No Recuperados
Relevantes
Recuperados Relevantes
No Recuperados
No Relevantes
Recuperados No Relevantes
No Recuperados
Eficiencia de un SRI
En funcin de lo anterior analizaremos dos
conceptos para medir la eficiencia de un SRI
respecto de las consultas de los usuarios:

PRECISIN
EXHAUSTIVIDAD

Precisin
Definiremos precisin de un sistema como el porcentaje de
documentos relevantes recuperados tras una consulta respecto
al total de documentos recuperados

s recuperado documentos de Total
s recuperado relevantes Documentos
Precisin
Exhaustividad

Definiremos exhaustividad como el porcentaje de documentos
relevantes recuperados tras una consulta respecto al total de
relevantes que existen en el sistema para esa consulta.

relevantes documentos de Total
s recuperado relevantes Documentos
dad Exhaustivi
Un sistema ideal debe tratar de que el nmero de documentos
relevantes no recuperados se minimice, as como el nmero de
no relevantes recuperados.
En el primer caso se mejora la exhaustividad y en el
segundo, la precisin.
La falta de precisin implicar un esfuerzo del usuario tras la
recuperacin para una consulta concreta, puesto que
normalmente el usuario visualizar todos los resultados (o al
menos los que el sistema marca como ms relevantes) que
devuelve el sistema y realizar una seleccin de los que
considera relevantes.
La exhaustividad mide lo bien que un sistema es capaz de
procesar una consulta a travs de la recuperacin de tems
relevantes, puesto que un mayor grado de exhaustividad es un
indicativo de que menos documentos relevantes quedan que no
hayan sido ofrecidos al usuario tras una consulta.
La precisin es una funcin de la recuperacin de tems no
relevantes, mientras que la exhaustividad no lo es.
Precisin / exhaustividad
La precisin y la exhaustividad estn
interrelacionadas entre s.
Para ilustrar esto utilizaremos un ejemplo:
Supongamos un SRI ideal, en el que para una consulta
concreta existen N documentos relevantes para el usuario.
Podemos evaluar como evolucionan la precisin y la
exhaustividad en funcin de los documentos que se
recuperen en la consulta. Puesto que el sistema es ideal,
supondremos que cuando se recuperen hasta N
documentos, todos ellos sern relevantes.
El siguiente grfico mostrar entonces esta evolucin.
%
1
N Items Recuperados
N
PRECISION
E
X
H
A
U
S
T
I
V
I
D
A
D
%
1
N Items Recuperados
N
PRECISION
E
X
H
A
U
S
T
I
V
I
D
A
D
Si ahora representamos cmo se comportan para este sistema
ideal la precisin y la exhaustividad, una en funcin de la otra,
obtenemos la siguiente grfica:
N
PRECISION
EXHAUSTIVIDAD
100%
100%
N
PRECISION
EXHAUSTIVIDAD
100%
100%
En la realidad cotidiana los SRI no se comportan de este modo. Es
muy habitual encontrar grficas de relacin de la precisin frente
a la exhaustividad con este aspecto
PRECISION
EXHAUSTIVIDAD
100%
100%
80%
60%
40%
20%
80% 60% 40% 20%
PRECISION
EXHAUSTIVIDAD
100%
100%
80%
60%
40%
20%
80% 60% 40% 20%
En el caso ideal, el sistema es preciso al 100% mientras no se
alcance una exhaustividad del 100%, en cuyo caso tenemos un
punto de funcionamiento ptimo (P=1, E=1), y un conjunto de
puntos donde la exhaustividad se mantiene al 100% pero la
precisin vara entre 0% y 100%.
La explicacin es evidente:
si el sistema es capaz de recuperar slo todos los documentos
relevantes para una consulta, estamos en el punto ptimo.
si se recuperan menos, el sistema es preciso al 100%, pero no es
completamente exhaustivo
si se recuperan ms, el sistema es exhaustivo al 100%, pero no es
completamente preciso.
En el caso real, vemos que cuando tratamos de aumentar la
precisin obtenemos una disminucin de la exhaustividad, y a la
inversa, cuando se trata de aumentar la exhaustividad la
precisin disminuye.
Es decir:
Si se pretende que el sistema se acerque a la recuperacin de
todos los documentos relevantes, se introducir un ruido de cierta
forma inevitable incluyendo documentos que no son relevantes;
Si se pretende tener un elevado grado de precisin se introducir
un cierto grado de silencio, de modo que se puede correr el riesgo
de no incluir documentos que posiblemente sean relevantes.
Las investigaciones en los SRI avanzan y stos tienden a
comportarse como en el caso ideal, aunque alcanzar el ideal
ser prcticamente imposible.
De este modo objetivo general de los SRI se puede
redefinir como la ayuda a la generacin de consultas
del usuario para minimizar el esfuerzo que ste
emplea en las bsquedas.
Existen obstculos naturales que complicarn esta
tarea, como son las ambigedades inherentes al
lenguaje (sinnimos, homgrafos, homnimos,
acrnimos,...) y las diferencias en el vocabulario
habitual entre los usuarios y los entornos de la
informacin.
Descripcin funcional de un SRI
Procesos de un SRI
Un SRI completo se debe componer de 4 grandes
procesos funcionales:
La Normalizacin de Datos
La Diseminacin Selectiva de la Informacin
La Bsqueda Retrospectiva
La Bsqueda en ndices junto a la Creacin Automtica de
Ficheros.

Esquema funcional de un SRI
Diseminacin Selectiva
De la Informacin
Entrada de Datos
F
i
c
h
e
r
o
s
d
e
C
o
r
r
e
o
P
e
r
f
i
l
e
s
d
e
U
s
u
a
r
i
o
Bsquedas retrospectivas
Indexacin automtica
de documentos
F
i
c
h
e
r
o
s

d
e
d
o
c
u
m
e
n
t
o
s
F
i
c
h
e
r
o
s

d
e
i
n
d
i
c
e
s
Diseminacin Selectiva
De la Informacin
Entrada de Datos
F
i
c
h
e
r
o
s
d
e
C
o
r
r
e
o
P
e
r
f
i
l
e
s
d
e
U
s
u
a
r
i
o
Bsquedas retrospectivas
Indexacin automtica
de documentos
F
i
c
h
e
r
o
s

d
e
d
o
c
u
m
e
n
t
o
s
F
i
c
h
e
r
o
s

d
e
i
n
d
i
c
e
s
Normalizacin de datos
Se trata del primer paso para la inclusin de datos en el sistema
Se trata no slo de traducir los mltiples formatos externos a
uno comn comprensible por el sistema, sino que adems hay
que reestructurar de forma lgica el dato de entrada
Adems, son necesarios otros procesos para crear estructuras
de datos que permitan realizar las bsquedas: identificacin de
trminos, caracterizacin de trminos, stemming, etc.
A continuacin veremos el flujo de trabajo en el caso de un
sistema que contenga informacin documental
Fases de la normalizacin de datos
Estandarizar la entrada
Subagrupacin lgica (zoning)
Actualizar el Fichero
de Documentos
Identificar tokens
Aplicar listas de detencin
Caracterizar tokens
Aplicar Stemming
Crear estructura de datos buscable
Estandarizar la entrada
Subagrupacin lgica (zoning)
Actualizar el Fichero
de Documentos
Identificar tokens
Aplicar listas de detencin
Caracterizar tokens
Aplicar Stemming
Crear estructura de datos buscable
Subprocesos de la normalizacin
Estandarizacin de la entrada: Se toman diferentes formatos externos
y se convierten a uno comn comprensible por el sistema.
Por ejemplo, usar el mismo formato de caracteres para almacenar los
documentos (ISO-LATIN-1), en lugar de utilizar varios sistemas de
codificacin (KOI-7, KOI-8, japons, rabe,...).
Subagrupacin lgica (zoning). Analizar los datos y agruparlos en
subdivisiones lgicas que tengan sentido para el usuario. Es un
proceso visible por el usuario y se utiliza para aumentar la precisin
de una bsqueda y optimizar la visualizacin de resultados.
Por ejemplo, se puede dividir cada documento en autor, ttulo, resumen,
texto principal, conclusin y referencias. En definitiva, se trata de
estructurar el documento de forma comprensible para el usuario.
(Nota: no se utiliza el trmino campo en lugar de zona puesto que no
existe independencia de los datos contenidos en uno o varios
contenedores).
Identificacin de tokens: identificar los trminos que
se van a utilizar en bsquedas posteriores.
(No se utiliza el trmino palabra en lugar de token, puesto que token
es ms genrico, y puede significar un conjunto de palabras con
significado propio, por ejemplo, Estados Unidos de Amrica).
El proceso consiste bsicamente en identificar
trminos, simples o no. Para ello se buscan tres
tipos de smbolos:
Smbolos pertenecientes a palabras
Smbolos separadores de palabras
Smbolos especiales
Aplicacin de listas de detencin. Se aplican algoritmos de detencin para
ahorrar recursos al sistema y eliminar del conjunto de tokens aquellos que
tienen muy poco significado o poco valor para el sistema. Las listas de
detencin tambin se conocen como listas de palabras vacas.
En los algoritmos de detencin se emplean tcnicas como la evaluacin de la
frecuencia de aparicin de los trminos y/o su semntica.
Por ejemplo, una palabra que aparece en casi todos los documentos de entrada tiene muy
poco valor discriminante en una bsqueda, y los artculos, preposiciones,
conjunciones, etc. tampoco son importantes.

Ley de Ziph: Frecuencia x Ranking = Constante.

A veces los trminos que aparecen muy pocas veces en la base de datos, se
suelen eliminar para ahorrar recursos, porque difcilmente sern utilizadas en
las bsquedas.
Por ejemplo, se suelen eliminar los nmeros con ms de un cierto nmero de dgitos,
palabras combinaciones de letras y nmeros, etc. Esto se hace para ahorrar
recursos, pero si el sistema es lo suficientemente potente como para trabajar con
estos trminos, entonces no se eliminan.
Caracterizacin de tokens. Identificacin de las caractersticas de las
palabras que aparecen en el documento de entrada.
Por ejemplo, se hacen distinciones para una palabra sobre si se trata de un verbo, un
adjetivo, un nombre, etc. porque segn el caso tiene distintos significados.
Stemming. Normalizar los tokens a una representacin semntica comn.
Consiste en obtener la raz morfolgica del trmino que se est tratando,
Se consigue, por ejemplo, que todas las variantes verbales de una palabra se
conviertan en un solo token.
Aplicar estos algoritmos mejora la exahustividad, pero con una parte de renuncia a la
precisin, y se reduce la sobrecarga del sistema en las consultas puesto que se
expande una bsqueda del token a tokens similares.
Creacin de estructuras de datos que permitan las bsquedas. Despus
de finalizar el tratamiento de los tokens, stos se utilizan para actualizar la
estructura de datos que permite las bsquedas sobre los contenidos del
sistema.
Representacin interna de tems sobre los que el usuario puede incluso realizar
bsquedas, por ejemplo ndices.
Puede contener conceptos semnticos que representan tems en la base de datos, y
limitan lo que el usuario puede encontrar como resultado de una bsqueda.
Diseminacin selectiva de la informacin
La DSI es un proceso que permite al usuario de un SRI mantenerse
actualizado en lo referente a sus consultas respecto a las
actualizaciones que pueda sufrir la informacin incluida en el SRI
La DSI proporciona la capacidad de comparar dinmicamente nuevos
tems introducidos en la base de datos con las declaraciones de inters
(NI a satisfacer) de los usuarios realizadas con anterioridad.
De esta forma es posible mantener a los usuarios informados de los
nuevos tems que se introduzcan en el sistema y cuyos contenidos
coincidan con las declaraciones de inters mencionadas.
La DSI tiene dos componentes fundamentales:
Perfiles de usuarios. Son las declaraciones de NI de los usuarios sobre los
nuevos elementos que sean introducidos en el sistema. Se puede
considerar como una consulta normal, pero generalmente ser de mayor
tamao que las consultas retrospectivas (habituales).
Ficheros de correo de usuarios. Consiste en una especie de almacn de
informacin donde se van colocando, para cada usuario, aquellos tems
nuevos en la base de datos que satisfacen su perfil de usuario.
Diseminacin selectiva de la informacin
Cuando se recibe un nuevo tem en la base de datos, se procesa
contra todos los perfiles de usuario que existen de forma que si el tem
satisface alguno de estos perfiles, pasa a formar parte del fichero de
correo del usuario al que pertenece el perfil.
De forma peridica (segn la frecuencia de actualizacin del sistema y
las preferencias del usuario) se envan los ficheros de correo a los
usuarios para informarles de las novedades del sistema.
En general, el perfil de usuario contendr muchos ms trminos que
una sola consulta retrospectiva porque el usuario suele tener inters en
muchos temas
En las bsquedas retrospectivas se contrasta una consulta con todos
los documentos del sistema; en la DSI se contrasta un documento con
todas las consultas que hay almacenadas en el sistema en forma de
perfiles de usuario.
Esto implica que a veces los perfiles sean considerados como
documentos, y que el documento sea considerado como una consulta.
Bsqueda retrospectiva
Es el proceso mediante el cual se puede obtener informacin del SRI
realizando una consulta sobre todos los tems contenidos en el sistema
en un momento concreto.
Los elementos que componen el proceso son:
Consulta del usuario
Base de datos de documentos
Proceso de bsqueda
La diferencia entre este tipo de consultas y los perfiles DSI es que son
tpicamente ms cortas y ms enfocadas en un rea de inters.
Puesto que los SRI pueden contener cientos de millones de tems y el
valor de la informacin puede decrecer con el tiempo, algunos SRI
proporcionan lmites temporales a las bsquedas, de forma que se
pueden hacer bsquedas en intervalos de tiempo definidos por los
usuarios.
El procesamiento de las consultas es un proceso complejo, que
depende de muchos factores que veremos en detalle.

Bsqueda en ndices
Es importante distinguir entre el proceso de indexacin de
documentos, y el proceso de bsqueda en ndices.
Cuando un usuario considera un tem como de inters, lo puede
almacenar de forma lgica en el sistema para futuras
referencias. A esto se le conoce como indexacin (referencial).
Existen dos posibles motivos para la indexacin:
Almacenar el ndice junto con la informacin necesaria para el
usuario, de modo que no se necesite referenciar o volver al tem
que sirvi de base para el ndice para recuperar la informacin que
el usuario necesita. Un ejemplo claro son las tarjetas de referencia
bibliogrfica de las bibliotecas.
Crear una base de datos estructurada que referencie los tems en
la base de datos de documentos, y permita su recuperacin a
travs de la bsqueda en esta base de datos.
Bsqueda en ndices
Existen dos clases de ficheros de ndices:
Pblicos: Mantenidos por el personal responsable y especializado
de los servicios documentales. Indexan la totalidad de documentos
en una base de datos.
Privados: Los utilizan los usuarios y referencian un conjunto
pequeo de todos los tems en la base de datos.
El proceso de Creacin Automtica de Ficheros (tambin
llamado extraccin de la informacin) ayuda en la creacin de
ficheros de ndices.
Se procesan documentos de entrada y se determinan
automticamente ndices potenciales para el tem. Las reglas
que rigen este proceso se almacenan en los perfiles CAF.
Cuando un tem se procesa, el resultado es la creacin de
registros de ndices candidatos. En algunos casos esto lleva a
la insercin de elementos en los ficheros de ndices pblicos.
La estructura bsica de un SRI se puede representar as:
BID
MO
BAR
BIC
MA
OC
MC
SRI
I1
I2
I3
O
BID
MO
BAR
BIC
MA
OC
MC
SRI
I1
I2
I3
O
El sistema debe tener al menos dos tipos de entradas:
Entrada de objetos para su almacenamiento y posterior
recuperacin (documentos).
Entrada de requisitos para la recuperacin de objetos
previamente almacenados (consultas).

Los documentos que se introducen por la entrada 1 se traducen
al Lenguaje de Recuperacin Interno (LRI) en un proceso que
se conoce como indexacin de documentos. El resultado de la
traduccin es lo que se llama el perfil del documento.
Las consultas que se introducen por la entrada 2 tambin se
traducen, en un proceso llamado indexacin de consultas (si las
consultas no vienen expresadas en un lenguaje que pueda
entender el SRI). El resultado de la traduccin se llama
formulacin de la consulta, o simplemente consulta.
Los resultados de la indexacin entran en el Bloque de
Almacenamiento y Recuperacin, donde se realiza o bien el
almacenamiento fsico de los perfiles de documentos de entrada, o
bien la bsqueda de la informacin expresada en la consulta.
El Objeto de Control no proporciona buenos resultados en una primera
consulta cuando trata de satisfacer una NIOP, puesto que no considera
sus propiedades.
Los resultados de la primera consulta difcilmente devolvern todos los
documentos esperados. Ser necesario realizar nuevas consultas para
conseguir el objetivo.
Es necesario, proporcionar una funcionalidad que incorpore el sistema
y que sirva para evaluar la calidad de los resultados obtenidos desde el
punto de vista del usuario.
La optimizacin ser una tarea importante para poder controlar el SRI.
La existencia de un feedback (o retroalimentacin) es una condicin
indispensable para cualquier proceso de optimizacin.
Dadas las caractersticas de las NIOP y de los SRI, podemos
mostrar un proceso de recuperacin de informacin en un
instante particular del tiempo del siguiente modo:
A es el conjunto de documentos que realmente satisfacen la NI del
usuario
B representa los documentos que satisfacen la NIOP que el usuario es
capaz de expresar
C representa los documentos que el SRI entiende que satisfacen la NI
expresada
Hay que determinar el nivel de discrepancia entre A y C a travs de
mecanismos de control que sean capaces de alterar el estado del
sistema para ajustarse ms a los resultados esperados por los
usuarios en consultas sucesivas.
El feedback se puede entender como el mecanismo que minimiza esta
diferencia entre A y C

Feedback
Este control se parece ms a un mecanismo de adaptacin que de
optimizacin, puesto que las mejoras que se pueden obtener en el
sistema se van aplicando consulta tras consulta.
Los sistemas de control tratan 4 tipos bsicos de problemas:
estabilizacin,
control del programa,
monitorizacin
adaptacin.
ste ltimo es el ms complejo. El proceso de adaptacin tiene que
resolver dos problemas:
Elegir el mejor estado del sistema, para proporcionar la mejor salida al
usuario (proceso de optimizacin). (Aplicable a consultas aisladas).
Adaptarse a una NIOP cambiante, aun cuando el sistema se encuentra en
el mejor estado posible, puesto que la NIOP del usuario cambia
constantemente (proceso de adaptacin). (Aplicable a secuencias de
consultas).
El proceso de feedback afectar a la estructura del SRI.
El proceso de feedback requiere una entrada: La informacin de esta
entrada es la reaccin del usuario a la informacin recuperada por el
sistema.
Puesto que el SRI es un sistema de control y todos los sistemas de
control tienen un mecanismo de control y un objeto de control, habr
que considerar ambos en la estructura del SRI. Esto es lo que
representan los mdulos MC y OC:
El MC implementar un mecanismo de feedback que optimiza la
recuperacin y se adapta a las NIOP. Deber contener dos sistemas:
el Mecanismo de Optimizacin y el Mecanismo de Adaptacin.
El MO y el MA interactan de la siguiente forma: si el resultado que
obtiene el usuario es la unin de varios resultados obtenidos durante
diferentes estados del sistema, la reaccin del usuario inicia el MO.
Cuando el MO transforma el estado del sistema en el mejor estado
posible, comienza a funcionar el MA.
El resultado del MC afecta a la formulacin de resultados. En general
podr actuar sobre los bloques BID, BIC y BAR, pero analizaremos
ms adelante cul es la mejor opcin de todas.
Capacidades de consulta de los SRI
Bsquedas
El objetivo de la funcin de bsqueda es permitir un mapeado entre las
NI de un usuario y los tems en el SRI que responden a esa NI. El
medio que el usuario utiliza para comunicarse con el sistema es la
consulta.
La consulta puede constar de un texto en lenguaje natural y/o trminos
de consulta con operadores lgicos booleanos entre ellos.
En algunos casos se utilizan pesos para los trminos, que permiten
indicar la relevancia que tienen para el usuario en la consulta.
Se suelen implementar funcionalidades que ayudan a comprender la
consulta.
Son funciones que definen relaciones entre trminos de la consulta
(operadores booleanos, de proximidad,...) y la interpretacin de
algunas palabras en particular (enmascaramiento de trminos, rango
de fechas y nmeros, frases de palabras contiguas, expansin de
conceptos y/o tesauros).
Lgica booleana
La lgica booleana permite al usuario relacionar de forma lgica
mltiples criterios para definir la NI. Los operadores lgicos tpicos
son AND, OR y NOT.
En algunos casos, tambin se permite la utilizacin del XOR.
A continuacin se detallan las tablas de verdad de estos
operadores:
Lgica Booleana
AND NOT OR
Proximidad
Permite restringir la distancia permitida entre dos trminos
dentro de un tem.
La proximidad sirve para incrementar la precisin de un
sistema, partiendo del supuesto de que cuanto ms cercanos
estn dos trminos, mayor posibilidad tienen de estar
relacionados.
Operadores tpicos que permiten esta funcionalidad son la
adyacencia, la distancia unidireccional y/o bidireccional en n
trminos, la distancia en prrafos, etc.
Por ejemplo: En WebSPIRS los operadores near, que busca dos
trminos en el mismo prrafo o adj que los busca en ese mismo
orden y sin ninguna palabra no vaca entre ellos.
Por ejemplo: En Chadwyck-Healey el operador CERCA.n busca
dos trminos con un nmero mximo de n trminos entre
ambos
Contigidad o frase
Puede entenderse como un uso extendido de la proximidad.
Es una forma de especificar trminos en una consulta y un operador
especial que los relaciona. Una frase de palabras contiguas son dos o
ms palabras que se tratan como una unidad semntica individual. Por
ejemplo, Estados Unidos de Amrica.
Una frase de palabras contiguas se puede utilizar con los operadores
que ya hemos visto con anterioridad. Existen otras nomenclaturas para
esta funcionalidad, como Frases Exactas o Literales.
Por ejemplo, en WebSPIRS la bsqueda Universidad Valencia encontrar
los documentos que contengan Universidad de Valencia pero no
Universidad Politcnica de Valencia.
Por ejemplo, en Google la bsqueda Universidad Valencia no encontrar
una pgina en la que aparezca Universidad de Valencia porque las
comillas permiten buscar la frase exacta, incluyendo la palabra vaca
de.
Bsquedas difusas
Se utilizan para especificar trminos parecidos o similares al
trmino introducido en la consulta.
Incrementan la exhaustividad a costa de reducir la precisin.
Pretende muchas veces corregir posibles errores en los
trminos almacenados.
Esto sera aceptable, por ejemplo, en sistemas que basan sus
entradas en documentos obtenidos a travs de un proceso de
OCR. El problema es que la bsqueda difusa considerar ms
trminos que el que realmente se desea utilizar para la bsqueda
hay que utilizar esta funcionalidad con sumo cuidado.
Para mejorar el proceso de bsqueda difusa se suele permitir al
usuario indicar el nmero de trminos que se van a expandir en
base a la lgica difusa utilizada, e incluso seleccionar trminos
de una lista de posibilidades ofrecidas por el sistema, lo cual
garantiza, a priori, que los resultados van a ser mejores que si
no se puede interactuar con el sistema.
Mscaras
Son identificadores que indican una variabilidad en los trminos
de la consulta mediante la definicin de patrones.
Por ejemplo, podemos estar interesados en todas las palabras que
comiencen por almac, o en todas aquellas que terminen en
deracin. Es por ello que los SRI incluyen los operadores mscara
o de truncamiento.
Normalmente se utilizan para expandir un trmino en una
consulta, pero tambin se pueden utilizar cuando no se conoce
de forma exacta el deletreo del trmino en cuestin.
Son mucho ms tiles en los sistemas que no aplican
stemming, o hacen un stemming muy simple.
Los operadores de mscara ms comnmente utilizados son ? *
y $ . El significado en cuanto a nmero de caracteres a sustituir
depende de cada interfaz de consulta.
Rangos
Las mscaras son tiles para buscar en palabras, pero no en
nmeros y fechas.
Los rangos permiten una funcionalidad similar a las mscaras
pero en el caso de valores.
Por ejemplo, si queremos buscar nmeros superiores a 125, no
podemos utilizar la expresin 125*, puesto que el operador * puede
ser sustituido por cualquier carcter, sea nmero o no.

Algunos sistemas incorporan la posibilidad de utilizar ciertos
operadores relacionados con esta funcionalidad
En la mayor parte de los casos se aplican los operadores sobre
los contenidos de ciertos campos o zonas definidas en el
documento de forma estructural.
Expansin de conceptos - Tesauri
Los operadores anteriores permiten la relacin de los criterios
de bsqueda a travs de los trminos, no de los conceptos que
representan.
Asociado tanto con las consultas de lgica booleana como de
lenguaje natural est la capacidad de expandir los trminos de
la bsqueda a travs de los tesauros o de las bases de datos
de clases de conceptos.
Un tesauro es tpicamente una expansin de varios niveles de
un trmino a otros que tienen significado similar. Una clase de
conceptos es una estructura arborescente que expande cada
significado de una palabra en conceptos que tienen relacin con
la palabra inicial. Veamos un ejemplo de cada caso a
continuacin:
Por ejemplo:
ORDENADOR
PROCESADOR
DE DATOS
MAINFRAME
MINIORDENADOR
ORDENADOR
MULTITAREA
PC
CPU
ORDENADOR
PROCESADOR
DE DATOS
MAINFRAME
MINIORDENADOR
ORDENADOR
MULTITAREA
PC
CPU
Expansin de conceptos
Los tesauros se usan para mejorar la exhaustividad de la bsqueda: se
introducen trminos nuevos en la consulta, similares a los iniciales, que
reducen el campo de bsqueda.
El problema es que a veces las palabras son demasiado especficas y
no estn en la base de datos. Una alternativa a este problema es
utilizar la base de datos para crear listas de trminos relacionados
estadsticamente. Conceptualmente, se trata de un tesauro, aunque
muy dependiente de la base de datos que lo genera.
Tericamente, los tesauros y los rboles de conceptos se pueden usar
para expandir una consulta con trminos adicionales, o para hacerla
ms especifica sustituyendo trminos por otros ms especficos. En el
caso en que se expandan los trminos se gana en exhaustividad y se
pierde en precisin, y en el caso de sustitucin de trminos, ocurrir lo
contrario.
Consultas en lenguaje natural
Con este tipo de consultas es usuario crea un texto
que describe la informacin que desea encontrar.
Cuanto mayor es el texto (no ms largo, sino con
ms trminos o variaciones de los trminos), mejores
son los resultados obtenidos.
La parte ms compleja del procesado del lenguaje
natural es la habilidad para describir negaciones en
el texto, y que el sistema las reconozca como tales.
En general, las consultas realizadas en lenguaje
natural mejoran la exhaustividad, como siempre, a
costa de la precisin.
Gestin de los resultados
Gestin de resultados
Al finalizar la bsqueda el usuario debe ser capaz de poder
identificar cuales de los tems recibidos son de inters para l
(relevantes), y visualizarlos.
Es deseable que el sistema aporte ciertas facilidades para
trabajar mejor con los resultados. La gestin de resultados hace
referencia a este conjunto de funciones.
La transicin entre la informacin mostrada al usuario y la
visualizacin completa del tem debe ser lo ms sencilla
posible. Los sistemas que trabajan en entornos grficos de
ventanas han conseguido resolver en gran medida este
problema.
Cuando las bsquedas devuelven demasiados tems, el sistema
debe proporcionar ayuda para indicar los que tienen ms
relevancia, y situarlos de forma que sean ms fcilmente
accesibles al usuario.
Ranking
En los sistemas booleanos, el display de estado es un contador que
indica los tems encontrados en el SRI que cumplen exactamente los
parmetros de la consulta.
Los hits se pueden mostrar de forma ordenada atendiendo a criterios
de nombre o de fecha de creacin
Tambin se pueden mostrar ordenados segn relevancia El ranking
basado en valores de relevancia predictivos hace que como resumen
del documento se muestre un valor de relevancia asociado junto con
una breve descripcin del tem.
La relevancia es una estimacin del sistema de bsqueda sobre el
ajuste del tem con la consulta. Sus valores se suelen normalizar entre
0 y 1 (0% - 100%).
Los SRI normalmente permiten especificar un valor mnimo de
relevancia para mostrar los tems recuperados.
Algunos autores consideran que los valores de relevancia pueden
confundir a los usuarios, y que es mejor asignar una pertenencia a un
conjunto de meta-valores: alto, medio, bajo, ninguno.
Zoning
Al seleccionar un tem el usuario est interesado en ver la
mnima informacin posible que le permita determinar si el tem
es relevante o no.
Esta funcin se aplica para agrupar toda aquella informacin
mnima que el usuario necesita para determinar la relevancia.
Este es un proceso que tambin se puede realizar a travs de
la creacin automtica de resmenes.
Algunos sistemas lo resuelven con una simple concatenacin de
trozos de frases en los que aparecen los trminos especificados en
la consulta, y otros simplemente muestran el comienzo del
documento.
Los sistemas ms sofisticados son capaces de elaborar resmenes
del documento completo y mostrrselo al usuario. En definitiva, el
objetivo final es minimizar el esfuerzo y tiempo que el usuario tiene
que emplear en satisfacer su necesidad de informacin.
Highlighting
Consiste en indicarle al usuario el lugar del documento en el
que aparecen los trminos empleados en la consulta, o lo que
es lo mismo, los motivos por los que el documento fue devuelto
como relevante.
El objetivo es que el usuario pueda visualizar rpidamente
dentro de un tem aquellas partes que pueden ser ms de su
inters, generalmente resaltando de algn modo el texto en
cuestin.
Como ayudas adicionales est el resaltado en distintos tonos
segn sea la importancia del trmino, definir funciones de salto
de un resaltado al siguiente (para acceder de forma rpida y
pasar secuencialmente por todos los resaltados de un
documento), determinacin de la parte ms relevante del
documento, etc.
Otras capacidades
Navegacin por el vocabulario o ndices
Esta funcin muestra en orden alfabtico los
trminos que contiene el sistema de informacin.
Asociado a cada trmino viene el nmero de tems
en los que aparece, y/o el nmero de apariciones en
la base de datos.
En general, se usa para obtener informacin de la
existencia de los trminos en la BD y la necesidad de
aplicar consultas ms concretas cuando el nmero
de apariciones es muy elevado.
Bsqueda iterativa e histrico de la bsqueda

En algunos casos, el usuario puede desear hacer
una bsqueda restringiendo el conjunto objetivo a
aquellos tems devueltos en una consulta anterior.
A este proceso de refinar la bsqueda se le
denomina bsqueda iterativa.
Adicionalmente, durante una sesin, se pueden
utilizar mltiples consultas. El SRI almacena en un
fichero histrico las consultas realizadas durante la
sesin, de forma que pueden ser utilizadas con
posterioridad por el usuario.
Almacenamiento de las consultas
Es la capacidad de almacenar una consulta para utilizarla en
una sesin posterior. Anteriormente hemos visto que durante la
misma sesin las consultas pueden quedar almacenadas y ser
reutilizadas en cualquier momento, pero siempre dentro de la
misma sesin. Esta funcin, por tanto, es un valor aadido
sobre la anterior.
Los usuarios suelen tener ciertas reas de inters. Esta funcin
se suele utilizar para iniciar consultas a partir de cierta situacin
de inters que el usuario haya alcanzado en un momento dado.
En algunos casos, este tipo de consultas permiten especificar
variables y limitar valores especficos en tiempo de ejecucin.

Estructura y Funcionamiento de Los SRI

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Estructura y Funcionamiento de Los SRI

Caricato da

Copyright:

Formati disponibili

TEMA 2

Estructura y funcionamiento de los SRI

Potrebbero piacerti anche