Sei sulla pagina 1di 12

MANUAL DE INDIZACIN

Teora y prctica

Isidoro Gil Leiva

Ediciones Trea, S. L

BIBLIOTECONOMA Y ADMINISTRACIN CULTURAL 193


Isidoro Gil Leiva, 2008
de esta edicin: Ediciones Trea, S. L.
Polgono Industrial de Somonte
Mara Gonzlez, la Pondala, 98, nave d
33393 Somonte, Cenero. Gijn (Asturias)
Tel.: 985 303 801. Fax: 985 303 712
trea@trea.es
www.trea.es
Direccin editorial: lvaro Daz Huici
Coordinacin editorial: Pablo Garca Guerrero
Produccin: Jos Antonio Martn
Maquetacin: Mara lvarez Menndez
Cubiertas: Impreso Estudio (Oviedo)
Impresin: Grficas Apel, S. L. (Gijn)
Encuadernacin: Encuadernaciones Cimadevilla, S. L. (Gijn)
Depsito legal: As. 2271-2008
isbn: 978-84-9704-367-0
Impreso en Espaa Printed in Spain
Todos los derechos reservados. No se permite la reproduccin total
o parcial de este libro, ni su incorporacin a un sistema informtico,
ni su transmisin en cualquier forma o por cualquier medio, sea este
electrnico, mecnico, por fotocopia, por grabacin u otros mtodos,
sin el permiso previo por escrito de Ediciones Trea, S. L. Cualquier
forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta obra solo puede ser realizada con la autorizacin de
sus titulares, salvo excepcin prevista por ley. Dirjase a cedro (Centro
Espaol de Derechos Repogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta obra.

PRLOGO

Con la publicacin de este nuevo libro, el profesor Isidoro Gil Leiva ampla el mbito
del conocimiento sobre la indizacin iniciado en su anterior libro, La automatizacin
de la indizacin de documentos (Trea, 1999), aportando, gracias a su experiencia acadmica, una visin didctica y cientfica desde la gnesis del proceso intelectual de la
indizacin hasta la evaluacin de sus resultados.
Mi contacto acadmico con el profesorGil Leiva se inici, justamente, gracias a su
libro sobre la automatizacin de la indizacin, ya que lo he utilizado como texto de
referencia para impartir clases de indizacin en biblioteconoma. Posteriormente, nuestra colaboracin cientfica se concret durante su estancia en noviembre del 2007 como
investigador visitante en mi universidad, concretamente en el Departamento de Ciencia
de la Informacin de la Facultad de Filosofa y Ciencia de la unesp, campus de Marlia,
por medio de una ayuda otorgada por la fapesp (Fundao de Amparo Pesquisa do
Estado de So Paulo) (Proc. 2006/61516-0).1 Desde entonces, venimos compartiendo
conocimientos de una forma continua y provechosa. En este sentido, hacer el prlogo
de esta publicacin es para m una tarea de doble importancia. En el plano acadmico
y de investigacin, porque el rea carece de libros con suficiente fundamento terico y
metodolgico sobre la indizacin; y en el plano pedaggico, porque la enseanza de la
indizacin en las aulas necesita de libros cuyo contenido terico y metodolgico tenga
claridad y consistencia para garantizar la formacin del indizador.
Con esa finalidad, los dos primeros captulos son conceptuales y dedicados a una
contextualizacin de la indizacin en lo que respecta a la actividad intelectual. El primer
captulo del libro destaca por la importancia atribuida al proceso cognitivo que confiere
a la indizacin la categora de actividad intelectual compleja y, de esta manera, la torna
singular. De esta forma, el libro se distingue de los dems en la medida en que aborda
la indizacin como proceso cognitivo que busca la comprensin para alcanzar su ob Informe cientfico aprobado por la Direccin cientfica de la FAPESP el 22/04/2008.

[8]

manual de indizacin. teora y prctica

jetivo. En este contexto, este captulo inicial pone el nfasis en el indizador que realiza
un proceso cognitivo orientado a la indizacin y avanza desde la variable texto, en
cuanto elemento de comunicacin, hasta el lector, con su conocimiento previo necesario para el proceso de comprensin.
Es conveniente resaltar que los estudios cognitivos vienen ofreciendo importantes
hallazgos respecto a la mente humana y sus capacidades, entre ellas la comprensin
lectora. La concepcin de la comprensin lectora se ampli, considerablemente, en las
ltimas dcadas en lo que respecta a la participacin del lector. La actitud del lector
frente al texto, anteriormente vista como recepcin pasiva de mensajes, pas a considerar el procesamiento mental de informacin de la comprensin y evolucion hacia
una perspectiva de interaccin entre el lector y el texto.
El conocimiento previo para la comprensin depende del conocimiento existente en
la memoria a largo plazo, un repositorio de conocimientos con un tiempo y una capacidad de almacenamiento permanente e ilimitado y que posee una estructura de conocimiento basada en una red semntica de informaciones que conecta sus nos mediante
asociaciones significativas entre conceptos, hechos, acciones, etctera, all representados. Para realizarse el proceso de comprensin, es necesario que la memoria a largo
plazo tenga los llamados esquemas o representaciones generalizadas de ambientes, situaciones familiares e informaciones para que se hagan asociaciones con todo aquello
que se est viendo, escuchando y leyendo. Para el indizador, el dominio de las tipologas
documentales y de las estructuras textuales son dos tipos de conocimientos previos que
podrn aumentar su comprensin durante el proceso de bsqueda de la temtica textual
para la identificacin y seleccin de conceptos. Entonces, cuando hablamos de lectura
para la indizacin, podemos decir que el indizador necesita comprender el texto para
identificar y seleccionar conceptos, pues solamente lo realizar satisfactoriamente
cuando hay comprensin. La lectura documental corresponde a la primera fase del
abordaje del lector-indizador con el texto durante el anlisis del asunto. La finalidad,
en ese primer momento, es la identificacin de conceptos que caracterizan el asunto
tratado en el documento y, en un segundo momento, la seleccin de los conceptos,
teniendo en cuenta el uso de esos conceptos.
El captulo referente a la indizacin se abre con la conceptualizacin del proceso,
donde se lleva a cabo una necesaria distincin entre la elaboracin de ndices y la indexacin y el proceso para la representacin del contenido documental mediante identificacin y seleccin de conceptos. La construccin de ndices es una prctica bastante
antigua en el tratamiento de los documentos. Basta recordar que en las bibliotecas de
la Antigedad ya existan listas de documentos almacenados de ese modo. Entretanto,
a partir del momento en que la ordenacin de esas listas necesit de una organizacin
por asunto, se llevaron a cabo profundos cambios en el abordaje del proceso mecnico

prlogo

[9]

de construir ndices, es decir, se introdujo un proceso de anlisis del contenido de los


documentos con la finalidad de representacin documental. En el resto del captulo,
adems de la normalizacin de la indizacin y de la relacin de esta con la recuperacin,
se abordadan, con una buena ejemplificacin prctica, las cualidades de la indizacin
exhaustividad, especificidad, correccin y consistencia, as como un interesante y
oportuno epgrafe sobre la indizacin en Internet.
Los captulos siguientes estn organizados segn una secuencia lgica en cuanto a la
realizacin del proceso y su evaluacin, lo que permite la comprensin natural tanto
por aprendices de la indizacin como por profesionales, en la medida en que se dedican
al uso de las herramientas en la indizacin, la prctica de la indizacin, la indizacin
automtica y la evaluacin de la indizacin.
Teniendo en cuenta la importancia de los lenguajes de indizacin como herramientas
de mediacin de la comunicacin del contenido del documento, el captulo las identifica
como lista de palabras clave, lista de descriptores, cdigos de categora temtica, as
como las ms utilizadas: lista de encabezamientos de materia y tesauros. En el tem
dedicado a los tesauros, el libro ofrece un contenido dedicado a los softwares de gestin
de tesauros para dominios de asunto que necesitan de controles de vocabularios ms
especficos, lo que se torna ms conveniente para unidades de informacin, archivos,
bibliotecas y centros de informacin, cada vez ms especializados.
Esas herramientas de control del vocabulario, conocidas en la literatura como lenguajes documentales o lenguajes de indizacin, son un conjunto controlado de trminos
dotados de reglas sintcticas y semnticas cuyo objetivo es la representacin de los
conceptos significativos de asuntos de los documentos durante la indizacin, en la fase
de traduccin, y representacin del asunto de inters del usuario durante la bsqueda.
La prctica de la indizacin es vista desde distintas perspectivas: desde el proceso
realizado con el uso, tanto del lenguaje natural como de los vocabularios controlados
(tesauro o listas de encabezamientos de materia); desde la tipologa de documentos
audiovisuales, sonoros, grficos o textuales, y desde las polticas en grandes bases de
datos documentales como en Agricola e inspec, entre otras. Cabe resaltar la importancia de abordar con claridad la existencia de esas polticas de indizacin en sistemas de
informacin que producen bases de datos con el fin de legitimar la consistencia y la
uniformidad en la actuacin del indizador.
En el captulo quinto, sobre la indizacin automtica, se aborda la complejidad del
proceso a partir del conocimiento terico o metodolgico de reas que contribuyen a
la creacin interdisciplinar de un conjunto de herramientas. En el epgrafe dedicado a
los prototipos para la indizacin automtica, se presenta el Sistema de Indizacin Semiautomtico (Sisa), un software diseado por el autor que es objeto de anlisis y
evaluacin. Durante la estancia en Brasil del profesor Gil Leiva, comentada anterior-

[10]

manual de indizacin. teora y prctica

mente, llev a cabo la presentacin de los principales marcos tericos de la indizacin


automtica, la evaluacin mediante ndices de consistencia de catlogos y bases de
datos bibliogrficas y, especialmente, del software Sisa, por el que los alumnos mostraron mucho inters, tanto acerca de su funcionamiento como de su evaluacin. En un
contexto de aprendizaje, el software Sisa es una herramienta que ofrece la posibilidad
de la comprensin terica y metodolgica del proceso de indizacin con una doble
ventaja: la identificacin automtica de trminos y la seleccin manual compatible con
un lenguaje documental para el control del vocabulario y de criterios cualitativos de
indizacin.
El ltimo captulo aborda la evaluacin de la indizacin en sus aspectos intrnseco y
extrnseco. Esa distincin se refiere, por un lado, a la evaluacin intrnseca, cualitativa
o cuantitativa, como los resultados de la indizacin, los descriptores, encabezamientos
o identificadores, y, por otro lado, a la evaluacin extrnseca, cuando se usan los resultados de la indizacin en estudios comparados con diferentes catlogos o herramientas
de recuperacin de la informacin. De modo muy didctico y, tambin, innovador, el
autor expone las frmulas de evaluacin intrnseca y extrnseca acompaadas de ejemplos que esclarecen la aplicabilidad de sus resultados. Es absolutamente imprescindible
la evaluacin del proceso de indizacin por parte del indizador, aunque, en la prctica,
no se priorizan en los sistemas de informacin. Entretanto, este Manual de indizacin
ofrece la posibilidad de diversos esclarecimientos con relacin a la prctica continua
de los mtodos de evaluacin.
Como reflexin final, cabe sealar que el mrito de este obra es conciliar la teora y
la prctica de la indizacin, una tarea aparentemente simple cuando se piensa en la
identificacin de palabras clave de un texto, pero innovadora, porque entendemos que
la actuacin del indizador no est aislada, sino inmersa en una poltica de indizacin.
Maringela Spotti Lopes Fujita
Departamento de Ciencias de la Informacin
de la Universidad Estadual Paulista (unesp)
(Marlia, So Paulo)

ndice

1. El proceso cognitivo y la indizacin................................................................................


1.1. Organizacin de la comunicacin................................................................................
1.1.1. Discurso textual...............................................................................................
1.1.1.1. Concepto de texto................................................................................
1.1.1.2. Criterios de textualidad.......................................................................
1.1.1.3. Estructura del texto.............................................................................
1.1.1.4. Tipos de texto......................................................................................
1.2. Percepcin sensorial de la informacin........................................................................
1.3. Activacin de la memoria............................................................................................
1.3.1. Memoria sensorial............................................................................................
1.3.2. Memoria a corto y memoria a largo plazo.......................................................
1.4. Comprensin...............................................................................................................
1.4.1. Estrategias y procesos en la comprensin.........................................................
1.4.2. Elementos para la comprensin........................................................................
1.4.2.1. Cohesin discursiva............................................................................
1.4.2.2. Coherencia discursiva.........................................................................
1.4.2.2.1. Tema oracional [42]. 1.4.2.2.2. Tema textual [47].

15
16
16
16
18
19
22
28
28
30
30
32
32
36
37
40

2. La indizacin................................................................................................................... 52
2.1. Concepto de indizacin............................................................................................... 52
2.1.1. ndice e indexacin versus indizacin............................................................... 61
2.2. Cualidades de la indizacin......................................................................................... 67
2.2.1. Exhaustividad.................................................................................................. 67
2.2.2. Especificidad.................................................................................................... 68
2.2.3. Correccin....................................................................................................... 69
2.2.4. Consistencia..................................................................................................... 69
2.3. Indizaciones de un documento.................................................................................... 73
2.4. Zonas de extraccin de conceptos y tiempo dedicado................................................. 79
2.5. Normas sobre indizacin............................................................................................. 80
2.6. Relacin entre indizacin y recuperacin.................................................................... 81
2.7. Indizacin en Internet.................................................................................................. 90
2.8. Cronologa de la indizacin......................................................................................... 107

[12]

manual de indizacin. teora y prctica

3. Herramientas para la indizacin...................................................................................... 113


3.1. Lenguaje natural versus lenguaje controlado............................................................... 113
3.2. Listas de palabras clave............................................................................................... 115
3.3. Listas de descriptores.................................................................................................. 116
3.4. Cdigos de categora temtica..................................................................................... 119
3.5. Listas de encabezamientos de materia......................................................................... 122
3.4.1. Definicin......................................................................................................... 122
3.4.2. Aportaciones para su configuracin................................................................. 123
3.4.3. Principios y reglas............................................................................................ 129
3.4.4. Relaciones semnticas...................................................................................... 141
3.6. Tesauros...................................................................................................................... 146
3.6.1. Definicin y uso............................................................................................... 146
3.6.2. Composicin.................................................................................................... 148
3.6.3. Normas y directrices........................................................................................ 151
3.6.3.1. La norma iso 2788-1986: Tesauros monolinges................................ 153
3.6.4. Construccin de tesauros................................................................................. 187
3.6.4.1. Software de gestin de tesauros.......................................................... 202
3.6.5. Mantenimiento y actualizacin........................................................................ 208
3.6.6. Evaluacin....................................................................................................... 213
3.6.6.1. Evaluacin intrnseca.......................................................................... 213
3.6.6.2. Evaluacin extrnseca......................................................................... 215
3.6.7. Lenguajes de marcado para tesauros................................................................ 217
3.6.7.1. Skos-Core........................................................................................... 218
3.6.7.2. Zthes.................................................................................................. 220
3.6.8. Tesauros versus ontologas............................................................................... 224
3.7. Interoperabilidad entre vocabularios controlados........................................................ 233
4. Prctica de la indizacin.................................................................................................. 245
4.1. Proceso de la indizacin.............................................................................................. 245
4.1.1. Indizacin con lenguaje natural........................................................................ 247
4.1.2. Indizacin con vocabulario controlado............................................................ 251
4.1.2.1. Indizacin con tesauro........................................................................ 252
4.1.2.2. Indizacin con listas de encabezamientos de materia.......................... 259
4.2. Indizacin de documentos........................................................................................... 261
4.2.1. Documentos audiovisuales............................................................................... 261
4.2.2. Documentos sonoros........................................................................................ 269
4.2.3. Documentos grficos........................................................................................ 276
4.2.4. Documentos textuales...................................................................................... 288
4.3. Polticas de indizacin................................................................................................. 298
4.3.1. Bases de datos documentales............................................................................ 300
4.3.1.1. La indizacin en agrcola. ................................................................. 300
4.3.1.2. La indizacin en inspec....................................................................... 304
4.3.1.3. La indizacin en current contents. ................................................... 308
4.3.1.4. La indizacin en eric.......................................................................... 309
4.3.1.5. La indizacin en medline.................................................................... 314

ndice

[13]

5. Indizacin automtica..................................................................................................... 319


5.1. Concepto..................................................................................................................... 319
5.2. Interdisciplinariedad en la indizacin automtica........................................................ 322
5.2.1. Lingstica........................................................................................................ 324
5.2.2. Terminologa.................................................................................................... 325
5.2.3. Informtica...................................................................................................... 326
5.2.4. Lingstica computacional................................................................................ 327
5.2.5. Estadstica........................................................................................................ 328
5.3. Herramientas para la indizacin automtica............................................................... 329
5.3.1. Listas de palabras vacas.................................................................................. 330
5.3.2. Ponderacin de trminos.................................................................................. 333
5.3.2.1. Ley de Zipf......................................................................................... 333
5.3.2.2. Frecuencia del trmino........................................................................ 334
5.3.2.3. Inverse document frequency............................................................... 336
5.3.2.4. Valor de discriminacin del trmino................................................... 337
5.3.3. Analizadores lingsticos.................................................................................. 338
5.3.3.1. Analizador morfolgico...................................................................... 339
5.3.3.2. Analizador sintctico.......................................................................... 345
5.3.3.3. Analizador semntico......................................................................... 349
5.3.4. Algoritmos....................................................................................................... 361
5.3.5. Vocabularios controlados y ontologas............................................................. 363
5.3.6. Reconocedores de nombres propios y siglas..................................................... 364
5.3.7. Heursticas....................................................................................................... 365
5.4. Prototipos para la indizacin automtica.................................................................... 366
5.4.1. sisa................................................................................................................... 368
6. Evaluacin de la indizacin............................................................................................. 385
6.1. Evaluacin intrnseca.................................................................................................. 385
6.1.1. Evaluacin intrnseca cualitativa...................................................................... 385
6.1.2. Evaluacin intrnseca cuantitativa.................................................................... 386
6.2. Evaluacin extrnseca.................................................................................................. 388
6.2.1. Evaluacin extrnseca mediante la interconsistencia......................................... 388
6.2.2. Evaluacin extrnseca mediante la recuperacin............................................... 392
Anexo 1: Recomendaciones para un buen posicionamiento web......................................... 401
Anexo 2: Lenguajes de encabezamientos de materia en bibliotecas nacionales.................... 403
Anexo 3: Ejemplo de metadatos usando el esquema de tesauros rdf/xml. .......................... 407
Bibliografa......................................................................................................................... 411

Captulo 1
EL PROCESO COGNITIVO Y LA INDIZACIN

aci

Or

ga
za

s o ria l d e la
i nf

rm

ni

ci
n de la c o m

COMPRENSIN

un

sen

MEMORIA

ca

A las operaciones mentales llevadas a cabo por los seres racionales para la recepcin
selectiva de informacin, para su codificacin simblica y su almacenamiento y recuperacin, se las denomina proceso cognitivo. La psicologa cognitiva es la disciplina que
estudia procesos cognitivos como la percepcin sensorial de la informacin, el aprendizaje (lenguaje, lectura y escritura), la memoria o la capacidad de razonamiento.
Para producir palabras clave, trminos de indizacin o los encabezamientos de materia para un documento, durante la indizacin, se desencadena una sucesin interactiva
y simultnea de procesos mentales que tienen que ver precisamente con la percepcin,
la manera en la que se organizan la informacin, la memoria y la comprensin. Para
explicar ello nos vamos a acercar a disciplinas como la lingstica textual, la psicologa
cognitiva o la comunicacin de masas.
Si bien casi todas las actividades mentales del proceso cognitivo estn interconectadas
y son concurrentes durante la ejecucin de la indizacin, aqu las presentamos de forma
secuencial para conseguir una mayor claridad expositiva.

ci

Perc
e

pc

Proceso cognitivo en la indizacin

Potrebbero piacerti anche