Sei sulla pagina 1di 113

UNIVERSIDAD NACIONAL AUTNOMA

DE MXICO

LICENCIATURA EN LENGUA Y LITERATURA


HISPNICAS

HACIA UNA OBTENCIN COMPUTARIZADA DE


TRMINOS. (APLICACIN CONCRETA AL LXICO
DE LA FSICA EN EL NIVEL BACHILLERATO).

Antonio Reyes Prez

Tesis para optar por el grado de Licenciado en Lengua y Literatura


Hispnicas

Ciudad Universitaria 2002

UNIVERSIDAD NACIONAL AUTNOMA


DE MXICO

LICENCIATURA EN LENGUA Y LITERATURA


HISPNICAS

HACIA UNA OBTENCIN COMPUTARIZADA DE


TRMINOS. (APLICACIN CONCRETA AL LXICO
DE LA FSICA EN EL NIVEL BACHILLERATO)

Antonio Reyes Prez

Tesis para optar por el grado de Licenciado en Lengua y Literatura


Hispnicas

Asesor: Dr. Gerardo Sierra Martnez

Ciudad Universitaria 2002

Paramispadres
yparatodosaquellosqueconfiaronenm.

Unamencinespecialparatodosytodaslosqueestnylosquehanentradoy
salidodemividadejandoalgo,yenparticular,aLeticia.

Un agradecimiento especial para el Doctor Gerardo Sierra por apoyarme en ste y otros
trabajos; a todos los integrantes del GIL por enriquecer a travs de los seminarios y el
trabajodiarioestatesis;tambinvanmisgraciasparalaDoctoraAnaMaraCardero,la
Maestra Margarita Palacios, la Maestra Adriana vila y la Maestra Alejandra Vigueras
porhaberaceptadoserpartedeesteproyectoyhaberlomejoradoconsusobservaciones.

Hacia una obtencin computarizada de trminos. (Aplicacin concreta al lxico de la


fsica en el nivel bachillerato).

NDICE

INTRODUCCIN

Antecedentes

Motivacin: El Grupo de Ingeniera Lingstica (GIL)

de la UNAM

iii

Objetivo

iv

Organizacin

iv

1.

FUNDAMENTOS BSICOS DE LA TERMINOLOGA


1.1

2.

La terminologa

1.1.1 Definicin de trmino y palabra

1.1.2 Tipos de trminos

11

1.1.3 El rea terminolgica en nuestros das

13

1.2

Terminologa y lingstica

15

1.3

La terminologa como recurso de la ingeniera lingstica

18

ESTUDIOS SOBRE EXTRACCIN TERMINOLGICA


2.1

Extraccin de terminologa

21

2.2

Mtodos para obtener trminos de forma automtica

25

2.2.1 Mtodos estadsticos

26

2.2.2 Mtodos basados en reglas

29

2.2.3 Mtodos hbridos

31

ndice

2.3

Resultados importantes relacionados con la extraccin


automtica de trminos

3.

33

HERRAMIENTAS PARA EXTRAER TRMINOS A TRAVS DE


PROCESOS AUTOMTICOS
3.1

3.2

4.

Procesos de anlisis

36

3.1.1 Lista de palabras

37

3.1.2 Listas de detencin

40

3.1.3 Palabras clave

43

3.1.4 Concordancia

45

3.1.5 Informacin mutua

47

Programas existentes

49

3.2.1 WordSmith

52

OBTENCIN DE LA TERMINOLOGA
4.1

Delimitacin del objeto de estudio

55

4.1.1 Cmo se obtuvo el material en formato electrnico

56

4.1.2 El hipertexto

56

Listas de palabras

58

4.2.1 Procesos para la obtencin de listas de palabras

58

4.2.2 Activacin de la lista de detencin

59

4.2.3 Pulido de las listas de palabras

60

Palabras clave

62

4.3.1 Elaboracin de listas de palabras alternas

62

4.3.2 Comparacin entre las diferentes listas de palabras

63

4.4

ndice de posibles trminos simples

64

4.5

Concordancia

69

4.6

Anlisis de palabras clave a travs de agrupamientos y

4.2

4.3

colocaciones

70

4.6.1 Terminologa polilxica a partir de listas de palabras


mltiples e informacin mutua

73

ndice

5.

RESULTADOS
5.1

Presentacin de los resultados

79

5.2

Validacin de los resultados

83

6. CONSIDERACIONES FINALES
6.1 Conclusiones

86

6.2 Trabajos futuros

90

BIBLIOGRAFA

92

Hacia una obtencin computarizada de trminos. (Aplicacin concreta al lxico de la fsica


en el nivel bachillerato).

INTRODUCCIN

Antecedentes
El trabajo que enseguida se presenta es el resultado de la investigacin realizada durante la
estancia como becario del Grupo de Ingeniera Lingstica (GIL), dentro del Instituto de
Ingeniera de la UNAM. Entre las distintas actividades y proyectos que se trabajan al
interior del GIL, est un proyecto destinado a elaborar un diccionario onomasiolgico en el
rea de fsica como material de apoyo para los estudiantes que cursan el nivel bachillerato.
De dicho proyecto se desprende este trabajo, cuyo primer objetivo es el de entregar al GIL
la metodologa necesaria para extraer trminos de forma automtica y comprobar su
eficiencia al extraer los trminos concernientes a la subrea de mecnica. El objetivo
particular que se busca conseguir con este trabajo es el de presentar la investigacin
realizada para cumplir con el objetivo del proyecto del GIL, pero dentro de un proyecto de
tesis para obtener el grado de Licenciado en Lengua y literatura hispnicas; carrera que a
travs de su vertiente lingstica dota al alumno de conocimientos que le permiten ampliar
la visin y el estudio de problemticas que lo ataen directa e indirectamente en su relacin
consigo mismo y su entorno.

La informacin que a continuacin se describe representa el desarrollo de la


investigacin y exposicin del trabajo realizado para conseguir este objetivo particular.

El trabajo se titula: HACIA UNA OBTENCIN COMPUTARIZADA DE


TRMINOS. (APLICACIN CONCRETA AL LXICO DE LA FSICA EN EL NIVEL
BACHILLERATO) 1 ; tiene este ttulo porque, como a lo largo del trabajo se explicar, tanto
los anlisis como las extracciones son tareas que hasta el momento son efectuadas de forma
semiautomtica, y que se pretende en un futuro, sean de carcter cien por ciento

De aqu en adelante se hablar de extraccin automtica y semiautomtica en lugar de computarizada

Introduccin

automtico. El material que compone este trabajo est pensado y divido implcitamente en
tres funciones. En la primera se establecen los fundamentos bsicos del tema que constituye
la materia prima del trabajo, la terminologa, y por consiguiente, los trminos. La segunda
funcin describe, una vez establecido lo que se pretende extraer, cmo la terminologa es
usada en apoyo a la ingeniera lingstica por medio de la aplicacin de herramientas
aprovechadas en programas de cmputo para extraer trminos. La ltima funcin detalla el
procedimiento que se llev a cabo para obtener la terminologa y los resultados obtenidos.

Cabe sealar que este trabajo, como se detallar en el captulo 1, se engloba


dentro de la disciplina de la ingeniera lingstica, de la cual en su momento se hablar.
Esta interaccin de disciplinas implica que la investigacin no est ceida exclusivamente a
la lingstica, sino que participa de materias interdisciplinarias como la estadstica, la
ingeniera en computacin y otras, que si bien no se detallan de forma profunda por
cuestiones obvias de tiempo, espacio y necesidades, s se describen los procedimientos
bsicos para lograr entender el desarrollo de los captulos.

Es necesario hacer notar que los trabajos e investigaciones que se desarrollan


dentro de ingeniera lingstica no son nuevos, ya que desde la segunda mitad del siglo
pasado se comenz a trabajar en cuestiones computacionales aplicadas a la explotacin de
la lengua, tal es el caso de los estudios sobre recuperacin de informacin, traduccin
automtica y asistida por computadora, enseanza de lenguas extranjeras, etc. Las
investigaciones y proyectos que tienen relacin estrecha o indirecta con la explotacin de la
extraccin automtica de terminologa 2 han sido numerosos tambin, tanto ms en Europa
y Estados Unidos que en Amrica Latina; sin embargo, las investigaciones continan y el
desarrollo de esta rea, as como de otras que tienen una interrelacin muy estrecha, siguen
en constante aumento.

La investigacin que aqu se desarrolla es una muestra de la preocupacin por


distintos grupos de investigacin interdisciplinaria en el desarrollo de tcnicas, recursos y

En un apartado del captulo 2 se hace mencin de algunos proyectos relacionados con la extraccin
automtica de trminos.

ii

Introduccin

sistemas para extraer trminos, no porque sta tarea sea la panacea, sino porque resulta,
adems de una disciplina de vasta explotacin, una herramienta bastante til para el
desarrollo y apoyo de otras reas de investigacin que no necesariamente tienen que ver
con la lingstica.

Motivacin: El Grupo de Ingeniera Lingstica (GIL) de la UNAM

La presentacin de este trabajo como material de tesis obedece al gusto e inters


por dar impulso y, en cierto sentido (aunque mnimo), desarrollar un rea de gran utilidad y
provecho para el GIL, la extraccin automtica de terminologa.

Esta tarea terminolgica cumple un papel muy importante al interior del GIL,
ah se desarrollan sistemas, metodologas, recursos y aplicaciones que explotan los recursos
que representa el aprovechamiento de la lingstica y sus distintas ramas de forma
interdisciplinaria y en beneficio de investigadores, profesionales, estudiantes y pblico en
general.

De la estancia en el GIL y de la colaboracin para cumplir con los diversos


proyectos que ah se desarrollan se desprende este material, el cual responde a las
necesidades que en su momento se tuvieron para desarrollar la fase respectiva a la
obtencin de la terminologa que compondra el diccionario onomasiolgico de fsica.

Para realizar esta investigacin se cont con la infraestructura presente en el


GIL, entendindose por infraestructura, tanto las instalaciones como el material
bibliogrfico, el programa WordSmith para extraer la terminologa, la interaccin con los
diversos grupos interdisciplinarios que de forma directa o indirecta han y tienen que ver con
la ingeniera lingstica, y el apoyo necesario para desarrollar este trabajo.

iii

Introduccin

Objetivo
El objetivo particular que se persigue con este trabajo (presentar esta
investigacin como proyecto de tesis), es el de estudiar la terminologa como teora
especializada en el anlisis de vocabularios tcnicos y cientficos 3 para aplicarla como
herramienta de la ingeniera lingstica, y aprovechar los usos que como herramienta de
apoyo representa en un trabajo de extraccin automtica.

De la aplicacin de la terminologa como recurso de la ingeniera lingstica se


pretende obtener, a travs de la utilizacin de un programa computacional, los trminos
relativos a la rama de la fsica encargada de la mecnica.

En relacin con los trminos que se pretenden extraer, es necesario dejar muy en
claro que stos se restringen nicamente al nivel bachillerato y al material proporcionado
por el Centro de Instrumentos, llamado hipertexto; de forma que cualquier trmino que no
aparezca en l o que pertenezca a un nivel superior al bachillerato queda completamente
justificado en el entendido de que la extraccin est delimitada slo al hipertexto y al nivel
bachillerato.

Organizacin
El desarrollo que este material sigue, responde a las necesidades del objeto de

estudio, esto es, que mediante la aplicacin y explotacin de una herramienta


computacional, WordSmith, se pretende extraer los trminos relativos a mecnica
pertenecientes al rea de la fsica. Para complementar la informacin y dar un seguimiento
ms preciso a los temas que se tocarn en la investigacin, el trabajo se encuentra dividido
en cinco captulos, los cuales a su vez cumplen tres funciones distintas:

Vase Ana Mara Cardero. El procesamiento de una terminologa. Referencia especial a la terminologa de
control de satlites en el rea de las telecomunicaciones en Mxico. Tesis de doctorado. Mxico: 2001.

iv

Introduccin

1. describir los fundamentos bsicos de la materia que se encarga del estudio de las
unidades que se pretenden extraer, es decir, delinear los principios de la terminologa;
2. explicar el uso de la terminologa como recurso de la ingeniera lingstica a travs de
las herramientas diseadas para ejecutar cuestiones de extraccin terminolgica y la
aplicacin de stas a sistemas de cmputo;
3. aplicar las herramientas de extraccin terminolgica presentes en WordSmith para
obtener la terminologa requerida.

Estas tres funciones son complementarias y se desarrollan en los cinco captulos


de la siguiente forma.

En el captulo 1 se delinean los fundamentos bsicos de la terminologa y los


vnculos que relacionan a sta con la lingstica; se detallan adems las propiedades de la
materia de estudio de la terminologa, los trminos, a fin de dejar en claro que lo que en
esta investigacin se pretende no es extraer lxico o informacin o algn otro rasgo
lingstico, sino que se delimita exclusivamente a los trminos.

Se pretende que al final de este captulo queden despejados los siguientes


puntos:
1. qu es la terminologa,
2. qu diferencias hay entre trminos y palabras,
3. cules son las caractersticas y tipos de trminos,
4. establecer los vnculos entre terminologa y lingstica, y
5. dejar en claro cmo la terminologa es aplicada como recurso de la ingeniera
lingista en este trabajo.

En el captulo 2 se habla sobre la aplicacin de la terminologa como recurso de


la ingeniera lingstica, esto es, se habla ya no sobre terminologa desde un enfoque
lingstico, sino que se habla sobre extraccin automtica de terminologa.

Introduccin

Est contemplado en este apartado especificar qu es la extraccin automtica o


semiautomtica de trminos, qu mtodos existen para extraer terminologa y cmo
funcionan. Para finalizar el captulo 2 se mencionan distintos proyectos concluidos o por
concluir que han trabajado ya sea de forma directa o indirecta con cuestiones de extraccin
terminolgica.

El captulo 3 hila el captulo anterior. Se retoman las metodologas para extraer


trminos, pero aplicadas a sistemas de cmputo encargados de hacer automtica la tarea
extractiva.

En especial, se habla de las herramientas que presenta el programa WordSmith,


con el cual fueron efectuados los anlisis para obtener la terminologa. No se deja de
mencionar en un apartado especial las caractersticas que este programa presenta; adems,
se hace mencin de algunos programas existentes en el mercado (aunque no se entra en un
anlisis sobre ellos) que realizan funciones de extraccin de trminos y cuentan con
herramientas como las que posee WordSmith.

De esta forma, una vez finalizado este captulo se tendr en claro lo siguiente:
1. qu es una lista de palabras,
2. qu son y para qu sirven las listas de detencin,
3. qu son y cmo se obtienen las palabras clave,
4. qu es un anlisis de concordancia y para qu sirve,
5. qu es la informacin mutua y qu representa un anlisis por medio de esta
herramienta.

En el captulo 4 se ponen en prctica las herramientas descritas en el 3 por


medio del programa WordSmith. Este captulo es la parte prctica de la teora descrita en
los tres primeros, ya que a lo largo de este captulo se describen todos los procesos y
anlisis efectuados para extraer la terminologa propuesta.

vi

Introduccin

Para conformar este captulo fue necesario realizar, con WordSmith, los anlisis
que deban arrojar la terminologa pretendida. Se detalla desde la obtencin del material,
cedido por el Centro de Instrumentos, el cual mediante los anlisis del programa
proporcionara la terminologa deseada. Se describen los procesos y anlisis llevados a
cabo, tal y como son la elaboracin de listas de palabras y de detencin, los procesos de
bsqueda de palabras clave, los anlisis de concordancia, adems de los hechos por medio
de informacin mutua que dieron como resultado obtener un total de trminos propuestos
para conformar el bloque dedicado a mecnica.

El captulo 5 y ltimo consta de la presentacin de los trminos obtenidos en el


captulo anterior a la gente del Centro de Instrumentos 4 para que evaluaran y avalaran la
terminologa derivada del trabajo.

Se finaliza este captulo y el material de que consta este trabajo, con las
observaciones y evaluaciones que los del Centro de Instrumentos sugieren a los resultados
logrados en este trabajo.

De esta forma, las tres funciones implcitas de este trabajo quedan enmarcadas
de la siguiente forma:
a) la funcin primera dedicada a dar los fundamentos bsicos de la terminologa
corresponde al captulo1,
b) los captulos 2 y 3 afectan a la segunda funcin, diseada para establecer cmo la
terminologa es usada en esta investigacin como herramienta de apoyo a la
ingeniera lingstica,
c) la ltima funcin, dedicada a la obtencin de los trminos, equivale a los captulos 4
y 5.
Finalmente, se proporcionan las conclusiones derivadas de este trabajo, as
como los trabajos futuros que se desprenden de este material
4

Por razones de necesidad (haba que obtener una respuesta pronta de parte de gente especializada no tanto en
terminologa, sino en el rea de fsica, de los resultados conseguidos para no detener el proyecto principal), y
luego de tiempo (en el tiempo y espacio disponibles para realizar una tesis de licenciatura no es posible
abarcar todo lo que uno quisiera), no existi la posibilidad de evaluar la terminologa obtenida por medio de
reglas lingsticas.

vii

Hacia una obtencin computarizada de trminos. (Aplicacin concreta al lxico de la fsica


en el nivel bachillerato).

1. FUNDAMENTOS BSICOS DE LA TERMINOLOGA

1.1 La terminologa
La investigacin que a continuacin se desarrolla tiene por objeto presentar una
terminologa concerniente al lxico empleado en la enseanza de la fsica a nivel
bachillerato. Para lograr este fin, a lo largo de los siguientes cinco captulos se trazan los
principios bsicos de lo que es la materia de estudio de este trabajo: terminologa, y por
tanto, trminos; as tambin, se describen las herramientas y algunos programas existentes
sobre la extraccin de trminos, adems de los procesos llevados a cabo para obtener la
terminologa de la que ms arriba se habla.

De igual forma, en el desarrollo de este trabajo, y puesto que esta es una


investigacin interdisciplinaria debido a que se tratar la terminologa no desde un punto
estrictamente lingstico, sino como una herramienta de apoyo para la ingeniera
lingstica, se abordarn temas que tienen que ver con la termintica, esto es, el trabajo
terminolgico mediante herramientas informticas, como lo son los mtodos existentes para
extraer trminos va una computadora, las herramientas que presentan los distintos
programas creados para trabajar con cuestiones de extraccin de trminos, recuperacin de
informacin, etc., sin dejar de mencionar algunos proyectos que han trabajado o trabajan
con extraccin de terminologa, adems de mencionar algunos programas que existen sobre
el tema. Por ltimo, luego de describir los procesos efectuados para obtener la terminologa
pretendida, en el captulo 5 se pondr de manifiesto la evaluacin que los expertos en fsica
dan sobre los trminos presentados.

Para iniciar con esta investigacin, el primer paso es describir en qu consiste y


cul es el objeto de estudio de la terminologa.

Captulo 1 Fundamentos bsicos de la terminologa

sta es una disciplina que se ocupa de un aspecto importante de la lengua, el


lxico, mas en este caso, el lxico especializado, y es, segn Cabr, una disciplina que se
divide en tres vertientes diferentes 1 :
1. una vertiente que considera la terminologa como una disciplina autnoma, de
carcter interdisciplinario, al servicio de las disciplinas cientfico tcnicas.;
2. otra vertiente plantea la terminologa a travs de un aspecto filosfico, el cual se
interesa por la categorizacin lgica de los sistemas de conceptos y la organizacin
del conocimiento.;
3. y una tercera vertiente que se enfoca hacia el aspecto lingstico de la terminologa,
el cual es el que nos ocupa y que considera la terminologa como un
subcomponente lxico de la lengua, y los lenguajes de especialidad como
subsistemas de la lengua.
Tales vertientes se detallaran ms adelante en el apartado dedicado a la
terminologa y lingstica.

Por otra parte, es necesario destacar que existen, respecto a la terminologa,


distintos enfoques que tratan de limitar su campo de estudio y la vinculacin que con las
diferentes disciplinas pudiese tener. Hay quienes plantean la terminologa como una
prctica ligada a la simple resolucin de necesidades sociales del hombre; algunos otros
ms la consideran como una disciplina cientfica, autnoma y deudora de otras
especialidades. Los ms adoptan una posicin entre los dos extremos, ms neutral para con
la terminologa.

Por ejemplo, hay quienes definen las terminologas como vocabularios especiales,
los cuales son la llave para los especialistas en sus procesos comunicativos, donde el uso de
estas terminologas hace que su comunicacin sea ms eficaz. En cambio, hay quienes
juzgan las terminologas como una jerga por dems incomprensible para el pblico. Baste
como ejemplo mencionar las plticas entre mdicos.

Mara Teresa Cabr. La terminologa. Teora, metodologa, aplicaciones. Barcelona: Antrtida/Empries,


1993. p. 32.

Captulo 1 Fundamentos bsicos de la terminologa

No deja de causar inquietud en esta investigacin la interrogante en torno a la


utilidad de las terminologas. Por qu han surgido? Una respuesta muy convincente la
presenta Christian Galinsky, quien argumenta que la necesidad de aportar mayor precisin
al pensamiento humano y a la misma comunicacin fue lo que llev al hombre a la creacin
de trminos como representantes de conceptos claramente definidos 2 ; esto es, quizs de
forma burda, etiquetar el mundo, encasillar todo lo que en l hay dentro de distintos
mrgenes, cada uno con su lenguaje correspondiente 3 , como lo dice Sager; para permitir
un mejor nivel de comunicacin y entendimiento, sin prestarse a ambigedades.

A fin de cuentas, estas ideas podran resumirse como competencia lingstica, que
no es otra cosa que los conocimientos que un individuo tiene sobre una lengua; y en un
punto en que esta competencia lingstica es llevada a tal grado de especializacin como lo
son las terminologas, resulta de gran utilidad y provecho para aqullas que tienen su
campo de estudio y trabajo en el uso diario de trminos que deben representar slo un
concepto, objetos de sus desempeos laborales e intelectuales diarios, tal y como lo seala
Cardero cuando apunta que una terminologa en su concepcin ideal debe tratar de incluir
todos los trminos que empleen los profesionales de la ciencia o de la tcnica de que se
trate en una lengua 4 para facilitar la labor de stos y propiciar un nivel vasto de
entendimiento.

Tambin es necesario aclarar que la terminologa se ocupa de la designacin de


los conceptos de las lenguas de especialidad, y en cuanto a su estudio, Cabr hace hincapi
en que deben tomarse en cuenta cuatro puntos a considerar sobre los diferentes enfoques
desde los cuales puede estudiarse la terminologa 5 :
1. enfoque lingstico; donde la terminologa es una parte del lxico especializado
por criterios temticos y pragmticos.
2

Christian Galinsky. Terminologa y sociedad moderna: el papel de INFOTERM. Las industrias de la lengua.
Madrid: Fundacin Germn Snchez Ruiprez, 1991. p. 243.
3
Juan Carlos Sager. La terminologa, puente entre varios mundos. Op. Cit. pp. 12 13.
4
Ana Mara Cardero. La integracin del corpus de la terminologa de control de satlites en Mxico. Actas
del lV simposio iberoamericano de terminologa RITerm. Terminologa y desarrollo. Tomo ll. Mxico, (1996)
p. 106.
5
Mara Teresa Cabr. Op. Cit. p. 37

Captulo 1 Fundamentos bsicos de la terminologa

2. Enfoque de los especialistas; donde la terminologa es el reflejo formal de la


organizacin conceptual de una especialidad, y por consecuencia, un medio por el
cual debe de fluir la comunicacin en el mbito profesional.
3. Enfoque de los usuarios; para quienes la terminologa es un conjunto de unidades
de comunicacin.
4. Enfoque de los planificadores lingsticos; quienes ven a la terminologa como un
mbito del lenguaje donde se debe intervenir para reafirmar la existencia, la
utilidad y la pervivencia de la lengua.

Tomando en cuenta estos enfoques, y de acuerdo con las conveniencias de esta


investigacin, se opt por hacer uso de la terminologa vista desde el enfoque lingstico,
del cual se hablar ms adelante.

Ahora bien, una vez sentadas las bases de la terminologa, es preciso dedicar un
apartado a la explicacin del objeto de estudio de la misma, los trminos; y ahondar en lo
posible sobre ella para, en la medida de nuestras posibilidades y de las necesidades de este
trabajo, dejar en claro la disciplina que se ocupa de la materia prima de la actual
investigacin.

1.1.1 Definicin de trmino y palabra


Si bien tanto la terminologa como la lexicologa tienen un campo de estudio en
comn, las palabras, tienen tambin la caracterstica de que en la segunda el nico inters
es la palabra como tal, en tanto que en la primera, lo es el trmino. Pero cul es la
diferencia que existe entre las palabras y los trminos, en dnde empieza uno y acaba otra,
cules son sus caractersticas para diferenciarlos?

Desde una perspectiva lingstica, y segn palabras de Alicia Fedor, la palabra es


un smbolo lingstico que admite matices semnticos y depende del contexto; el trmino

Captulo 1 Fundamentos bsicos de la terminologa

acusa un grado de precisin mucho ms elevado y pertenece a un sistema de conceptos


determinado. 6

En un grado muy similar de apreciacin, Jos Vega apunta que de un punto de


vista lingstico, los trminos no son diferentes a las palabras (simples o compuestas) de la
lengua general (tienen una categora lxica, una representacin morfolgica, etc.). Sin
embargo, dichos trminos estn en relacin con otros objetos conceptuales que no estn
descritos en los modelos lexicogrficos, como por ejemplo: los dominios, las definiciones,
los contextos... 7 .

Por otro lado, Cabr apunta que la diferencia entre palabra y trmino estriba en
que una palabra es una unidad descrita por un conjunto de caractersticas lingsticas
sistemticas y dotada de la propiedad de referirse a un elemento de la realidad 8 ; mientras
que un trmino es, una unidad de caractersticas lingsticas parecidas, utilizada en un
dominio de especialidad. [Por tanto] una palabra que forme parte de un mbito
especializado sera un trmino 9 .

Por su parte, Kulebakin y Klimovitskii, miembros de la Escuela Rusa, sugieren


que un trmino es una palabra o combinacin de ellas cuyo smbolo lingstico se relaciona
con el concepto que representa, esto es, simboliza su significado y su significante; univoco
dentro de un rea especfica y delimitada 10 .

Una caracterstica por dems importante sobre las peculiaridades de un trmino la


vierte otra rusa, L. Kutina, para quien un trmino debe ser monosmico y carente de
sinonimia 11 .
6

Alicia Fedor de Diego. Terminologa teora y prctica. Venezuela: Universidad Simn Bolvar / Unin
Latina, 1995. p. 54 55.
7
Jos Vega. Herramientas lingsticas para la terminologa. Actas del lV simposio iberoamericano de
terminologa RITerm. Terminologa y desarrollo. Tomo ll, Argentina: (1994). p. 26.
8
Mara Teresa Cabr. Op. Cit. p. 87.
9
dem. p. 87.
10
Ver V. S Kulebakin y A. Klimovitskii. Los trabajos para la elaboracin de la terminologa cientfico
tcnica en la URSS y la Escuela de Terminologa Sovitica. Textos de terminlogos de la escuela rusa.
Barcelona: Institut Universitari de Lingstica Aplicada Pompeu Fabra, 2001, 61 - 87.
11
Ver V. S. Kulebakin y A. Klimovitskii. Op. Cit. pp. 61 - 87.

Captulo 1 Fundamentos bsicos de la terminologa

Ahora bien, segn anlisis de las diferentes definiciones que se tomaron de


diversos terminlogos, tenemos que en esencia una palabra es aquella forma que tiene un
aspecto fnico y grfico, posee una estructura morfolgica, gramatical y de significacin.
Un trmino, visto tambin lingsticamente, es otra forma con las mismas caractersticas,
slo que restringido a un lenguaje de especialidad. De aqu se deduce que las palabras se
centran al total del repertorio lxico, exceptuando al de especialidad.

Mas ahora surge una interrogante muy fuerte, qu hay con aquellas palabras que
pueden entrar dentro de la categora tanto de palabras como de trminos, o cmo
diferenciar a los trminos [que] participan en varios campos 12 de conocimiento? Este
problema es al que Cardero se refera cuando hablaba del comportamiento semntico de
los trminos, las creaciones neolgicas, los problemas de normalizacin, los problemas
sociolingsticos y pragmticos 13 , que nos enfrentan al problema de la polisemia.

Los trminos suelen tener un significado, solamente uno, e inequvoco, como


propone Kutina, y estos trminos se describen en el interior de un campo de especialidad
concreto.

Un ejemplo es la palabra sntesis, la cual presenta un aspecto polismico, puesto


que su significado depende de los contextos en los que aparezca: si la situamos dentro del
campo de la filosofa, su significado nos remitir a operaciones mentales; si en cambio, se
recurre a ella en un mbito psicolgico, representar un significado de conjuncin de
elementos psquicos; y si es usada en qumica referir su significado hacia la formacin de
sustancias.

Este argumento muestra que una palabra polismica puede ser, dependiendo del
sentido en que es utilizada, un elemento especfico y diferenciador. En este caso, sntesis
entra dentro de campos de especializacin que le adjudican su carcter de trmino; pero si

12
13

Ana Mara Cardero. Op. Cit. p. 110.


dem. p. 106.

Captulo 1 Fundamentos bsicos de la terminologa

esta misma unidad es usada en un contexto diferente, en donde por el carcter semntico de
su utilizacin no sea aplicado como elemento de especializacin, pierde la categora de
trmino, quedando slo como palabra.

Dicho de forma ms lingstica, una palabra polismica que no designe en un


nivel pragmtico slo un concepto, coincide nicamente con el significante, pero los
significados pueden ser distintos; en tanto las palabras polismicas o polifuncionales, como
las denomina Danilenko, que en su uso cumplen con una designacin especfica a un slo
concepto, convergen tanto en significado como en significante 14 .

Pero no es tan fcil aceptar estos postulados; por ejemplo, Alpizar seala en El
lxico de la terminologa. Algunas precisiones, que:

Hay entre los tericos de la terminologa una corriente, que afirma


que siempre los trminos son monosemnticos, por lo que las
diversas acepciones de un trmino no se analizan como casos de
polisemia, sino como manifestaciones de homonimia, a partir del
criterio de que las acepciones distintas responden a significados
pertenecientes a especialidades diferentes, como es el ejemplo de
virus en informtica y virus en biologa (dos unidades homnimas,
cada una de las cuales es monosmica), pero que, en cada
especialidad por separado el trmino es monosmico. 15

No obstante que esa es slo una posicin entre muchas, no deja de causar
inquietud o asombro. Por ejemplo, las ideas de Garca Palacios, quien plantea que dentro
de lo posible est tambin que en el fondo no nos encontremos ni ante palabras ni ante

14

Vase V. P. Danilenko. Sobre la posicin de la terminologa cientfica en el sistema lxico de una lengua.
Textos de terminlogos de la escuela rusa. Barcelona: Institut Universitari de Lingstica Aplicada Pompeu
Fabra, 2001, 19 28.
15
Rodolfo Alpizar Castillo. El lxico de la terminologa. Algunas precisiones. Actas del lV simposio
iberoamericano de terminologa RITerm. Terminologa y desarrollo. Tomo ll, Argentina: (1994). p. 79.

Captulo 1 Fundamentos bsicos de la terminologa

trminos, sino ante una especie de metalenguaje utilizado para referirnos a los nudos
clasificatorios. 16

Sin embargo, para diferenciar entre estas unidades, Cabr seala que existe otro
aspecto que permite diferenciar entre trminos y palabras: el sentido pragmtico, el cual
determina la diferencia entre trmino y palabra a partir de cuatro puntos 17 :
1. Usuarios
2. Situaciones de uso
3. Temtica
4. Contextos (discursos)

En cada uno de estos puntos tanto trmino como palabra son usados para referirse
a asuntos diferentes; por ejemplo, as como los trminos son usados por gente especializada
o dentro de un contexto de especialidad, las palabras son usadas a un nivel ms general en
donde los usuarios no necesitan comunicarse con unidades inequvocas. Respecto a las
situaciones de uso, un trmino se cie ms a situaciones cientficas que a coloquiales, que
son ms propias de las palabras. En cuanto a la temtica, los trminos cumplen una funcin
muy especfica que no cumplen las palabras; por ltimo, en cuanto a los contextos, tanto
trminos como palabras, son utilizados(as) con una categora particular que responde a las
necesidades del discurso. Todo esto no excluye el que trminos y palabras interacten en
cada uno en un sentido especfico, en los puntos que seala Cabr.

El uso tanto de trminos como de palabras en cada uno de los sentidos


pragmticos de que habla Cabr no es aleatorio; cada cual cumple una funcin
comunicativa especfica a diferente nivel, y aunque sea difcil diferenciarlos, existen rasgos
y caractersticas (mencionados en este y el siguiente apartado) que permiten de algn modo,
y con cierta seguridad, distinguirlos.

16 Joaqun Garca Palacios. La terminologa en los manuales de enseanza media: hacia la determinacin de
la terminologa bsica del espaol. Actas del V simposio iberoamericano de terminologa. Terminologa,
ciencia y tecnologa. Mxico, (1996). p. 153.
17
Mara Teresa Cabr. Op. Cit. pp. 88 89.

10

Captulo 1 Fundamentos bsicos de la terminologa

1.1.2 Tipos de trminos


Uno de los resultados que se esperan obtener con este trabajo es la extraccin de
una lista de trminos en el rea de fsica; cabe destacar que en esta rea, como en la gran
mayora de ellas, los trminos no slo se ven reflejados como unidades simples, acaso ni
siquiera como unidades, sino, como siglas, como unidades compuestas por dos o ms
unidades, e incluso, por frases. Por tal motivo es menester sealar que existen diferentes
tipos de trminos, y dejar en claro en qu consisten sus diferencias

Cabr presupone tres diferentes enfoques de clasificacin de trminos: Formal,


funcional y de significado 18 .
1. En cuanto a la forma, los trminos siguen diversos criterios de clasificacin:
a) Por el nmero de morfemas que lo conforman; en donde pueden ser trminos
simples o complejos.
gel

glido

radio

radioscopia

b) Por el tipo de morfemas de que estn constituidos los trminos complejos. stos
pueden ser derivados (formados por la agregacin de afijos a bases lxicas) y
compuestos (formados por combinaciones de bases lxicas. Actuales o histricas,
con la posibilidad de agregar posteriormente afijos a las mismas) 19 .
pisapapeles
limpiabotas
microfilmar

microfilmacin

dermatologa

dermatolgico

c) En relacin con los trminos complejos, stos pueden seguir estructuras sintcticas
definidas (tambin conocidos como locuciones en los trabajos de terminologa):
hora punta
18

Todos los trminos para ejemplificar las diferencias entre los tipos de trmino fueron tomados de la obra de
Cabr: La terminologa. Teora, metodologa y aplicaciones. 1993.
19
Mara Teresa Cabr. Op. Cit. p. 176.

11

Captulo 1 Fundamentos bsicos de la terminologa

impuesto sobre la renta

d) Trminos simples conformados por procesos de truncacin:

siglas (ONU, UNAM, OTAN),

acrnimos (Agrimed = agricultura mediterrnea,

informtica = informacin

automtica) 20 ,

abreviaturas (Etc., Excmo.),

formas abreviadas (Auto = automvil, Tele = televisin)

2. En cuanto a la funcin, los trminos pueden clasificarse en: nombres, adjetivos,


verbos y adverbios.
3. En cuanto al significado, en donde la clasificacin de los trminos depende del
concepto que denomina.

Rosa Estop trabaja su clasificacin de trminos, o unidades terminolgicas (UT)


como ella les denomina, en unidades monolxicas o polilxicas, en cuanto a estructura; en
cuanto a la forma, clasifica a las unidades monolxicas... en simples (memoria, axn,
hernia, dolor, mano), derivadas (drenaje, tratamiento, inyeccin, operacin, diagnortico),
compuestas (apendicitis, anorexia, radiografa..) o siglas (PET, TAC...) 21 .

Estn tambin aquellos que se conforman por la composicin no cohesionada


grficamente que forma un trmino, es decir, los trminos integrados por dos o ms
palabras 22 . A este respecto, Cardero seala, en las conclusiones de su trabajo doctoral,
que estos trminos son unidades mayores que una palabra desde la composicin como
sintagmas terminolgicos. Formas lexicalizadas en las que el significado se ha petrificado y

20

Es de notar lo que Guadalupe Aguado de Cea seala respecto a estas categorizaciones; ella dice que no
existe un acuerdo unnime en torno al concepto de sigla, y los lmites con los conceptos de abreviatura y
acrnimo. Cit. en Franceschi, Mara Eugenia. La terminologa INTERNET. Actas del V simposio
iberoamericano de terminologa. Terminologa, ciencia y tecnologa. Mxico, (1996): 144 149. p. 147.
21
Rosa Estop. Elementos lingsticos de las unidades terminolgicas para su extraccin automtica. La
terminologa cientfico tcnica: reconocimiento, anlisis y extraccin de informacin formal y semntica.
Barcelona: Institut Universitari de Lingstica Aplicada Pompeu Fabra, 2001. p. 68.
22
Ana Mara Cardero. El procesamiento de una terminologa. Referencia especial a la terminologa de control
de satlites en el rea de las telecomunicaciones en Mxico. Tesis de doctorado. Mxico, 2001. p. 45.

12

Captulo 1 Fundamentos bsicos de la terminologa

hay una fijacin sintctica. Aparecen, acompaadas, en ocasiones, por marcas que
complementan su significado o que lo equivalen. Estas unidades lxicas adquieren valor de
trmino en un contexto o situacin especializada y representan un nudo de conocimiento
compacto en la estructuracin conceptual de un mbito especializado. 23

Una vez que se han aclarado en qu consisten las caractersticas y diferencias


entre trmino y palabra, y se han mencionado los distintos tipos de trminos que existen
segn los varios enfoques que dan los estudiosos, es necesario que antes de continuar se
establezca bien claro qu es un trmino para esta investigacin. Para hacerlo, se recurre a
las ideas arriba expuestas, y que de acuerdo a las necesidades del presente trabajo, son las
ms adecuadas.

Por tanto, en esta investigacin se adopta la definicin de trmino que da Cabr,


en la que seala que un trmino 24 es una unidad que designa los conceptos propios de cada
disciplina especializada, [y que] posee una vertiente sistemtica (formal, semntica y
funcional), toda vez que son [los trminos] unidades de un cdigo establecido, y
manifiestan asimismo otra vertiente pragmtica, puesto que son unidades usadas en la
comunicacin especializada para designar los objetos de una realidad preexistente 25 .

1.1.3 El rea terminolgica en nuestros das


Como ya se ha mencionado, la terminologa cumple una funcin, si no vital, s
muy importante en nuestra vida. Con el uso correcto de sta, y haciendo una parfrasis de
las ideas de Galinsky, tenemos que la terminologa puede ayudar en un nivel formal y desde
el punto de vista de la ingeniera lingstica a la:

23

dem. p. 163.
Tambin es necesario manifestar que cuando se hable sobre trminos compuestos de dos o ms palabras, o
sintagmas, se adopt el trmino que utilizan Mara Teresa Cabr y Rosa Estop: terminologa polilxica.
25
Mara Teresa Cabr. Op. Cit. p. 169.
24

13

Captulo 1 Fundamentos bsicos de la terminologa

1. ordenacin del conocimiento humano a travs del pensamiento conceptual;


2. aplicacin del conocimiento;
3. formacin y difusin de informacin;
4. traduccin e interpretacin;
5. almacenamiento y recuperacin de informacin.

Debido a lo cual, los estudios y los rganos que voltean hacia ella son cada da
ms numerosos y exhaustivos.
El siguiente postulado, tomado de la norma DIN 26 , muestra el grado de
profundidad que deben presentar las terminologas, y dice que el lenguaje especializado es
el rea de la lengua que aspira a una comunicacin unvoca y libre de contradicciones en un
rea especializada determinada y cuyo funcionamiento encuentra un soporte decisivo en la
terminologa establecida 27 .

Hace tiempo que comenz la profundizacin y difusin de la terminologa a travs


de rganos tanto nacionales como internacionales; en Hispanoamrica, los trabajos ms
importantes sobre terminologa han venido de Espaa, en donde en 1982 se conforma la
HISPANOTERM; en Venezuela, se cre el Banco de Terminologa de la Universidad
Simn Bolvar (BTUSB). Gracias al Primer Simposio Latinoamericano de Terminologa
realizado en Caracas, se funda en 1988 la Red Iberoamericana de Terminologa (RITerm),
que es uno de los organismos ms importantes en cuestin de terminologa 28 .

En Mxico, dentro del Grupo de Ingeniera Lingstica (GIL) de la UNAM, se


hacen esfuerzos para aprovechar los recursos que representa el uso y explotacin de la
terminologa en la ingeniera lingstica; muestra de ello son los diferentes proyectos que

26

Deutsches Institut fr Normung (Instituto Alemn de Normalizacin) encargado de la normalizacin en


campos de la tcnica y creada en Alemania en 1917.
27
DIN 2342. Ver Reiner Arntz y Heribert Picht. Introduccin a la terminologa. Madrid: Fundacin Germn
Snchez Ruiprez y Ediciones Pirmide, 1995. p. 28.
28
Cfr. Alicia Fedor de Diego. Algunas reflexiones sobre laspolticas terminolgicas. Actas del V simposio
iberoamericano de terminologa. Terminologa, ciencia y tecnologa. Mxico, (1996): 11a - 11d.

14

Captulo 1 Fundamentos bsicos de la terminologa

participan de esta rea para encaminarse a la consecucin de las metas propuestas; adems
de la formacin de profesionales comprometidos con el rea. Tambin en la UNAM, en el
campus de Acatln se desarrollan desde el inicio de la dcada de los 80 vocabularios
especializados.

1.2 Terminologa y lingstica


Como parte de la lingstica, la terminologa tiene su fuente de trabajo en las
lenguas, en este caso las lenguas de especialidad. Esta disciplina terminolgica participa
interdisciplinariamente de materias como la estadstica o la informtica. Asimismo, Cabr
seala que la terminologa puede ser vista desde el enfoque no slo lingstico, sino desde
la perspectiva que ofrecen otras disciplinas que a su vez participan y se nutren de la
terminologa, como en este caso, la ingeniera lingstica.

Ahora bien, desde un enfoque lingstico, conviene precisar las siguientes


cuestiones respecto de la terminologa en relacin con la lingstica 29 :
1. la terminologa se interesa por el trmino mismo, independientemente de si ste
presenta flexin o de la sintaxis que le confiera un valor gramatical especfico, en
tanto para la lexicologa las palabras son las que tienen mayor relevancia,
atendiendo siempre a la utilidad de stas en un contexto:
2. a diferencia de la lingstica, que tiene por objeto la descripcin, a la terminologa le
interesa normalizar las formas;
3. el punto de partida de la terminologa es el concepto, mientras que para la
lexicologa es la designacin;
4. la terminologa no persigue el fin de explicar los trminos, sino de crear una norma
que fije la bsqueda, y la ordenacin de los trminos;
5. la terminologa no pretende explicar las razones, sino, fijar normas.

29

Ver M. Teresa Cabr. Op. Cit.

15

Captulo 1 Fundamentos bsicos de la terminologa

Ahora bien, ms arriba se habla de que Cabr manifiesta una orientacin de la


terminologa hacia un aspecto lingstico 30 , y dentro de ste, se le considera como una
unidad autnoma respecto de la lingstica, y ms especifico, de la lexicologa.

Mas, por qu se habla de una relacin especfica mayor de la lexicologa respecto


de la terminologa y no de la lingstica a la terminologa, o a la lexicografa? La razn
estriba en que no es la lingstica la disciplina que est ms cerca de la terminologa. Si
bien es cierto que la lingstica engloba a la lexicologa y a la terminologa como subreas,
del mismo modo que a la fonologa o la morfologa, cada una se ocupa de un aspecto
especfico del lenguaje pero a diferente nivel.

La lexicologa tiene su campo de accin en toda la gama de palabras de una


lengua, mientras que la terminologa slo se centra en aqullas especficas de cierta
disciplina, estas ltimas denominadas trminos con caractersticas especficas y
delimitadoras que los constituyen una clase aparte y que ms adelante se explicarn; por
otro lado, para dejar ms clara la relacin y/o diferencia de la terminologa respecto de la
lexicologa, tengamos presente el razonamiento de que una parte es un componente de un
todo; ahora bien, siguiendo este razonamiento, tenemos entonces que todo trmino es parte
de un lxico; esto es, si bien ambas tienen un campo de trabajo en comn, las palabras, sean
stas coloquiales en una o especializadas en otra, resulta, al fin, un grado de inclusin de la
terminologa dentro de la lexicologa. De ah que el tercer enfoque que maneja Cabr diga
que la lexicologa, como rama de la lingstica, es la disciplina ms prxima a la
terminologa.

Pero sta es slo una aproximacin y una teora que pueden compartir un cierto
grupo de personas; y que, aunque pudiese parecer general a simple vista, para el estudioso
no lo es; por ejemplo, Sager 31 habla de que respecto a su aplicacin, la terminologa est
relacionada con la lexicografa y aade que la terminologa comparte con la lexicografa
mtodos sobre la estructuracin y la descripcin de palabras.
30

Ver nota 1.
Juan Carlos Sager. Curso prctico sobre el procesamiento de la terminologa. Madrid: Fundacin Germn
Snchez Ruiprez y Ediciones Pirmide, 1993. p. 23.

31

16

Captulo 1 Fundamentos bsicos de la terminologa

En otro sentido, Rodolfo Alpizar maneja una concepcin muy particular, y vlida
sobre la terminologa y el plurisemntismo que encuentra en esta voz, en la que seala que
dado el carcter polismico de la palabra, sta ofrece una vaguedad y confusin que hacen
necesario un riguroso reajuste de preceptos. Por ejemplo habla de 32 :

Tecnoconceptologa; que es el estudio de los conceptos de una o varias ramas de


actividad cientfica o tcnica, de las relaciones entre ellos y de sus formas de
denominacin en un sistema lingstico.

Tecnolexicologa, que se enfoca al estudio de los trminos de una o varias ramas de


actividad cientfica o tcnica, de sus relaciones como miembros del subsistema
lxico de una lengua, y de sus relaciones con los conceptos que denominan.

E incluso, habla sobre la:

Tecnojerga, que no es otra cosa, que el conjunto de recursos lingsticos de los


tecnolectos que suelen emplearse por los especialistas en el coloquio y en otras
situaciones comunicativas informales.

Para sostener el argumento de que en tanto el concepto como el trmino sean ocupaciones
de la terminologa, sta debe ser estudiada en distintas vertientes. Habla tambin acerca del:

Tecnolecto: Conjunto de todos los recursos que la lengua pone a disposicin del
discurso cientfico o tcnico.

Y justifica el uso de ste, arguyendo que la terminologa es el estudio de una parte de los
recursos de un tecnolecto, que no es otra cosa que un conjunto de recursos lingsticos.

Mas, como el deseo en esta investigacin no es aclarar ste y otros problemas que
surgen respecto de la terminologa, sino dar los elementos bsicos sobre un tema que forma
parte del cuerpo central de la investigacin, se hace necesario slo el justificar la nocin a
priori de este apartado: el que la terminologa en tanto subcomponente de la lexicologa, e

32

Rodolfo Alpizar Castillo. Op. Cit. p. 86.

17

Captulo 1 Fundamentos bsicos de la terminologa

incluso, de la lexicografa, comparte criterios que la vinculan directa y estrechamente con la


lingstica.

La terminologa es entonces, para los fines de esta investigacin, vista desde un


enfoque lingstico, la disciplina que se encarga de normar las unidades fuente de su objeto
de estudio, los trminos, para organizar la gnosis a travs del pensamiento conceptual.

1.3 La terminologa como recurso de la ingeniera lingstica


Cuando hablamos de lingstica, o de las reas que participan de sta, como la
fontica, la semntica, la lexicologa, y dems, es casi imposible concebir que tendra
igualmente una relacin de trabajo con un rea de conocimiento tal como la biologa, la
medicina o la arquitectura. Esta incredulidad no es gratis, se debe a las categorizaciones en
que se han encuadrado las distintas reas de conocimiento, orientadas a reas cientficas,
humansticas, sociales, etctera; y que tienen sus objetos de estudio delimitados con
fronteras precisas, manejndose de acuerdo con criterios propios encaminados a resolver
cuestiones diversas y a diferente nivel.

Hasta hace poco era extravagante el pensar en relacionar por ejemplo la ingeniera
y la lingstica, dos reas desvinculadas desde siempre y que en esencia no tienen nada en
comn; no obstante sus directrices opuestas, la combinacin de sus recursos puede ayudar o
coadyuvar, con un nuevo enfoque, a la solucin de problemas. Ya antes se hizo mencin de
la diversidad de recursos con que cuenta la lingstica; si estos recursos se aplican a otras
reas como un apoyo, los horizontes de investigacin se ensanchan con perspectivas
diferentes, por ejemplo, una investigacin computacional encaminada a resolver problemas
de identificacin de recursos semnticos, en donde las reglas y algoritmos matemticos
seran coadyuvados con criterios y recursos lingsticos, en este caso semnticos y
gramaticales, para resolver problemas o identificar situaciones que desde un punto de vista
nicamente computacional, difcilmente seran contempladas. O la interaccin de patrones
lingsticos con reglas informticas para crear de forma rpida y eficiente un corpus
digitalizado para el anlisis gramatical del Quijote en forma electrnica. Esta interaccin
18

Captulo 1 Fundamentos bsicos de la terminologa

permitira obtener provecho tanto para las distintas reas de conocimiento con sus
especialistas, como para el comn de la gente, con un resultado de beneficio muy grande. Si
no fuese por esta interaccin, no tendra este procesador de textos que facilita y ahorra
cantidad de tiempo en la elaboracin de este escrito, sin mencionar las repercusiones
econmicas que este simple procesador de textos representa a quienes vieron la capacidad y
riqueza de investigacin que trajo la unin de reas de trabajo tan impensables: la
ingeniera y la lingstica.

La interrelacin de estas dos reas de conocimiento es lo que hoy en da se conoce


como ingeniera lingstica. Pero, qu significa la ingeniera lingstica? Tratar de dar
una respuesta rpida y que abarque en esencia lo que significa hoy la ingeniera lingstica.
sta es un rea de reciente creacin, que a partir de la segunda mitad del siglo pasado ha
visto incrementar sus estudios y que en la dcada pasada tuvo un auge muy interesante,
sobre todo con la aparicin de Internet y la cada vez mayor demanda en el uso de la
computadora tanto en el mbito institucional como en el mbito casero.

El campo de estudio lo constituyen las diferentes ingenieras, entre las principales,


la ingeniera en sistemas y la ingeniera en computacin, y que busca la resolucin de
problemas y la creacin de recursos prcticos y comerciales a travs de la aplicacin y
explotacin de recursos lingsticos 33 y de ingeniera a problemas y necesidades que tienen
que ver con el lenguaje y la explotacin de ste, como la traduccin automtica o asistida,
la inteligencia artificial, el procesamiento de datos, la extraccin de informacin,
conceptual y de terminologa, etctera. La ingeniera lingstica es investigacin que no se
detiene en el aspecto terico, es investigacin que se origina de necesidades y que busca la
aplicacin de sus resultados para resolver estas necesidades de forma prctica.

Ahora bien, arriba se habl de que la ingeniera lingstica se vale de los distintos
recursos que le representa la ingeniera y la lingstica, con todas las reas y subreas que
33

Tal es el caso de la terminologa o la lexicologa; ramas lingsticas orientadas a la extraccin de elementos


para la creacin de lxicos, vocabularios, diccionarios, etc.; que como herramientas de apoyo aplicadas a la
ingeniera lingstica buscan la resolucin de sus objetivos de forma automtica.

19

Captulo 1 Fundamentos bsicos de la terminologa

las conforman; pues bien, una vertiente de esta investigacin se encamina hacia la
explotacin de una de estas reas, la termintica; la cual representa el soporte terminolgico
y el campo de investigacin para hacer que este soporte se vea alimentado en forma
eficiente y en lo posible, automtico, por procesos de extraccin de terminologa.

De esta forma se establece que es dentro de este mbito, el de la ingeniera


lingstica, en donde se desarrollar esta investigacin que se encamina hacia la extraccin
automtica de trminos.

20

Hacia una obtencin computarizada de trminos. (Aplicacin concreta al lxico de la fsica


en el nivel bachillerato).

2. ESTUDIOS SOBRE EXTRACCIN TERMINOLGICA

2.1

Extraccin de terminologa

En el captulo 1 se establecieron los principios bsicos de la terminologa 1 , destacando


tanto su objeto de estudio, los trminos, como la forma en que ser tratada esta disciplina en
la presente investigacin, esto es, vista como una herramienta de apoyo a la ingeniera
lingstica.

Ahora bien, en el presente captulo se tratar sobre la extraccin de terminologa


como recurso que sirve a varias reas de conocimiento, visto desde la disciplina de la
ingeniera lingstica.

Cuando se habla de extraccin en este trabajo se hace referencia a que de un todo


se busca obtener una parte muy definida, esto es, que de un lxico tal se pretende conseguir
slo un reducto de palabras que por su carcter de especializacin sean consideradas como
trminos. Al hacer mencin de automtico o semiautomtico, se alude a los procesos que
tienen que desarrollarse al interior de un programa 2 de cmputo, y que siguen determinadas
reglas para realizar ciertas funciones para las que es creado.

Lo anterior aplica, como fin prctico, que al hablar de extraccin auto o


semiautomtica se entienda que por medio de programas computacionales se intente reducir

Si tanto la disciplina como el objeto de estudio (terminologa y trmino respectivamente) no son tratados
profusamente, se debe a que este trabajo, que si bien es cierto est vinculado con la terminologa, no est
diseado ni trabajado para seguir lineamientos nicamente lingsticos, sino que la terminologa como
disciplina sirve como herramientas para resolver cuestiones desde un enfoque de la ingeniera lingstica. Por
tanto, baste con dejar en claro los elementos bsicos, que son la materia prima de este trabajo (trminos), y la
disciplina que los estudia (terminologa), para entender que lo que aqu se pretende es la extraccin de
trminos, no de lxico, de palabras, de informacin, etc.
2
En esta investigacin, se hablar de programa y/o software, para referirse a todo el sistema computacional
que trabaja con un conjunto de instrucciones que permiten a una computadora realizar determinadas
operaciones. Cfr. D.R.A.E 1995.

21

Captulo 2 Estudios sobre extraccin terminolgica

los tiempos que llevan al especialista, sea terminlogo, lexiclogo, lexicgrafo, etc., a
efectuar su labor y volverla ms sencilla.

Para realizar tales tareas de extraccin que redunden en beneficio de un sinfn de


personas, es preciso contar con la infraestructura computacional y de conocimiento
lingstico, para crear programas 3 que puedan llevar a cabo estas tareas; para ello, se ha
trabajado desde hace algunos aos en la investigacin y creacin de herramientas que
suplan el trabajo manual por el efectuado por una mquina.

Los resultados que tantos aos de investigacin han producido son hasta cierto
punto satisfactorios; sin embargo, existen tareas que tales programas no resuelven de modo
eficaz; y aunque, como apunta Cardero, la deteccin [y en este caso, la extraccin]
automatizada de trminos resulta del mayor inters para la terminologa, sobre todo en
etapas de inicio de acopio 4 , existe un consenso de parte de los usuarios de este tipo de
programas, quienes manifiestan que todava hay mucho sobre qu investigar con el fin de
mejorar estos programas, puesto que presentan deficiencias que hacen que el trabajo no sea
del todo automtico.

Ahora bien, si tales programas sufren de limitaciones, es preciso sealar el porque


de stas. Una de estas insuficiencias que presentan los extractores automticos es la que se
refiere a la polisemia de las palabras, ya que un hablante no limita el conocimiento que
goza de las palabras slo a sus aspectos lingsticos, sino, que junto a ellos, manipula datos
exteriores, datos extralingsticos, que determinan un uso real y particular que el hablante
hace de cada palabra 5 , sin que le importe mucho o sea conciente del aspecto lingstico; as,
es difcil crear reglas lingsticas que sean aplicables para todo el repertorio lxico de una
lengua y adaptarlas a programas computacionales.

Sobre estos programas se hablar en un apartado del captulo 3.


Ana Mara Cardero. El procesamiento de una terminologa. Referencia especial a la terminologa de control
de satlites en el rea de las telecomunicaciones en Mxico. Tesis de doctorado. Mxico: 2001. p. 163.
5
Vase Juan Carlos Sager. Curso prctico sobre el procesamiento de la terminologa. Madrid: Fundacin
Germn Snchez Ruiprez y Ediciones Pirmide, 1993.
4

22

Captulo 2 Estudios sobre extraccin terminolgica

En el captulo anterior se habl sobre el problema de la palabra y/o trmino


sntesis; dependiendo de los contextos en que es usada(o), presenta caractersticas que la
delimitan en un rubro particular, pero, sin dejar de pertenecer a ambos. Cmo entonces
establecer y resolver esta problemtica por medio de un sistema, que se valga de una o
varias reas de conocimiento para que permita que una mquina haga el trabajo de modo
automtico?

Sin embargo, la polisemia no es la nica causa de ruido en este tipo de anlisis,


por ejemplo, Jorge Vivaldi 6 establece como limitaciones el que este tipo de programas se
proponen gran cantidad de palabras que el usuario debe desechar, y seala adems que
muchos candidatos reales no son propuestos como trminos, o que no es frecuente
encontrar trminos monolexemticos entre los candidatos.

En este mismo tenor, Rosa Estop plantea en su estudio sobre extraccin


automtica, su preocupacin manifiesta al advertir que las UT [unidades terminolgicas]
monolxicas simples son difciles de tratar automticamente porque su carcter
especializado es totalmente idiosincrtico. Son, pues, un tipo de unidades que no poseen
caractersticas, ni morfolgicas, ni sintcticas explcitas, que permitan detectarlas
automticamente 7 .

A problemas de este tipo han tenido que enfrentarse todos los que de alguna u otra
forma hayan trabajado en la extraccin automtica, y no exclusivamente de trminos, como
por ejemplo, Luis Fernando Lara y el equipo que junto con l se ha visto involucrado en el
desarrollo y elaboracin del Diccionario del Espaol de Mxico 8 (DEM), quienes en un

Jorge Vivaldi. Elaboracin de una aplicacin automtica de reconocimiento y extraccin de informacin


terminolgica en textos de dominios restringidos. La terminologa cientfico tcnica: reconocimiento,
anlisis y extraccin de informacin formal y semntica. Barcelona: Institut Universitari de Lingstica
Aplicada Pompeu Fabra, 2001. p. 230.
7
Rosa Estop. Elementos lingsticos de las unidades terminolgicas para su extraccin automtica La
terminologa cientfico tcnica: reconocimiento, anlisis y extraccin de informacin formal y semntica.
Barcelona: Institut Universitari de Lingstica Aplicada Pompeu Fabra, 2001. p. 68.
8
Vase Luis Fernando Lara, Roberto Ham Chande y Mara Isabel Garca Hidalgo. Investigaciones
lingsticas en lexicografa. Mxico: COLMEX, 1979.

23

Captulo 2 Estudios sobre extraccin terminolgica

principio del diccionario se vieron ante la problemtica de elegir qu tipo y cantidad de


documentos trabajaran para la elaboracin del diccionario, la pertinencia de stos, o la
necesidad de delimitar sincrnicamente sus fuentes para contrarrestar el problema de la
aparicin de nuevos datos y documentos. Problemas que si bien no son estrictamente del
orden de la extraccin automtica de terminologa, si se relacionan con los preliminares que
anteceden el proceso de extraccin automtica, en este caso de vocabulario.

De aqu que no slo sea til, sino necesario profundizar y tratar de resolver estas
carencias o fallas que representan los extractores automticos, ya que los campos de accin
de las disciplinas cada da interactan de una manera ms activa y en beneficio de todos,
aunque, como indica Carlos Sager, los resultados de estos trabajos no tengan como fin
inmediato el hombre, sino las diferentes disciplinas que puedan satisfacer sus necesidades a
travs de los resultados terminolgicos, como es el caso de los estudios sobre ingeniera
lingstica, que se socorren de la terminologa para resolver las exigencias que se le
presentan en:

traduccin automtica y asistida por computadora,

correctores de ortografa,

sistemas de recuperacin de informacin,

sistemas expertos y basados en el conocimiento,

inteligencia artificial, etc. 9

No son mnimas las cuestiones y problemticas que implica el estudio y trabajo


con cuestiones de extraccin de trminos, ni tampoco son fciles las posibles soluciones;
mas con todo, resulta una labor bastante interesante esta de extraer terminologa, pese a
todas las dificultades y sufrimientos que conlleva su estudio.

Mientras estos problemas se resuelven, es preciso describir, en este material, los


distintos mtodos con los que se trabaja para obtener terminologas de modo automtico, o
semiautomtico, propiamente dicho.

24

Captulo 2 Estudios sobre extraccin terminolgica

2.2

Mtodos para obtener trminos de forma automtica

Existen tres mtodos para realizar la tarea de extraccin de terminologa


automtica; stos basan sus anlisis en distintos tipos de conocimientos:

estadsticos,

basados en reglas lingsticas, e

hbridos (estadsticos y lingsticos).

Dichos sistemas de extraccin, como sealan en su artculo sobre los avances de


la terminologa computacional, Cabr, Estop y Vivaldi 10 , trabajan a partir del siguiente
principio:
All

systems analyse a corpus of specialized texts in

electronic form and extract list of word chunks (i.e. candidate


terms) that are to be confirmed by the terminologist. To make the
terminologist's task easier the candidate terms is provided with
its context and, when available, with any other further
information (frequency, relationship between terms, etc.)

[Todos los sistemas analizan un corpus de textos


especializados en formato electrnico y extraen listas de
palabras (o sea, listas de posibles trminos o candidatos a
ellos), las cuales deben ser corroboradas por los
especialistas. Para hacer ms sencilla la labor del
terminlogo, los trminos candidatos son incluidos con su
contexto, cuando est disponible, adems de informacin
til, (como frecuencia, relacin entre palabras, etc.)]

Vase Juan Carlos Sager. Op. Cit.


M. Teresa Cabr, Rosa Estop, Jordi Vivaldi. Recent Advances in Computational Terminology. Amsterdam
/ Philadelphia: John Benjamins B. V., 2001. p. 54.

10

25

Captulo 2 Estudios sobre extraccin terminolgica

2.2.1 Mtodos estadsticos


Estos mtodos han sido ampliamente usados por la bibliotecologa y ciencias de la
informacin para encontrar las palabras clave o descriptores en textos especializados. De
igual forma, tales mtodos han sido utilizados para encontrar los probables trminos de un
rea determinada. Esta metodologa opera con una base que, sin entrar en detalles
matemticos o estadsticos, detecta las unidades que mayor incidencia tienen dentro del
universo de donde se extraern los trminos, el cual se conforma exclusivamente por los
textos que conforman el corpus 11 , y los presenta como posibles trminos.

La lgica para identificar trminos en un texto especializado consiste en comparar


las palabras que ocurren en el texto sobre el tema que se busca, con referencia a las palabras
que ocurren en un texto sobre otra rea cualquiera. De esta manera, las palabras que son
diferentes sern las consideradas como especficas de esa rea en particular.

Una vez que el programa aplica reglas estadsticas para realizar los procesos de
bsqueda, los resultados se presentan en diferentes tipos de listas: listas alfabticas, de
frecuencia o estadsticas; cada una con una funcin a desempear, segn las necesidades
del terminlogo o la investigacin, dentro del anlisis. Lara les atribuye los siguientes
beneficios 12 :

La ordenacin por frecuencias permitir identificar el vocabulario ms usual


estadsticamente hablando.

La ordenacin alfabtica permitir conocer las caractersticas estadsticas de


cualquier vocablo.

El fin de este mtodo estadstico consiste en presentar candidatos a trminos,


sustentados en el criterio de mayor aparicin y reincidencia. Debido a este criterio, existen
investigadores que no lo consideran una opcin efectiva, ya que la labor de este mtodo

11
12

Vase Luis Fernando Lara, Roberto Ham Chande y Mara Isabel Garca Hidalgo. Op. Cit.
dem. p. 34.

26

Captulo 2 Estudios sobre extraccin terminolgica

termina al desplegar las palabras que estadsticamente tienen ms o menos posibilidades de


ser tenidas como trminos.

Un problema muy comn con el empleo de este tipo de mtodos es con respecto a
los trminos que aparecen con muy baja frecuencia 13 :
The problem with this kind of approach is that there are lowfrequency terms difficult to be managed by extraction systems.
Here it is important to note that these systems use basically
numerical information and thus are prone to be language
independent.

[El problema con este tipo de acercamiento lo constituye el


difcil manejo que representan para estos sistemas los
trminos de baja-frecuencia. Aqu es importante sealar
que

estos

sistemas

usan

informacin

bsicamente

numrica y, por consiguiente, tiende a ser un idioma


independiente.]

Trminos estos que no por tener una baja frecuencia dejan de ser trminos,
independiente de si representan mayor aporte para el correcto entendimiento de los textos o
no; recurdese que esto no es extraccin de informacin documental, en donde se pretende
la extraccin de informacin representativa del texto; sino extraccin de terminologa, y el
fin de sta es presentar los trminos que aparezcan en un corpus, aunque slo sea nombrado
una vez.

Otro punto en contra que tiene el mtodo estadstico, reside en el hecho de que es
muy probable que las unidades que conforman los trminos compuestos aparezcan muy por
debajo en los ndices de frecuencia, y por tanto, sean discriminadas con base en un criterio

13

M. Teresa Cabr, Rosa Estop, Jordi Vivaldi. Op. Cit. p. 55.

27

Captulo 2 Estudios sobre extraccin terminolgica

numricoestadstico. Por ejemplo, en el estudio Combining linguistics with statistics for


multiword term extraction: A fruitful association? 14 , los autores sealan esta deficiencia:
On the other hand, as they only allow the acquisition of binary
associations, these systems must apply enticement techniques to
acquire

multiword

terms

with

more

than

two

words.

Unfortunately, such techniques have shown their limitations.

[Por otro lado, cuando estos programas permiten la


adquisicin de asociaciones binarias, estos sistemas
deben aplicar diferentes tcnicas para adquirir trminos de
ms de dos palabras. Desgraciadamente, tales tcnicas
han mostrado sus limitaciones.]

Adems, mencionan que:


Statistical methodologies extract multiword lexical units that
can not be considered terms.

[Las metodologas estadsticas extraen unidades lxicas


de dos o ms palabras que no pueden ser consideradas
trminos.]

Sin embargo, este mtodo no es del todo desdeable, por ejemplo, el equipo del
DEM opt por este mtodo, ya que ellos sealan como atributo el que ste es el nico
capaz de dar los registros necesarios y la cantidad de datos suficientes (...) de un modo
objetivo e imparcial 15 .

Mas con todo, la aplicacin de la estadstica resulta de provecho, sobre todo en la


elaboracin de nuevos programas que empiezan a tomar en cuenta estas deficiencias; o

14

Gal Dias, Sylvie Guillor, Jean-Claude Bassano, Jos Gabriel Pereira Lopes. Combining Linguistics with
Statistics
for
Multiword
Term
Extraction:
A
Fruitful
Association?
[En
lnea.]
<http://citeseer.nj.nec.com/context/1674205/410737>
15
Luis Fernando Lara, Roberto Ham Chande y Mara Isabel Garca Hidalgo. Op. Cit. p. 12.

28

Captulo 2 Estudios sobre extraccin terminolgica

cuando se trabaja vinculando la estadstica con la lingstica, como en el caso de los


mtodos hbridos que ms adelante se explicarn.

2.2.2 Mtodos basados en reglas lingsticas


En contraposicin al mtodo anterior, que basa sus anlisis en la probabilidad de
ocurrencia de trminos en un mismo texto, y que por tanto dependen de la cantidad de
informacin disponible, los mtodos basados en reglas lingsticas presuponen criterios
cualitativos y no requieren una gran cantidad de textos para extraer informacin.
Este tipo de anlisis propone la extraccin de trminos a partir del uso exclusivo
de reglas lingsticas: sintaxis, morfologa, etctera., esto es:
Linguistic systems propose to extract relevant terms by using
techniques that analyse specific syntactical structures in the
texts 16 .

[Los

sistemas

completamente

lingsticos

proponen

extraer trminos usando tcnicas que analizan estructuras


sintcticas especficas en los textos.]

Estos sistemas basan su funcionamiento en:


Use noise and silence measure of its efficiency. Noise attempts
to assess the rate between discarded candidates and accepted
ones; silence attempts to assess those terms contained in an
analysed text that are not detected by the system. Noise is the
common problem of those systems using this approach. Errors in
the assignation of morphological category are also shared by
these systems. 17

16
17

Vase Gal Dias, et al. http://citeseer.nj.nec.com/contexto/1674205/410737


M. Teresa Cabr, Rosa Estop, Jordi Vivaldi. Op. Cit. p.56.

29

Captulo 2 Estudios sobre extraccin terminolgica

[Usar medidas de ruido y de silencio para su eficiencia. El


ruido intenta evaluar el promedio entre los candidatos
desechados y los aceptados; el silencio intenta evaluar
aquellos trminos contenidos en un texto analizado que no
son detectados por el sistema. El ruido es el problema
comn de los sistemas que usan este acercamiento. Los
errores en la asignacin de categora morfolgica tambin
son deficiencias presentadas por estos sistemas.]
Este tipo de anlisis, segn Cabr, puede presentar dos tipos de informacin 18 :
a. Term specific: it consists in the detection of the recurrent
patterns from complex terminological units such as nounadjective and noun-preposition-noun. This calls for the use of
regular expressions and techniques of finite state automata.
b. Language generic: it consists in the use of more complex
systems of NLP that start with the detection of more basic
linguistic structures: noun phrase (NP), prepositional phrase
(PP), etc.

a. [Trmino especfico: consiste en la deteccin de


modelos recurrentes de las unidades terminolgicas
complejas

como

preposicin-nombre.

nombre-adjetivo

nombre-

Esto

el

uso

requiere

de

expresiones regulares y tcnicas de autmata de


estados finitos.
b. Genrico del lenguaje: consiste en el uso de sistemas
ms complejos de PLN que empiecen con la deteccin
de estructuras lingsticas ms bsicas: nombre - frase
(FS), frase preposicional (FP), etc.]

18

dem. p. 55.

30

Captulo 2 Estudios sobre extraccin terminolgica

In both approaches each word is associated to a morphological


category.

[En ambas aproximaciones cada palabra se asocia a una


categora morfolgica.]

Esta metodologa basada en el uso de reglas lingsticas tambin tiene sus


inconvenientes, ya antes se mencionaron las dificultades de categorizacin morfolgica;
otro problema que no puede superar totalmente este mtodo, reside en el hecho del idioma
para el que est elaborado tal sistema, en la mayora de los casos estos programas son
monolinges, ya que slo presentan resultados importantes en la lengua para la que fueron
creados, y menos importantes cuando se aplican a otras lenguas. Baste mencionar para los
que han trabajado en la aplicacin de estos u otros programas diseados casi en su mayora
para el ingls, que los resultados aplicados para el espaol distan mucho de los obtenidos en
la lengua madre del programa. O bien, hay que manejar el corpus amoldndolo a las
caractersticas de una lengua en la que no estn escritos, por ejemplo, la flexin de los
verbos en espaol, o el gnero o la acentuacin; rasgos que en algunos otros idiomas no
estn presentes y por lo tanto no estn contemplados para resolverse en otra lengua
diferente a la que tienen por base.

2.2.3 Mtodos hbridos


Una metodologa que ana los beneficios y reduce, aunque no elimina totalmente,
las carencias de los dos mtodos mencionados ms arriba, es la que trabaja a partir de
criterios hbridos; es decir, interacta la metodologa estadstica con la metodologa
lingstica.

Los mtodos hbridos de algn modo solventan las carencias que por separado
presenta tanto el mtodo estadstico como el lingstico. Trabaja a partir de la interaccin
de criterios estadsticos y lingsticos para los anlisis de corpora.

31

Captulo 2 Estudios sobre extraccin terminolgica

Algunos programas que trabajan con este mtodo funcionan de la siguiente


forma 19 :
In order to overcome the problems evidenced by most of the
statistical approaches, hybrid linguistic-statistical methods define
co-occurrences of interest in terms of syntactical patterns and
statistical regularities. Some approaches reduce the searching
space to groups of words that correspond to a priori defined
syntactical patterns (Noun+Adj, Noun+Prep+Noun etc...) and
then apply statistical measures to classify the pertinent
sequences. Other approaches first identify statistical word
regularities and then apply a priori defined syntactical filters to
extract multiword term candidates.

[Para superar los problemas evidenciados por la mayora


de los acercamientos estadsticos, los mtodos lingsticoestadsticos hbridos definen una co-ocurrencia de inters
en

trminos

de

modelos

sintcticos

controles

estadsticos. Algunos acercamientos reducen el espacio


de bsqueda a grupos de palabras que corresponden a los
modelos

sintcticos

priori

definidos

(Sust+Adj,

Sust+Prep+Sust, etc...) y entonces aplican medidas


estadsticas para clasificar las secuencias pertinentes.
Otros

acercamientos,

primero

identifican

controles

estadsticos de la palabra y despus aplican filtros


sintcticos definidos a priori para extraer los candidatos a
trmino de dos o ms palabras.]

19

Vase Gal Dias, et al. http://citeseer.nj.nec.com/context/1674205/410737)

32

Captulo 2 Estudios sobre extraccin terminolgica

No obstante, al aunar estos dos mtodos, los resultados de extraccin automtica


de trminos no complacen al cien por ciento a los terminlogos. Hay muchas lagunas que
los mtodos antes sealados, aun y cuando trabajen de forma conjunta, no llenan
satisfactoriamente, y ms todava cuando se trata de cuestiones de automatizacin; sin
embargo, y a pesar de todas estas dificultades, se sigue trabajando y analizando mtodos,
teoras, aplicaciones, recursos y dems para mejorar los programas de extraccin con que
ahora se cuenta; mas, es necesario esperar todava tiempo para ver los resultados. Por
ahora y para este trabajo, el uso de estas tres metodologas es bienvenida; aunque por
razones obvias no ser posible adentrarse en investigaciones ms exhaustivas respecto a los
problemas y soluciones que estas metodologas presentan.

2.3

Resultados importantes relacionados con la extraccin automtica


de trminos

En la actualidad muchos son los proyectos e investigaciones que se han visto tanto
vinculados como beneficiados con la aplicacin de sistemas de extraccin de trminos.
Mucho de este beneficio se debe en gran medida a la creacin de bancos de datos
terminolgicos, que desde que se hace un uso mayor de stos, las labores de numerosos
profesionales, sin excluir al terminlogo, se han visto facilitadas y optimizadas hasta el
grado de que en la actualidad su uso, ya sea en investigacin como en industria, se hace
cada vez ms imprescindible.

Mas no slo es la explotacin de los citados bancos de datos terminolgicos lo


que hace de la extraccin de trminos una herramienta til y de provecho: est tambin la
ayuda en automatizacin de procesos, la investigacin en tareas metodolgicas lingsticas
y estadsticas, la planeacin interdisciplinaria e interactiva de distintas reas de
conocimiento, el ahorro de tiempo y recursos econmicos, la facilitacin para la
elaboracin de diccionarios, lxicos, terminologas, etctera.

33

Captulo 2 Estudios sobre extraccin terminolgica

Por lo dicho anteriormente, es fcil deducir que la tarea de extraccin de trminos,


va procesos automticos, representa un gran aporte en el proceso de investigacin y
realizacin de las tareas que simplifican y conllevan al cumplimiento del fin de la empresa.
Para concluir este captulo, se citan algunos proyectos 20 en donde la extraccin
automtica de trminos ha sido participe con algunas de sus herramientas, y en los cuales se
ven los alcances de sta.

Proyecto CRATER 21 : creacin de herramientas para el manejo de corpus y la


extraccin de terminologa.

Proyecto GLOSMETAL 22 : Repertorio terminolgico trilinge (espaol, ingls,


griego) sobre el sector industrial del Metal.

Proyecto RITerm BD 23 : constitucin de una red de bancos de datos terminolgicos.

Proyecto HAL 24 : Herramientas de ayuda al lexicgrafo.

Proyecto BN ARGENTINA 25 : Catalogacin y edicin electrnica del Fondo


Foulch_Delbosc de la Biblioteca Nacional de la Repblica Argentina

Proyecto PROTEUS 26 : Sistema de extraccin de informacin y traduccin


automtica.

Proyecto

ACORDEON 27 :

Aplicaciones

cooperativas

de

recuperacin

de

informacin.
20

Por razones de tiempo y espacio slo se har mencin de algunos proyectos. Para ms informacin acerca
de stos, se ponen a disposicin ligas de Internet a pie de pgina, en donde pueden ser consultados tales
proyectos.
21
Proyecto CRATER. [En lnea]. En: Universidad Autnoma de Madrid. Departamento de Lingstica,
Lenguas Modernas, Lgica y Filosofa de la Ciencia y Teora de la literatura y Literatura
<http://www.lllf.uam.es/proyectos/crater.html>
22
Proyecto GLOSMETAL. [En lnea]. En: Universidad Autnoma de Madrid. Departamento de Lingstica,
Lenguas Modernas, Lgica y Filosofa de la Ciencia y Teora de la literatura y Literatura
<http://www.lllf.uam.es/~flora/projects/glosmetal.html>
23
Proyecto RITerm BD. [En lnea]. <http://www.riterm.net/es/index.htm>
24
Proyecto HAL. [En lnea]. En: Universidad Autnoma de Madrid. Departamento de Lingstica, Lenguas
Modernas, Lgica y Filosofa de la Ciencia y Teora de la literatura y Literatura
<http://www.lllf.uam.es/docs_es/proyectos/APC.html>
25
Proyecto BN ARGENTINA. [En lnea]. En: Universidad Autnoma de Madrid. Departamento de
Lingstica, Lenguas Modernas, Lgica y Filosofa de la Ciencia y Teora de la literatura y Literatura
<http://www.lllf.uam.es/~fmarcos/informes/BNArgentina/BN.htm>
26
Proyecto PROTEUS. [En lnea]. En: Universidad Autnoma de Madrid. Departamento de Lingstica,
Lenguas Modernas, Lgica y Filosofa de la Ciencia y Teora de la literatura y Literatura
<http://www.lllf.uam.es/proyectos/proteus.html>

34

Captulo 2 Estudios sobre extraccin terminolgica

Proyecto C-ORAL-ROM 28 : Corpus oral de las lenguas romances en formato


multimedia.

Proyecto ADMYTE 29 :Archivo digital de manuscritos y textos espaoles.

Proyecto ATILA 30 : Aplicaciones telemticas de ingeniera lingstica.

Proyecto CREA 31 : Corpus de referencia del espaol actual.

Proyecto CON-TEXT 32 :: Corrector gramatical.

Proyecto EUROTRA 33 : Traduccin automtica.

Proyecto SIIT VIRTUAL 34 : Servicio de informacin en lnea.

27

Proyecto ACORDEON. [En lnea]. En: Universidad Autnoma de Madrid. Departamento de Lingstica,
Lenguas Modernas, Lgica y Filosofa de la Ciencia y Teora de la literatura y Literatura
<http://www.lllf.uam.es/~ares/acordeon.html>
28
Proyecto C-ORAL-ROM. [En lnea]. En: Universidad Autnoma de Madrid. Departamento de Lingstica,
Lenguas Modernas, Lgica y Filosofa de la Ciencia y Teora de la literatura y Literatura
<http://www.lllf.uam.es/~sandoval/coralrom.html>
29
Proyecto ADMYTE. [En lnea]. En: Universidad Autnoma de Madrid. Departamento de Lingstica,
Lenguas Modernas, Lgica y Filosofa de la Ciencia y Teora de la literatura y Literatura
<http://www.lllf.uam.es/~fmarcos/informes/admyte/admyteix.html>
30
Proyecto ATILA. [En lnea]. En: Universidad Autnoma de Madrid. Departamento de Lingstica, Lenguas
Modernas, Lgica y Filosofa de la Ciencia y Teora de la literatura y Literatura
<http://www.lllf.uam.es/proyectos/atila.html>
31
Proyecto CREA. [En lnea]. <http://www.rae.es/NIVEL1/CREA.HTM>
32
Proyecto CON-TEXT. [En lnea]. En: Universidad Autnoma de Madrid. Departamento de Lingstica,
Lenguas Modernas, Lgica y Filosofa de la Ciencia y Teora de la literatura y Literatura
<http://www.lllf.uam.es/proyectos/context.html>
33
Proyecto EUROTRA. [En lnea]. En: Universidad Autnoma de Madrid. Departamento de Lingstica,
Lenguas Modernas, Lgica y Filosofa de la Ciencia y Teora de la literatura y Literatura
<http://www.lllf.uam.es/docs_es/proyectos/APC.html>
34
Proyecto SIIT VIRTUAL. [En lnea]. <http://www.riterm.net/es/index.htm>

35

Hacia una obtencin computarizada de trminos. (Aplicacin concreta al lxico de la fsica


en el nivel bachillerato).

3. HERRAMIENTAS PARA EXTRAER TRMINOS A


TRAVS DE PROCESOS AUTOMTICOS

3.1

Procesos de anlisis

En un apartado del captulo anterior se habl acerca de las distintas metodologas que
existen para realizar la extraccin de trminos (mtodos estadsticos, lingsticos e
hbridos); ahora, en este captulo, toca el turno de hablar sobre la aplicacin de estas
metodologas en programas computacionales, y en especfico, en el programa con el cual se
efectuaron los procesos de extraccin: WordSmith 1 .

La aplicacin de estos sistemas se ve traducida en herramientas con las cuales


WordSmith y algunos programas desarrollan los procedimientos que llevan hacia la
extraccin de trminos; es decir, representan el punto prctico de la teora.

Con el uso de estas herramientas surgen los primeros resultados: unidades


candidatas a trminos; adems de que es viable trabajar direccionando el anlisis hacia
puntos especficos; por ejemplo, es posible cercar los elementos en el corpus para estrechar
los lmites de lo que interesa y de aquello que no; o comprobar de una forma, aunque no
segura cien por ciento, s fiable, de saber que se trabaja con unidades que representan, como
en recuperacin de informacin, la esencia del corpus; etctera.

Se hablar, para la aplicacin de los mtodos expuestos en el captulo 2, bsicamente sobre WordSmith,
porque es el programa que sirvi a esta investigacin; sin embargo, no se dejarn de lado la extensin de
beneficios a otros programas existentes, sin que esto signifique un dominio absoluto sobre el funcionamiento
de estos otros programas, ya que como en la introduccin se seala, el inters de este trabajo no reside en la
evaluacin ni de los mtodos ni de los programas que trabajan en la extraccin de trminos, ni tampoco hacer
una ponderacin de WordSmith, sino simplemente, sealar los diferentes usos, aplicaciones y beneficios que
presenta la extraccin automtica de trminos, independiente del programa o el mtodo utilizado.

36

Captulo 3 Herramientas para extraer trminos a travs de procesos automticos

Las herramientas 2 que a continuacin se enumeran son, si no todas las que


existen, s las ms representativas y ocurrentes en los programas; y fueron aqullas que
adems guiaron los procesos de esta investigacin por estar presentes y ser la base del
programa WordSmith.

3.1.1 Lista de palabras


Los estudios lingsticos por medio de anlisis estadsticos se caracterizan por un
conteo aritmtico de las palabras en el texto, incluso, algunos de estos anlisis, como el de
los procesadores de texto, llegan slo a este tipo de anlisis: contar el nmero de palabras y
el nmero de caracteres en un texto dado; lo cual no deja de ser til, pero en un proceso
como el de extraccin de trminos no slo es necesario identificar la cantidad de palabras
en el texto, cuanto el nmero de ocurrencias de cada una.

Las listas de palabras no son ms que el resultado de un conteo estadstico de


unidades en un corpus, y la aplicacin de stas da como resultado cualquiera de dos
alternativas: una lista en orden alfabtico de las palabras o de las unidades a considerar
(constituyentes o partes de la oracin), junto con su correspondiente frecuencia o nmero
de ocurrencias (ilustracin 1) 3 ; o una lista de las mismas unidades, pero ordenada por la
frecuencia, de manera que primero aparezcan las unidades que tienen mayor frecuencia,
hasta llegar a las de mnima frecuencia.
Los rendimientos y provechos de estas listas ya los sealaba Lara 4 en
Investigaciones lingsticas en lexicografa, donde el uso de estas listas da fruto en la
realizacin del DEM; mas como el enfoque que en el DEM se daba al uso de estas listas era
dentro de un mbito ms bien lexicolgico, porque el inters era el lxico representativo del
2

Cabe sealar que en la actualidad la mayora de los programas que hacen uso de estas herramientas, emplean
una metodologa hbrida, apoyando las reglas lingsticas con elementos estadsticos o viceversa, con la
intencin de arrojar un mejor y ms sustentado resultado; aunque hay investigadores y, por tanto, programas
que prefieren hacer uso de un slo mtodo, sin que por ello dejen de ofrecer resultados.
3
Todas las ilustraciones que aparecen en este captulo corresponden a las ventanas con que se trabaja en
WordSmith.
4
Vase nota 12 en captulo 2.

37

Captulo 3 Herramientas para extraer trminos a travs de procesos automticos

Ilustracin 1: Lista de palabras por ordenacin alfabtica

espaol de Mxico, y no terminolgico, como es el caso de este trabajo, se pona un peso


equivalente a ambas listas; sin embargo, para este trabajo son las listas de frecuencia las
que presentan mayor riqueza de trabajo y son la base para los primeros estudios
lingsticos. Luhn seala la importancia de este tipo de listas cuando dice:
The lists may alternatively be given in the order of frequency of
occurrence of the words so as to facilitate the recognition of word
ranking and the selection of useful keywords in accordance with
such ranking. 5

H. P. Luhn. Potentialities of auto encoding of Scientific Literature. Yorktown Height: CBM, 1959. p. 5.

38

Captulo 3 Herramientas para extraer trminos a travs de procesos automticos

[Las listas pueden darse alternativamente en el orden de


frecuencia de ocurrencia de las palabras tanto para facilitar
el reconocimiento de la jerarqua de la palabra y la seleccin
de palabras clave tiles de acuerdo con tal clasificacin
jerrquica.]

Estas listas de palabras son la base por medio de la cual WordSmith y algunos
programas realizan los procesos de extraccin e identificacin de trminos; dado que estos
programas trabajan a partir de listas de palabras; esto es, una vez que todas las palabras del
corpus estn organizadas, ya sea en orden alfabtico o de frecuencia, el programa puede
lematizar 6 , identificar las palabras clave, analizar una palabra en su contexto, calcular la
probabilidad de que dos palabras puedan aparecer juntas, etctera, y coadyuvar a la
extraccin de trminos.

No obstante la utilidad de las listas, la ordenacin por frecuencia, tal y como se


puede apreciar en la ilustracin 2, muestra como unidades de mayor aparicin palabras que
no aportan mayor relevancia al anlisis; artculos, preposiciones, conjunciones e incluso
verbos, que si bien podran ser parte de algn trmino, como en los trminos polilxicos; la
aparicin de estas palabras no esclarece en nada esta duda y, en cambio, vuelve mayor una
lista de palabras, de por s grande, que hacen ms lento el trabajo del terminlogo.
Para solucionar este problema, existe la herramienta palabras de detencin 7 (stop
list), que cumplen la funcin de eliminar del conteo estadstico palabras que de antemano se
saben que no son tiles o no interesa que aparezcan.

La lematizacin es una herramienta que ofrece la posibilidad de simplificar las palabras resultantes mediante
el conteo por derivacin lxica, esto es, permite mediante procesos lingsticos unir dos o ms unidades a una
forma cannica o a alguna otra forma segn las necesidades; se pone por caso las palabras medimos, meda,
mide, y medir, que pueden ser consideradas variaciones de la forma medir, y analizadas todas esas formas
como una nica forma, en este caso, como medir.
7
La adaptacin del trmino ingls stop list es propio.

39

Captulo 3 Herramientas para extraer trminos a travs de procesos automticos

Ilustracin 2: Lista de palabras por ordenacin de frecuencias

3.1.2 Listas de detencin


Las listas de detencin son archivos que contiene todas aquellas palabras que no
se desea que aparezcan en los resultados del conteo estadstico y que, por tanto, mientras el
programa efecta el anlisis, se impide que sean tomadas en cuenta las unidades que se
encuentren incluidas en la lista de detencin; ms no as de todos los procesos que el
programa realiza, a menos que sean habilitadas tales listas en otros mdulos (ilustracin 3).
Una lista de detencin est compuesta, tal y como Lancaster 8 lo apunta, por:
8

F. W. Lancaster. Vocabulary Control for Information Retrieval. Washington D.C.: Information Resources
Press, 1972. p. 154.

40

Captulo 3 Herramientas para extraer trminos a travs de procesos automticos

Common words, pronouns, articles, conjunctions, conjunctive


adverbs, copula and auxiliary verbs, quantitative adjectives are
eliminated from further processing by means of a stop list.
[Palabras comunes, pronombres, artculos, conjunciones,
adverbios, verbos auxiliares y copulativos, adjetivos
cuantitativos son eliminados del proceso por medio de una
"lista de detencin".]

Ilustracin 3: Ejemplo de las palabras que constituyen una lista de detencin

41

Captulo 3 Herramientas para extraer trminos a travs de procesos automticos

La aplicacin de estas listas logra reducir hasta un 50 por ciento del corpus, segn
palabras del mismo Lancaster; y el beneficio es obvio e inmediato. Al ser eliminado un
porcentaje alto de palabras como artculos, pronombres, etctera, que no presentan mayor
relevancia al anlisis, se puede al mismo tiempo y en un porcentaje alto estar seguro de que
se trabaja con palabras que representan mayor riqueza de anlisis (ver ilustracin 4 en
donde se aprecia como la lista se enriquece al desaparecer del conteo palabras que no
significativas, conservando ahora, en los primeros sitios, palabras que aportan mayor
significacin al anlisis); adems, en caso de que una palabra se haya dado por sentado de
que no es significativa y en verdad lo sea, el programa puede tomarla en cuenta para otros
procesos, como en palabras clave o concordancia, si la lista de detencin no es activada en
tales mdulos.

Ilustracin 4: Resultado de la aplicacin de una lista de detencin

42

Captulo 3 Herramientas para extraer trminos a travs de procesos automticos

3.1.3 Palabras clave


Entre la enorme cantidad de palabras que pueden aparecer en una lista de
frecuencias, aunque se haga uso de una lista de detencin, no siempre dentro del resultado
se ver reflejada una terminologa total y nica de un rea especfica. Por ejemplo, en la
ilustracin 4 se observa que dos, tiene y podemos, dentro de un contexto como el de fsica,
aparecen en la lista de frecuencias con un porcentaje de apariciones considerado, pero el
resultado no excluye que estas palabras aparezcan en otro contexto temtico con un
porcentaje que lo manifieste como palabra significativa, y por lo tanto, como candidata a
trmino. Una herramienta bastante til que permite en gran medida eliminar, o por lo
menos poner a consideracin si tal palabra, polismica o no polismica, es dentro de un
rea tal, una palabra significativa o no, son las listas de palabras clave.
Estas listas no son otra cosa que una representacin de los resultados que se
obtienen cuando se comparan dos listas de frecuencia de diferentes reas de conocimiento;
esto es, presentar la relacin de palabras significativas que resultan de una comparacin
entre dos listas de palabras a partir de un anlisis de frecuencias del total de palabras que
componen la lista (ilustracin 5), por ejemplo, si movimiento aparece en una lista de
frecuencias con un porcentaje de apariciones alto, y en la lista con la que va a compararse,
movimiento aparece tambin, pero con muy poco porcentaje o no aparece, inmediatamente
movimiento ser tomada como palabra significativa en una lista de palabras clave.

Dicho de otra forma:


If a certain word occurs significantly more often in a given text
than it occurs, on average, in a large selection of normal texts
(the reference corpus), this word is identified as a keyword. 9

Ralf Steinberger. Cross - lingual Keyword Assignment. Procesamiento del lenguaje natural. Espaa: SEPLN
/ Universidad de Jan, 2001. p. 274.

43

Captulo 3 Herramientas para extraer trminos a travs de procesos automticos

Ilustracin 5: Lista de palabras clave

[Si cierta palabra ocurre significativamente ms a menudo


en un texto dado de lo que ocurre, en promedio, en una
seleccin grande de textos "normales" (el corpus de
referencia), esta palabra se identifica como una palabra
clave.]

Para obtener una lista de palabras clave es necesario contar con dos listas de
palabras de diferentes reas de conocimiento, esto, con el fin de eliminar en un porcentaje
alto las posibles coincidencias que una o varias palabras pudiesen tener en ambas listas,
como el ejemplo de movimiento, el cual pudiese aparecer tanto en fsica como en poesa; y
ya que estos inconvenientes no pueden eliminarse radicalmente, es recomendable elaborar

44

Captulo 3 Herramientas para extraer trminos a travs de procesos automticos

ms listas de palabras de diferentes reas con que comparar la lista principal, para as
reducir al mnimo el margen de coincidencias que pudiesen presentarse.

Una vez tenidas las listas de palabras, con las herramientas que en este caso
WordSmith ofrece, se realiza una comparacin de listas de palabras que mostrar en los
resultados un grupo de palabras significativas de cada lista; estas palabras representan la
columna vertebral del texto analizado, puesto que muestran en esta serie de palabras clave,
a grandes rasgos, el contenido del texto; tal y como sucede en Recuperacin de
Informacin, donde esta herramienta es utilizada en gran medida.

3.1.4 Concordancia
A concordance, in its simplest form, is an alphabetical listing of
the words in a text, given together with the contexts in which
they appear. The most common form of concordance today is the
Keyword-in-Context (KWIC) index, in which each word is
centered in a fixed-length field. 10

[Una concordancia, en su forma ms simple, es una


inscripcin alfabtica de las palabras en un texto, dado junto
con los contextos en los que aparecen. La forma ms
comn de concordancia hoy en da es el ndice de Palabra
clave-en-contexto, en el que cada palabra se centra en un
campo posicin-longitud.]

Lara seala en la investigacin para la creacin del DEM que no slo [les]
interesa obtener del anlisis de[l] corpus la lista alfabtica de los vocablos incluidos en l,
sino que tambin [interesa] conocer los contextos en que aparece utilizada cada palabra 11 .
Esto es, ver en los resultados cmo se comporta una palabra dada, a travs del anlisis del
10 Para mayores referencias sobre el tema y sobre KWIC, Vase:
http://www.georgetown.edu/cball/corpora/tutorial3.html
11
Vase Luis Fernando Lara, Roberto Ham Chande y Mara Isabel Garca Hidalgo. Op.cit. p. 30.

45

Captulo 3 Herramientas para extraer trminos a travs de procesos automticos

contexto en el que aparece, es decir, aplicar los procesos que la herramienta de


concordancia ofrece.

Ilustracin 6: Anlisis de concordancia de la palabra movimiento

Los procesos que en concordancia pueden realizarse involucran el anlisis de las


palabras en su contexto, esto es, una vez seleccionada una palabra X, sta es tomada desde
su contexto para ser analizada individualmente y ver el comportamiento que sufre, ver
alrededor de qu palabras se encuentra y cules son las que ms a menudo aparecen junto a
ella (ilustracin 6).

46

Captulo 3 Herramientas para extraer trminos a travs de procesos automticos

3.1.5 Informacin mutua


Una herramienta ms que se tiene a disposicin tanto en extraccin automtica de
trminos como en otras disciplinas como recuperacin y extraccin de informacin, es la
frmula tomada de ciencias de la computacin, denominada informacin mutua (Mutual
Information), la cual permite identificar qu tan conectadas se encuentran dos palabras que
ocurren contiguamente en un texto dado. Esta frmula evala, para un par de palabras
dadas, la probabilidad de que ambas ocurran juntas como un evento conjunto, en
comparacin con la probabilidad de que stas ocurran individualmente, de tal manera que
su contigidad haya sido dada por pura casualidad 12 .

Ilustracin 7: Ejemplo del anlisis de informacin mutua

12

Sobre este tema y sobre ingeniera lingstica cfr. el manuscrito La informtica en el trabajo terminolgico.
Sierra, 2002.

47

Captulo 3 Herramientas para extraer trminos a travs de procesos automticos

La herramienta de informacin mutua trabaja, como se describe en el anlisis que


Cabr, Estop y Vivaldi hacen a los diversos programas de extraccin de trminos, a partir
de reglas estadsticas y describen la informacin mutua como 13 :
Statistically based systems function by detecting two or more
lexical units whose occurrence is higher than a given level. This
is not a random situation, but it is related to a particular usage of
these lexical units. This principle, called Mutual Information.

[Los

sistemas

basados

en

estadstica

funcionan

detectando dos o ms unidades lxicas, las cuales,


ocurren

constantemente

ms

arriba

de

un

nivel

establecido. sta no es una situacin aleatoria, sino que


se relaciona a un uso particular de esas unidades lxicas
(ilustracin 7). El principio que rige estas ocurrencias se
conoce como Informacin Mutua.]

La utilidad de esta herramienta en este trabajo, consiste en que:

permite extraer trminos de ms de una palabra;

ayuda a identificar diferentes sentidos de la palabra, esto con referencia al aspecto


polismico de las palabras. 14
Dentro de la investigacin, esta herramienta, aunque no ofreci grandes aportes de

los ya ofrecidos por las anteriores herramientas, puede mostrar algunos resultados bastante
interesantes adems de que abre otras lneas de investigacin para quien est interesado en
el tema.

13

Mara Teresa Cabr, Rosa Estop, Jordi Vivaldi. Recent advances in computational terminology.
Amsterdam / Philadelphia: John Benjamins B. V., 2001. p. 55.
14
Para profundizar en este tema y ver algunos resultados interesantes relacionados con informacin mutua y
otras medidas de extraccin, consultar el siguiente enlace:
http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/corpus3/3fra1.htm

48

Captulo 3 Herramientas para extraer trminos a travs de procesos automticos

3.2

Programas existentes

Esta necesidad por extraer trminos de manera automtica surge a finales de los
aos ochenta; la aparicin del programa TERMINO en 1990, marca un avance significativo
en el rea de extraccin terminolgica va procesos automticos y muestra resultados
alentadores 15 . Muchos son ahora los grupos 16 que tienen inters sobre el tema y que se
encuentran en el desarrollo de recursos para aprovechar los estudios, programas y la
infraestructura existentes, para dar a conocer nuevas tcnicas que redunden en el beneficio
de los terminlogos, de los profesionales que necesitan una terminologa inequvoca en sus
labores, de los estudiantes e incluso de la misma gente que carece de elementos con que
poder entender estas jergas.

Sin embargo, existen muchos problemas que an no encuentran solucin, entre


estos problemas, los principales se refieren a:
1. identification of complex terms, that is, determining where a
terminological phrase begins and ends;
2. recognition of complex terms, that is, deciding whether a
discursive unit constitutes a terminological phrase or

free

unit;
3. identification of the terminological nature of a lexical unit, that
is, knowing whether in a specialised text a lexical unit has a
terminological nature or belongs to general language and
4. appropriateness of a terminological unit to a given vocabulary
(this has scarcely been addressed from the point of view of
automatization) 17 .
1.

[la identificacin de trminos complejos, es decir,


determinar

dnde

empieza

acaba

terminolgica;
15

Vase Mara Teresa Cabr, Rosa Estop, Jordi Vivaldi. Op. Cit. p. 54.
Vase captulo 1.El rea terminolgica en nuestros das.
17
Mara Teresa Cabr, Rosa Estop, Jordi Vivaldi. Op. Cit. p. 54.
16

49

una

frase

Captulo 3 Herramientas para extraer trminos a travs de procesos automticos

2.

el reconocimiento de trminos complejos, es decir,


decidir si una unidad discursiva constituye una frase
terminolgica o una unidad libre;

3.

la identificacin de la naturaleza terminolgica de una


unidad lxica, es decir, saber si en un texto
especializado una unidad lxica tiene una naturaleza
terminolgica o pertenece al idioma general y

4.

la adecuacin de una unidad terminolgica a un


vocabulario dado (esto se ha dirigido escasamente
desde el punto de vista de automatizacin).]

Otro gran problema de los extractores automticos de trminos es, como seala
Estop, que la mayora de extractores de terminologa se han centrado en la recuperacin
de las unidades terminolgicas polilxicas a travs de estrategias formales basadas en sus
patrones morfosintcticos 18 . Y como apunta Vivaldi, ningn sistema comprueba si el
trmino propuesto pertenece o no al mbito de especialidad que se est analizando 19 ; de
ah que salga a colacin la necesidad del uso correcto de las herramientas que dichos
programas ofrecen, puesto que la labor del terminlogo se incrementa en la medida en que
el programa presente estas carencias o en que estas carencias se hagan ms grandes si no se
hace una explotacin apropiada de los recursos existentes.

Mas con todo, el trabajo ah est y son constantes las investigaciones y el inters
por aprovechar las ventajas que la extraccin automtica de trminos presenta.

Ahora bien, el inters en este apartado es mencionar algunos de los programas que
tienen que ver directa o indirectamente con la extraccin de trminos. Y he dicho

18

Rosa Estop. Elementos lingsticos de las unidades terminolgicas para su extraccin automtica. La
terminologa cientfico tcnica: reconocimiento, anlisis y extraccin de informacin formal y semntica.
Barcelona: Institut Universitari de Lingstica Aplicada Pompeu Fabra, 2001. p. 68.
19
Jorge Vivaldi. Elaboracin de una aplicacin automtica de reconocimiento y extraccin de informacin
terminolgica en textos de dominios restringidos. La terminologa cientfico tcnica: reconocimiento,
anlisis y extraccin de informacin formal y semntica. Barcelona: Institut Universitari de Lingstica
Aplicada Pompeu Fabra, 2001. p. 230.

50

Captulo 3 Herramientas para extraer trminos a travs de procesos automticos

mencionar, porque por cuestiones de tiempo, espacio y por no salir del tema que ahora nos
ocupa y entrar en otro, se hace imposible una evaluacin de tales programas; mas para
quien est interesado se indican enlaces en donde se puede encontrar informacin detallada
y evaluaciones de los programas aludidos.

Cabe sealar que los programas referidos no siguen orden alguno para su
inclusin en este trabajo, ni son todos los que existen en el mercado; es slo una muestra
representativa de los recursos disponibles, algunos de ellos incluso son gratuitos en
Internet.

MonoConc Pro:
http://www.ruf.rice.edu/~barlow/mono.html#monopro

TACT Text Analysis Computing Tools:


http://etext.lib.virginia.edu/helpsheets/tact.html

CONC:
http://www.sil.org/computing/conc/

Oxford Concordance Program (OCP):


http://www1.oup.co.uk/E-P/Humanities/Micro-OCP/
http://info.ox.ac.uk/ctitext/resguide/resources/o125.html

ParaConc:
http://www.ruf.rice.edu/~barlow/parac.html

Hyperbase:
http://info.ox.ac.uk/ctitext/resguide/resources/h123.html
http://lolita.unice.fr/~brunet/hyperbase.html.

Lexa 6.0:
http://info.ox.ac.uk/ctitext/resguide/resources/l120.html

ANA 20

CLARIT

20

A partir de este programa y hasta el ltimo sealado, se puede encontrar una evaluacin detallada por
terminlogos y referencias hacia los documentos originales en: Cabr, Mara Teresa, Rosa Estop, Jordi
Vivaldi. Recent advances in computational terminology. Op. Cit. pp. 57-84.

51

Captulo 3 Herramientas para extraer trminos a travs de procesos automticos

Daille-94

FASTR

LEXTER

NAULLEAU

NEURAL

NODALIDA-95

TERMIGHT

TERMINO

TERMS

3.2.1 WordSmith
Como arriba queda sentado, el programa con el cual fueron efectuados todos los
anlisis de esta investigacin es WordSmith. Dicho programa es un software desarrollado
por Mike Scott en la Oxford University Press en la dcada de los 90,

La eleccin de este programa no obedece a ningn anlisis previo de los


beneficios y potencialidades que ofrece; tampoco fue por inters comercial; o porque sea el
mejor y ms completo programa. Simplemente, fue el que se tena disponible en el proyecto
del cual se desprende esta investigacin, y como arriba se seala, no es ste el lugar ni el
trabajo para evaluar los programas y elegir el mejor. Es un recurso disponible que para los
intereses de este trabajo y del proyecto base ha funcionado, pero no se ha estudiado si es
mejor, igual o peor que otros. Sin embargo, para el desarrollo de esta investigacin ha
representado un medio eficiente, aceptable y aplicable para llevar a cabo los fines
planeados en el rea de fsica y en otras reas de conocimiento, y por lo tanto, vlido para
ser usado en esta investigacin.

WordSmith es un programa que se encuentra dividido en tres mdulos bsicos de


dnde se desprenden las distintas operaciones que permite:

52

Captulo 3 Herramientas para extraer trminos a travs de procesos automticos

1.

lista de palabras

2.

palabras clave

3.

concordancia

En estos mdulos el usuario puede hacer uso de las herramientas con que el
programa cuenta para reducir, dirigir y, en cierto sentido, comprobar los resultados que el
programa arroja mediante los propios recursos del programa. Entre los procesos con que
cuenta WordSmith para extraer trminos y que fueron utilizados dentro de esta
investigacin se encuentran:

las listas de palabras de una o ms palabras,

elaboracin de listas de detencin aplicables a los tres mdulos o alguno de ellos


solamente,

lematizacin automtica y manualmente,

etiquetado de palabras,

comparacin ente listas de palabras para obtener palabras clave,

anlisis por medio de agrupaciones,

anlisis grfico de la posicin que guarda una palabra dentro de un archivo,

observacin del comportamiento de una palabra a travs de colocaciones,

anlisis de una palabra en su contexto,

creacin de ndices de palabras,

aplicacin de informacin mutua,

etctera.

Algunos de estos procesos ya han sido descritos, algunos otros se detallarn ms


adelante, como las colocaciones y el anlisis por medio de agrupaciones, los cuales
sirvieron de pauta junto con la elaboracin de listas de palabras de dos y tres unidades para
la obtencin de los difciles trminos polilxicos, de los que tanto dicen, es arduo conseguir
de forma automtica.

53

Captulo 3 Herramientas para extraer trminos a travs de procesos automticos

Fue la aplicacin de WordSmith en esta actividad, a resumidas cuentas,


productiva, valiosa e interesante, puesto que, como ms adelante se explicar, se obtuvieron
una buena cantidad de trminos simples y polilxicos, simplific, aunque sin llegar a ser
automtico, el trabajo de extraccin y abri lneas de investigacin prometedoras en el rea
de ingeniera lingstica.

54

Hacia una obtencin computarizada de trminos. (Aplicacin concreta al lxico de la fsica


en el nivel bachillerato).

4. OBTENCIN DE LA TERMINOLOGA

4.1

Delimitacin del objeto de estudio

Como en la introduccin queda asentado, el fin ltimo del presente trabajo consiste en
presentar una terminologa bsica, obtenida con herramientas informticas y avalada por
expertos, relativa a la fsica a nivel bachillerato; esta investigacin se desprende de un
proyecto que el GIL realiza para implementar un diccionario de bsquedas onomasiolgicas
en el rea de fsica. Una de las metas del proyecto consiste en obtener la terminologa
relativa al rea de mecnica. Para lo cual, se realiz esta investigacin y se desprendi el
presente trabajo, el cual se enfoca hacia la extraccin de los trminos de mecnica en fsica.
Las siguientes metas en este rubro terminolgico, y que no son tratadas en esta tesis,
pretenden probar la metodologa empleada en este trabajo, y segn los resultados obtenidos,
implementar los trabajos de extraccin de trminos a completar todas las disciplinas que
conforman la fsica y extenderlos hacia otras reas de conocimiento como la lingstica, la
qumica, etc.

Debido a las necesidades y premisas del proyecto del GIL, y como en la


introduccin se menciona, el objeto de estudio y los resultados de esta investigacin se
ceirn nicamente a la terminologa de mecnica del rea de fsica.

De esta forma, se reafirma el objeto de estudio de esta investigacin, el cual se


limitar a los trminos concernientes a la mecnica; dicho lo anterior, es conveniente
recapitular sobre lo que hasta ahora se ha desarrollado en este estudio.

En los captulos precedentes se han presentado los fundamentos tericos de la


materia prima de esta investigacin, terminologa y trminos, direccionando el estudio que
se les dar a stos, con un enfoque visto desde la disciplina de la ingeniera lingstica.
Dentro de esta rea, se explotar el recurso de la extraccin de trminos con la metodologa

55

Captulo 4 Obtencin de la terminologa

descrita en el captulo 2 y, mediante el uso de las herramientas explicadas en el captulo 3,


contenidas en el programa WordSmith, se describirn en este captulo los procesos llevados
a cabo para efectuar los anlisis que arrojarn la terminologa que se pretende obtener
mediante el uso de los recursos antes mencionados.

4.1.1 Cmo se obtuvo el material en formato electrnico


Para desempear el propsito de este estudio y cumplir con los requisitos que
deben contener las terminologas, esto es, ser palabras que dentro de cierto dominio estn
adscritas a un criterio especializado, los expertos en fsica del Centro de Instrumentos de la
UNAM proporcionaron un grupo de quince archivos en formato electrnico y con la
extensin txt (texto), con informacin relativa y especializada a mecnica.

El material proporcionado fue elaborado con los fines de representar los recursos
terminolgicos y en algunos casos conceptuales del proyecto del GIL.

Tal material es la raz de la informacin con que se cont en esta investigacin, y


a partir de l, fueron realizados todos los anlisis que aqu tienen lugar. EL grupo de quince
archivos que proporcion el Centro de Instrumentos fue denominado hipertexto.

4.1.2 El hipertexto
El hipertexto 1 es la conformacin de los quince archivos proporcionados por el
Centro de Instrumentos, compuesto de 76,991 palabras (ilustracin 1). Fue conformado por
especialistas de fsica con la consigna de que el material que facilitasen debera ser
exclusivo para la enseanza y el estudio de la fsica en el nivel bachillerato, sin que esto
excluya que deban ser textos especializados en el rea, en este caso, de mecnica.

Es preciso sealar que toda la informacin que contena el hipertexto fue proporcionada bajo la premisa de
que el diccionario estara dirigido a los alumnos del nivel bachillerato. Por lo tanto, no se espere encontrar en
la terminologa resultante trminos que pertenezcan a un dominio ms profundo de la fsica y de sus subreas.

56

Captulo 4 Obtencin de la terminologa

Una vez obtenido el material del que partiran los anlisis se iniciaron los procesos
que conforman la fase de extraccin.

Ilustracin 1: Fragmento de un archivo del hipertexto

Cabe hacer mencin de que el anlisis del hipertexto nunca fue manual, en ningn
momento se dio una lectura de la informacin que contena, como tampoco se hizo en los
materiales conseguidos para hacer comparaciones con ste. En este sentido, se realiz un
proceso automtico.

57

Captulo 4 Obtencin de la terminologa

A continuacin se detallarn los procesos realizados 2 que condujeron a obtener la


terminologa que se presentar en el captulo 5.

4.2

Listas de palabras
4.2.1 Procesos para la obtencin de listas de palabras

Con el hipertexto empezaron los primeros anlisis que se efectuaron con


WordSmith. Se procedi primero a elaborar una lista de palabras que mostrara el contenido
del hipertexto. Esta lista era grande en exceso, pero mostraba palabras interesantes como
movimiento, fuerza, velocidad, energa en posiciones de frecuencias no muy bajas; mas
como en esta primera lista no se haba activado una lista de detencin, la cantidad de
palabras, significativas y funcionales, que componan al hipertexto, resultaba considerable.

Con la idea de reducir esta lista a sus elementos ms significativos, se decidi


eliminar todas aquellas palabras que mediante criterios personales resultaban intiles, esto
se logr al incluir en una lista de detencin todas las palabras que fueron consideradas poco
relevantes en el conteo estadstico del hipertexto.

Es preciso resaltar que en el anlisis de esta lista de palabras slo se busc,


mediante las herramientas de WordSmith, obtener una lista de trminos simples, por lo que
la lista presenta el conteo slo por palabra; por lo que respecta a los trminos polilxicos,
ms adelante se explicar que se efectuaron listas de palabras de dos o ms palabras que
junto con los anlisis por medio de agrupamientos, permitieron obtener la terminologa
polilxica.

Hubo toda una serie de procesos y anlisis de prueba realizados con WordSmith para ver el funcionamiento
de ste y los posibles resultados que arrojaba, tanto en mecnica como en otras reas, sin embargo, tales
anlisis no sern detallados en este lugar.

58

Captulo 4 Obtencin de la terminologa

4.2.2 Activacin de la lista de detencin


El siguiente paso consisti en activar una lista de detencin compuesta por 250
palabras, entre las que se encuentran pronombres, artculos, preposiciones, conjunciones y
los verbos ser y estar, los cuales fueron incluidos respondiendo a los anlisis de prueba 3
que para este fin se hicieron en WordSmith.

A,ADEMS,ANTE,AUN,AN,AS,AQU,ALL,AH,ACERCA,AL,
AUNQUE,
AQUEL,AQUELLO,AQUELLA,AQUELLOS,AQUELLAS,AQUL,ALGO,
ALGN,
ALGUNA,ALGUNOS,ALGUNAS,ANTES,
BAJO,BIEN,BUENO,BUENA,BUENOS,BUENOS,
CABE,CASI,CON,CONTRA,COMO,CMO,CUAN,CUN,CUANTO,
CUNTO,
CUANDO,CUNDO,CUAL,CUL,CUALES,CULES,CADA,COMN,
CERCA,CERCANO
CIERTO,CIERTA,CIERTOS,CIERTAS,CUALQUIER,CUALQUIERA,
DE,DESDE,DONDE,DNDE,DEMS,DEL,DADO,DADA,DADAS,DADOS
DENTRO,DESPUS,
E,EL,L,ELLA,ELLO,ELLOS,ELLAS,EN,ENTRE,ESTO,ESTA,
ESTOS,ESTAS,ESTE,
STE,STA,STOS,STAS,ESO,ESA,ESE,ESOS,ESAS,SE,SA,
SOS,SAS,EMBARGO,
FUERA,FAVOR,GRAN,
HA,HACIA,HACA,HASTA,
IGUAL,IGUALMENTE,
LA,LO,LAS,LOS,LE,LES,LUEGO,
MI,M,MO,MIS,MAS,MS,MENOS,MAYOR,MENOR,MIENTRAS,
MUY,MUCHO,MUCHOS,MUCHA,MUCHAS,MAL,MISMO,MISMA,MISMOS
MISMAS,
NO,NI,NADA,NINGN,NINGUNA,NINGUNOS,NINGUNAS,NUNCA,
NOSOTROS,NOS
NUESTRO,NUESTRA,NUESTROS,NUESTRAS,
O,OTRO,OTRA,OTROS,OTRAS,
POR,PARA,PORQUE,PORQUS,POR QU,PARA QU,PERO,
QUE,QU,QUIZ,QUIZS,QUIEN,QUIENES,QUIN,
SEGN,SIN,SO,SOBRE,SI,S,SU,SUS,SUYA,SUYAS,SUYO,
SUYOS,SINO,SIEMPRE,
SOLO,SOLA,SOLOS,SOLAS,SLO,SE,
TODO,TODA,TODOS,TODAS,TAMBIN,TRAS,TRS,TAL,TANTO,T
TU,TI,TE,
TUYO,TUYA,TUYOS,TUYAS,TODAVA,TUS,TAN,TALES,
U,USTED,USTEDES,UN,UNA,UNOS,UNAS,UNO,
VEZ,
Y,YA,YO,
Ilustracin 2: Palabras funcionales de la lista de detencin aplicada al hipertexto

Ver nota 2.

59

Captulo 4 Obtencin de la terminologa

El fin pretendido al activar la lista de detencin fue el de reducir a un nmero ms


significativo las palabras del hipertexto, y slo fue activada en el mdulo de listas de
palabras, lo que significa que para los anlisis de los siguientes mdulos (palabras clave y
concordancia) todas las palabras incluidas en la lista de detencin quedaron habilitadas para
ser tomadas en cuenta.

La ilustracin 2 muestra las palabras incluidas en la lista de detencin aplicada al


anlisis del hipertexto.

4.2.3 Pulido de las listas de palabras


El resultado despus de la aplicacin de esta lista de detencin signific una lista
ms compacta de palabras, aunque esto no quiere decir que hayan quedado slo palabras
significativas; el total de palabras de que se compuso esta segunda lista, llamada mecnica,
es de 1674 palabras.

Las palabras que se obtuvieron en mecnica constataban la informacin que la


gente del Centro de Instrumentos haba dado, que el hipertexto contena informacin
especializada sobre mecnica; un anlisis ms detallado de los resultados de mecnica,
revelaba que gran parte de las palabras que la componan y que se ubicaban entre las
frecuencias ms bajas, esto es, que contaban con menos de 10 en aparicin, se trataban de
verbos y sustantivos que acompaan al discurso, lo que descartaba gran parte de la lista, sin
embargo, se tuvo la precaucin de revisar a fondo las 1674 palabras que componan
mecnica para que ninguna de ellas pasase desapercibida. De esta forma, casi un tercio de
las palabras obtenidas pareca ser en verdad significativo.

Para corroborar esta idea, mejorar los supuestos que se tenan y aprovechar los
recursos disponibles, se hizo uso del mdulo dedicado a extraer palabras clave.

60

Captulo 4 Obtencin de la terminologa

Nmero
Palabra
Frecuencia
1
MOVIMIENTO
107
2
FUERZA
93
3
VELOCIDAD
81
4
ENERGA
78
5
FIGURA
75
6
MASA
57
7
TIEMPO
54
8
ECUACIN
53
9
CUERPO
48
10
NEWTON
45
11
DOS
43
12
SISTEMA
42
13
DISTANCIA
41
14
X
41
15
T
40
16
TIENE
38
17
FUERZAS
37
18
FRICCIN
36
19
MOMENTO
36
20
PODEMOS
36
21
V
36
22
FORMA
35
23
ANGULAR
34
24
CENTRO
34
25
LEY
33
26
CONSERVACIN
32
27
PUEDE
32
28
TRABAJO
32
29
OBJETO
30
30
TENEMOS
30
31
ANTERIOR
29
32
CASO
29
33
PLANO
29
34
PRINCIPIO
28
35
DIRECCIN
26
36
SOL
26
37
ACELERACIN
25

Nmero
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75

Palabra
CONSTANTE
M
R
F
PUNTO
CINTICA
CUERPOS
ECUACIONES
INCLINADO
ALTURA
CANTIDAD
MUESTRA
PARTCULAS
DECIR
VALOR
D
MPETU
LEYES
LINEAL
MUEVE
POTENCIAL
CERO
H
MECNICA
PROBLEMA
TOTAL
UNIFORME
VE
RO
ACCIN
NGULO
DEBE
DICE
ESCRIBIR
GALILEO
HEMOS
LADO

Frecuencia
24
24
23
21
21
20
20
20
20
19
19
19
19
18
18
17
17
17
17
17
17
16
16
16
16
16
16
16
15
14
14
14
14
14
14
14
14

Ilustracin 3: Lista de las primeras 75 palabras despus de la aplicacin de la lista de detencin

El resultado que se obtuvo con el uso de esta herramienta se detalla en el siguiente


apartado.

61

Captulo 4 Obtencin de la terminologa

4.3

Palabras clave
4.3.1 Elaboracin de listas de palabras alternas

En el anlisis para la obtencin de las palabras clave de mecnica se realiz un


proceso de comparacin entre listas de palabras; para conseguir este fin, se parti del
criterio de alejamiento entre reas de conocimiento. Con este criterio como premisa para
realizar las listas de palabras con que se comparara mecnica, se obtuvieron de Internet
dos archivos, de los cuales, el primero estaba dedicado a Octavio Paz 4 (ilustracin 4); y el
segundo, a un artculo sobre salud alimenticia 5 ; compuestos por 27,844 y 14,966 palabras
respectivamente, los cuales fueron sometidos a los mismo procesos que sufri el hipertexto.

Ilustracin 4: Fragmento de uno de los archivos obtenidos de Internet

Mara del Carmen Ruiz de la Cierva. Imagen intelectual de Octavio Paz. [En lnea]. En: Proyecto Ensayo
Hispanoamericano (2002). <http://ensayo.rom.uga.edu/filosofos/mexico/paz/ruiz/>
5
Gua de alimentacin y salud [En lnea]. En: Sociedad espaola de nutricin bsica y aplicada (2002).
<http://www.uned.es/pea-nutricion-y-dietetica-I/guia/index.htm>

62

Captulo 4 Obtencin de la terminologa

4.3.2 Comparacin entre las diferentes listas de palabras


Una vez obtenidas las listas de palabras de los archivos6 bajados de la red (de aqu
en adelante se har referencia a estas listas como Paz y alimentacin), se efectu un
proceso de comparacin entre listas.

Este proceso de bsqueda de palabras clave permite que dos listas sean
equiparadas a travs de procesos estadsticos y matemticos que actan estableciendo que si
una palabra aparece en un texto X pero no aparece en un texto Y o aparece muy poco en
relacin con el texto X, entonces esta palabra ser clave en el texto X, dado que el contraste
de aparicin en los textos X y Y supone que tal palabra debe ser significativa; pero si esta
misma palabra aparece en ambos textos, el proceso las anular de forma automtica, si es
significativa en ambos, bajo la regla de que como su aparicin es regular en uno y otro
texto, la posibilidad de que sea significativa se reduce sobremanera.

En captulos anteriores se hace mencin al problema polismico de las palabras


movimiento y sntesis, las cuales pueden ser significativas en distintas reas dependiendo
del sentido pragmtico de su uso; para remediar en parte este problema, se sugiri la
aplicacin de ms de una lista de comparacin y que tales listas sean de distintas reas para
reducir al mnimo el problema de la polisemia. El resultado que en este trabajo se dio tras la
comparacin de Paz y alimentacin contra mecnica muestra una serie de datos que a
continuacin se anotan.

Conviene hacer mencin que los dos archivos obtenidos de la red con que se compar mecnica son ms
grandes en la extensin de su corpus; esto permite que el nmero de comparaciones de las palabras que
conforman mecnica sea mayor y las palabras clave resultantes ms especficas y confiables.

63

Captulo 4 Obtencin de la terminologa

4.4

ndice de posibles trminos simples

El proceso de comparacin abarc cuatro cotejos con distintas variantes de


bsqueda de las listas Paz y alimentacin. En total, a mecnica se le realizaron ocho
comparaciones. El nmero de palabras clave resultantes vara de acuerdo con los rangos de
bsqueda aplicados en cada comparacin.
La ilustracin 5 muestra los rangos de bsqueda

que se aplicaron en las

comparaciones de mecnica en contra de alimentacin y paz:

Porcentaje mximo de bsqueda


0.1
0.001
0.00001
0.0000000001
0.005
0.0001
0.000001
0.000000000000001

Lista 1
mecnica
mecnica
mecnica
mecnica
mecnica
mecnica
mecnica
mecnica

Lista 2
alimentacin
alimentacin
alimentacin
alimentacin
Paz
Paz
Paz
Paz

Palabras clave
529
113
85
25
499
128
60
5

Ilustracin 5: Valores con que se efectuaron las comparaciones

La variacin en los criterios de bsqueda refleja una oscilacin de resultados, que


va desde 5 y hasta 529 palabras clave. Las palabras clave que en cada comparacin resultan
no varan, slo disminuyen o aumentan segn los valores de bsqueda, como se observa en
las ilustraciones 6 y 7.

De las 529 palabras clave, algunas se repetan, en mayor o menor grado


dependiendo de los valores de bsqueda en cada comparacin, de forma que la suma de
palabras clave de las ocho comparaciones arroj un total de 1444 palabras. Con este
cmulo de palabras se realiz una lista de palabras para observar el comportamiento y
cantidad total de palabras clave.

Los resultados de esta lista de 1444 palabras mostraban que el nmero total de
palabras diferentes era de slo 606; esto quiere decir que algunas palabras estaban presentes
en todas las comparaciones y tenan una frecuencia de ocho debido a las ocho

64

Captulo 4 Obtencin de la terminologa

comparaciones y haba otras que slo aparecan con frecuencia de uno. Este contraste en
el nmero de frecuencias se deba a los valores de bsqueda de las palabras clave, en
donde, en algunas comparaciones se tenan ms de 500 palabras y en otras apenas 5.

Valor de bsqueda

0.1

0.001

0.00001

0.0000000001

Palabra clave

MOVIMIENTO

MOVIMIENTO

MOVIMIENTO

MOVIMIENTO

FUERZA

FUERZA

FUERZA

FUERZA

VELOCIDAD

VELOCIDAD

VELOCIDAD

VELOCIDAD

FIGURA

FIGURA

FIGURA

FIGURA

ECUACIN

ECUACIN

ECUACIN

ECUACIN

MASA

MASA

MASA

MASA

NEWTON

NEWTON

NEWTON

NEWTON

DISTANCIA

DISTANCIA

DISTANCIA

DISTANCIA

FUERZAS

FUERZAS

FUERZAS

FUERZAS

FRICCIN

FRICCIN

FRICCIN

FRICCIN

CENTRO

CENTRO

CENTRO

CENTRO

LEY

LEY

LEY

LEY

CONSERVACIN

CONSERVACIN

CONSERVACIN

CONSERVACIN

TIEMPO

TIEMPO

TIEMPO

TIEMPO

PLANO

PLANO

PLANO

PLANO

ANGULAR

ANGULAR

ANGULAR

ANGULAR

DIRECCIN

DIRECCIN

DIRECCIN

DIRECCIN

Ilustracin 6: Primeras 20 palabras clave obtenidas de las cuatro comparaciones entre mecnica y
alimentacin

La tarea que a continuacin se presentaba, era que de esas 606 palabras se deban
descartar todas aqullas que no se relacionasen con mecnica o con fsica. Para realizar la
tarea se procedi a hacer una depuracin de las 606 palabras. La depuracin consisti, en
primer lugar, en eliminar todos los verbos, flexionados o en su forma cannica, que
aparecan como palabras clave, adems de todas las palabras que slo cumplan una funcin
discursiva 7 .

Para constatar que tales palabras cumplan slo una funcin discursiva, fueron sometidas a un proceso de
anlisis de concordancia para observar el comportamiento que presentaban en relacin con los contextos en
que aparecan dentro de mecnica.

65

Captulo 4 Obtencin de la terminologa

Valor de bsqueda
Palabra clave

0.005

0.0001

0.000001

0.000000000000001

VELOCIDAD

VELOCIDAD

VELOCIDAD

VELOCIDAD

MOVIMIENTO

MOVIMIENTO

MOVIMIENTO

MOVIMIENTO

ENERGA

ENERGA

ENERGA

ENERGA

FUERZA

FUERZA

FUERZA

FUERZA

MASA

MASA

MASA

MASA

FIGURA

FIGURA

FIGURA

ECUACIN

ECUACIN

ECUACIN

NEWTON

NEWTON

NEWTON

DISTANCIA

DISTANCIA

DISTANCIA

FRICCIN

FRICCIN

FRICCIN

ANGULAR

ANGULAR

ANGULAR

CONSERVACIN

CONSERVACIN

CONSERVACIN

PLANO

PLANO

PLANO

SISTEMA

SISTEMA

SISTEMA

PODEMOS

PODEMOS

PODEMOS

ACELERACIN

ACELERACIN

ACELERACIN

LEY

LEY

LEY

TENEMOS

TENEMOS

TENEMOS

TRABAJO

TRABAJO

TRABAJO

CENTRO

CENTRO

CENTRO

PRINCIPIO

PRINCIPIO

PRINCIPIO

CUERPO

CUERPO

CUERPO

ECUACIONES

ECUACIONES

CINTICA

CUERPOS

CUERPOS

ECUACIONES

CINTICA

CINTICA

CUERPOS

FUERZAS

FUERZAS

FUERZAS

Ilustracin 7: Primeras 30 palabras clave obtenidas de las cuatro comparaciones entre mecnica y paz

El resultado de esta depuracin dio como resultado una lista compuesta por 218
palabras clave, todas ellas simples (ilustracin 8); sin contar con las siglas las cuales fueron
eliminadas despus de aplicarles un anlisis de concordancia que revelaba que stas no eran
usadas de manera general; cada una apareca en archivos diferentes del hipertexto y no se
repeta en algn otro; por tanto, no eran parte de una norma que fijase que tales siglas
deberan ser tenidas como trminos.

66

Captulo 4 Obtencin de la terminologa

El procedimiento siguiente consista en constatar que las 218 palabras clave


obtenidas eran trminos dentro del rea de mecnica; para comprobar lo anterior, se
realizaron varios anlisis a travs del mdulo de concordancia, el cual abarca anlisis de
agrupamientos y colocaciones; para de esta forma, verificar que tales palabras clave
podran ser trminos, adems de que con tales anlisis se permitira avanzar con la
identificacin de la terminologa polilxica.

67

Captulo 4 Obtencin de la terminologa

ACCIN

COTES

GRAVITACIONAL

OBJETO

RELACIN

ACELERACIN

CUALIDAD

HIELO

OBSERVACIN

RELATIVIDAD

ACELERADO

CUERPO

HIPOTENUSA

ONDA

REPOSO

ACERO

CURVA

HIPTESIS

OPUESTO

RESONANCIA

AFELIO

CHOQUE

HOOKE

RBITA

ROTACIN

AGUA

DESPLAZAMIENTO

HORIZONTAL

OSCILACIN

ROTACIONAL

AIRE

DESTELLO

MPETU

OSCILADOR

SATLITE

ALTURA

DA

INCIDENTE

PAR

SEGUNDA

AMORTIGUADO

DIMETRO

INCLINACIONES

PARABLICO

SENOIDAL
SENTIDO
SIMPLE
SIMULTANEIDAD

AMPLITUD

DIFRACCIN

INCLINADO

PARALELA

ANGULAR

DILATACIN

INERCIA

PARTCULA

NGULO

DIMENSIN

INFLUENCIA

PENDIENTE

APLICADA

DIRECCIN

INICIAL

PNDULO

ARCO

DISIPATIVAS

INTERACCIN

PERIHELIO

REA

DISTANCIA

INTERFERENCIA

PERODO

ARISTTELES

ECUACIN

INTERVALO

PERPENDICULAR

ARMNICO

EJE

KEPLER

PESAS

SPERA

ELCTRICA

LADO

PESO

ATRACCIN

ELIPSE

LMPARA

PLANETA

BALANZA

ELPTICAS

LEY

PLANETARIO

BALN

ELONGACIN

LIBRE

PLANO

CADA

ENERGA

LMITE

POSICIN

CALOR

EQUILIBRIO

LNEA

POSTULADO

CAMBIO

ESCALA

LINEAL

POTENCIA

CANTIDAD

ESFERA

LONGITUD

POTENCIAL

CARTESIANOS

ESPACIO

LORENTZ

PRECISIN

CAUSALIDAD

ESPECIAL

LUMINOSO

PREFACIO

CAUSA

ESTADO

LUNA

PRINCIPIO

TRABAJO
TRANSFORMACIN

CAVENDISH

ESTTICA

LUZ

PROPIEDAD

TRASLACIN

CELESTE

TER

MAGNITUD

PROPORCIONAL

TRAYECTORIA

CENTRPETA

EVENTOS

MARCO

PROYECCIN

TRINGULO

CENTRO

EXPERIMENTO

MAREA

PROYECTIL

TRILOGA

CINEMTICA

FASE

MASA

PTOLOMEO

UNIDAD

SISTEMA
SOL
SOLAR
SUPERFICIE
TANGENCIAL
TEORA
TRMICA
TRMINO
TIEMPO
TIERRA
TIPO
TIRO
TORSIN

CINTICA

FENMENOS

MATERIA

PULSOS

CIRCULAR

FSICA

MXIMA

PUNTO

UNIFORME
UNIFORMEMENTE

CRCULO

FOCO

MAXWELL

RADIO

UNIVERSAL

CIRCUNFERENCIA

FORMA

MECNICA

RAPIDEZ

VACO

COEFICIENTE

FRECUENCIA

MECANISMOS

RAYO

VALIDEZ

CONSERVACIN

FRICCIN

MEDIO

RAZN

VALOR

CONSERVATIVA

FUERZA

METAL

REACCIN

VARILLA

CONSTANTE

FUNCIN

MOMENTO

REALIZADO

VECTOR

CONTRACCIN

GALILEO

MVIL

RECTA

VELOCIDAD

COORDENADAS

GRAVEDAD

MOVIMIENTO

RECTNGULO

VIBRACIN

COPRNICO

GRAVITACIN

NEWTON

RECTILNEO

Ilustracin 8: Lista final de palabras clave

68

Captulo 4 Obtencin de la terminologa

4.5

Concordancia

Cada una de las 218 palabras clave finales fue sometida a un anlisis de
concordancia con el fin de verificar que tuviesen una relacin con el rea pretendida. Los
anlisis fueron hechos desde mecnica para advertir cmo era el comportamiento de las
218 palabras en cada uno de los archivos del hipertexto.

El estudio de estas palabras a travs del mdulo de concordancia permiti saber


que las palabras clave extradas de mecnica formaban parte de un rea en particular, sin
embargo, an y cuando stas fueron identificadas como pertenecientes a mecnica, todava
distaba de poder manifestarlas como trminos.
cia en y es un movimiento uniformemente
uniforme en el eje x y un uniformemente
Sin embargo el movimiento uniformemente
a ecuacin del movimiento uniformemente
en el caso del movimiento uniformemente
a al caso del movimiento uniformemente
del tipo de un movimiento uniformemente
niforme y el que llamamos Uniformemente
a ecuacin del movimiento uniformemente
e el sistema, el centro de masa no est
eccin y es un movimiento uniformemente

ACELERADO cuya ecuacin es:


de la
ACELERADO en el eje y, generamos lo que
ACELERADO implica la presencia de fuerza
ACELERADO obtenemos resolviendo para el
ACELERADO por lo que tenemos una curva d
ACELERADO, el rea bajo la curva ser la
ACELERADO, ya que es el que estudiamos.
ACELERADO. Podramos describir un movim
ACELERADO.
ACELERADO. En nuestro caso c es el orige
ACELERADO. Por lo tanto las ecuaciones d

Ilustracin 9: Anlisis de concordancia de acelerado

El mdulo de concordancia, adems de comprobar la pertenencia de las palabras


clave, principalmente las de mayor frecuencia como movimiento, fuerza, masa o momento
entre otras, a un rea como mecnica, o por lo menos relacionada con la fsica, revel, por
el contexto, que algunas palabras eran componentes de un trmino polilxico. Por ejemplo,
en la ilustracin 9 se ve el comportamiento que sufre acelerado en relacin con
movimiento, mientras que en la ilustracin 10 se aprecia el comportamiento de velocidad y
angular.

Estos datos hicieron necesario que, a cada palabra que mostraba un


comportamiento como el antes mencionado, se le realizara una exploracin por medio de
agrupamientos para estudiar cmo era la relacin que guardaba con respecto a determinadas
palabras antes y despus de ellas.

69

Captulo 4 Obtencin de la terminologa

cial que tena a la altura h se ve como


Sol est tambin en movimiento, nuestra
Podramos demostrar que el valor de la
hora tenemos que un cuerpo gira con una
idad angular (0 en el tiempo t = 0 y la
masa m en otra de radio r con la misma
zos extendidos y se le pone a girar con
pecto del tiempo.
Si un cuerpo tiene
ior nos da el tiempo su inverso ser la
r ejemplo entre tierra y sol:
La
locidad angular:
por lo tanto la
:
y por lo tanto:
( se denomina
producto del momento de inercia por la
ese momento y si:
sustituyendo la
se tiene que:
como se ve la
tA y tB ser:
Si conocemos la
ovimiento, este continuar movindose a
objeto se movera sobre la superficie a
os marcos de referencia que se mueven a

VELOCIDAD
VELOCIDAD
VELOCIDAD
VELOCIDAD
VELOCIDAD
VELOCIDAD
VELOCIDAD
VELOCIDAD
VELOCIDAD
VELOCIDAD
VELOCIDAD
VELOCIDAD
VELOCIDAD
VELOCIDAD
VELOCIDAD
VELOCIDAD
VELOCIDAD
VELOCIDAD
VELOCIDAD

a la altura cero. Por lo tanto


a travs de ter ser todava
al caer la altura h por la ca
angular ( cada una de sus part
angular (, cuando a transcurri
angular (. Como la fuerza cent
angular (0 nos podemos dar cue
angular (0 en el tiempo t = 0
angular en ese momento y si:
angular en trminos del perod
angular ser:
aplicando
angular y es un vector cuya di
angular, as:
L = I(
El
angular:
por lo tanto l
aumenta, conforme aumenta la a
comn V de los barcos medimos
constante en lnea recta. Un o
constante sin tener que aplica
constante unos de otros.
2.

Ilustracin 10: Fragmento del anlisis de concordancia de velocidad

4.6

Anlisis de palabras clave a travs de agrupamientos y


colocaciones

El anlisis por medio de agrupamientos implica realizar un estudio de la


ocurrencia de dos o ms palabras juntas; por ejemplo, en la lista mecnica aparece centro
con una frecuencia de 34 y masa con 57 apariciones; sin embargo, y a pesar de las
diferencias de frecuencia, ambas resultaron ser, luego de las comparaciones efectuadas,
palabras clave; mas cuando fueron sometidas al anlisis de concordancia mostraron
resultados que hacan pensar que, no obstante las frecuencias de cada una, podran ser ms
que trminos simples.

Con la idea de despejar esta duda que las concordancias haban arrojado, se
procedi a ejecutar en cada una de las 218 palabras clave un anlisis por medio de
agrupamientos para examinar la conducta de cada una de ellas en relacin con el contexto
en que se encontraban dentro de los archivos del hipertexto 8 .

Estos anlisis fueron hechos sobre la lista mecnica, la cual contena los quince archivos del hipertexto.

70

Captulo 4 Obtencin de la terminologa

CENTRO de masa

21

centro de MASA

19

el CENTRO de

10

el centro de

del CENTRO de

a la MASA

en el CENTRO

la MASA del

el CENTRO del

de MASA m

equilibrio CENTRO de

de MASA m#

su CENTRO de

de una MASA

causalidad CENTRO de

la velocidad del

CENTRO de equilibrio

proporcional a la

Ilustracin 11: Anlisis de agrupamientos de centro y masa

Este anlisis de concordancia, en una forma muy restringida como lo es el


agrupamientos, ofreci mucha riqueza de anlisis; por ejemplo, en la ilustracin 11 se
puede ver que el estudio de una palabra clave en su contexto, en este caso centro y masa,
(en maysculas), no aparecen solas, sino que muy cerca de ellas se suceden y anteceden
otras palabras clave (en cursivas), y que lejos de pensarlas como posibles trminos simples
como resonancia o marea que en el anlisis de agrupamientos no mostraban sino
palabras funcionales alrededor de ellas, podran ser trminos polilxicos.

Ahora bien, de los posibles 218 trminos simples con que se contaba despus de
las comparaciones, resultaba interesante que los resultados de agrupamientos mostraran que
un porcentaje alto de la supuesta terminologa simple podra ser slo componente de la
terminologa polilxica.

Para corroborar esta hiptesis se realiz un anlisis con la herramienta de


colocaciones. Esta herramienta permite observar qu palabras preceden y anteceden a una
palabra X; un anlisis muestra, dependiendo de los criterios de bsqueda, qu palabras y
con qu frecuencia aparecen, tanto a la izquierda como a la derecha de una palabra
analizada.

71

Captulo 4 Obtencin de la terminologa

PALABRA TOTAL LEFT RIGHT L5


MASA
60
1
2
0
LA
42
28
14
5
CENTRO
21
20
1
1
EL
21
16
5
4
M
19
1
18
0
DEL
17
6
11
0
UNA
14
10
4
4
QUE
13
2
11
0
EN
12
3
9
1
SE
11
4
7
2
Y
11
3
8
1
A
10
6
4
1
ES
10
5
5
2
POR
8
3
5
0
VELOCIDAD
6
3
3
1
COMO
5
2
3
0
SI
5
1
4
0

L4
0
5
0
3
0
1
2
1
1
1
1
0
2
1
2
1
1

L3
1
1
0
9
1
5
0
0
0
1
0
0
0
0
0
1
0

L2
0
0
19
0
0
0
0
1
1
0
1
5
1
2
0
0
0

L1
0
17
0
0
0
0
4
0
0
0
0
0
0
0
0
0
0

*
57
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

R1
1
1
0
0
9
7
0
1
0
0
3
0
1
1
0
0
0

R2
0
1
1
1
2
2
0
4
5
0
3
2
0
1
0
1
3

R3
1
4
0
1
2
0
1
1
0
3
0
0
2
1
0
1
0

R4
0
5
0
0
2
0
1
2
3
1
1
1
2
1
1
0
1

R5
0
3
0
3
3
2
2
3
1
3
1
1
0
1
2
1
0

Ilustracin 12: Colocaciones de masa

El nmero en los valores de bsqueda de las colocaciones as como de


agrupamientos, se determina segn las necesidades y los resultados que se vayan
presentando.

En las ilustraciones 12 y 13 se observa cuales son, en un rango de cinco palabras a


la derecha y cinco a la izquierda, las palabras que en los textos rodean a las palabras
analizadas.

Esta representacin reafirmaba la hiptesis de que la gran mayora de palabras


clave candidatas a trminos eran componentes de trminos polilxicos; estos resultados
hacan ms imperiosa la necesidad de realizar anlisis que demostraran lo que se pensaba;
para lograrlo, se realizaron listas de palabras de dos y hasta ocho palabras, adems de
analizar todo el hipertexto con la herramienta de informacin mutua.

Los resultados obtenidos se muestran a continuacin.

72

Captulo 4 Obtencin de la terminologa

PALABRA TOTAL LEFT RIGHT L5


DE
43
10
33
2
CENTRO
38
2
2
0
MASA
21
1
20
0
EL
19
16
3
0
DEL
16
10
6
1
LA
16
11
5
2
EN
9
6
3
0
POR
7
6
1
2
ES
6
3
3
0
Y
6
1
5
0
POSICIN
5
2
3
0
SE
5
3
2
1
VELOCIDAD
5
4
1
1

L4
2
0
0
1
1
4
1
2
2
1
0
1
0

L3
1
2
0
1
0
4
0
0
1
0
1
1
1

L2
5
0
0
0
1
1
5
2
0
0
1
0
2

L1
0
0
1
14
7
0
0
0
0
0
0
0
0

*
0
34
0
0
0
0
0
0
0
0
0
0
0

R1
25
0
0
0
3
0
1
0
0
0
0
1
0

R2
0
0
19
0
1
2
0
0
0
0
2
0
0

R3
2
2
0
1
2
1
1
1
2
4
0
1
0

R4
4
0
0
0
0
0
1
0
1
0
0
0
0

R5
2
0
1
2
0
2
0
0
0
1
1
0
1

Ilustracin 13: Colocaciones de centro

4.6.1 Terminologa polilxica a partir de listas de palabras


mltiples e informacin mutua
Tanto los resultados de los anlisis por medio de agrupamientos como a travs de
colocaciones encaminaban las investigaciones hacia un punto especfico: comprobar que las
palabras clave obtenidas eran parte de la terminologa que se propona, y que las ms de
ellas eran constituyentes de trminos polilxicos.

Mas no bastaba el que esta hiptesis surgiera y, en cierto punto, se comprobara


por medio de los anlisis de concordancia, entendindose este anlisis como mdulo
integral que involucra los estudios de concordancia, agrupamientos y colocaciones; el punto
ahora consista en corroborar este supuesto a travs de las herramientas que a disposicin se
tenan para aumentar a un porcentaje mayor y ms sustentado los resultados que se venan
dando.

El procedimiento que en primer lugar se llev a cabo fue la elaboracin de ocho


listas ms a partir del hipertexto, en las cuales se contemplaba extraer listas de palabras que
se compusieran de dos y hasta ocho palabras.

73

Captulo 4 Obtencin de la terminologa

Todos los trminos que aparecen en las ilustraciones 14 a 18 fueron


seleccionados de las listas de 2 hasta 8 palabras, a partir de los siguientes criterios:
1. mayor frecuencia. (PLANO INCLINADO: frecuencia = 20);
2. recuperacin de serie de palabras coherentes, aunque su frecuencia no fuese tan alta.
(CONSERVACIN DEL MOMENTO ANGULAR: frecuencia = 3);
3. eliminacin de series de palabras que no tenan significado en s mismas. (DE
FRICCIN ESTTICA. El trmino como tal es: FUERZA DE FRICCIN
ESTTICA).
Palabra
ACELERACIN ANGULAR
ATRACCIN
GRAVITACIONAL
CADA LIBRE
ENERGA CINTICA
ENERGA INICIAL
ENERGA POTENCIAL
ENERGA TRMICA
FRICCIN CINTICA
FRICCIN ESTTICA
FUERZA CENTRPETA
FUERZA CONSERVATIVA
FUERZA GRAVITACIONAL
FUERZA PROPORCIONAL

Frecuencia
3

FUERZAS CONSERVATIVAS
FUERZAS DISIPATIVAS
MPETU LINEAL
MOMENTO ANGULAR
MOVIMIENTO ARMNICO
MOVIMIENTO RECTILNEO
RBITA CIRCULAR
RBITAS ELPTICAS
RBITAS PLANETARIAS
PLANO INCLINADO
PULSOS LUMINOSOS
RELATIVIDAD ESPECIAL
VELOCIDAD ANGULAR
VELOCIDAD CONSTANTE

6
11
15
3
13
3
4
6
2
2
3
3

3
3
17
16
2
7
2
2
2
20
6
2
11
7

Ilustracin 14: Candidatos a trminos obtenidos de la lista de dos palabras

Los resultados que estas ocho listas arrojaron muestran toda una serie de
candidatos a trminos polilxicos muy interesantes; en las Ilustraciones 14 a 18 se observa
cmo la mayora de las palabras clave se mezclan entre ellas para conformar posibles
trminos polilxicos que ya en los anlisis de concordancia se insinuaban.

Palabra
ACCIN A DISTANCIA
ARCO DE CIRCUNFERENCIA
BALANZA DE CAVENDISH
CAMBIO DE ENERGA
CENTRO DE MASA
COEFICIENTE DE FRICCIN
CONSERVACIN DEL MPETU
CONSERVACIN DEL MOMENTO
DIRECCIN DE MOVIMIENTO
ECUACIN DE CONSERVACIN

74

Frecuencia
2
3
3
3
19
5
3
3
4
7

Captulo 4 Obtencin de la terminologa

ECUACIN DE MOVIMIENTO
ESTADO DE MOVIMIENTO
FUERZA DE ATRACCIN
FUERZA DE FRICCIN
LEY DE CONSERVACIN
LEY DE KEPLER
LEYES DE NEWTON
LEYES DEL MOVIMIENTO
MARCO DE REFERENCIA
MECNICA DE NEWTON
MOMENTO DE INERCIA
MOMENTO DE TORSIN
MOVIMIENTO CIRCULAR UNIFORME
MOVIMIENTO DE TRASLACIN
MOVIMIENTO RECTILINEO UNIFORME
MOVIMIENTO UNIFORMEMENTE
ACELERADO
PRINCIPIO DE CONSERVACIN
PRINCIPIO DE GALILEO
TIPO DE MOVIMIENTO

4
5
2
9
3
3
16
3
7
3
5
4
5
4
3
8
8
7
3

Ilustracin 15: Candidatos a trminos obtenidos de la lista de tres palabras

Las listas de dos hasta ocho palabras ayudaron a esclarecer la duda que el
comportamiento de las palabras clave en los anlisis de concordancia supona; y no
obstante que luego de los anlisis que se haban efectuado para obtener la terminologa
simple y polilxica, los resultados en cierta medida resultaban satisfactorios, se opt por
realizar una ltima prueba que constatara los trminos simples y sustentara de forma ms
slida los trminos polilxicos. Esta ltima prueba fue efectuada con la herramienta de
informacin mutua, explicada en captulos anteriores, con la cual se esperaba, si as lo
demostraban los resultados, cerrar los anlisis de esta investigacin.

Palabra
CONSERVACIN DE LA ENERGA
CONSERVACIN DEL MPETU LINEAL
CONSERVACIN DEL MOMENTO
ANGULAR
ECUACIONES DE LA ENERGA
FUERZA DE FRICCIN ESTTICA
MOVIMIENTO RECTILNEO Y UNIFORME
TEORA DE LAS CUALIDADES

Frecuencia
16
3
3
2
2
2
2

Ilustracin 16: Candidatos a trminos obtenidos de la lista de cuatro palabras

75

Captulo 4 Obtencin de la terminologa

Palabra
CASO DE LA CADA LIBRE
CASO DEL MOVIMIENTO UNIFORMEMENTE ACELERADO
CUALIDADES OCULTAS EN LA MATERIA
ECUACIN DEL MOVIMIENTO UNIFORMEMENTE
ACELERADO
LEY DE LA GRAVITACIN UNIVERSAL
TEORA DE LAS CUALIDADES OCULTAS
TEORA ESPECIAL DE LA RELATIVIDAD

Frecuencia
2
2
2
2
2
2
2

Ilustracin 17: Candidatos a trminos obtenidos de la lista de cinco palabras

Para realizar este anlisis final se volvi a hacer uso de mecnica, ya que en todos
los procesos practicados, como palabras clave, concordancia y dems, fue necesario contar
con los textos de los cuales se desprendan todas las palabras con las que se vena
trabajando; por consiguiente, en informacin mutua era necesario contar con toda la
informacin que se encontraba en el hipertexto, para que los clculos de probabilidad con
que trabaja esta herramienta estuviesen respaldados por los contextos en los que aparece
cada palabra clave.
Palabra
ECUACIN DE CONSERVACIN DE LA
ENERGA
PRINCIPIO DE CONSERVACIN DE LA
ENERGA

Frecuencia
3
3

Ilustracin 18: Candidatos a trminos obtenidos de la lista de seis palabras

El proceso final const de la elaboracin de un ndice alfabtico en el cual se


realiz el anlisis de informacin mutua 9 . Para lograr este ndice se parti de mecnica,
para la que se guard la lista alfabtica y la de frecuencia. Con estas listas hechas,
WordSmith elabor un ndice en el que apareca alfabticamente cada palabra del
hipertexto con sus respectivas frecuencias. Una vez que se tuvo listo el ndice alfabtico se
procedi a realizar el anlisis de informacin mutua; ste es un proceso tardado debido a
que se efecta la aplicacin del logaritmo base 2 en cada palabra del ndice, y esta palabra
es confrontada con todas las palabras de todos los textos para calcular la probabilidad de
9

Informacin mutua trabaja a partir de la siguiente formula:


(frecuencia de unin * nmero de unidades del corpus) / (frecuencia de cruce * frecuencia de colocacin)=
IM. Cfr. WordSmith versin 2.0 Mike Scott & Oxford University Press.

76

Captulo 4 Obtencin de la terminologa

que dos o ms palabras puedan aparecer juntas en un contexto determinado (ilustracin 19,
en donde los valores entre parntesis son los porcentajes de informacin mutua).
PALABRA

ACELERACIN

ACELERADO

RELACIN

RELACIN

RELACIN

RELACIN

RELACIN

RELACIN

RELACIN

centrpeta

diferente

q (4,26)

ahora (4,26)

acuerdo

cero (3,65))

cambio

(5.07)

(4,48)

uniformemente

rectilneo

(7,25)

(5,66)

pesas (4,88)

momento

(4,07)
curva (5,66)

eje (4,93)

uniforme

(3,61)
tipo (4,79)

(4,83)

movimiento
(3,83)

AFELIO
AIRE
ANGULAR

i (4,04)

satlite (3,81)

(4,77)
ARMNICO

ATRACCIN

simple (7,32)
gravitacional

tipo (5,66)
luna (4,66)

CENTRO

CIRCULAR

CRCULO

ecuaciones

movimiento

(5,39)

(3,38)

tierra (4,48)

cuerpos

partculas

(4,39)

(3,88)

sustituimos

aceleracin

fuerza

(6,12)

(5,8)

(3,17)

crculo (4,3)

Masa (4,11)

planetas

circunferencia

posicin

(4,04)

(3,88)

(3,75)

llama (4,93)

mvil (4,8)

uniforme

supongamos

rbita

(6,19)

(6,07)

(5,39)

perpendicular

Llama (5,93)

mvil (5,8)

(6,8)
CIRCUNFERENCIA

arco (6,58)

Iguales

radio (5,22)

direccin

velocidad

(4,69)

(3,05)

mueve (4,3)

centro

(5,58)
COEFICIENTE

friccin (5,22)

CONSERVACIN

fsica (4,71)

CUALIDADES

materia (7,65)

gira (3,75)

(3,81)

(6,47)
CENTRPETA

ahora

lnea (3,62)
mueve

movimiento

(4,32)

(3,97)

dice (3,49)

ley (3,25)

aplicar

mueve

(3,54)

(3,36)

(3,88)

Principio

problema

siguiente

energa

(4,6)

(4,03)

(3,59)

(3,59)

peso (3,8)

estado (3,8)

define (3,8)

Teora
(5,58)

CUERPO

pesas (4,39)

Realizado
(3,9)

Ilustracin 19: Fragmento de los resultados del anlisis de las palabras clave efectuado a travs de
informacin mutua

77

Captulo 4 Obtencin de la terminologa

Los valores de probabilidad de que dos palabras lleguen a aparecer juntas se


expresa mediante porcentajes con el ttulo mutual; entre ms alto sea este porcentaje, mayor
es la posibilidad de que dos o ms palabras sean trminos polilxicos e, incluso, locuciones.

Una vez que se revisaron los resultados de informacin mutua y luego de


comprobar que el material obtenido en vez de distar de lo que los anlisis previos haban
arrojado, los confirmaba, se dieron por concluidos los anlisis y procesos de extraccin de
trminos.

La cuestin que ahora privaba consista en ordenar la terminologa obtenida para


presentar los resultados a los expertos del Centro de Instrumentos y esperar la evaluacin
que ellos diesen.

Pero antes de presentar las evaluaciones de los expertos, se hace necesario


presentar los resultados obtenidos de todos los anlisis de esta investigacin. Trabajo que se
detalla en el captulo siguiente.

78

Hacia una obtencin computarizada de trminos. (Aplicacin concreta al lxico de la fsica


en el nivel bachillerato).

5. RESULTADOS

5.1

Presentacin de los resultados

Lancaster seala que est justificada la inclusin de un trmino en un ndice slo si es de


inters para el usuario 1 . Tomando en cuenta el razonamiento de Lancaster, es necesario
recalcar que la terminologa obtenida ha estado desde el principio de este trabajo
estrictamente delimitada, debido a que los trminos a obtener se cien a un nivel muy
preciso, el bachillerato. Por tanto, cualquier carencia de trminos que se encuentren en un
nivel superior a ste est justificada bajo el razonamiento de que si esta terminologa es un
material de apoyo para el alumno de bachillerato, es de poco inters y beneficio considerar
una terminologa de un nivel superior, la cual se encontrara fuera de las necesidades de
tales alumnos.

Por otro lado, es conveniente precisar que la terminologa que se obtuvo pretende
ser lo ms completa en el nivel especificado; sin embargo, no es exhaustiva debido a que el
campo de extraccin de los trminos se limit al material proporcionado por la gente
especializada del Centro de Instrumentos y que consta, como ya se ha anotado antes, de
slo quince archivos. Tambin es necesario aclarar que no se efectu un proceso de
extraccin en materiales ms especficos como diccionarios o enciclopedias sobre el tema,
puesto que ah la extraccin, y desde luego, la identificacin, hubiesen sido procesos de
antemano asegurados a un cien por ciento, aunque fuesen como en el caso presente,
semiautomticos; mas la cuestin es que se pretenda adems de extraer los trminos de
mecnica, probar una herramienta como WordSmith que fuese aplicable no slo a material
absoluto e integro sobre un tema o rea especfica, sino aprovecharlo en otras vertientes que
no necesariamente sean especializadas.

Frederick W Lancaster. El control del vocabulario en la recuperacin de informacin. Valncia: Universitat


de Valncia, 1995. p. 43.

79

Captulo 5 Resultados

Ahora bien, los anlisis que se llevaron a cabo para obtener la terminologa
pretendida son, como en captulos anteriores se menciona, efectuados con el programa
WordSmith. Con este programa se pretenda, a partir del uso y explotacin de las distintas
herramientas con que cuenta, extraer la terminologa de mecnica presente en el hipertexto,
por medio de los mdulos de listas de palabras, palabras clave y concordancia.

Los procesos que se realizaron en estos mdulos y que se detallan en el captulo 4


dieron por resultado la terminologa que a continuacin se presenta.

ACCIN

DIFRACCIN

LNEA

ACELERACIN

DILATACIN

LONGITUD

AFELIO

DIMENSIN

LORENTZ

ALTURA

DINMICA

LUMINOSO

AMORTIGUADO

DIRECCIN

LUNA

AMPLITUD

DISTANCIA

LUZ

ANALOGA

ECUACIN

MAGNITUD

ANGULAR

EINSTEIN

MAREA

REA

EJE

MASA

ARISTTELES

ELONGACIN

MATERIA

BALN

ENERGA

MECNICA

CALOR

EQUILIBRIO

MECANISMO

CANTIDAD

ESFERA

MOMENTO

CARTESIANO

ESPACIO

MVIL

CAUSALIDAD

ESTTICA

MOVIMIENTO

CAUSALIDAD

TER

NEWTON

CAVENDISH

EXPERIMENTO

NEWTON (UNIDAD)

CENTRPETA

FSICA

OBJETO

CHOQUE

FRECUENCIA

OBSERVACIN

CINEMTICA

FRICCIN

OBSERVADOR

CINTICA

FUERZA

ONDA

CIRCULAR

FUNCIN

PTICA

CIRCUNFERENCIA

GALILEO

ORBITA

CONSERVACIN

GIRO

OSCILACIN

CONSTANTE

GRAVEDAD

OSCILADOR

CONTRACCIN

GRAVITACIN

PAR

COPRNICO

HIPOTENUSA

PARABLICO

COTES

HOOKE

PARTCULA

CRONMETRO

MPETU

PNDULO

CUADRADO

INCLINACIN

PERIHELIO

CUALIDAD

INERCIA

PERODO

CUERPO

INTERFERENCIA

PERPENDICULAR

CURVA

KEPLER

PESA

DESPLAZAMIENTO

LEY

PESO

80

Captulo 5 Resultados

PLANETA

RECTA

TIEMPO

PLANO

RECTNGULO

TIERRA

POSTULADO

RECTILNEO

TORCA

POTENCIA

RELATIVIDAD

TORSIN

PRINCIPIO

REPOSO

TRABAJO

PROPIEDAD

RESONANCIA

TRANSFORMACIN

PROPORCIONAL

RESORTE

TRASLACIN

PROYECTIL

REVOLUCIN

TRAYECTORIA

PTOLOMEO

ROTACIN

TRINGULO

PULSOS

SATLITE

UNIDAD

PUNTO

SEGUNDO

UNIFORME

RADIO

SIMULTANEIDAD

VECTOR

RAPIDEZ

SISTEMA

VELOCIDAD

RAYO

SOL

VIBRACIN

RAZN

SUPERFICIE

REACCIN

TEORA

Ilustracin 1: Terminologa simple

Las ilustraciones 1 y 2 muestran, respectivamente, la terminologa simple y


polilxica obtenida en esta investigacin. Consta de 307 trminos, de los cuales 148 son
simples, y 159 polilxicos. Estos ltimos estn constituidos por dos o ms trminos
simples, tal es el caso de los trminos aceleracin y centrpeta, cada uno trmino simple
con un significado y un significante, pero la unin de ellos da un trmino ms, aceleracin
centrpeta, que designa otro concepto distinto al que cada uno se refera por separado.
ACCIN A DISTANCIA

CONSERVACIN DEL MPETU LINEAL

ACELERACIN ANGULAR

CONSERVACIN DEL MOMENTO

ACELERACIN CENTRPETA

CONSERVACIN DEL MOMENTO ANGULAR

AMPLITUD DE UNA OSCILACIN

CUALIDADES OCULTAS EN LA MATERIA

ARCO DE CIRCUNFERENCIA

CUERPO CELESTE

ATRACCIN GRAVITACIONAL

DA SOLAR

BALANZA DE CAVENDISH

DA SOLAR MEDIO

CADA LIBRE

DILATACIN DEL ESPACIO

CAMBIO DE ENERGA

DILATACIN DEL TIEMPO

CENTRO DE EQUILIBRIO

DIRECCIN DE UN VECTOR

CENTRO DE MASA

DIRECCIN DEL MOVIMIENTO

CHOQUE ELSTICO

ECUACIN DE CONSERVACIN

CHOQUE INELSTICO

ECUACIN DE CONSERVACIN DE LA ENERGA

COEFICIENTE DE FRICCIN

ECUACIN DEL MOVIMIENTO

COEFICIENTE DE FRICCIN CINTICA

ECUACIN DEL MOVIMIENTO UNIFORMEMENTE ACELERADO

COEFICIENTE DE FRICCIN ESTTICA

ECUACIONES DE LA ENERGA

COMPONENTE DE UN VECTOR

ECUACIONES DE MOVIMIENTO

CONSERVACIN DE LA ENERGA

EJE DE GIRO

CONSERVACIN DEL MPETU

EJE DE ROTACIN

81

Captulo 5 Resultados

ELPTICA

LEYES DE NEWTON

ENERGA CINTICA

LEYES DE NEWTON

ENERGA CINTICA DE ROTACIN

LEYES DEL MOVIMIENTO

ENERGA ELCTRICA

LNEA DE ACCIN DE FUERZA

ENERGA INICIAL

MAGNITUD DE UN VECTOR

ENERGA MECNICA

MARCO DE REFERENCIA

ENERGA POTENCIAL

MARCO DE REFERENCIA INERCIAL

ENERGA POTENCIAL GRAVITACIONAL

MARCO DE REFERENCIA NO ACELERADO

ENERGA QUMICA

MASA PUNTUAL

ENERGA TRMICA

MECNICA DE NEWTON

ESTADO DE MOVIMIENTO

MEDIO ELSTICO

ESTADO DE REPOSO

MOMENTO ANGULAR

EVENTOS SIMULTNEOS

MOMENTO DE INERCIA

FRECUENCIA DE RESONANCIA

MOMENTO DE TORSIN

FRECUENCIA NATURAL

MOVIMIENTO ARMNICO

FRICCIN CINTICA

MOVIMIENTO ARMNICO SIMPLE

FRICCIN ESTTICA

MOVIMIENTO CIRCULAR

FUERZA CENTRPETA

MOVIMIENTO CIRCULAR UNIFORME

FUERZA CONSERVATIVA

MOVIMIENTO DE CADA LIBRE

FUERZA DE ATRACCIN

MOVIMIENTO DE TRASLACIN

FUERZA DE ATRACCIN GRAVITACIONAL

MOVIMIENTO LINEAL

FUERZA DE FRICCIN

MOVIMIENTO RECTILNEO

FUERZA DE FRICCIN CINTICA

MOVIMIENTO RECTILNEO Y UNIFORME

FUERZA DE FRICCIN ESTTICA

MOVIMIENTO ROTACIONAL

FUERZA DE INERCIA

MOVIMIENTO UNIFORMEMENTE ACELERADO

FUERZA DE MAREA

MOVIMIENTO UNIFORMEMENTE RETARDADO

FUERZA DISIPATIVA

ONDA LUMINOSA

FUERZA FICTICIA

ONDA SENOIDAL

FUERZA GRAVITACIONAL

ORBITA CIRCULAR

FUERZA NORMAL

ORBITA ELPTICA

FUERZA PROPORCIONAL

RBITAS PLANETARIAS

FUERZA RESULTANTE

OSCILACIN FORZADA

FUERZAS CONSERVATIVAS

OSCILACIN LIBRE

FUERZAS DE FRICCIN

OSCILADOR ARMNICO

FUERZAS DISIPATIVAS

OSCILADOR ARMNICO SIMPLE

MPETU LINEAL

PLANO INCLINADO

LEY DE CONSERVACIN

PRIMERA LEY DE KEPLER

LEY DE LA CONSERVACIN DE LA ENERGA

PRIMERA LEY DE NEWTON

LEY DE LA CONSERVACIN DEL MPETU

PRINCIPIO DE CONSERVACIN

LEY DE LA CONSERVACIN DEL MPETU LINEAL

PRINCIPIO DE CONSERVACIN DE LA ENERGA

LEY DE LA CONSERVACIN DEL MOMENTO ANGULAR

PRINCIPIO DE GALILEO

LEY DE LA GRAVITACIN UNIVERSAL

PRINCIPIO DE INERCIA DE GALILEO

LEY DE LA POTENCIA DE MOVIMIENTO

PRINCIPIO DE LA CAUSALIDAD

LEY DE LAS REAS

PRINCIPIO DE LA CONSERVACIN DE LA ENERGA

LEY DE LOS PERODOS

PRINCIPIO DE TRABAJO Y ENERGA

LEY DEL EFECTO

PULSOS LUMINOSOS

LEY DELA GRAVITACIN UNIVERSAL

PUNTO DE EQUILIBRIO

LEYES DE KEPLER

RELATIVIDAD ESPECIAL

82

Captulo 5 Resultados

SEGUNDA LEY DE KEPLER

TEORA ESPECIAL DE LA RELATIVIDAD

SEGUNDA LEY DE NEWTON

TERCERA LEY DE KEPLER

SENTIDO DE UN VECTOR
TERCERA LEY DE NEWTON

SISTEMA AMORTIGUADO
SISTEMA CONSERVATIVO

TIPO DE MOVIMIENTO

SISTEMA DE PARTCULAS

TIRO PARABLICO

SISTEMA DE REFERENCIA INERCIAL

TRANSFORMACIN DE LA MASA

SISTEMA DISIPATIVO
TRANSFORMACIN DE LORENTZ

SISTEMA FSICO

VELOCIDAD ANGULAR

SISTEMA MECNICO

VELOCIDAD CONSTANTE

SISTEMA VIBRATORIO

VELOCIDAD DE LA LUZ

TEORA DE LA RELATIVIDAD

VELOCIDAD INSTANTNEA

TEORA DE LAS CUALIDADES


TEORA DE LAS CUALIDADES OCULTAS

Ilustracin 2. Terminologa polilxica

Esta terminologa fue presentada en su totalidad a los expertos del Centro de


Instrumentos de la UNAM para que evaluasen los resultados obtenidos y, a partir de su
dictamen, comprobar si la investigacin concluy en resultados aceptables.

5.2

Validacin de los resultados

Con el fin de obtener una evaluacin sobre cualquier trabajo realizado es


necesario recurrir a gente o material especializado para cotejar y sustentar los avances y
resultados que se van obteniendo. En este trabajo, que tiene un carcter ciertamente
terminolgico, Lancaster 2 propone que, para comprobar los trminos que componen una
terminologa (para que sta pueda resultar objetiva y confiable), es conveniente y hasta
necesario juzgar y evaluar los datos obtenidos con trabajos realizados sobre el tema, con
diccionarios y enciclopedias, con material especializado y con expertos en el ramo donde la
terminologa est dada.

Ahora bien, para evaluar la terminologa que se obtuvo mediante el desarrollo de


este trabajo se recurri a uno de los puntos que Lancaster seala: evaluar los datos a travs
de expertos en la materia sobre la que trata la terminologa. Por lo tanto, slo los 307

Idem.

83

Captulo 5 Resultados

trminos 3 que componen, segn los procesos realizados en este trabajo, la terminologa de
mecnica para el nivel bachillerato, fueron presentados a los expertos del Centro de
Instrumentos para que, como gente especializada sobre el tema, diesen su evaluacin. Para
la evaluacin de los expertos se sigui el mtodo Delphi 4 , consistente en este caso de un
solo ciclo, en donde cada uno de los expertos evalu la terminologa en privacidad, con el
fin de no haber influencias entre los expertos.

Cabe sealar que estas personas no se basaron en criterios lingsticos para emitir
su evaluacin, sino que sta fue dada con base en sus propias apreciaciones, sustentadas por
el conocimiento y experiencia en el rea, y bajo la premisa que se ha manifestado a lo largo
de este estudio: la terminologa est pensada slo para satisfacer las necesidades de
aprendizaje y fungir como material de apoyo para los estudiantes del nivel bachillerato.
Dicho lo anterior, estas son algunas de las observaciones 5 que los expertos 6
sealan a la terminologa obtenida en este trabajo:

si se incluye rea, por qu no se incluyen trminos como crculo o


tringulo

ser uniforme con el orden de la inscripcin de nombres propios: o


utilizan Ptolomeo Claudio o Claudio Ptolomeo

deben ser consecuentes con el idioma en los nombres propios, esto es, si
usan Albert Einstein por qu no siguen el mismo criterio en Juan Kepler

cotes : de dnde sacaron este trmino

el trmino causalidad aparece repetido

cronmetro no resulta necesario

considero que no son pertinentes ni observacin ni observador

Es preciso sealar que lo nico que se entreg a los expertos del Centro de Instrumentos fue la lista que
contena los 307 trminos resultantes. A excepcin de esta informacin que era necesaria para obtener una
evaluacin conforme a los requerimientos del proyecto del GIL, nada del material que compone esta tesis fue
puesto en manos de las personas del dicho centro.
4
Referencia al mtodo Delphi. Cfr. Makridakis, Spyros y Wheelwright. Forecasting Methods for
management. Wiley. 1989.
5
Las observaciones que los expertos hicieron luego de las evaluaciones no siguen un patrn de importancia
para insertarlas en este trabajo.
6
En total fueron cuatro expertos quienes evaluaron los trminos presentados.

84

Captulo 5 Resultados

hipotenusa, frecuencia, cuadrado, entonces tambin podra estar


matemticas, sean ms precisos

no se ve aporte alguno al incluir: Segundo

ni al caso que incluyan pulsos luminosos

han presentado algunos trminos matemticos que bien podran ser


eliminados

podra ser el caso que resultaran demasiados trminos para un nivel


bachillerato

Estas son las observaciones que los del Centro de Instrumentos devolvieron en las
copias que se les entregaron sobre la terminologa presentada. Hubo, de entre los cuatro
expertos, uno que no hizo ninguna observacin; slo al final de la terminologa, que fue
dada en forma alfabtica, pona un signo de paloma para los trminos que consideraba
adecuados, y un tache para los trminos que consideraba descartar.

En cuanto a la evaluacin general, de los 307 trminos propuestos, opinan que se


deberan eliminar ciertos trminos como hipotenusa, observacin, cuadrado o elongacin.
O por el contrario, agregar trminos que justifiquen la aparicin de los anteriores y de
algunos otros. Alguno sugiri que sera buena idea disminuir los 307 trminos y sintetizar
esta lista en una ms simple en cuanto a la dificultad de trminos. En suma, la evaluacin
que dieron result ser positiva y, en cierta medida, sobrepas las expectativas que se tenan
respecto a que se pensaba que seran desechados gran cantidad de trminos por parte de los
expertos, cosa que no sucedi.

En nmeros, de los 307 trminos, se descartaron, por reconvencin de los


expertos, 12 trminos 7 , esto es, que casi fue aprobado un 98% del total de trminos
propuestos para integrar el diccionario onomasiolgico.

Con esta evaluacin de los resultados se dio por concluido este trabajo.

Para este trabajo no se excluyeron los trminos que proponan los expertos y que para el diccionario se
descartaron. Aqu se presentan los 307 trminos finales que arroj la investigacin.

85

Hacia una obtencin computarizada de trminos. (Aplicacin concreta al lxico de la


fsica en el nivel bachillerato).

6. CONSIDERACIONES FINALES

6.1 Conclusiones
A pesar de los contratiempos y vicisitudes que supone la elaboracin y conclusin de un
proyecto de tesis, la etapa correspondiente a este trabajo se da por concluida, no sin
antes puntualizar lo que se llev a cabo a lo largo del desarrollo de cada captulo, y de
dar, a modo de conclusin, una serie de puntos que en la investigacin resultaron de
gran inters.

Las premisas contempladas para ser resueltas mediante el captulo 1 quedaron


despejadas. Se establecieron los fundamentos bsicos de la terminologa, resumiendo
que sta es una disciplina que permite identificar el vocabulario de una especialidad en
forma sistemtica, analizarlo y si es necesario crearlo entre el especialista y el
terminlogo, adems de normalizarlo en una situacin concreta de funcionamiento con
la finalidad de responder a las necesidades de expresin de sus usuarios. 1

Qued claro qu es un trmino, tanto para los estudiosos como para esta
investigacin (trmino es una palabra que dentro de un dominio especfico, sea de
cualquier ndole [tcnico, cientfico, etc.], tiene la caracterstica de que slo puede
referirse a un concepto, no acepta sinonimia; y esta referencia debe ser inequvoca 2 ), y
las diferencias y caractersticas que lo distinguen de una palabra.

Adems, se despejaron las dudas de por qu este trabajo est enmarcado en un


inters lingstico, ya que como en el captulo 1 se seal, la terminologa, como
disciplina encargada del estudio de las palabras de especialidad, comparte
caractersticas que la relacionan con la lexicologa, lexicografa y, en un nivel ms alto,
con la lingstica, que a fin de cuentas, se encarga del estudio del lenguaje. Esto quiere
decir, segn Cabr, que en tanto los lenguajes de especialidad sean entendidos como
1

Cardero, Ana Mara. El procesamiento de una terminologa. Referencia especial a la terminologa de


control de satlites en el rea de las telecomunicaciones en Mxico. Tesis de doctorado. Mxico: 2001. p.
5.
2
Ver captulo 1.

86

Captulo 6 Consideraciones finales

subsistemas de la lengua general, la terminologa puede ser considerada como parte de


la lexicologa, y por tanto, estudiados desde un plano lingstico 3 .

Por ltimo, en este captulo qued establecida la forma en que sera tratada la
terminologa, esto es, estudiar esta disciplina para aplicarla como herramienta de apoyo
a la ingeniera lingstica.

Con el desarrollo del captulo 2, en el que se habla de forma ms concreta de


lo que es la extraccin automtica de trminos, se dio pie a la aplicacin de la
terminologa como recurso de la ingeniera lingstica; para esto, se explic qu es la
extraccin auto o semiautomtica de trminos, sealando las ventajas y desventajas que
representa esta tarea, dando un vistazo rpido a lo que es y ha sido la extraccin
automtica de terminologa.

Por otra parte, para complementar la informacin de este captulo, se habl


de los mtodos que existen para ser aplicados a programas computacionales (mtodos
estadsticos, lingsticos e hbridos) y en qu consiste cada mtodo, sealando los
beneficios y carencias que presenta cada uno. Asimismo, se sealaron algunos
proyectos que han trabajado y se han beneficiado de esta tarea de extraccin automtica
de trminos, como por ejemplo el Proyecto CRATER o el Proyecto GLOSMETAL,
encargados de creacin de herramientas y repertorios terminolgicos.

El captulo 3 complement la informacin del captulo 2. Luego de haber


sido explicadas las metodologas existentes para extraer trminos de forma automtica,
las cuales son aplicadas en programas de cmputo para realizar los procesos de
extraccin.

En el 3, se sealaron las distintas herramientas que presentan estos


programas de cmputo, ciendo esta descripcin al programa WordSmith, que como ya
se ha sealado en repetidas ocasiones, no es el mejor ni el peor, pero s el que se tuvo a
la mano para esta investigacin.

Vase Mara Teresa Cabr. La terminologa: teora, metodologa, aplicaciones.


Antrtida/Empries, 1993.

87

Barcelona:

Captulo 6 Consideraciones finales

Se explic en qu consiste y cul es la funcin de las herramientas:


1. lista de palabras,
2. listas de detencin,
3. palabras clave,
4. concordancia,
5. informacin mutua.
Con el captulo 4 se puso en prctica la teora descrita en los anteriores
captulos. En este captulo se desarrollaron los procesos y anlisis de extraccin,
efectuados segn la aplicacin de las herramientas que presentaba WordSmith.

Un punto muy importante a resolver respecto de la terminologa que fue


extrada, consista en, como arguye Martinet, que una caracterstica esencial de todo
lxico es su carcter abierto al constante aumento de vocablos dentro de una lengua,
con lo que la identificacin del conjunto se hace imposible 4 . Esta consideracin,
tomando en cuenta lo que se dijo en el captulo 1 sobre que la terminologa de un rea
de conocimiento es un componente del lxico, representaba una cuestin prioritaria. Sin
embargo, una vez que fueron sucedindose los anlisis, los resultados confirmaban una
idea que anulaba las consideraciones de Martinet; sta es, que los trminos, como parte
de un lxico, son en cierta medida dentro de un rea cientfica, como lo es la fsica, y en
este caso, mecnica, un crculo cerrado, en el cual no es frecuente la inclusin de nuevos
trminos de forma peridica.

Con este argumento que era apoyado por los resultados y la delimitacin
muy especfica del objeto de estudio, se realizaron todos los procesos y anlisis que
dieron como resultado la terminologa que se present en el captulo 5.

La terminologa final que se obtuvo, luego de todos los procesos y anlisis


efectuados, consinti de un total de 307 trminos, entre simples y polilxicos. Tal
terminologa se incluy en su totalidad en el captulo 5; adems, fue enviada a gente
especializada en fsica del Centro de Instrumentos, quienes evaluaron de forma positiva
los resultados presentados.

Citado en Luis Fernando Lara, Roberto Ham Chande y Mara Isabel Garca Hidalgo. Investigaciones
lingsticas en lexicografa. Mxico: COLMEX, 1979. p. 15.

88

Captulo 6 Consideraciones finales

Con la presentacin, evaluacin y observaciones que los del Centro de


Instrumentos hicieron a los 307 trminos se dio por concluido este trabajo.

As que, una vez concluida esta investigacin, es necesario, por consiguiente,


destacar algunos puntos importantes, a juicio personal, de lo realizado.

Sin que el aspecto terminolgico haya sido tratado extensa y profundamente,


existe, segn lo investigado en la documentacin bibliogrfica, una serie de
dudas respecto a los lmites precisos entre trmino y palabra; principalmente,
cuando stos entran dentro del campo de la polisemia.

Otro aspecto importante es que algunos terminlogos plantean una duda muy
fuerte en relacin con los lmites precisos de lo qu es un trmino; hay quienes
incluso aducen que no se trata siquiera de trminos o palabras, sino, de unidades
an no catalogadas.

Con respecto a las metodologas que existen para extraer trminos de forma auto
o semiautomtica, es preciso recalcar que an con la interaccin de ellas, es muy
difcil que presenten resultados cien por ciento satisfactorios.

Los mtodos estadsticos tienen la ventaja de que proponen una cantidad


importante de candidatos a trminos, sin que esto quiera decir que en verdad lo
sean.

Puesto que la metodologa estadstica se basa en la premisa de que a mayor


frecuencia de aparicin mayor posibilidad de ser trmino, muchos trminos que
tienen una frecuencia que no entra dentro de los rangos proporcionados por el
usuario, son descartados automticamente.

Los mtodos lingsticos deben estar apoyados sobre gramticas que en sus
reglas quede muy claro, a la hora de ser aplicadas por un programa
computacional, los lmites precisos y las caractersticas que debe presentar cada
elemento de la oracin.

De lo anterior se deduce que hay una necesidad por adaptar, sino crear, una
gramtica que se ajuste a las necesidades de los extractores de trminos para que
la tarea, a fin de cuentas, sea lo ms automtica posible, adems de confiable.

Resulta tambin necesario la interaccin de ms metodologas o herramientas


que redunden en recursos tiles y prcticos para extraer trminos: por ejemplo,
las herramientas que ahora se estudian en el GIL, en otro proyecto de tesis que

89

Captulo 6 Consideraciones finales

tiene como fin identificar contextos definitorios, los cuales pueden coadyuvar a
la identificacin y extraccin de terminologa.

Los programas de cmputo que trabajan en este rubro de extraccin de trminos,


si bien es cierto que no ofrecen un resultado cien por ciento satisfactorio, deben
presentar interfaces amigables, prcticas y sencillas para explotar al mximo los
recursos y herramientas que presentan.

Por ltimo, es necesario hacer notar que debe haber una mayor adecuacin,
investigacin y compromiso sobre este tema, lo cual contribuira en beneficio de
terminlogos, profesionales, expertos, investigadores y pblico en general.

6.2 Trabajos futuros


Si bien con este trabajo se lograron los objetivos que se tenan pensados al
inicio de la investigacin, e incluso del proyecto del diccionario onomasiolgico, como
son:
1.

estudiar la terminologa para aplicarla como recurso de la ingeniera lingstica;

2.

proponer un mtodo eficiente y rpido que proporcione la terminologa de


cualquier rea de conocimiento;

3.

comprobar tal mtodo mediante la extraccin de la terminologa de la rama de la


fsica dedicada al estudio de la mecnica, la cual sera incluida en el diccionario
onomasiolgico de fsica;

4.

obtener una evaluacin positiva y satisfactoria de los trminos obtenidos dada por
gente especializada en el rea a la que pertenece tal terminologa.

An y cuando se lograron estos objetivos, quedan muchas lneas de


investigaciones abiertas, muchas dudas por despejar, muchos temas por explorar,
adems de investigaciones, estudios y anlisis para quien est interesado en el tema.

Los apartados siguientes son un ejemplo de la riqueza de explotacin del


tema en un futuro:

evaluar los trminos mediante cnones lingsticos;

aprovechar las herramientas que se tienen a disposicin para crear o mejorar los
recursos para extraer trminos;

90

Captulo 6 Consideraciones finales

ahondar en la investigacin y delimitacin de las fronteras entre trminos y palabras;

planear gramticas que puedan ofrecer mejores resultados en la tarea extractiva;

adecuar los mtodos estadsticos y lingsticos a los requerimientos de los


terminlogos;

sistematizar los procesos y anlisis de extraccin para optimizar la calidad y el


tiempo de la presentacin de resultados.

91

Hacia una obtencin computarizada de trminos. (Aplicacin concreta al lxico de la fsica


en el nivel bachillerato).

BIBLIGRAFA

Anzaldi, Clementina. Un mtodo para contribuir a la puesta al da de la terminologa


tcnica. Actas del lV simposio iberoamericano de terminologa RITerm.
Terminologa y desarrollo. Tomo l, Argentina: (1994): 37 42.

Alpizar Castillo, Rodolfo. El lxico de la terminologa. Algunas precisiones. Actas del lV


simposio iberoamericano de terminologa RITerm. Terminologa y desarrollo.
Tomo ll, Argentina: (1994): 79 87.

Arntz, Reiner y Heribert Picht. Introduccin a la terminologa. trad. Amelia de Irazazbal,


et al. Madrid: Fundacin Germn Snchez Ruiprez y Ediciones Pirmide, 1995.

Arroyo Hidalgo, Susana. Aplicacin de la lingstica computacional al Primero sueo de


Sor Juana. Mxico: ITESM-CEM, 1993.

Ball, Catherine. Concordances and Corpora. [En lnea] En: Department of linguistics
Georgetown

University

(1997).

<http://www.georgetown.edu/cball/corpora/tutorial3.html>

Barriga Villanueva, Rebeca y Claudia Parodi. La lingstica en Mxico 1980 1996.


Mxico: COLMEX / UCLA, 1998.

Cabr, Mara Teresa. La terminologa: teora, metodologa, aplicaciones.


Antrtida/Empries, 1993.

92

Barcelona:

Bibliografa

Cabr, Mara Teresa y Judit Feliu, eds.

La terminologa cientfico tcnica:

reconocimiento, anlisis y extraccin de informacin formal y semntica.


Barcelona: Institut Universitari de Lingstica Aplicada Pompeu Fabra, 2001.

Cabr, Mara Teresa, Rosa Estop, Jordi Vivaldi. Recent Advances in Computational
Terminology. Didier Bourigault, Christian Jacquemin, MarieClaude LHomme
eds. Amsterdam / Philadelphia: John Benjamins B. V., 2001.

Cammelli, Antonio. Hacia una normalizacin terminolgica para una mejor redaccin
normativa. Actas del lV simposio iberoamericano de terminologa RITerm.
Terminologa y desarrollo. Tomo ll, Argentina: (1994): 37 42.

Cardero, Ana Mara. El procesamiento de una terminologa. Referencia especial a la


terminologa de control de satlites en el rea de las telecomunicaciones en Mxico.
Tesis de doctorado. Mxico: 2001.

Cardero, Ana Mara. La integracin del corpus de la terminologa de control de satlites en


Mxico. Actas del V simposio iberoamericano de terminologa. Terminologa,
ciencia y tecnologa. Mxico, (1996):106 - 110.

Danilenko, V. P. Sobre la posicin de la terminologa cientfica en el sistema lxico de una


lengua. Textos de terminlogos de la escuela rusa. Cabr, Mara Teresa, et al. Eds.
trads. Manuel Barreiro y Delia Vzquez.

Barcelona: Institut Universitari de

Lingstica Aplicada Pompeu Fabra, 2001, 19 28.

De los Ros Porras, E., et al. Aplicacin de las bases de datos orientadas a objetos a los
trabajos terminolgicos. Actas del lV simposio iberoamericano de terminologa
RITerm. Terminologa y desarrollo. Tomo l, Argentina: (1994): 33 36.

93

Bibliografa

Dias Gal, Sylvie Guillor, Jean-Claude Bassano, Jos Gabriel Pereira Lopes. Combining
Linguistics with Statistics for Multiword Term Extraction: A Fruitful Association?
en lnea. http://citeseer.nj.nec.com/context/1674205/410737

Diguez, Mara Isabel, e Ileana Cabrera Ponce. Estado de avance proyecto FONDECYT n
1960441: Traduccin automtica versus traduccin humana: variables que
inciden en la eleccin de uno u otro mtodo de traduccin con miras a optimizar el
tiempo, costo y calidad de la traduccin. Actas del V simposio iberoamericano de
terminologa. Terminologa, ciencia y tecnologa. Mxico, (1996):134 143.

Doyle, Lauren. Automatic Indexing. Information Retrieval and Processing. Los Angeles,
California: Melville Publishing Company, 1975. 291 300.

Doyle, Lauren. Word Frequency Methods in Automatic Indexing and Abstracting.


Information Retrieval and Processing. Los Angeles, California: Melville Publishing
Company, 1975. 301 316.

Estop, Rosa. Elementos lingsticos de las unidades terminolgicas para su extraccin


automtica.

La terminologa cientfico tcnica: reconocimiento, anlisis y

extraccin de informacin formal y semntica. Mara teresa Cabr y Judit Feliu,


eds. Barcelona: Institut Universitari de Lingstica Aplicada Pompeu Fabra, 2001,
67-80.

Fedor de Diego, Alicia. Algunas reflexiones sobre las polticas terminolgicas. Actas del
V simposio iberoamericano de terminologa. Terminologa, ciencia y tecnologa.
Mxico, (1996): 11a - 11d.

Fedor de Diego, Alicia. Terminologa teora y prctica. Venezuela: Universidad Simn


Bolvar / Unin Latina, 1995.

94

Bibliografa

Franceschi, Mara Eugenia. La terminologa INTERNET. Actas del V simposio


iberoamericano de terminologa. Terminologa, ciencia y tecnologa. Mxico,
(1996): 144 149.

Galinsky, Christian. Terminologa y sociedad moderna: el papel de INFOTERM. Las


industrias de la lengua. trad. E. Lavn. Madrid: Fundacin Germn Snchez
Ruiprez, 1991.

Garca Palacios, Joaqun. La terminologa en los manuales de enseanza media: hacia la


determinacin de la terminologa bsica del espaol. Actas del V simposio
iberoamericano de terminologa. Terminologa, ciencia y tecnologa. Mxico,
(1996): 150 156.

Gua de alimentacin y salud [En lnea]. En: Sociedad espaola de nutricin bsica y
aplicada (2002). <http://www.uned.es/pea-nutricion-y-dietetica-I/guia/index.htm>

Heaps, H. S. y K. V. Leung. A System for Automatic Classification of Scientific Literature.


Ordering Systems for Global Information Networks. India: FID/CR and Sarada
Ranganathan Endowment for Library Science, 1979. 224 234.

Heaps, H. S. Information Retrieval. Computational and Theoretical Aspects. New York:


Academic Press, 1978. 263 290.

Helbich, Jan. Experimental Comparison of Nine Statistical Procedures for Measuring


Selective Power of Single Words. Ordering systems for global information
networks. India: FID/CR and Sarada Ranganathan Endowment for Library Science,
1979. 246 255.

Kofnovec, Ladislav y Dusan Simandl. Quantitative Structure of World Scientific and


Technical Literature and its Use for Optimizing General Classifications. Ordering

95

Bibliografa

Systems for Global Information Networks. India: FID/CR and Sarada Ranganathan
Endowment for Library Science, 1979. 363 368.

Kulebakin, V. S., y A. Klimovitskii. Los trabajos para la elaboracin de la terminologa


cientfico tcnica en la URSS y la Escuela de Terminologa Sovitica. Textos de
terminlogos de la escuela rusa. Cabr, Mara Teresa, et al. Eds. trads. Manuel
Barreiro y Delia Vzquez. Barcelona: Institut Universitari de Lingstica Aplicada
Pompeu Fabra, 2001, 61 - 87.

Lancaster, Frederick W. El control del vocabulario en la recuperacin de informacin.


Valncia: Universitat de Valncia, 1995.

Lancaster, F. W. Vocabulary Control for Information Retrieval. Washington D.C.:


Information Resources Press, 1972.

Lara, Luis Fernando, Roberto Ham Chande y Mara Isabel Garca Hidalgo. Investigaciones
lingsticas en lexicografa. Mxico: COLMEX, 1979.

Las industrias de la lengua. Dir. Jos Vidal Beneyto. trad. Manuel Alvar Ezquerra, et al.
Madrid: Fundacin Germn Snchez Ruiprez, 1991.

Luhn, H. P. Potentialities of Auto Encoding of Scientific Literature. Yorktown Height:


CBM, 1959.

Makridakis, Spyros y Wheelwright. Forecasting Methods for management. Wiley. 1989.


McEnery, Tony y Andrew Wilson. Corpus Linguistics [En lnea]. En: Department of
linguistics

Lancaster

<http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/corpus3/3fra1.htm>

96

University

Bibliografa

Nedobity, Wolfgang. Perspectivas para la elaboracin de una metodologa comn en la


descripcin del lenguaje. Las industrias de la lengua. trad. E. Lavn. Madrid:
Fundacin Germn Snchez Ruiprez, 1991.

Nedobity, Wolfgang. Terminologa de las ramas e ingeniera del conocimiento.

Las

industrias de la lengua. trad. E. Lavn. Madrid: Fundacin Germn Snchez


Ruiprez, 1991.

Prez, J. L., Miranda A., Garcs A., y Lara N. Hipertexto de fsica. En Ruiz G. (Ed.). SOMI
XIII, Mxico: Sociedad Mexicana de Instrumentacin, 1998, 325-329.

Prado, Daniel. RITerm, proyecto de nodos nacionales y regionales. Actas del lV simposio
iberoamericano de terminologa RITerm. Terminologa y desarrollo. Tomo ll,
Argentina: (1994): 43 45.

Proyecto ACORDEON. [En lnea]. En: Universidad Autnoma de Madrid. Departamento


de Lingstica, Lenguas Modernas, Lgica y Filosofa de la Ciencia y Teora de la
literatura y Literatura <http://www.lllf.uam.es/~ares/acordeon.html>

Proyecto ADMYTE. [En lnea]. En: Universidad Autnoma de Madrid. Departamento de


Lingstica, Lenguas Modernas, Lgica y Filosofa de la Ciencia y Teora de la
literatura

Literatura

<http://www.lllf.uam.es/~fmarcos/informes/admyte/admyteix.html>

Proyecto ATILA. [En lnea]. En: Universidad Autnoma de Madrid. Departamento de


Lingstica, Lenguas Modernas, Lgica y Filosofa de la Ciencia y Teora de la
literatura y Literatura

<http://www.lllf.uam.es/proyectos/atila.html>

Proyecto BN ARGENTINA. [En lnea]. En: Universidad Autnoma de Madrid.


Departamento de Lingstica, Lenguas Modernas, Lgica y Filosofa de la Ciencia y

97

Bibliografa

Teora

de

la

literatura

Literatura

<http://www.lllf.uam.es/~fmarcos/informes/BNArgentina/BN.htm>

Proyecto CON-TEXT. [En lnea]. En: Universidad Autnoma de Madrid. Departamento de


Lingstica, Lenguas Modernas, Lgica y Filosofa de la Ciencia y Teora de la
literatura y Literatura <http://www.lllf.uam.es/proyectos/context.html>

Proyecto C-ORAL-ROM. [En lnea]. En: Universidad Autnoma de Madrid. Departamento


de Lingstica, Lenguas Modernas, Lgica y Filosofa de la Ciencia y Teora de la
literatura y Literatura <http://www.lllf.uam.es/~sandoval/coralrom.html>

Proyecto CRATER. [En lnea]. En: Universidad Autnoma de Madrid. Departamento de


Lingstica, Lenguas Modernas, Lgica y Filosofa de la Ciencia y Teora de la
literatura y Literatura <http://www.lllf.uam.es/proyectos/crater.html>

Proyecto CREA. [En lnea]. <http://www.rae.es/NIVEL1/CREA.HTM>

Proyecto EUROTRA. [En lnea]. En: Universidad Autnoma de Madrid. Departamento de


Lingstica, Lenguas Modernas, Lgica y Filosofa de la Ciencia y Teora de la
literatura y Literatura <http://www.lllf.uam.es/docs_es/proyectos/APC.html>

Proyecto GLOSMETAL. [En lnea]. En: Universidad Autnoma de Madrid. Departamento


de Lingstica, Lenguas Modernas, Lgica y Filosofa de la Ciencia y Teora de la
literatura y Literatura <http://www.lllf.uam.es/~flora/projects/glosmetal.html>

Proyecto HAL. [En lnea]. En: Universidad Autnoma de Madrid. Departamento de


Lingstica, Lenguas Modernas, Lgica y Filosofa de la Ciencia y Teora de la
literatura y Literatura <http://www.lllf.uam.es/docs_es/proyectos/APC.html>

98

Bibliografa

Proyecto PROTEUS. [En lnea]. En: Universidad Autnoma de Madrid. Departamento de


Lingstica, Lenguas Modernas, Lgica y Filosofa de la Ciencia y Teora de la
literatura y Literatura <http://www.lllf.uam.es/proyectos/proteus.html>

Proyecto RITerm BD. [En lnea]. <http://www.riterm.net/es/index.htm>

Proyecto SIIT VIRTUAL. [En lnea]. <http://www.riterm.net/es/index.htm>

Ruiz de la Cierva, Mara del Carmen. Imagen intelectual de Octavio Paz. [En lnea]. En:
Proyecto

Ensayo

Hispanoamericano

(2002).

<http://ensayo.rom.uga.edu/filosofos/mexico/paz/ruiz/>

Sager, J. C. A Practical Course in Terminology Processing. Amsterdam: John Benjamins


Publishing Company, 1990.

Sager, Juan Carlos. Curso prctico sobre el procesamiento de la terminologa. trad. Laura
Chumillas Muya. Madrid: Fundacin Germn Snchez Ruiprez y Ediciones
Pirmide, 1993.

Sager, Juan Carlos. La terminologa, puente entre varios mundos, prlogo de la versin
espaola del libro de Mara Teresa Cabr. La terminologa. Teora, metodologa y
aplicaciones. Barcelona: Antrtida/Empries, 1993; pp. 11 1 7.

Scott, Mike. WordSmith [En lnea]. <http://www.liv.ac.uk/~ms2928/wsmhomep.htm>

Sierra Martnez, Gerardo. Avances en el desarrollo del diccionario electrnico de bsqueda


onomasiolgica. Actas del V simposio iberoamericano de terminologa.
Terminologa, ciencia y tecnologa. Mxico, (1996): 184. 191.

99

Bibliografa

Sierra Martnez, Gerardo. Bases del diccionario onomasiolgico computarizado en el rea


de desastres. Actas del lV simposio iberoamericano de terminologa RITerm.
Terminologa y desarrollo. Tomo ll, Argentina: (1994): 55-59.

Sierra Martnez, Gerardo. Estructura semntica del lxico en un diccionario


onomasiolgico prctico. Estudios de lingstica aplicada. 23, 24 (1996): 417-425.

Sierra Martnez, Gerardo. La informtica en el trabajo terminolgico. Manuscrito. 2002.

Sparck Jones, K. y R. M. Needham. Automatic Term Classifications and Retrieval.


Information Storage and Retrieval. 4 (1968): 91 100.

Steinberger, Ralf. Cross - Lingual Keyword Assignment. Procesamiento del lenguaje


natural. Espaa: SEPLN/Universidad de Jan, 2001.

Textos de terminlogos de la escuela rusa. Cabr, Mara Teresa, et al. Eds. Barcelona:
Institut Universitari de Lingstica Aplicada Pompeu Fabra, 2001.

Thesen, Gottfried y Jos Soler. Iniciativas de la Comunidad Europea en el campo de la


terminologa. Actas del lV simposio iberoamericano de terminologa RITerm.
Terminologa y desarrollo. Tomo ll, Argentina: (1994). 33.

Torres Vargas, Georgina Araceli. Hacia una metodologa terminolgica en bibliotecologa.


Actas del V simposio iberoamericano de terminologa. Terminologa, ciencia y
tecnologa. Mxico, (1996): 192 196.

Vega, Jos. Herramientas lingsticas para la terminologa. Actas del lV simposio


iberoamericano de terminologa RITerm. Terminologa y desarrollo. Tomo ll,
Argentina: (1994): 25 32.

100

Bibliografa

Vivaldi, Jorge. Elaboracin de una aplicacin automtica de reconocimiento y extraccin


de informacin terminolgica en textos de dominios restringidos. La terminologa
cientfico tcnica: reconocimiento, anlisis y extraccin de informacin formal y
semntica. Mara teresa Cabr y Judit Feliu, eds. Barcelona: Institut Universitari de
Lingstica Aplicada Pompeu Fabra, 2001, 299-238.

WordSmith. Lexical Analisys Software for Data-Driven Learning and Research [En lnea].
<http://www.liv.ac.uk/~ms2928/wordsmith>

WordSmith [En lnea]. <http://www.ndirect.co.uk/~lexical/wordsmit.htm>

WordSmith [En lnea]. <http://www.ndirect.co.uk/~lexical/wsmhomep.htm>

WordSmith

[En

lnea].

En:

Oxford

University

Press

<http://www.oup.co.uk/elt/catalogu/multimed/4589846/4589846.html>

101

(2002).

Potrebbero piacerti anche