Trujillo

Estrategias de traduccin automtica
Machine translation strategies Arturo Trujillo

El autor ofrece una visin general de las principales estrategias empleadas en la traduccin automtica: transferencia e interlingua. En el artculo se realiza un anlisis de las principales perspectivas en este campo de las tecnologas de la lengua y remarca algunos de los principales problemas tericos en el campo de la traduccin automtica. The author provides an overview of the main strategies used in automatic translation: transference and interlingua. The article analyses the main perspectives of this language technology and describes some of the theoretical problems in automatic translation.
La traduccin automtica es el rea del procesamiento de lenguaje natural que trata de la traduccin automatizada de lenguas humanas como el ingls o el espaol. Es una de las aplicaciones no numricas ms antiguas en informtica y su historia se remonta a los aos inmediatamente posteriores a la Segunda Guerra Mundial. Desde entonces se han hecho grandes avances en informtica, lingstica e inteligencia artificial; tanto es as que la traduccin automtica y las tecnologas relacionadas estn siendo actualmente de gran ayuda en la comunicacin entre diferentes pueblos. Estrategias de traduccin automtica Resulta til describir la traduccin automtica en trminos de sus dos estrategias bsicas, conocidas como transferencia e interlingua. Obviamente, ambas estrategias persiguen el mismo objetivo, la traduccin del lenguaje humano, pero parten de diferentes esquemas de organizacin del procesamiento de datos. La traduccin automtica de transferencia consiste en tres fases principales. En primer lugar, la lengua de origen, por ejemplo el ingls, se procesa para obtener una representacin dependiente del lenguaje, que a su vez se convierte en el input en la segunda fase, denominada de transferencia. La transferencia por lo general implica las habituales traducciones lxicas (por ejemplo, run => correr), as como otros enlaces que requieren relaciones menos directas (por ejemplo, la traslocacin de los adjetivos para que aparezcan tras el sustantivo). Despus de la transferencia, la fase final es la generacin, que incluye la produccin del texto gramatical en la lengua de destino. La principal diferencia entre la interlingua y la transferencia es que en la traduccin automtica mediante interlingua no hay fase de transferencia. En su lugar, el anlisis mediante interlingua produce una representacin independiente del lenguaje, la interlingua, que sirve directamente como input en la fase de generacin. Los dos enfoques se pueden ilustrar con el tringulo de Vauquois, representado en la figura 1. El diagrama muestra que con un mayor esfuerzo en el anlisis y la generacin se consigue reducir el esfuerzo durante la transferencia, de modo que con un mximo esfuerzo en el anlisis/generacin se elimina fase de transferencia y se consigue la traduccin automtica mediante interlingua. En la base del tringulo, tradicionalmente se indica un tercer enfoque de traduccin automtica , denominado traduccin automtica directa. Es una forma de transferencia en el sentido ms general, que no obstante se distingue por la falta de anlisis
gramatical complejo, por confiar en gran medida en la correspondencia de secuencias de palabras y la traduccin de frases completas y por usar ampliamente la reordenacin de estas secuencias. Transferencia vs interlingua Ambas estrategias bsicas tienen sus ventajas y sus inconvenientes, y ello ha provocado profundos debates sobre la conveniencia o inconveniencia de cada una de ellas. Los partidarios de la interlingua han sealado que la traduccin automtica por transferencia es un modo extremadamente despilfarrador y muy caro en la traduccin entre ms de dos lenguas, puesto que es necesario un mdulo de transferencia especfico para cada par de lenguas. Por el contrario, quienes estn a favor de la traduccin automtica por transferencia argumentan que la creacin y el uso consistente de la interlingua es mucho ms difcil de lo que pueda parecer en un principio, y que el esfuerzo que requiere la construccin y el mantenimiento de todas las gramticas, diccionarios, analizadores y generadores es demasiado importante en textos de naturaleza no restringida. Como ambas posturas son vlidas, el desafo de los expertos en desarrollo de sistemas de traduccin automtica actualmente consiste en minimizar los inconvenientes y maximizar las ventajas de cada uno de los enfoques en sus propios sistemas. Es conveniente considerar algunos de los problemas especficos de cada estrategia. Algunos problemas de los sistemas de transferencia tradicionales Complejidad de los mdulos de transferencia Una importante fuente de problemas en las metodologas de transferencia tradicional, incluidas las que se basan en estructuras sintcticas y/o semnticas, es el carcter recurrente de sus representaciones. En el caso de las estructuras sintcticas, los rboles de anlisis estn a su vez compuestos por rboles de anlisis. En el caso de las estructuras semnticas, como las que se basan en los formalismos predicado-argumento, el argumento de un predicado puede ser a su vez otra estructura predicado-argumento. Este carcter recurrente causa problemas cuando las estructuras de transferencia en la lengua de origen y la lengua de destino presentan diferencias notables. Por ejemplo, algunos elementos de la estructura en lengua de origen geomtricamente distantes (quiz porque pertenecen a diferentes ramas de la estructura) pueden requerir estar muy prximos en la lengua de destino. Un ejemplo sencillo de este caso se observa cuando se traducen estructuras con la preposicin separada del ingls al espaol. En ingls la preposicin est alejada de su complemento, pero en espaol debe estar prxima. He aqu un ejemplo: Ing: The pub I saw you in is on Gwydr Street. Esp: El bar en donde te vi queda en la calle Gwydr. Durante la transferencia tendr que reorganizarse el rbol de anlisis de la frase en la lengua de origen (ingls) para convertirlo en la estructura espaola correcta. Sin mecanismos adicionales que puedan controlar estas divergencias, los mdulos de transferencia pierden tiles e interesantes generalizaciones interlingsticas. Estos mecanismos tendrn efectos no locales y complejos en las estructuras transferidas, lo cual crear dificultades para mantener y comprender los mdulos de transferencia.
Verificacin y formulacin de las reglas de transferencia La mayora de sistemas de transferencia expresa las relaciones de transferencia mediante las representaciones producidas por los mdulos de anlisis. Estas representaciones pueden no tener nada que ver con lo que pueden verificar directamente los hablantes bilinges, los diccionarios bilinges o los corpus bilinges. Por ejemplo, una regla de transferencia para la traduccin de sintagmas nominales que requerira la transposicin de nombres y adjetivos entre el ingls y el espaol podra ser (en una representacin de estilo Prolog): [np, [det, Ds], [adj, As], [n, Ns] ] <= => [np, [det, Dt], [n, Nt], [adj, At] ] :Ds <= => Dt, As <= => At, Ns <= => Nt. (<= => se supone que es un operador de infijos definido por el usuario). Para poder verificar, o incluso formular, esta regla hay que dominar no slo las lenguas de origen y de destino, sino tambin la notacin, la semntica del formalismo y el tipo de algoritmos de anlisis y generacin usados para producir estas representaciones o para generar un resultado a partir de ellas. Ello significa, por ejemplo, que al escribir la regla el lingista-informtico debe saber que, cuando esta regla sea aplicable, la traduccin del adjetivo no debe depender del nombre con el que aparece (cf. smart shoes zapatos elegantes, smart person persona inteligente). Para saberlo hay que tener presente el modo y el momento en que se aplican las reglas de transferencia, y a qu estructuras se aplican. Es esta una de las principales fuentes de problemas complejos en los sistemas de transferencia Algunos problemas de los sistemas de interlingua Formulacin de la interlingua Uno de los aspectos ms difciles de la traduccin automtica mediante interlingua es la formulacin de la representacin de una interlingua adecuada. Esta representacin debera poder servir para expresar conceptos de cualquier idioma. En la prctica, es casi imposible, puesto que no existen teoras, sean filosficas, matemticas, psicolingsticas o de cualquier otro tipo, que nos indiquen toda la gama de conceptos que son capaces de expresar los seres humanos. En otras palabras, es imposible predecir qu conceptos aparecern codificados en frases construidas en hngaro, malayo, quechua, chino o espaol, sin un estudio muy detallado y extenso de cada uno de estos idiomas. Ni siquiera con lenguas como el ingls, cuya semntica ha sido objeto de estudio durante muchos aos, se ha conseguido producir una interlingua bien definida. Como sencilla ilustracin de este problema consideremos los verbos ingleses like y love. Podramos suponer inocentemente que son slo dos significados bsicos expresables para este tipo de nocin, y proceder formulando dos smbolos correspondientes en la interlingua, por ejemplo los smbolos s1 y s2. Imaginemos ahora que queremos expresar el significado que tiene en espaol la frase te quiero. Tal como podrn confirmar la mayora de los hablantes bilinges de ingls y espaol, no significa ni I love you (te amo) ni I like you (me gustas), sino algo intermedio. Por tanto, nuestra sencilla interlingua no puede expresar el significado que tiene la
frase en espaol de un modo natural, y tendra que ampliarse incluyendo un nuevo smbolo, el s3, para el nuevo concepto. Pero est claro que es imposible (por lo menos actualmente) prever todos los significados que podra necesitar la interlingua para expresar conceptos de cualquier idioma. Ello hace que la formulacin de una interlingua se convierta en un proceso constante de expansin con un nmero cada vez mayor de conceptos, con lo que se obtiene un repertorio de smbolos de difcil manejo. El problema se agrava por la falta de una notacin o formalismo adecuado en el que se puedan expresar los conceptos de la interlingua. Se han propuesto diversos formalismos basados en teoras lingsticas, o en estructuras lgicas o informticas, pero ninguno de ellos se ha demostrado completamente eficiente. Equivalencia semntica Un problema tcnico que afecta a gran cantidad de formalismos para la expresin de significados es el de la equivalencia semntica. Dado que el output de la fase de anlisis en la interlingua pasa directamente a servir de base de la fase de generacin, es importante que los mdulos de origen y de destino representen significados similares de modo similar. Como ejemplo, supongamos que estamos usando la lgica de primer orden (LPO) como interlingua y que la frase there is a red flag tiene la siguiente representacin en interlingua: x. red(x) flag(x) En particular, obsrvese que el orden de los predicados refleja el orden ingls de las palabras. Dado que nuestra interlingua es la lgica de primer orden, podemos suponer que en el mdulo de generacin de espaol la interlingua correspondiente a hay una bandera roja es la frmula siguiente: x. flag(x) red(x) Ello se debe a que el operador lgico (y) es conmutativo y, por tanto, ambas expresiones tienen el mismo significado. El problema es que, a menos que el generador pueda detectar la sinonimia entre ambas expresiones, no conseguir efectuar la generacin. Pero lamentablemente, por lo menos en el caso de la lgica de primer orden, determinar la equivalencia entre dos frmulas arbitrarias es, en general, imposible. En la prctica hay algunas soluciones para este problema, como desarrollar formalismos de representacin alternativos, o establecer restricciones sobre los ya existentes, o inclusive manipular el resultado del anlisis para que conforme con los requerimientos de generacin. Pero incluso estas soluciones prcticas plantean otro problema. Coherencia intercodificadores Los formalismos prcticos de la lgica de primer orden evolucionan paso a paso, a partir de un conjunto limitado de conceptos atmicos y una estructura cannica bien definida para combinarlos y luego aadir nuevos conceptos o estructuras segn se haga necesario. Incluso en este tipo de entorno, enseguida se hace difcil decidir cul debe ser la representacin de cada palabra. Un lingista-informtico podra expresar el significado de la palabra destruccin como un suceso, mientras que otro, que quiz trabaje con otro idioma, puede expresar el mismo
concepto como un objeto abstracto. Estas discrepancias pueden provocar que el sistema no consiga realizar la traduccin y pueden hacer necesaria una amplia labor de coordinacin (por ejemplo, en forma de manuales de codificacin) para evitarlas. Conclusin De este breve anlisis de algunos problemas importantes en la traduccin automtica no debera obtenerse la impresin de que los sistemas basados en estas estrategias son inviables. Al contrario, la traduccin automtica est ya en Internet y constantemente se estn desarrollando sistemas experimentales, precomerciales y comerciales que utilizan diferentes versiones de estas estrategias. El objetivo de este artculo ha sido resumir algunos de los problemas tericos de las mismas e ilustrarlos con algunos ejemplos que muestran sus implicaciones prcticas. Bibliografa Trujillo, A.: Translation engines: techniques for machine translation, Londres, Springer, 1999). http://www.ccl.umist.ac.uk/staff/iat/transeng/
Arturo Trujillo Estudi Computer System with Microelectronics en la Universidad de Londres, y obtuvo el Doctorado en Lingstica Computacional por la Universidad de Cambridge. Trabaj como profesor de computacin en The Gordon University, en Aberdeen y como profesor de Lingstica Computacional en la UMIST, en Manchester. En la actualidad trabaja como Dialogue Researcher en Vocalis plc., Cambridge, Inglaterra. Ha publicado numerosos artculos sobre el tema y es autor de Techniques for machine translation, publicado por la editorial Springer, Londres 1999. arturo.trujillo@vocalis.com

Trujillo

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Trujillo

Caricato da

Copyright:

Formati disponibili

Estrategias de traduccin automtica

Machine translation strategies Arturo Trujillo

Potrebbero piacerti anche