Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Abstract
The following work is preliminary to the creation of a dictionary of Spanish verbs in NooJ. Here is developed a model-by verb categorization according to the three types of Spanish regular conjugations, a group of irregular verbs belonging to the first conjugation and the schemes for other models. This last stage of the process makes it feasible to create the aforementioned dictionary with the current version of the software. However, this will be more efficient if new operators are added.
Resumen
Este es un trabajo preliminar a la creacin de un diccionario de verbos del espaol en el programa NooJ. Aqu se desarrolla la modelizacin de los verbos de las tres conjugaciones regulares y un grupo de verbos irregulares de la primera conjugacin, y se proyectan modelos para los restantes verbos irregulares. Esta ltima etapa, previa a la creacin del diccionario, es viable en la versin actual del programa, pero resultara ms eficiente si se incorporasen nuevos operadores.
79
R. Bonino - Una propuesta para la implantacin de la morfologa verbal del espaol en NooJ
1. Introduccin
NooJ [1] es una herramienta informtica para el tratamiento de las lenguas naturales desarrollada por Max Silberztein a partir del ao 2002; es de libre acceso y, actualmente, es utilizado por investigadores de varias universidades del mundo para la modelizacin de diversas lenguas. Sus usuarios intercambian conocimientos a travs de un foro de Internet y realizan congresos anuales. El autor colabora activamente con los proyectos que utilizan el programa, asesorando a los investigadores y efectuando las modificaciones necesarias para la resolucin de problemas especficos de cada investigacin. Su flexibilidad y aptitud para el tratamiento del lenguaje natural, sumada a las ventajas que implican la gratuidad, el libre acceso y la posibilidad de intercambio con otros grupos de investigacin hace que NooJ se convierta en una herramienta de gran proyeccin. Este trabajo, por una parte, retoma la formalizacin desarrollada por el grupo INFOSUR [2] para la implantacin de la morfologa verbal del espaol en Smorph [3] y propone las modificaciones que se deben introducir para adaptarla a NooJ; por otra, analiza qu operadores se deberan agregar a NooJ para que resulte ms adecuado para tratamiento de esa formalizacin. Dado que, como se seal ms arriba, el creador del programa tiene la disposicin de modificarlo en funcin de las necesidades de los usuarios; el objetivo a mediano plazo es la creacin de un diccionario que contenga una cantidad importante de verbos. Esto implica que NooJ podra analizar y generar todas las variaciones morfolgicas de la mayor parte los verbos del espaol. En el apartado 1 se explica brevemente la formalizacin desarrollada para Smoph, en el apartado 2 se presentan las caractersticas generales de NooJ y su empleo en la modelizacin de las tres conjugaciones regulares, con miras a hacerla extensiva a las conjugaciones irregulares, y en 3 se presenta la conjugacin de un grupo de verbos irregulares de la primera conjugacin y se hipotetiza cules son los operadores que sera necesario incluir para hacer ms eficiente la implantacin del sistema verbal del espaol.
nmero reducido que escapa a cualquier intento de sistematicidad y exige un tratamiento individual. En estas condiciones, la formalizacin del sistema verbal del espaol efectuada para Smorph permite la conjugacin de alrededor de 10000 verbos (regulares e irregulares) a partir de 29 modelos y 47 races verbales.
Dado que el objeto de estudio son cadenas de caracteres y no segmentos fnicos, tambin se consideran irregulares los verbos que presentan alguna variacin grfica; por ejemplo, tragar, guiar, fiar, etc.. 81
R. Bonino - Una propuesta para la implantacin de la morfologa verbal del espaol en NooJ
a. terminaciones: son los elementos comunes a todos los verbos seleccionados y a un gran nmero de verbos irregulares. b. segmentos intermedios: presentan variaciones segn la conjugacin, pero son recurrente en el sistema. c. bases: son la mxima cantidad de caracteres del infinitivo que se pueden concatenar con los segmentos intermedios y las terminaciones. Se evita utilizar los conceptos de raz, vocal temtica y desinencia, provenientes de la lingstica no computacional, porque esas nociones tericas no coinciden con los conceptos operacionales aqu empleados: la base del infinitivo, los futuros y el condicional simples es el infinitivo completo, concatenado con un elemento vaco <E> o con diferentes terminaciones; cuando la vocal temtica coincide con la del infinitivo, forma parte de la base, de modo que para obtenerla se le borra un solo carcter al infinitivo; en otros casos, la base es el infinitivo menos los dos ltimos caracteres, a los que se pueden agregar como segmentos intermedios vocales temticas o desinenciales que permiten conservar la regularidad de la terminaciones; por ejemplo, para generar la tercera persona del singular del pretrito perfecto simple del indicativo, a los infinitivos de la primera conjugacin se borran dos caracteres y se agrega directamente la terminacin (am-); para el mismo tiempo de la segunda se borran dos caracteres y se agrega un segmento intermedio i seguido de la terminacin (tem-i-) y en la tercera conjugacin se borra un carcter y agrega la terminacin (parti-); esta estrategia es la que permite utilizar en las tres conjugaciones una sola terminacin para cada forma conjugada. En el cuadro 1 se muestra la gramtica elaborada para la modelizacin de los verbos mencionados.
#amar, temer, partir TER1 = (<E>/inf | /fut+ind+p1+s | s/fut+ind+p2+s | /fut+ind+p3+s | emos/fut+ind+p1+p | is/fut+ind+p2+p | n/fut+ind+p3+p | a/cond+ind+p1+s | as/cond+ind+p2+s | a/cond+ind+p3+s | amos/cond+ind+p1+p | ais/cond+ind+p2+p | an/cond+ind+p3+p); #am, tem-i, part-i, TER2 = (/pps+ind+p3+s); #am-a, tem-e, part-i TER3 = (d/imp+p2+p | mos/pte+ind+p1+p ); #am-a, tem-i, part-i TER4 = (ste/pps+ind+p2+s | mos/pps+ind+p1+p | steis/pps+ind+p2+p | do/ppio); #am-a, tem-ie, part-ie TER5 = (ndo/ger | ron/pps+ind+p3+p | ra/pi+subj+p1+s | ras/pi+subj+p2+s | ra/pi+subj+p3+s | rais/pi+subj+p2+p | ran/pi+subj+p3+p | se/pi+subj+p1+s | ses/pi+subj+p2+s | se/pi+subj+p3+s | seis/pi+subj+p2+p | sen/pi+subj+p3+p | re/fut+subj+p1+s | res/fut+subj+p2+s | re/fut+subj+p3+s | reis/fut+subj+p2+p | ren/fut+subj+p3+p); #am-i, tem-i, part TER6 = (s/pte+ind+p2+p); #am-, tem-i, part-i TER7 = (ramos/pi+subj+p1+p | semos/pi+subj+p1+p | remos/fut+subj+p1+p); #am-, tem-, part- TER8 = (<E>/imp+p2v+s | s/pte+ind+p2v+s); #am-e, tem-a, part-a TER9 = (mos/imp+p1+p | mos/pte+subj+p1+p ); #am-a-b, tem-, part- TER10 = (a/pi+ind+p1+s | as/pi+ind+p2+s | a/pi+ind+p3+s | ais/pi+ind+p2+p | an/pi+ind+p3+p); #am--b, tem-, part- TER11 = (amos/pi+ind+p1+p); #am-, tem-, part- TER12 = (is/pte+subj+p2+p);
82
#-------------------------------------#am, tem, part TER13 = (o/pte+ind+p1+s); #am-a, tem-e, part-e TER14 = (s/pte+ind+p2t+s | <E>/pte+ind+p3+s | n/pte+ind+p3+p | <E>/imp+p2t+s ); #am-e, tem-a, part-a TER15 = (<E>/pte+subj+p1+s | s/pte+subj+p2+s | <E>/pte+subj+p3+s | n/pte+subj+p3+p | <E>/imp+p3+s | n/imp+p3+p);
#MODELOS AMAR = (:TER1) | (<B> ((:TER3 | :TER4 | :TER5 | :TER14) | (b :TER10))) | (<B2> ((:TER2 | :TER13) | (i :TER6) | ( (:TER7 | :TER8)) | (e (:TER9 | :TER15)) | (b :TER11) | ( ((<E>/pps+ind+p1+s)|:TER12)))); TEMER = (:TER1) | (<B> (:TER3 | :TER14)) | (<B2> ((:TER13) | (i (:TER2 | :TER4)) | (ie :TER5) | (i :TER6) | (i :TER7)| ( :TER8) | (a (:TER9 | :TER15)) | ( ((<E>/pps+ind+p1+s) | :TER10 | :TER11) | ( :TER12)))); PARTIR = (:TER1) | (<B> (:TER2 | :TER3 | :TER4)) | (<B2> ((:TER13) | (ie :TER5) | ( ((<E>/pps+ind+p1+s) | :TER6 | :TER8 | :TER10 | :TER11)) | (i :TER7) | (e :TER14) |(a (:TER9 | :TER15)) | ( :TER12))));
Las terminaciones se agrupan en conjuntos que sean aplicables tanto a las tres conjugaciones regulares como a un amplio grupo de verbos irregulares. El criterio de no incluir los mismos elementos en distintos conjuntos complejiza la tarea de crear los modelos, pero reduce la cantidad de conjuntos. En el cuadro precedente cada etiqueta de tiempo, modo, persona y nmero se asigna a la terminacin, las etiquetas asignadas a elementos vacos <E> se utilizan cuando la base, concatenada o no con segmentos intermedios, coincide con una forma verbal; pero esta forma, a su vez, puede concatenarse con otras terminaciones para producir otras formas verbales; por ejemplo, en amar la base coincide con la forma de infinitivo, pero si se agrega la terminacin - se obtiene la tercera persona del singular del futuro del indicativo, por lo tanto la etiqueta inf se asigna al elemento vaco <E> y la etiqueta fut+ind+p3+s, a la terminacin -a. Dado que las etiquetas se pueden asignar tanto en la definicin de las terminaciones como en el modelo, cuando se profundice el anlisis de los verbos irregulares se evaluar si conviene incluir nuevas terminaciones donde se asigne la misma etiqueta a las formas alternativas o asignar la etiqueta directamente en el modelo de conjugacin. La decisin depende que la cantidad de verbos irregulares que presenten la forma alternativa; por ejemplo, la forma -o, que aparece en fio, rio, estuvo, hubo, etc. (pps+ind+p3+s) es alternativa de la forma acentuada - que aparece en la mayora de los verbos (am, temi, parti, acert, acentu, etc.); pero tiene una recurrencia que, tal vez, justifique declararla como una terminacin.
83
R. Bonino - Una propuesta para la implantacin de la morfologa verbal del espaol en NooJ
Excepto andar, dar, estar, jugar, los verbos de la primera conjugacin presentan los siguientes tipos de irregularidades: a. irregularidad fontica2: las races tnicas presentan cambios acentuales (acentuar / acento) o diptongacin de e en ie y de o en ue (acertar / acierto; acordar / acuerdo); b. irregularidad grfica en la raz: cuando la vocal que sigue a la raz es -e-, los verbos terminados en -gar tienen grafa -gu- (tragar, trague), los verbos terminados en -zar, tienen grafa -c- (trazar, trace), y los verbos terminados en -guar tienen grafa -g(averiguar, averige); c. combinacin de a. y b.: (colgar, cuelgue) d. irregularidad grfica en la desinencia: los verbos monoslabos nos llevan tilde en las vocales tnicas finales (fie, fio, fieis frente a am, am, amis). En lo que respecta a la irregularidad fontica, la mayora de los verbos de la segunda y tercera conjugaciones son ms complejos, pero algunos siguen el mismo patrn de irregularidad (concernir, concierne; mover, mueve; reunir, rene). En cuanto a la irregularidad grfica, presentan los siguientes cambios: cuando la vocal que sigue a la raz es -a-, -o-, los verbos terminados en -cer, cir tienen grafa -z- (zurcir, zurza, zurzo)3; los verbos terminados en -ger, -gir tienen grafa -j(proteger, proteja, protejo; dirigir, dirija, dirijo); en los verbos terminados en -guir se suprime la u (seguir, siga, sigo)4.
4.1. Verbos con diptongacin o cambio acentual El modelo utilizado para los verbos regulares se aplic al grupo de verbos irregulares del primer grupo. La versin 2.0 de NooJ contaba con un operador para agregar tildes a la ltima vocal de la cadena, pero no con uno que la reemplazara por un diptongo determinado; esto implicaba utilizar varias operaciones: moverse a la izquierda hasta la vocal que diptonga, agregar la vocal que forma el diptongo y moverse a la derecha para agregar la terminacin; y, por lo tanto, crear un modelo para cada tipo de diptongacin segn el lugar de la cadena donde esta se produjera. As, por ejemplo, tena que haber un modelo para acertar, que presenta diptongacin de e en ie en la quinta posicin de izquierda a derecha, otra para atravesar, donde la diptongacin se produce en la cuarta posicin, otro para acordar, que diptonga u en ue en la quinta posicin y otro para aprobar que tiene diptongacin en la cuarta posicin. Con la finalidad de evitar la proliferacin de modelos, se consult con el autor de programa acerca de la posibilidad de crear un operador que fuera capaz de unificar los dos tipos de diptongos y buscar su argumento de derecha a izquierda; gracias al inters del Dr. Silberztein por este tema, la versin 3.0 incluye el operador propuesto (<U>). En esta ltima versin se elaboraron dos modelos de verbos irregulares que permiten generar un diccionario de 174 verbos de la primera conjugacin. En el cuadro 2, se muestran los modelos. Los mismos operadores son aplicables a los verbos de la segunda conjugacin que presentan el modelo de irregularidad de tender y moler, y a los de la tercera que siguen el de discernir y prohibir. Para obtener el modelo de estos verbos bastar reemplazar los segmentos intermedios de la primera conjugacin por los correspondientes a la segunda o la tercera, segn corresponda.
2 3
Para la lingstica no computacional son los nicos verbos irregulares. Muchos verbos de este grupo tienen irregularidades fonticas -zc- (nacer, nazco; pertenecer, pertenezco). 4 Todos los verbos de este grupo presentan combinacin de irregularidad fontica y grfica. 84
ACENTUAR = (:TER1) | (<B> ((:TER3 | :TER4 | :TER5) | (b :TER10))) | (<B2> (:TER2 | (i :TER6) | ( (:TER7 | :TER8)) | (e :TER9) | (b :TER11) | ( ((<E>/pps+ind+p1+s) | :TER12)) | (<> (:TER13 | (a :TER14) | (e :TER15)))); ACERTAR = (:TER1) | (<B> ((:TER3 | :TER4 | :TER5) | (b :TER10) | (<U> :TER14))) | (<B2> (:TER2 | (i :TER6) | ( (:TER7 | :TER8)) | (e :TER9) | (b :TER11) | ( ((<E>/pps+ind+p1+s) | :TER12))| (<U> ((:TER13 | (e :TER15))));
Cuadro 2: modelos de verbos irregulares de la primera conjugacin con diptongacin y cambios acentuales.
4.2. Verbos con cambio grfico La versin actual de NooJ no cuenta con operadores que permitan agrupar las alternancias grficas que se dan en las distintas formas conjugadas de un verbo, por lo tanto, se ha generados un modelo para cada clase, segn se muestra en el cuadro 3:
TRAGAR = (:TER1 | :TER17) | (<B> ((:TER3 | :TER4 | :TER5 | :TER14 | :TER15 | :TER18 | :TER19) | (b :TER10))) | (<B2> ((:TER2 | :TER13) | (i :TER6) | ( (:TER7 | :TER8)) | (b :TER11) | (u ((e (:TER9 | :TER16)) | (( (:TER12 | :TER20)))); AVERIGUAR = (:TER1 | :TER17) | (<B> ((:TER3 | :TER4 | :TER5 | :TER14 | :TER15 | :TER18 | :TER19) | (b :TER10))) | (<B2> ((:TER2 | :TER13) | (i :TER6) | ( (:TER7 | :TER8)) | (b :TER11))) | (<B3> ( ((e (:TER9 | :TER16)) | ( (:TER12 | :TER20))))); TRAZAR = (:TER1 | :TER17) | (<B> ((:TER3 | :TER4 | :TER5 | :TER14 | :TER15 | :TER18 | :TER19) | (b :TER10))) | (<B2> ((:TER2 | :TER13) | (i :TER6) | ( (:TER7 | :TER8)) | (b :TER11))) | (<B3> (c ((e (:TER9 | :TER16)) | ( (:TER12 | :TER20)))));
Cuadro 3: modelos de conjugacin verbos irregulares de la primera conjugacin con cambios grficos.
El hecho de que el cambio se produzca en una posicin fija en todos los verbos del grupo simplifica el tratamiento; pero, si fuera posible crear un operador que unifique el reemplazo de z por c, u por y g por gu se podra establecer el mismo modelo para las tres clases de verbos. Para verbos de las otras dos conjugaciones, sera necesario que el operador tambin reemplazara c por z (torcer, tuerzo; zurcir, zurzo), g por j (proteger, protejo; elegir, elijo). Este operador hipottico sumado a <U> permitira reducir a cuatro modelos la mayora de los verbos irregulares de la primera conjugacin: a) Modelo 1: verbos con cambio acentual (acentuar, acento) b) Modelo 2: verbos con diptongacin (acertar, acierto; acordar, acuerdo) c) Modelo 3: verbos con cambio acentual y grfico (ahincar, ahnque) d) Modelo 4: verbos con diptongacin y cambio grfico (comenzar, comience; forzar, fuerce) Quedan excluidos de estos modelos: andar, dar, estar, que, como se dijo anteriormente, presentan irregularidades singulares; el verbo averiguar, donde el cambio grfico converge con la diptongacin, y los verbos monosilbicos. El verbo jugar podra integrarse al modelo 4 si al
85
R. Bonino - Una propuesta para la implantacin de la morfologa verbal del espaol en NooJ
operador <U> se incorporase la diptongacin de u en ue; pero, dado que es el nico verbo que presenta este tipo de diptongacin, tal vez, no resulte necesario hacerlo.
4.3. Cierre voclico Algunos verbos de la tercera conjugacin presentan cierre voclico de e en i en las formas donde otros presentan diptongacin (pedir / pido). Sin embargo, no resulta posible incluir este cambio voclico en el operador <U> porque tanto el cierre como la diptongacin tienen el mismo argumento, es decir, afectan a las mismas vocales. En cambio, el hecho de que, en determinados verbos que presentan irregularidades ms complejas que las expuestas en los apartados precedentes, el cierre de e en i y el de o en u sea complementario a la diptongacin (hervir, hierve, hirvi; dormir, duerme, durmi) justifica la tarea de crear un operador que reemplace e por i y o por u.
5. Conclusiones
La versin actual de NooJ es adecuada para la modelizacin de la morfologa verbal del espaol, no obstante, la incorporacin de nuevos operadores hara que la herramienta tuviese ms eficacia. Dado que el tratamiento de la sintaxis requiere de una base lxica, cualquier estudio en este campo se ve limitado por la inexistencia de diccionarios electrnicos accesibles. Por esta razn el investigador debe desarrollar su propio diccionario, lo que implica una dispersin de su objetivo principal. La creacin de un diccionario de verbos se concibe como punto de partida para el desarrollo de un diccionario general del espaol, que, por la ductilidad de NooJ, podra ser utilizado con distintos fines, ya que bastar con agregar las etiquetas que resulten necesarias segn los intereses especficos de cada proyecto. Por ejemplo, si se pretendiera desarrollar un estudio sobre la transitividad, se agregarn las marcas pertinentes en la entrada del diccionario y estas se harn extensivas a todas las variantes morfolgicas del verbo.
Bibliografa
[1] <http://www.nooj4nlp.net/pages/nooj.html> [consulta 17 de septiembre de 2011]. [2] Solana, Z. y otros. Morfologa del verbo espaol. Juglara, Venado Tuerto, 2006. [3] At-Mokhtar S. SMORPH: Guide Dutilisation, Rapport technique, Clermont-Ferrand, GRIL, Universit Blaise Pascal, 1995. [4] Real Academia Espaola. Nueva gramtica de la lengua espaola (Manual). Grupo Editorial Planeta, Ciudad Autnoma de Buenos Aires, 2010.
86