Traductor Estadístico Wixárika Español Con Escasos Recursos Bilingües.

Traductor estadstico wixarika - espanol usando descomposicion
morfologica
xxxxxxxxxxx
xxxxxxxxxxx
Resumen En este artculo se presenta un traductor automatico entre las lenguas espanol y wixarika, usando
traduccion estadstica (SMT) y recursos gramaticales complementarios. El wixarika es una lengua indgena
hablada en los estados mexicanos de Jalisco, Nayarit, Zacatecas y Durango. Este trabajo se enfoca en dos
problemas: la escasa existencia de corpus paralelos y la dificultad de alinear una lengua fusionante (espanol)
con una altamente polisintetica (wixarika). En situaciones lmites los traductores tpicos basados en SMT usan
entre 100 y 300 MB de texto alineado. Nuestra propuesta introduce un analizador morfologico que descompone
los verbos del wixarika y los expone a la fase de alinemiento.
Palabras Clave: Traduccion Estadstica Automatica, Alineamiento de Lenguas Polisinteticas, Recursos Es-
casos, Procesamiento de Lenguaje Natural.
1. Introduccion veintiun cuentan con menos de mil hablantes. La UNES-

CO identifico en el ano 2007 que el cincuenta por ciento
La traduccion entre lenguas y la necesidad de comunica- de las lenguas a nivel mundial se encuentran en peligro
cion entre las personas se remonta a los origines de nues- de desaparecer, seis mil lenguas son habladas unicamen-
tra civilizacion. Hoy con los avances en las Tecnologas de te por el cuatro por ciento de la poblacion mundial y el
la Informacion y la Comunicacion (TIC) es un tema re- noventa por ciento de las lenguas no estan representa-
levante de investigacion interdisciplinaria entre las Cien- das en Internet(UNESCO, 2007). Esto plantea un pro-
cias Sociales y la Ciencia de la Computacion. El campo blema muy importante y trascendente para la cultura
semantico lleva, segun Tarski, a la indefinibilidad(Tarski, universal y los valores humanos, que no es exclusivo de
1936) y, por lo tanto, los lenguajes naturales no pueden nuestro pas: la preservacion de la cultura y las lenguas
ser resueltos como lenguajes formales (de la logica de la indgenas(xxx, s.f.-a).
ciencia de la computacion, por ejemplo, un lenguaje de El resto de este artculo esta organizado de la siguien-
programacion. Pero este no es adecuado para otro fin te manera. En la seccion 2 se muestran los antecedentes
que no sea el de desarrollar programas de computadora, y trabajos previos sobre traduccion automatica en ge-
mientras que las lenguajes naturales, sirven para mu- neral y sobre traduccion con escasos recursos en parti-
chos fines abiertos, comunicacion, creacion de conceptos cular. La seccion 3 describe el modelo de traduccion de
y conocimientos, representa una cultura, una forma vida nuestra propuesta para tratar traducciones de lenguajes
y pensamiento.). La complejidad de la traduccion auto- polisinteticos y con escasos recursos. Posteriormente se
matizada debe confrontar y combinar adecuadamente los presentan los resultados de las experimentaciones en la
siguientes factores: las barreras culturales entre lengua- seccion 4, y por ultimo se presentan conclusiones y tra-
jes naturales, la inherente ambiguedad de los lenguajes bajos futuros.
humanos, la irregularidad entre dos lenguas(Roy, 2010),
y su complejidad semantica.
El presente trabajo se enfoca en nuestra investiga- 2. Teora del dominio y trabajos previos
cion de Procesamiento de Lenguaje Natural para el di-
seno, adaptacion y construccion de un sistema de tra- Las investigaciones existentes sobre traduccion au-
duccion wixarika espanol. El wixarika es un idioma tomatica para lenguas indgenas son muy escasas, pero
que se estima que tiene entre treinta mil y cincuenta mil si han sido extensamente trabajadas para aleman, es-
hablantes(Iturrio y Gomez Lopez, 1999), con pocos tex- panol, frances, italiano, portugues, arabe, japones, ko-
tos escritos, con un analisis gramatical limitado(Iturrio y reano, chino, holandes, griego y ruso (en sistemas co-
Gomez Lopez, 1999; Grimes, 1964) y sin un estudio cono- merciales y publicos como Google, Systran, Prompt); y
cido en el campo del Procesamiento de Lenguaje Natural en casi todos los casos el ingles es la contra parte de
(NLP, del ingles, Natural Language Processing). La apli- las traducciones(Laukaitis y Vasilecas, 2007). Por lo tan-
cacion del NLP a las lenguas originarias representara un to, retomamos las investigaciones del estado de arte y
avance para incorporarlas al nuevo entorno digital. nos centramos en el modelo estadstico por frases, que
En Mexico se hablan sesenta y ocho lenguas sera el que vamos a modificar para el caso de traduccion
originarias(de Lenguas Indgenas, 2016) de las cuales wixarika espanol. Este modelo segmenta la entrada
en frases y hace una traduccion uno a uno a frases en la (EBMT)(Bahattacharyya, 2015), ademas de modelos
lengua objetivo, con un posible reordenamiento (Koehn, hbridos que combinan varios aspectos de ellos.
2010). RBMT. En este modelo existen reglas que de-
finen el analisis de los enunciados origen, reglas de
como transferir las representaciones y finalmente re-
2.1. El idioma wixarika
glas para generar texto de la representacion transferida
El wixarika es un idioma perteneciente a la familia yu- (Bahattacharyya, 2015). Este proceso es conocido como
toazteca , con una estructura sujeto-objeto-verbo (SOV), analisistransferenciageneracion (ATG). En el caso de
incorporante y con una fuerte tendencia polisintetica, que sus reglas sean aplicadas exactamente al caso de tra-
siendo incluso mayor que la del nahuatl. Los morfemas duccion, el resultado sera de alta calidad y muy preciso,
se agrupan en torno a una raz verbal e incluyen una con la ventaja de poder explicar el resultado de la tra-
gran cantidad de informacion segun Iturrio (Iturrio y duccion. Pero no es frecuente que sus reglas apliquen a
Gomez Lopez, 1999). La polisntesis es el resultado de los casos analizados, pues continuamente existen conflic-
la incorporacion de operaciones sintacticas, realizado en tos de reglas o multiples reglas aplicadas en un mismo
otros casos por la combinacion de palabras autonomas, caso (Bahattacharyya, 2015).
a la palabra predicativa, aproximandose al ideal de una SMT. En la traduccion maquina estadstica las re-
palabra por enunciado (Iturrio y Gomez Lopez, 1999). glas de traduccion ATG no son creadas a priori usando
En el siguiente ejemplo se aprecia la forma en que se pue- los conocimientos lingusticos, sino que son generados a
den construir palabras en wixarika a partir de sus reglas partir de un conjunto de textos emparejados. Las reglas
silabicas. El concepto de montana puede ser creado de la y palabras son aprendidas de los datos de entrada y son
siguiente manera. traducidos basados en probabilidades (Bahattacharyya,
2015). Estos modelos requieren un gran numero de datos
m-a-ta-ka-i-t+ka para poder funcionar correctamente.
La SMT tiene dos grandes vertientes, la traduccion
Donde hai significa nube, y la palabra siguiente es el por palabras y la traduccion por frases. La primera fue
verbo matakait+ka que se divide en morfemas. La com- popular en los anos ochenta del siglo pasado con el pro-
binacion entre m y a refiere a algo figurativo, el ta a yecto Candile de IBM. La traduccion se basa en la proba-
algo que esta al borde de, ka localiza esto en cierto es- bilidad de que dada una palabra en el origen corresponda
pacio, la i significa estar, mientras que t+ka es plural. a una palabra en el destino. Con una cantidad de datos
El resultado puede ser ledo como donde las montanas apareados, esta probabilidad sera el numero de veces que
bordean, y que de una forma sucinta se traducira co- aparecen las palabras destino cuando aparece la palabra
mo montanas(Gomez, 1999). Es importante destacar, lo origen en el mismo enunciado emparejado. La segunda, el
que hace el problema de traduccion wixarika - espanol modelo por frases es el que mejores resultados produca
complejo, es que la combinatoria de morfemas se da en era el estadstico por frases. Este modelo segmenta la
torno a la raz verbal, y no sobre otras palabras. entrada en frases y hace una traduccion uno a uno a fra-
Al comparar dos frases apareadas es posible observar ses en la lengua objetivo con un posible reordenamiento
la distancia entre los dos idiomas a anlizar. Tenemos dos (Koehn, 2010). Los modelos basados en palabras haban
frases en espanol que no varan de manera importante, demostrado estar limitados por la falta de existencia de
sin embargo, el cambio en la morfologa de su traduccion una relacion uno a uno entre las palabras de dos idiomas.
es muy grande. Por ejemplo, una palabra en espanol no necesariamente
corresponde a una en ingles. En ocasiones puede corres-
Quiero quedarme aqu ponder a una o mas palabras, y de igual manera en or-
ena nep+nehayewakeyu den contrario. Esto conlleva ademas a que un grupo de
Quiero que te quedes aqu palabras logren realizar mejor una desambiguacion que
ya nep+tinakierie ena pem+kunauni palabras aisladas. Ahora bien, tambien es una pregunta
importante que se considera como una frase?. El mo-
Un traductor wixarika - espanol debe enfrentar estos
delo en realidad no tiene conocimiento respecto a esto,
retos. Una equivalencia palabra a palabra es inoperante,
aunque un algoritmo complementario puede acotar este
y este es un problema a tratar en nuestra propuesta.
tema.
2.2. La traduccion automatica

2.3. Traduccion con bajos recursos
Para la tarea de traduccion automatica (Machine Trans-
lation) se han usado varias estrategias, las cuales Para el uso de modelos de STM seran necesarios al me-
se pueden dividir en tres grandes campos: la tra- nos 100 MB de texto pre-alineado(Laukaitis y Vasilecas,
duccion basada en reglas (RBMT), los modelos es- 2007), lo cual con idiomas como el wixarika sera impo-
tadsticos (SMT) y la traduccion basada en ejemplos sible de obtener. Para enfrentar este problema se puede
recurrir a los modelos RBMT o trabajar en algoritmos Dado que el wixarika es un lenguaje polisintetico, el ali-
hbridos como los propuestos por Laukaitis(Laukaitis neamiento con palabras al espanol es poco prometedor.
y Vasilecas, 2007), Yaser(Al-Onaizan y cols., 2002) y Los afijos se aglutinan en torno el verbo, tanto antes de
Nieen(Nieen y Ney, 2004). Asumir una traduccion gra- la raz verbal como despues. La funcion j i = aj no
matical basada en reglas tampoco es posible por la falta se cumple como un mapeo uno a uno, sino en forma de
de un cuerpo completo de la gramatica wixarika. relacion j (i1 . . . in ) = aj donde k 1, y aj es una
Nien y Ney proponen la utilizacion de un analizador tupla de pares de alineamiento. Se crea una funcion ,
morfologico que descomponga las palabras en sus races que descompone las palabras fjI Mj en una lista de
y morfemas para etiquetar posteriormente cada compo- morfemas ordenados (m1 , . . . , mn , . . . , mN ), donde N es
nente. Se auxilia de un diccionario jerarquico que auxi- el numero total de morfemas. El nuevo conjunto M 0K
liara a la traduccion. Este mecanismo logra reducir el sera:
corpus paralelo necesario hasta a 10 % del normalmen- J
[
te necesario. Laukaitis analiza el caso de un traductor f 0K = (Mj ) (4)
asimetrico, donde un lenguaje tiene una gran cantidad j=1
de recursos y el segundo carece casi por completo de
ellos, con excepcion de un analizador morfologico. Con La cardinalidad de K = |f 0 | es el numero de todos los
ayuda de un corpus paralelo reducido (de 1 MB) y re- morfemas y palabras generados evaluando en todas
des ontologicas del lado del idioma mas analizado, logra las palabras de la frase original. La tupla de frases f J
buenos resultados. se sustituye por la nueva tupla F 0K en la ecuacion de
alineamiento 2 y en el modelo de traduccion estadsti-
co en la ecuacion 7. La figura 1 muestra la mejora en
3. Modelo de traduccion el alineamiento de palabras del modelo de descompo-
sicion morfologica al modelo de alineamiento de pala-
3.1. Entrenamiento bras. La frase ik+ ki p+kahekwa se traduce como
J
Sean f = (f1 , . . . , fj , . . . , fJ ) una frase origen compues- esta casa no es nueva. Pero la palabra p+kahekwa
I
ta por una tupla de palabras fj y e = (e1 , . . . , ei , . . . , eI ) contiene la informacion de tres palabras en espanol. Si
una frase objetivo compuesto por palabras ei , se define usamos nuestra funcion (p+kajekwa) obtendramos la
un alineamiento A {(i, j) : j = 1, . . . , J; i = 1, . . . , I} tupla (p+, ka, hekwa). La union de todas las palabras
(Och y Ney, 2003). Los alineamientos i = aj pueden descompuestas y no descompuestas de la frase original
I
contener una palabra vaca e0 . Si se supondra que una f , nos genera un mejor alineamiento respecto al es-
palabra fi tiene una unica palabra alineada en ej o e0 , panol. La funcion es un Trasductor de Estados Fi-
se obtendra una funcion de alineamiento j i = aj , y nitos, con la informacion mofologica descrita en (Iturrio
no una relacion. y Gomez Lopez, 1999) y (Gomez, 1999). Los idiomas po-
Para realizar la traduccion se requiere un modelo de lisinteticos y aglutinantes comparten la caracterstica de
alineamiento en su fase inicial de entrenamiento. Si defi- poder ser expresados mediante un trasductor, como es el
nimos una traduccion como probabilidad p(f |e ) se in- 0J I caso del turco (Eryigit y Adal, 2004) (Ermolaeva, 2014).
troduce un factor de alineamiento oculto p (f 0J , aJ |eI ),
siendo el valor de un valor desconocido a encontrar. Se
define la relacion entre la probabilidad de traduccion y
el modelo de traduccion como (Zens, Och, y Ney, 2002):
X
p(f J |ei ) = p (f J , aJ |eI ) (1)
aJ
Sean S = {(fs , es ) : s = 1, . . . , S} un conjunto de frases

alineadas de un corpus paralelo. Para cada par alienado
se encuentra el valor de y busca la maxima esperanza, Figura 1. Busqueda de la mejor traduccion
como se menciona en la ecuacion 2.
S X
Y Para el caso de idiomas con gran riqueza morfologica
= argmax p (fs , a|es ) (2) como el caso de estudio se sugiere separar los morfemas
s=1 a
que sean mas parecidos a palabras del ingles, conser-
Para cada enunciado existe una gran variedad de alinea- var unidos los morfemas (como tiempos verbales) a sus
mientos a estimados, pero se tratara de encontrar el me- races que se comporten de manera semejante en ingles
jor alineamiento, tambien llamado alineamiento Viterbi, e ignorar los que no tienen funciones parecidas (Koehn,
tal que 2010). En nuestra aplicacion se va a tomar la integridad
de los morfemas de f 0 para conservar la mayor cantidad
aJ = argmaxaJ p (f J , aJ |eI ) (3) de informacion posible.
trado estar limitados por la falta de existencia de una
relacion uno a uno entre las palabras de dos idiomas,
problema que persiste a pesar de la descomposicion mo-
fologica que proponemos en la ecuacion 4. Esto conlleva
ademas a que un grupo de palabras logren realizar mejor
una desambiguacion que palabras aisladas. En la defini-
cion del modelo matematico segun Kohen(Koehn, 2010)
se usa la regla de bayes para invertir la direccion de tra-
duccion e integrar un modelo de lenguaje que se define
como pLM .
emejor = argminIe p(eI |f 0J ) (6)

= argminIe p(f 0J |g I )pLM (e) (7)
Para el modelo por frases se va a descomponer p(f 0J |eI )

en:
I
Y
p(g1I |sI1 ) = (gi |si )d(inicioi fini1 1) (8)
i=1
Cada una de las frases origen f es segmentada en I fra-

ses fi y como se comento, por el teorema de bayes se
invierte la probabilidad para modelar la traduccion eI
a f J a traves de un canal ruidoso (gi |si ). La distancia
Figura 2. Proceso de entrenamiento mide el inicio de la frase origen al fin de la misma, y es el
numero de palabras que se van a omitir cuando se toman
las frases origen fuera de su enunciado(Koehn, 2010).
El modelo de alinacion es usado tanto por el modelo En la figura 3 se muestra al flijo de una cadena en-
de traduccion por palabras y el de frases. Pero a dife- trante fJ . El texto entrante necesita ser preparado me-
rencia de un modelo por palabras, donde se escoge la diante una normalizacion y un tokenizado. Una vez pre-
mejor alineacion, palabra por palabra, en el modelo por parado se procede a un analisis mofologico y a su seg-
frases se escoge un numero de pares de frases y se evalua mentacion y etiquetado.
en count(e, f). La probabilidad de traduccion es estima-
da en una frecuencia relativa que sera nuestro modelo
(Koehn, 2010):
count(eI |f0J )
(f0J |eI ) = P I 0J
(5)
f0J count(e , fi )
i
El proceso de entrenamiento, como se ilustra en la figura

3.1, requiere la preparacion de los datos, la segmentacion
morfologica (ecuacion 4), un alineamiento de palabras
(ecucacion 1), el entrenamiento de un modelo de lengua-
je(comunmente usando n-gramas) y la generacion de un Figura 3. Flujo de traduccion
modelo de traduccion denominado (ecuacion 5). En
el entrenamiento se requiere un algoritmo de extraccion
de frases y el calculo de una tabla de probabilidades de
traduccion. En la figura 2 se presenta el proceso de en- Con el modelo de lenguaje LM , el modelo de alinea-
miento d y el modelo de traduccion se busca la traduc-
trenamiento con una nueva etapa de analisis morfologico,
descomposicion y etiquetado. En lo que a la decodificacion con el mejor puntaje en el modelo expresado en la
cion se refiere se deben insertar dos nuevas etapas, unaformula 2. Al ser este problema de combinatoria un pro-
descomposicion morfologica antes de la codificacion. blema NP-Completo (Knight, 1999), se requiere el uso
de heursticos para encontrar una traduccion aproxima-
da. Se utilizan algoritmos como Beam o A* (P. E. Hart
3.2. Traduccion
y Raphael, 1968) (xxx, s.f.-b) para ese fin. La busqueda
Si bien el modelo de alineamiento haba sido creado pa- resultante es expresada en grafos, como se precia en la
ra los modelos basados en palabras, estos haban demos- figura 4.
y la traduccion sin segmentacion. Para ilustrar la dife-
rencia en la calidad de traduccion, se muestra una tabla
comparativa 2.
Wixarika Sin Segmentar Segmentado

neki neki mi casa
aki p+tuxa aki es blanca tu casa blanca
hakewa ne ki esta falta es no es nueva esta falda no es nueva
Cuadro 2. Ejemplos de traduccion
Figura 4. Busqueda en el espacio de traduccion

5. Conclusiones y trabajos futuros
4. Experimentos y Resultados La mayor parte de lenguas originarias del continente
americano, includo el quechua y el aimara, son aglu-
Las pruebas se realizaron en una computadora con dos tinantes, y por lo tanto con una gran complejidad mor-
procesadores Intel Xeon X3450 x86 de 64 bits con 4 fologica. Para estos idiomas, no es posible retomar a inte-
nucleos cada uno y capacidad de dos hilos por nucleo, gridad el modelo de alineacion por palabras y traduccion
a 2.67 GHz NUMA, con 16 GB de memoria RAM. Para por frases. Los resultados obtenidos con segmentacion
el sistema de alineado usamos GIZA++ (Och, 1999) y morfologica son significativamente mejores que sin usar-
como sistema de decodificacion se utiliza el sistema MO- la. La limitante del corpus paralelo, tambien, es mejorada
SES (Koehn, Och, y Marcu, 2003) usando el modelo de mediante la segmentacion morfologica.
entrenamiento de traduccion por frases. Para trabajos futuros, estamos valorando posibles
El corpus usado fue extrado del libro (Gomez, 1999) mejoras como la ampliacion del corpus mediante diccio-
que aporta valiosa informacion morfologica en su texto narios o con tecnicas de extracion de corpus paralelo,
apareado. Se utilizaron 100 frases apareadas como cor- como se ha estudiado para el Nahuatl por Guitierrez
pus de experimentacion, y las traducciones se realizaron (Gutierrez-Vasques, 2015).
unicamente con los afijos y las palabras usadas en el cor- Existen ademas traductores estadsticos de idio-
pus. Para la evaluacion no se utilizo BLEU (Papineni, mas indgenas, con una implementacion cerrada, desa-
Roukos, Ward, y Zhu, 2002) por el reducido corpus, y rrollados por Microsoft Translator Community Part-
las frases de tamano variable segun el modelo de des- ners(Microsoft, 2016), para el otomo de Queretaro y el
composicion morfologica, y se prefiro WER (Zechner y maya de Yucatan. Nuestra postura es proveer una herra-
Waibel, 2000) y TER (Snover, Dorr, Schwartz, Micciulla, mienta de software libre wixarika-espanol para los fines
y Makhoul, 2006), que son eficientes en estas condiciones. que las personas de los pueblos y comunidades requie-
Con los valores obtenidos se realiza una comparacion de ran. Por ejemplo, para libremente seleccionar que libros
resultados (ver tabla 1), entre una traduccion de alinea- y textos traducir.
miento por palabra (ecuacion 2) en comparacion con la Nuestra investigacion, hasta donde conocemos, es la
descomposicion morfologica descrita en la ecuacion 4. primer aplicacion de NLP al wixarika, con sus trabajos
futuros permitira avanzar en otras lenguas indgenas y
actuar como una Piedra Rosetta de nuestros tiempos.
WER TER Para trabajos futuros es posible incorporar interfaces de
Sin segmentacion morfologica(SGM) 38 0.84 voz y tinta electronica, que facilitaran la interaccion de
Con segmentacion morfologica(CSM) 25 0.46 las personas con sistemas de traduccion automatica. El
Segmentacion con etiquetado(CSEM) 21 0.46 progreso en la tecnologa de tabletas, celulares y proce-
Cuadro 1. Evaluacion de traduccion sadores programables hacen atractivo el diseno y cons-
truccion de una aplicacion o de un dispositivo de tra-
duccion automatica personal. Este tipo de herramientas
fomentan la vitalizacion de las lenguas originarias en un
El error en la traduccion automatica usando pala- entorno marcado por las TIC.
bras sin segmentacion es mas alto que si usamos un seg-
mentador morfologico. Los resultados usando ademas un
etiquetador de morfemas son ligeramente superiores al Referencias
hecho de no usarlo.
La tecnica con segmentacion y etiquetado tiene una Al-Onaizan, Y., Germann, U., Hermjakob, U., Knight,
clara ventaja con respecto a una segmentacion simple K., Koehn, P., Marcu, D., y Yamada, K. (2002).
Translation with scarce bilingual resources. Ma- Microsoft. (2016, 3). Microsoft translator community
chine Translation, 17 (1), 1-17. Descargado de partners. Descargado de https://www.microsoft
http://www.jstor.org/stable/40008207 .com/en-us/translator/community.aspx
Bahattacharyya, P. (2015). Machine translation. CRC Nieen, S., y Ney, H. (2004, June). Statistical machi-
Press. ne translation with scarce resources using morpho-
de Lenguas Indgenas, I. N. (2016, enero). Lenguas syntactic information. Computational Linguistics,
indgenas en mexico y hablantes (de 3 anos y mas) 20 (2), 181-204.
al 2015. Descargado de http://cuentame.inegi Och, F. J. (1999). An efficient method for determi-
.org.mx/hipertexto/todas lenguas.htm ning bilingual word classes. En Proceedings of the
Ermolaeva, M. (2014). An adaptable morphological par- ninth conference on european chapter of the asso-
ser for agglutinative languages. En Proceedings of ciation for computational linguistics (pp. 7176).
the first italian conference on computational lin- Stroudsburg, PA, USA: Association for Compu-
guistics clic-it 2014 & and of the fourth interna- tational Linguistics. Descargado de http://dx
tional workshop evalita 2014 (pp. 164168). .doi.org/10.3115/977035.977046 doi: 10.3115/
Eryigit, G., y Adal, E. (2004, 16-18 February). An affix 977035.977046
stripping morphological analyzer for Turkish. En Och, F. J., y Ney, H. (2003). A systematic comparison of
Proceedings of the international conference on ar- various statistical alignment models. Computatio-
tificial intelligence and applications (p. 299-304). nal Linguistics, 29 (1), 1951.
Innsbruck. Papineni, K., Roukos, S., Ward, T., y Zhu, W.-J.
Grimes, J. E. (1964). Huichol sintax. Mouton & Co. (2002). Bleu: A method for automatic evalua-
Gutierrez-Vasques, X. (2015, June). Bilingual lexicon ex- tion of machine translation. En Proceedings of
traction for a distant language pair using a small the 40th annual meeting on association for compu-
parallel corpus. En Proceedings of the 2015 con- tational linguistics (pp. 311318). Stroudsburg,
ference of the north american chapter of the as- PA, USA: Association for Computational Lin-
sociation for computational linguistics: Student re- guistics. Descargado de http://dx.doi.org/10
search workshop (pp. 154160). Denver, Colorado: .3115/1073083.1073135 doi: 10.3115/1073083
Association for Computational Linguistics. Des- .1073135
cargado de http://www.aclweb.org/anthology/ P. E. Hart, N. J. N., y Raphael, B. (1968). A formal
N15-2021 basis for the heuristic determination of minimum
Gomez, P. (1999). Huichol de san andres cohamiata, cost paths. IEEE Transactions on Systems, Scien-
jalisco. Colegio de Mexico. ce, and Cybernetics, SSC-4 (2), 100-107.
Iturrio, J. L., y Gomez Lopez, P. (1999). Gramatica Roy, M. (2010). Approaches to handle scarce resour-
wixarika i. Lincom Europa. ces for bengali statistical machine translation (Te-
Knight, K. (1999, diciembre). Decoding complexity sis Doctoral no publicada). Simon Fraser Univer-
in word-replacement translation models. Comput. sity, Burnaby, BC, Canada.
Linguist., 25 (4), 607615. Descargado de http:// Snover, M., Dorr, B., Schwartz, R., Micciulla, L., y Mak-
dl.acm.org/citation.cfm?id=973226.973232 houl, J. (2006). A study of translation edit rate
Koehn, P. (2010). Stadistical machine tanslation. Cam- with targeted human annotation. En In procee-
bridge University Press. dings of association for machine translation in the
Koehn, P., Och, F. J., y Marcu, D. (2003). Statistical americas (pp. 223231).
phrase-based translation. En Proceedings of the Tarski, A. (1936). Der wahrheitsbegriff in den formali-
2003 conference of the north american chapter of sierten sprachen. Studia Philosophica, 1 , 261405.
the association for computational linguistics on hu- UNESCO. (2007, 4). ElaboraciOn de una con-
man language technology - volume 1 (pp. 4854). venciOn para la protecciOn de las lenguas
Stroudsburg, PA, USA: Association for Compu- indIgenas y las lenguas en peligro. Descar-
tational Linguistics. Descargado de http://dx gado de http://unesdoc.unesco.org/images/
.doi.org/10.3115/1073445.1073462 doi: 10 0015/001503/150360s.pdf
.3115/1073445.1073462 xxx. (s.f.-a). xxx.
Laukaitis, A., y Vasilecas, O. (2007). Computational xxx. (s.f.-b). xxx.
linguistics and intelligent text processing: 8th in- Zechner, K., y Waibel, A. (2000). Minimizing word error
ternational conference, cicling 2007, mexico city, rate in textual summaries of spoken language. En
mexico, february 18-24, 2007. proceedings. En Proceedings of the 1st north american chapter of
(pp. 397408). Berlin, Heidelberg: Springer Berlin the association for computational linguistics confe-
Heidelberg. Descargado de http://dx.doi.org/ rence (pp. 186193). Stroudsburg, PA, USA: As-
10.1007/978-3-540-70939-8 35 doi: 10.1007/ sociation for Computational Linguistics. Descar-
978-3-540-70939-8 35 gado de http://dl.acm.org/citation.cfm?id=
974305.974330 ference on ai, ki 2002 aachen, germany, september
Zens, R., Och, F. J., y Ney, H. (2002). Phrase-based sta- 1620, 2002 proceedings (pp. 1832). Berlin, Hei-
tistical machine translation. En M. Jarke, G. La- delberg: Springer Berlin Heidelberg. Descargado
kemeyer, y J. Koehler (Eds.), Ki 2002: Advances de http://dx.doi.org/10.1007/3-540-45751-8
in artificial intelligence: 25th annual german con- 2 doi: 10.1007/3-540-45751-8 2

Traductor Estadístico Wixárika Español Con Escasos Recursos Bilingües.

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Traductor Estadístico Wixárika Español Con Escasos Recursos Bilingües.

Caricato da

Copyright:

Formati disponibili

Traductor estadstico wixarika - espanol usando descomposicion

1. Introduccion veintiun cuentan con menos de mil hablantes. La UNES-

2.2. La traduccion automatica

Sean S = {(fs , es ) : s = 1, . . . , S} un conjunto de frases

emejor = argminIe p(eI |f 0J ) (6)

Para el modelo por frases se va a descomponer p(f 0J |eI )

Cada una de las frases origen f es segmentada en I fra-

El proceso de entrenamiento, como se ilustra en la figura

Wixarika Sin Segmentar Segmentado

Figura 4. Busqueda en el espacio de traduccion

Potrebbero piacerti anche