Sei sulla pagina 1di 4

Procesamiento del Lenguaje Natural, Revista n 53, septiembre de 2014, pp 189-192 recibido 14-04-14 revisado 02-07-14 aceptado 02-07-14

imaxin|software: PLN aplicada a la mejora de la comunicaci


on
multiling
ue de empresas e instituciones
imaxin|software: NLP applied to enhance multilingual communications for
public organisms and companies

Jos
e Ramom Pichel, Diego V azquez, Luz Castro, Antonio Fern andez
imaxin|software
Rua Salgueirinhos de abaixo N11 L6, Santiago de Compostela
e-mail: {jramompichel,diegovazquez,luzcastro,afernandez}@imaxin.com

Resumen: imaxin|software es una empresa creada en 1997 por cuatro titulados en


ingeniera inform
atica cuyo objetivo ha sido el de desarrollar videojuegos multime-
dia educativos y procesamiento del lenguaje natural multiling ue. 17 a
nos mas tarde,
hemos desarrollado recursos, herramientas y aplicaciones multiling ues de referencia
para diferentes lenguas: Portugues (Galicia, Portugal, Brasil, etc.), Espanol (Espana,
Argentina, Mexico, etc.), Ingles, Catalan y Frances. En este artculo haremos una
descripcion de aquellos principales hitos en relacion a la incorporacion de estas tec-
nologas PLN al sector industrial e institucional.
Palabras clave: Big Data, Recursos ling usticos, An
alisis de Sentimientos, Minera
de Opiniones, Traduccion automatica, Servicios online con herramientas PLN de
codigo abierto, Aprendizaje de idiomas asistidos por ordenador.

Abstract: imaxin|software is a company created in 1997 by four computer engi-


neers with the aim of developing educational multimedia games and natural language
processing tools. After 17 years imaxin|software has developed resources, tools and
applications for different languages, specially for Portuguese (Galiza, Portugal, Bra-
zil, etc.), Spanish (Spain, Argentina, Mexico, etc.), English, Catalan, French. In this
article we will describe the main highlights of this technological and human challen-
ge.
Keywords: Big Data, Language Resources, Sentiment Analysis, Opinion Mining,
Machine Translation, Online services using Open-source NLP tools, Computer Aided
Language Learning.

1 Introducci
on 2000 proveedor de tecnologa ling ustica para
Microsoft. Ademas, podemos destacar entre
imaxin|software es una empresa dedicada al
los principales desarrollos en PLN los siste-
desarrollo de servicios y soluciones avanza-
mas de correccion ortografica, gramatical, es-
das de software y multimedia desde el a no
tilstica; sumarizadores de textos, sistemas de
1997, especializada en ingeniera ling
ustica y
opinion mining, pesquisa semantica, sistemas
videojuegos multimedia educativos y forma-
de codificacion medica de historias clnicas,
tivos (Serious Games, Gamification) (Pichel
deteccion automatica de entidades (NER),
et al., 2013).
as como la plataforma lder europea en tra-
imaxin|software que inicialmente estaba
duccion automatica de c odigo abierto: Open-
constituda por cuatro socios-trabajadores,
trad (con sus de los motores de traducci on
tuvo en plantilla hasta veintiseis personas en
Apertium y Matxin) www.opentrad.com.
el a
no 2010. Las ventas de productos y ser-
vicios se han repartido entre publico y priva-
do en porcentajes aproximadas de 60 %-40 %
variando de a no en a no entre un sector y
otro. Nos centraremos en la primera lnea de
desarrollos, imaxin|software es desde el a no
ISSN 1135-5948 2014 Sociedad Espaola para el Procesamiento del Lenguaje Natural
Jos Ramom Pichel Campos, Diego Vzquez Rey, Luz Castro Pena, Antonio Fernndez Cabezas

2 Principales proyectos PLN de bibliografa. Esta integrado con el


aplicados a las necesidades software de gestion de bibliotecas de
empresariales codigo abierto Koha. imaxin|software
ha desarrollado toda la tecnologa.
2.1 Construccion y uso de
recursos lingusticos 2.3 Servicios online mediante el
Correcci on ortogr afica en red Gal- uso de herramientas de PLN
go.NET (2001): de c
odigo abierto
El corrector imaxin Galgo.NET es uno Traductor de documentos online
de los primeros correctores desarrolla- (www.opentrad.com):
dos especficamente para la correcion or-
Existe un servicio en lnea de e-
tografica multiling
ue simultanea (gallego
commerce de Opentrad para traducir
y espa nol) para redacciones de periodi-
documentos entre diferentes lenguas y
cos. imaxin|software ha desarrollado to-
manteniendo en todo momento el forma-
da esta tecnologa incluyendo un tries
to original. imaxin|software ha desarro-
propio para compresion de diccionarios
llado toda la tecnologa web.
(Malvar y Pichel, 2010).
Traductor de documentos en la
Correcci on de lenguaje sexista
Aplicateca de Telef onica:
(Exeria):
Desde el ano 2012 esta instalado el tra-
Hemos desarrollado un corrector para
ductor de documentos Opentrad especial
OpenOffice.org que mejora los textos en
para PYMES en la Tienda Cloud Aplica-
gallego ofreciendo textos con lenguaje no
teca de Telef
onica. imaxin|software ha
sexista. imaxin|software ha desarrolla-
desarrollado toda la tecnologa de inte-
do toda la tecnologa de correcci on es-
gracion en Aplicateca.
tilstica e integraci
on en Openoffice.org.
Coruxa Biomedical Text Mining: 2.4 Traducci
on autom
atica de
Extractor y codificador automatico de c
odigo abierto
informacion medica relevante mediante Opentrad: plataforma de servicios
el uso del PLN. Financiado por la Direc- de traducci on de c odigo abierto
cion Xeral de I+D+i (Xunta de Galicia). (2004-2014)
Investigador principal: imaxin|software, Opentrad (Alegra et al., 2006) es la
USC-GE, IXA Taldea, Doctor QSolu- plataforma de traduccion autom atica en
tions. Transferencia al sector industrial: codigo abierto pionera en el mercado
servicio de codificacion SNOMED-CT espanol (www.opentrad.com). Este pro-
para historias clnicas. imaxin|software yecto se inici
o en el ano 2004, siendo
ha desarrollado toda la tecnologa de co- el resultado de diferentes proyectos de
dificacion. IXA Taldea ha desarrollado I+D+i (PROFIT y Avanza del Minis-
un anonimizador de historias clnicas y terio de Industria) desarrollados por un
la USC-GE el procesamiento de onto- consorcio formado por Universidades y
logas. Empresas (Transducens-UA, Eleka, El-
huyar, IXA Taldea, TALP (UPC), ima-
2.2 Optimizadores sem
anticos de xin|software y SLI-Universidade de Vi-
b
usquedas go). Como resultado de este proyecto se
Optimizador de b usquedas en constituyo una spin-off especialista en
bibliotecas mediante ontologa uno de los motores del proyecto (Aper-
(2008): tium), Prompsit Language Technologies.
El objetivo del modulo Optimizador es Opentrad esta formada por dos ingenios
expandir las busquedas efectuadas por de traduccion de codigo abierto (Aper-
los/as usuarios/as en los sistemas de tium y Matxin). Opentrad mejora la co-
consulta bibliografica del CSBG (Centro municacion multilingue, permite publi-
Superior Bibliografico de Galicia) me- car informacion en diferentes idiomas,
diante el uso de ontologas construda reduce costes y tiempos de revision hu-
adhoc a partir de un corpus construdo mana, permitiendo incluso la mejora de
190
imaxin|software: PLN aplicada a la mejora de la comunicacin multilinge de empresas e instituciones

los tiempos en la localizaci


on de versio- CELTIC: Conocimiento Estrat egi-
nes multiling
ues de aplicaciones empre- co Liderado por Tecnologas para la
sariales. Inteligencia Competitiva (FEDER-
Opentrad esta o estuvo implantado en INNTERCONECTA):
administraciones, empresas y portales de El proyecto, actualmente en desarrollo,
Internet traduciendo millones de pala- esta orientado al campo de la vigilancia
bras diariamente (Ministerio de Admi- tecnologica y el Social Media Marketing
nistraciones P
ublicas, Xunta de Galicia, mediante el uso de PLN y el procesa-
Universidades Publicas Gallegas, La Voz miento en Big Data.
de Galicia, Faro de Vigo, Instituto Cer- Este proyecto ha sido financiado median-
vantes, Kutxa, Eroski, etc.) te los fondos tecnol ogicos europeos para
La mejora continua de los de los in- regiones objetivo 1 de la Union Euro-
genios de traduccion (Apertium y Mat- pea. Estos fondos conocidos como FE-
xin) permite ofrecer sobre todo, una me- DER INNTERCONECTA, son proyec-
jor calidad entre lenguas proximas (Es- tos Integrados de desarrollo experimen-
panol-Frances Espanol-Portugues, Es- tal altamente competitivos, con caracter
panol-Portugues do Brasil, Espa nol- estrategico, de gran dimensi on y que tie-
Catalan, Espa nol-Gallego, etc.) que nen como objetivo el desarrollo de tecno-
otros traductores automaticos. logas nuevas en areas tecnologicas de fu-
turo con proyeccion econ omica y comer-
imaxin|software ha desarrollado todas
cial a nivel internacional, suponiendo a
las tecnologas para integrar los proto-
la vez un avance tecnol ogico e industrial
tipos de Opentrad en cliente final y la
relevante para las autonomas destinata-
mejora lingusticas de los recursos de
rias de las ayudas, como es el caso de
traduccion autom atica especificamente
Galicia.
para los pares espa nol-galego, espa nol-
portugues y espa nol-ingles (Pichel et al., imaxin|software consigui o en el a no
2009). 2012 este proyecto con un consor-
cio formado polas siguientes empre-
sas y Universidades: Indra, Elogia,
2.5 Analisis de sentimientos y SaecData, Gradiant, USC-PRONAT-
minera de opinion para un L (USC), Computational Architecture
seguimiento de marca Group (USC).
inteligente y analisis Big Data El objetivo del proyecto es el desarrollo
En este campo hemos desarrollado en el a no de tecnologas capacitadoras que facili-
2009 un prototipo inicial (Coati) de an ali- ten al tejido empresarial la toma de deci-
sis de sentimientos. En la actualidad, he- siones estrategicas en tiempo casi-real, a
mos trasladado esta experiencia a un proyec- partir del conocimiento tanto del medio
to mas ambicioso relacionado con el An alisis cientfico-tecnologico como de los impac-
de sentimientos y minera de opini
on relacio- tos economicos presentes y futuros. O lo
nado con el Big Data. Explicaremos cada uno que es el mismo, el desarrollo de tecno-
de ellos en detalle: logas capacitadoras para la Inteligencia
Competitiva en las organizaciones.
Coati Opinion mining (2009): Las tecnologas a desarrollar durante el
En este proyecto hemos investigado co- proyecto cubren el proceso completo de
mo extraer automaticamente de blogs la Inteligencia Competitiva, en sus res-
opiniones y tendencias interesantes pa- pectivas fases: agregacion de informa-
ra el ambito empresarial y la adminis- cion, analisis de la informacion extrayen-
tracion p
ublica (2009) mediante el uso do de ella el conocimiento necesario, y la
de tecnicas de Opinion Mining. ima- distribucion mediante mecanismos de vi-
xin|software ha desarrollado toda la tec- sualizacion e iteracci on avanzados para
nologa del crawler y el corpus de en- facilitar la toma de decisiones estrategi-
trenamiento del Opinion Mining basado cas.
en support vector machine (Malvar y Pi- El ambito de aplicaci on es el Social Me-
chel, 2011). Pendiente de evaluacion. dia Marketing y la Vigilancia tecnologi-
191
Jos Ramom Pichel Campos, Diego Vzquez Rey, Luz Castro Pena, Antonio Fernndez Cabezas

ca. En el primero, la competitividad ac- colaboraci


on y transferencia con los organis-
tual genera la necesidad de disponer mos publicos de investigaci
on (Universidades
de sistemas de monitorizacion inteligen- y Centros Tecnol ogicos).
te y en tiempo real de redes sociales y
analisis del impacto de los productos de Bibliografa
una marca determinada en el consumi- Alegra, I., I. Arantzabal, M Forcada,
dor (Gamallo, Garcia, y Pichel, 2013). X. Gomez-Guinovart, L. Padr o, J. R. Pi-
Esto puede ser posible mediante la inte- chel, y J. Wali
no. 2006. OpenTrad: Tra-
gracion de tecnologas avanzadas de pro- duccion automatica de c
odigo abierto para
cesamiento del lenguaje natural y tecno- las lenguas del estado espa nol. Procesa-
logas semanticas. miento del Lenguaje Natural, 37:357358.
En el campo de la Vigilancia tecnologica Gamallo, P., M. Garcia, y J. R. Pichel.
los los desarrollos a realizar en este pro- 2013. A method to lexical normalisation
yecto permitiran el acceso y gestion en of tweets. En XXIX Congreso de la So-
tiempo real de los conocimientos cientfi- ciedad Espanola de Procesamiento de Len-
cos y tecnicos a las empresas, as como guaje Natural. Workshop on Sentiment
la informacion mas relevante sobre su Analysis at SEPLN, paginas 8185.
contexto, junto a la comprensi on a tiem-
po del significado e implicaciones de los Malvar, P. y J. R. Pichel. 2010. Obtai-
cambios y novedades. ning computational resources for langua-
imaxin|software ha desarrollado en co- ges with scarce resources from closely re-
laboraci on con Indra, la USC-GE y lated computationally-developed langua-
USC-CA todos los desarrollos de PLN ges. the galician and portuguese case. En
integrados en Big Data. Todas los desa- Internacional de Ling ustica de Corpus
rrollos estan pendientes de evaluacion al (CILC10), paginas 529536.
final del proyecto. Malvar, P. y J. R. Pichel. 2011. Metodos se-
miautomaticos de generaci on de recursos
2.6 Aprendizaje de Lenguas de opinion mining para el gallego a par-
asistido por Ordenador tir del portugues y el espa
nol. Novatica:
(Juegos y Lexicografa) Revista de la Asociaci on de Tecnicos de
Inform atica, 214:6164.
Por u
ltimo hemos desarrollado el Portal das
palabras en el ano 2013, una web educativa Pichel, J. R., P. Malvar, O. Senra, P. Ga-
que pone en valor el diccionario de la Real mallo, y A. Garca. 2009. Carval-
Academia Galega mediante juegos relaciona- ho: English-galician SMT system from
dos con las palabras para un mejor aprendi- english-portuguese parallel corpus. Pro-
zaje del gallego por el p ublico en general y cesamiento del Lenguaje Natural, 43:379
sectores mas distantes de la lengua como el 381.
mundo empresarial. Pichel, J. R., D. V azquez, L. Castro, y
Con el Portal de las Palabras no solo po- A. Fernandez. 2013. 16 anos desenvol-
demos mejorar nuestra competencia en idio- vendo aplicacoes no campo do processa-
ma gallego sino que tambien aprenderemos mento da linguagem natural multilingue.
jugando. Incluye tambien el diccionario de la Linguam atica, 5(1):1320.
RAG con b usquedas de lemas y sinonimos,
videos explicativos y guas didacticas para la
lengua.
imaxin|software ha desarrollado toda la
tecnologa PLN y web en este proyecto.

3 Conclusiones
Este artculo pretende mostrar por un lado
un mosaico de tecnologas PLN (productos,
servicios y proyectos de I+D) de mas de 17
a
nos de una peque na empresa, y por otro la
importancia que para este fin ha tenido la
192

Potrebbero piacerti anche