Sei sulla pagina 1di 10

Procesamiento del Lenguaje Natural (PLN)

El procesamiento del lenguaje natural (PLN), rea de investigacin en continuo desarrollo, se aplica en la actualidad en diferentes actividades como son la traduccin automtica, sistemas de recuperacin de informacin, elaboracin automtica de resmenes, interfaces en lenguaje natural, etc.

Aun siendo evidente que los obstculos a superar en el estudio del tratamiento del lenguaje son considerables, los resultados obtenidos y la evolucin en los ltimos aos sitan al PLN en posicin para liderar una nueva dimensin en las aplicaciones informticas del futuro: los medios de comunicacin del usuario con el ordenador pueden ser ms flexibles y el acceso a la informacin almacenada ms eficiente. Por ejemplo, con la creacin de interfaces inteligentes el usuario dispondra de la facilidad para interactuar con el ordenador en lenguaje natural. Asimismo, el uso de tcnicas de PLN puede tener un alto impacto en la gestin documental y en los sistemas de traduccin automtica. No obstante, la complejidad implcita en el tratamiento del lenguaje comporta limitaciones en los resultados y, por tanto, aplicaciones en reas de conocimiento concretas y con un uso restringido del lenguaje.

Concepto de Procesamiento del Lenguaje Natural

El PLN se concibe como el reconocimiento y utilizacin de la informacin expresada en lenguaje humano a travs del uso de sistemas informticos. En su estudio intervienen diferentes disciplinas tales como lingstica, ingeniera informtica, filosofa, matemticas y psicologa. Debido a las diferentes reas del conocimiento que participan, la aproximacin al lenguaje en esta perspectiva es tambin estudiada desde la llamada ciencia cognitiva. Tanto desde un enfoque computacional como lingstico se utilizan tcnicas de inteligencia artificial:
Modelos de representacin del conocimiento y de razonamiento, Lenguajes de programacin declarativos, Algoritmos de bsqueda, y

Estructuras de datos.

El uso de tcnicas computacionales procedentes especialmente de la inteligencia artificial no aportara soluciones adecuadas sin una concepcin profunda del fenmeno lingstico. Por otra parte, las gramticas utilizadas para el tratamiento del lenguaje han evolucionado hacia modelos ms adecuados para un tratamiento computacional. Cuatro Niveles de Anlisis

El estudio del lenguaje natural se estructura normalmente en 4 niveles de anlisis:


Morfolgico, Sintctico, Semntico y Pragmtico.

Adems se pueden incluir otros niveles de conocimiento como es la informacin fonolgica, referente a la relacin de las palabras con el sonido asociado a su pronunciacin; el anlisis del discurso, que estudia cmo la informacin precedente puede ser relevante para la comprensin de otra informacin; y, finalmente, lo que se denomina conocimiento del mundo, referente al conocimiento general que los hablantes han de tener sobre la estructura del mundo para mantener una conversacin. Anlisis Morfolgico

Su funcin consiste en detectar la relacin que se establece entre las unidades mnimas que forman una palabra, como puede ser el reconocimiento de sufijos o prefijos. Este nivel de anlisis mantiene una estrecha relacin con el lxico. El lxico es el conjunto de informacin sobre cada palabra que el sistema utiliza para el procesamiento. Las palabras que forman parte del diccionario estn representadas por una entrada lxica, y en caso de que sta tenga ms de un significado o diferentes categoras gramaticales, tendr asignada diferentes entradas.

En el lxico se incluye la informacin morfolgica, la categora gramatical, irregularidades sintcticas y representacin del significado. Normalmente el lxico slo contiene la raz de las palabras con formas regulares, siendo el analizador morfolgico el que se encarga de determinar si el gnero, nmero o flexin que componen el resto de la palabra son adecuados. Anlisis Sintctico

Tiene como funcin etiquetar cada uno de los componentes sintcticos que aparecen en la oracin y analizar cmo las palabras se combinan para formar construcciones gramaticalmente correctas. El resultado de este proceso consiste en generar la estructura correspondiente a las categoras sintcticas formadas por cada una de las unidades lxicas que aparecen en la oracin. Las gramticas, tal como se muestra en la siguiente figura, estn formadas por un conjunto de reglas:

O --> SN, SV SN --> Det, N SN --> Nombre Propio SV --> V, SN SV --> V SP --> Preposicin, SN SN = sintagma nominal SV = sintagma verbal Det = determinante Ejemplo de una Gramtica Simple: Las Reglas tiene como funcin la composicin de estructuras

El resultado del anlisis se puede expresar en forma arbrea. Los rboles son formas grficas utilizadas para expresar la estructura de la oracin, consistentes en nodos etiquetados (O, SN, SV.) conectados por ramas:

Anlisis Semntico

En muchas aplicaciones del PLN los objetivos del anlisis apuntan hacia el procesamiento del significado. En los ltimos aos las tcnicas de procesamiento sintctico han experimentado avances significativos, resolviendo los problemas fundamentales. Sin embargo, las tcnicas de representacin del significado no han obtenido los resultados deseados, y numerosas cuestiones continan sin encontrar soluciones satisfactorias. Definir qu es el significado no es una tarea sencilla, y puede dar lugar a diversas interpretaciones. A efectos funcionales, para facilitar el procesamiento, la modularidad es una de las propiedades ms deseables. Haciendo uso de esta concepcin modular es posible distinguir entre significado independiente y significado dependiente del contexto. El primero, tratado por la semntica, hace referencia al significado que las palabras tienen por s mismas sin considerar el significado adquirido segn el uso en una determinada circunstancia. La semntica, por tanto, hace referencia a las condiciones de verdad de la frase, ignorando la influencia del contexto o las intenciones del

hablante. Por otra parte, el componente significativo de una frase asociado a las circunstancias en que sta se da, es estudiado por la pragmtica y conocido como significado dependiente del contexto. Atendiendo al desarrollo en el proceso de interpretacin semntica, es posible optar entre mltiples pautas para su organizacin, tal como se determinan en los siguientes prrafos. En referencia a la estructura semntica que se va a generar, puede interesarnos que exista una simetra respecto a la estructura sintctica, o por el contrario que no se d tal correspondencia entre ellas. En el primer caso, a partir del rbol generado por el anlisis sintctico se genera una estructura arbrea con las mismas caractersticas, sobre la cual se realizar el anlisis semntico. En el segundo caso, en la estructura generada por la sintaxis se produce un curso de transformaciones sobre las cuales se genera la representacin semntica. Cada una de las dos opciones anteriores puede implementarse de forma secuencial o paralela. En la interpretacin secuencial, despus de haber finalizado la fase de anlisis sintctico, se genera el anlisis semntico. En cambio, desde un procedimiento en paralelo, el proceso de anlisis semntico no necesita esperar a que el analizador sintctico haya acabado toda su tarea, sino que puede ir realizando el anlisis de cada constituyente cuando ste ha sido tratado en el proceso sintctico. Finalmente en combinacin con cada una de las opciones anteriores, podemos escoger un modelo en el que exista una correspondencia entre reglas sintcticas y semnticas o, contrariamente, podemos optar por un modelo que no cumpla tal requisito. En caso afirmativo, para cada regla sintctica existir una regla semntica correspondiente. El significado es representado por formalismos conocidos por el nombre de knowledge representation. El lxico proporciona el componente semntico de cada palabra en un formalismo concreto, y el analizador semntico lo procesa para obtener una representacin del significado de la frase.

Anlisis Pragmtico

Aade informacin adicional al anlisis del significado de la frase en funcin del contexto donde aparece. Se trata de uno de los niveles de anlisis ms complejos, la

finalidad del cual es incorporar al anlisis semntico la aportacin significativa que pueden hacer los participantes, la evolucin del discurso o informacin presupuesta. Incorpora as mismo informacin sobre las relaciones que se dan entre los hechos que forman el contexto y entre diferentes entidades. Minera de Datos Data Mining

Data Mining es una etapa dentro de un proceso mayor llamado extraccin de conocimiento en bases de datos. Lo que en verdad hace el data mining es reunir las ventajas de varias reas como la Estadstica, la Inteligencia Artificial, la Computacin Grfica, las Bases de Datos y el Procesamiento Masivo, principalmente usando como materia prima las bases de datos. Una definicin tradicional es la siguiente: Un proceso no trivial de identificacin vlida, novedosa, potencialmente til y entendible de patrones comprensibles que se encuentran ocultos en los datos. Los Fundamentos del Data Mining

Las tcnicas de Data Mining son el resultado de un largo proceso de investigacin y desarrollo de productos. Esta evolucin comenz cuando los datos de negocios fueron almacenados por primera vez en computadoras, y continu con mejoras en el acceso a los datos, y ms recientemente con tecnologas generadas para permitir a los usuarios navegar a travs de los datos en tiempo real. Data Mining toma este proceso de evolucin ms all del acceso y navegacin retrospectiva de los datos, hacia la entrega de informacin prospectiva y proactiva. Data Mining est listo para su aplicacin en la comunidad de negocios porque est soportado por tres tecnologas que ya estn suficientemente maduras: Recoleccin masiva de datos. Potentes computadoras con multiprocesadores. Algoritmos de Data Mining.

Principales Caractersticas y Objetivos de la Minera de Datos Explorar los datos se encuentran en las profundidades de las bases de datos, como los almacenes de datos, que algunas veces contienen informacin almacenada durante varios aos. En algunos casos, los datos se consolidan en un almacn de datos y en mercados de datos; en otros, se mantienen en servidores de Internet e Intranet. El entorno de la minera de datos suele tener una arquitectura cliente - servidor. Las herramientas de la minera de datos ayudan a extraer el mineral de la informacin enterrado en archivos corporativos o en registros pblicos, archivados. El minero es, muchas veces un usuario final con poca o ninguna habilidad de programacin, facultado por barrenadoras de datos y otras poderosas herramientas indagatorias para efectuar preguntas adhoc y obtener rpidamente respuestas. Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e inesperados. Las herramientas de la minera de datos se combinan fcilmente y pueden analizarse y procesarse rpidamente. Debido a la gran cantidad de datos, algunas veces resulta necesario usar procesamiento en paralelo para la minera de datos. La minera de datos produce cinco tipos de informacin: Asociaciones. Secuencias. Clasificaciones. Agrupamientos. Pronsticos.

Los mineros de datos usan varias herramientas y tcnicas.

La minera de datos es un proceso que invierte la dinmica del mtodo cientfico en el siguiente sentido:

En el mtodo cientfico, primero se formula la hiptesis y luego se disea el experimento para coleccionar los datos que confirmen o refuten la hiptesis. Si esto se hace con la formalidad adecuada (cuidando cules son las variables controladas y cules experimentales), se obtiene un nuevo conocimiento. En la minera de datos, se coleccionan los datos y se espera que de ellos emerjan hiptesis. Se busca que los datos describan o indiquen por qu son como son. Luego entonces, se valida esa hiptesis inspirada por los datos en los datos mismos, ser numricamente significativa, pero experimentalmente invlida. De ah que la minera de datos debe presentar un enfoque exploratorio, y no confirmador. Usar la minera de datos para confirmar las hiptesis formuladas puede ser peligroso, pues se est haciendo una inferencia poco vlida. La minera de datos es una tecnologa compuesta por etapas que integra varias reas y que no se debe confundir con un gran software. Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadsticas, de visualizacin de datos o de inteligencia artificial, principalmente. Actualmente existen aplicaciones o herramientas comerciales de minera de datos muy poderosas que contienen un sinfn de utileras que facilitan el desarrollo de un proyecto. Sin embargo, casi siempre acaban complementndose con otra

herramienta. El Alcance de Data Mining

El nombre de Data Mining deriva de las similitudes entre buscar valiosa informacin de negocios en grandes bases de datos - por ej.: encontrar informacin de la venta de un producto entre grandes montos de Gigabytes almacenados y minar una montaa para encontrar una veta de metales valiosos. Ambos procesos requieren examinar una inmensa cantidad de material, o investigar inteligentemente hasta encontrar exactamente donde residen los valores. Dadas bases de datos de suficiente tamao y

calidad, la tecnologa de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades: Prediccin automatizada de tendencias y comportamientos. Data Mining automatiza el proceso de encontrar informacin predecible en grandes bases de datos. Preguntas que tradicionalmente requeran un intenso anlisis manual, ahora pueden ser contestadas directa y rpidamente desde los datos. Un tpico ejemplo de problema predecible es el marketing apuntado a objetivos (targeted marketing). Data Mining usa datos en mailing promocionales anteriores para identificar posibles objetivos para maximizar los resultados de la inversin en futuros mailing. Otros problemas predecibles incluyen pronsticos de problemas financieros futuros y otras formas de incumplimiento, e identificar segmentos de poblacin que probablemente respondan similarmente a eventos dados. Descubrimiento automatizado de modelos previamente desconocidos. Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un slo paso. Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de crditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos. Las tcnicas de Data Mining pueden redituar los beneficios de automatizacin en las plataformas de hardware y software existentes y puede ser implementada en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados. Cuando las herramientas de Data Mining son implementadas en sistemas de procesamiento paralelo de alta performance, pueden analizar bases de datos masivas en minutos. Procesamiento ms rpido significa que los usuarios pueden automticamente experimentar con ms modelos para entender datos complejos. Alta velocidad hace que sea prctico para los usuarios analizar inmensas cantidades de datos. Una Arquitectura para Data Mining

Para aplicar mejor estas tcnicas avanzadas, stas deben estar totalmente integradas con el data warehouse as como con herramientas flexibles e interactivas para el

anlisis de negocios. Varias herramientas de Data Mining actualmente operan fuera del warehouse, requiriendo pasos extra para extraer, importar y analizar los datos. Adems, cuando nuevos conceptos requieren implementacin operacional, la integracin con el warehouse simplifica la aplicacin de los resultados desde Data Mining. El Data warehouse analtico resultante puede ser aplicado para mejorar procesos de negocios en toda la organizacin, en reas tales como manejo de campaas promocionales, deteccin de fraudes, lanzamiento de nuevos productos, etc. El punto de inicio ideal es un data warehouse que contenga una combinacin de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores. Informacin histrica sobre potenciales clientes tambin provee una excelente base para prospecting. Este warehouse puede ser implementado en una variedad de sistemas de bases relacionales y debe ser optimizado para un acceso a los datos flexible y rpido.

Potrebbero piacerti anche