Sei sulla pagina 1di 5

Mineria de Textos o Text Mining

Es una de las ramas de la lingstica computacional que trata de obtener


informacion y conocimiento a partir de conjuntos de datos que en principio no
tienen un orden o no estan dispuestos en origen para transmitir esa
informacion
Es una tecnica clave en un mundo como el actual en el que continuamente se
recogen datos desde distintas perspectivas y de muchos aspectos diferentes de
todas las actividades propias de los seres humanos.

Concepto / Definicion / Introduccion de la mineria de textos como tecnica
de recuperacion y organizacion de la informacion
Es imprescindible para entender lo que es la Mineria de Textos o Text Mining,
tener claro antes lo que es el Data Mining:
Este ultimo concepto surgi hace ya mas de cinco aos para ayudar a la
comprensin de los contenidos de las bases de datos. En cualquier acto de
comunicacin o de tratamiento de informacin, de lo que se trata es de
adquirir conocimiento a partir de unos datos originales. Para el Data Mining
los datos son la materia prima bruta a los que los usuarios dan un significado
convirtiendolos en informacin que posteriormente sera tratada y utilizada por
los especialistas para convertirlos en conocimiento.
El data mining a conseguido reunir las ventajas de reas como la Estadstica,
la Inteligencia Artificial, la Computacin Grfica, las Bases de Datos y el
Procesamiento Masivo, las bases de datos como materia prima. Molina y otros
lo definiran como "la integracin de un conjunto de reas que tienen como
propsito la identificacin de un conocimiento obtenido a partir de las bases
de datos que aporten un sesgo hacia la toma de decisin" (Molina y otros,
2001).
Entendido que es el Data Mining, podemos extrapolar la misma idea a la
Minera de Textos o Text mining. Los datos a tratar con esta tcnica sern, en
lugar de los datos de las bases de datos, los documentos y textos de las
organizaciones, administraciones, compaas, etc.
El Text Mining no se debe confundir con la recuperacin de la informacin,
que es la recuperacin automtica de documentos relevantes mediante
indexaciones de textos, clasificacin, categorizacin, etc. La informacin que
realmente le interesara a la minera de textos es aquella contenida en esos
documentos pero de manera general, es decir, no esta contenida en un texto en
concreto sino que es la informacin global que tienen todos los registros,
textos, documentos... de la coleccin en comn. Es un anlisis de los datos
compartidos por todos los textos de la coleccin que se ofrece de manera
indirecta, es decir, son informaciones que la coleccin dar a los especialistas
pero que no fue especficamente incluida en esa coleccin en el momento de
su creacion para su posterior difusion a los usuarios.
Por tanto, podemos decir que la Mineria de Textos comprende tres actividades
fundamentales:
1. Recuperacin de informacin, es decir, seleccionar los textos
pertinentes.
2. Extraccin de la informacin incluida en esos textos: hechos,
acontecimientos, datos clave, relaciones entre ellos, etc.
3. Por ultimo se realizaria lo que antes definiamos como minera de datos
para encontrar asociaciones entre esos datos claves previamente
extraidos de entre los textos

En resumen, la minera de textos pueden ayudar a que la informacin
implcita en los documentos ms explcitos, que le ahorra tiempo y dinero.
Echa un vistazo a nuestra pgina de servicios para descubrir la gama de
servicios que actualmente ofrecemos. El text mining se apoya en otras
tcnicas como:

categorizacin de texto
procesamiento de lenguaje natural
extraccin y recuperacin de la informacin
aprendizaje automtico



Para que sirve la Minera de Textos o Text Mining? Cuales son sus
usos? Es util para la recuperacion y organizacion de la informacion?


Es muy til para todas la compaas, administraciones y organizaciones en
general que por las caractersticas propias de su funcionamiento, composicin
y actividades generan gran cantidad de documentos y que estn interesadas en
obtener informacion a partir de todo ese volumen de datos. Les puede servir
para conocer mejor a sus clientes, cuales son sus hbitos, preferencias,...
Un ejemplo claro de la utilizacion de las tecnicas de mineria de textos lo
realiz Hearst en 1999 y es incluido como ejemplo en el articulo en Data
mining: torturando a los datos hasta que confiesen de Luis Carlos Molina
Flix. En el describe como Don Swanson trato de extraer informacin a partir
de colecciones de texto y demostr cmo cadenas de implicaciones causales
dentro de la literatura mdica pueden conducir a hiptesis para enfermedades
poco frecuentes, como por ejemplo ocurrio con la migraa. Se pudieron
extraer evidencias a partir de varios articulos de literatura biomedica y algunas
de las claves fueron:
1. El estrs est asociado con la migraa.
2. El estrs puede conducir a la prdida de magnesio.
3. Los bloqueadores de canales de calcio previenen algunas migraas.
4. El magnesio es un bloqueador natural del canal de calcio.
5. La depresin cortical diseminada (DCD) est implicada en algunas
migraas.
6. Los niveles altos de magnesio inhiben la DCD.
7. Los pacientes con migraa tienen una alta agregacin plaquetaria.
8. El magnesio puede suprimir la agregacin plaquetaria.

Estas evidencias permitieron crear una hiptesis que no exista en la literatura
cientfica como tal pero que se pudo encontrar de manera indirecta haciendo
un anlisis diferente de los textos. Segn Swanson (Swanson y otros, 1994),
estudios posteriores probaron experimentalmente esta hiptesis obtenida por
text mining con buenos resultados.
De la misma manera, analizando por ejemplo las fichas de entrada en una
fabrica es posible obtener informacin sobre los trabajadores que sellan al
entrar y al salir. Estudindolas detenidamente se podra averiguar si existe
algn da en el que esos trabajadores entran o salen mas tarde de lo normal, si
existe algn departamento en el que los trabajadores suelen salir mas tarde, la
incidencia de faltas o retrasos en funcin de las fechas, etc.



Como hacer minera de textos (Text Mining)?


Es una tcnica relativamente nueva, cambiante y que puede adaptarse a
diferentes situaciones y casos, por lo que no existe un mtodo estricto a seguir
siempre. Sin embargo, en trminos generales se podra decir que estas son las
cuatro etapas principales:
Primera
Determinacin de los objetivos. Aclarar que es lo que se esta buscando con
esta investigacion, acotando hasta que punto se quiere profundizar en la misma
y definiendo claramente los limites.
Segunda
Preprocesamiento de los datos, que seria la seleccin, anlisis y reduccin de
los textos o documentos de los que se extraer la informacin. Esta etapa
consume la mayor parte del tiempo.
Tercera
Determinacin del modelo. Segn los objetivos planteados y la tarea que debe
llevarse a cabo, pueden utilizarse unas tcnicas u otras.
Cuarta
Anlisis de los resultados. A partir de los datos extraidos se tratara de ver su
coherencia y se buscaran evidencias, similitudes, excepciones, etc, que puedan
servir al especialista o al usuario que haya encargado el estudio para extraer
conclusiones que pueda utilizar para mejorar algn aspecto de su empresa,
compaa, administracin u organizacin en general.

Conclusiones sobre esta nueva tecnica de recuperacion y organizacion de
la informacion


La minera de textos es una tecnologa recuperacion y organizacion de la
informacion que aunque todava es emergente y necesita ser mejor
desarrollada, nos sirve para obtener un tipo de informacin muy til en
cualquier tipo de organizacin publica o privada.
Econmicamente es una tcnica que puede utilizarse para ahorrar dinero y
abrir oportunidades de negocio a las empresas.
En cualquier organizacin, las conclusiones a las que se puede llegar a travs
del text mining pueden ser utilizadas para la toma de decisiones.
Y todo esto es consecuencia del desarrollo tan abrumador que la sociedad de
la informacin a supuesto en cuanto a la generacin de informacin y nuestra
capacidad para almacenarla. Cada vez es mas fcil recabar datos y guardarlos
adecuadamente. El reto es saber aprovechar el potencial de conocimiento
escondido en ellos. Gracias a tcnicas de apoyo como el Text Mining se ha
podido ver mas all de lo que a simple vista ofrecen los documentos. Con esta
y otras tecnicas de recuperacion y organizacion de la informacion se ha
podido explorar, analizar, comprender y aplicar el conocimiento encerrado en
los textos.
En el mbito comercial, resulta interesante encontrar patrones ocultos de
consumo de los clientes para poder explorar nuevos horizontes. Saber que un
vehculo deportivo corre un riesgo de accidente casi igual al de un vehculo
normal cuando su dueo tiene un segundo vehculo en casa ayuda a crear
nuevas estrategias comerciales para ese grupo de clientes. Asimismo, predecir
el comportamiento de un futuro cliente, basndose en los datos histricos de
clientes que presentaron el mismo perfil, ayuda a poder retenerlo durante el
mayor tiempo posible.
El campo de la minera de textos, text mining y data mining ofrece
importantes expectativas profesionales para los documentalistas y los expertos
en el campo de la informacin y las nuevas tecnologas. Su aplicacin no
siempre es sencilla y las organizaciones o administraciones que necesitan de
estos estudios necesitaran consultar a expertos en el rea para llevar a cabo
estos estudios. Explicndole los objetivos el experto sabr cual es la mejor
manera de llevar a cabo el anlisis de esos textos.

Potrebbero piacerti anche