Sei sulla pagina 1di 11

Minera de Textos o Text Mining

Resumen
Con la evolucin de las computadoras y el aumento exponencial de los datos, que son producen
diariamente por la sociedad. Condujo a varios investigadores a buscar informacin que fuere
potencialmente valioso, dado que un dato en si es inservible, es necesario de aplicar y establecer
patrones para poder extraer conocimientos sobre los datos, es de esta forma como nace la minera
de datos. Por otro lado tambin evoluciona la digitalizacin de documentos que de igual forma que
los datos crece de forma exponencial lo que crea nuevos horizontes para la minera de datos.
Aunque con una notable diferencia ya que con la minera de Datos, estos datos se encuentran
estructurados de alguna forma, sin embargo en la minera de texto los datos no poseen ninguna
estructura, de esta forma se crea la minera de Texto, al igual que los datos la minera de Texto
tambin ofrece la posibilidad de proporcionar conocimiento.

Palabras-clave: Minera, Datos, Texto. Bases de Datos Textuales, Procesamiento del


Lenguaje Natural (PLN), Mtodos, Patrones.

Introduccin
La minera de Texto

busca analizar texto ya existente para lo cual es necesario desarrollar

procedimientos automticos para: obtener los temas, indexar los documentos, construir bases de
documentos para una bsqueda automtica. La principal finalidad es la de buscar informacin para
lo cual es necesario tratar los textos de varios documentos, para poder construir o descubrir algn
tipo de informacin.
Que es Minera: Minera es el estudio y tratamiento de datos masivos para extraer informacin, la
cual era desconocida y potencialmente til.

Minera de Texto.Wikipedia define la Minera de texto como La minera de textos se refiere al


proceso de derivar informacin nueva de textos.
Otra definicin es:Es una de las ramas de la lingstica computacional que trata de obtener
informacin y conocimiento a partir de conjuntos de datos que en principio no tienen un orden o no
estn dispuestos en origen para transmitir esa informacin
Concepto de Minera de Texto: La minera de texto es el tratamiento de grandes volmenes de
texto que no proporcionan ninguna informacin a travs de programas informticos que detecten
patrones o regularidades entre los textos, con la finalidad de obtener algn tipo de informacin que
sea potencialmente til, o que sea desconocida.
Complejidad de la Minera de Texto: a diferencia de la Minera de datos, la Minera de texto los
datos no estn estructurados, por otro lado en un documento de texto est compuesto Graficas,
Imgenes, tablas y el texto propiamente, todo esto sumado a la jerga lingstica, lo cual puede crear
confusin.
La minera de Texto abarcar la minera en la web tambin conocida como Web Mining, la cual busca
encontrar alguna informacin en la web, para ello tambin se puede basar en la Web contentmining
(minera de contenido web),Web structuremining (minera de estructura web)Web usagemining
(minera de uso web)
Herramientas de minera de texto. Para poder realizar la minera de texto contamos con varias
herramientas computacionales, entre las cuales podemos mencionar:
Weka es una plataforma de software que fue desarrollado en Java por la universidad Waikato, este
software es distribucin libre, y puede ser utilizado para el aprendizaje automatico (IA) y la minera
de datos.
RapidMiner, Es un software para el anlisis de la minera de datos, tambin desarrollada en Java,
esta herramienta ocupo el segundo lugar entre las herramientas analticas y de minera de
datos.RapidMiner fue desarrollado inicialmente por la Universidad de Dortmun, y tambin es de
licencia Gratuita.
Lenguaje R: Software para el anlisis estadstico, este lenguaje de programacin es el ms popular
en los campos de la investigacin biomdica, la bioinformtica y las matemticas financieras.
Tambin se distribuye bajo licencias GNU GPL, sin embargo existe otra versin del lenguaje R,
llamada Ror, esta ltima versin es distribuida por Oracle. Y est orientada a su base de datos.
Adems de contar con un entorno grfico.

Otra caracterstica importante de R, es que posee varios editores de textos. Como Bluefish,8
Crimson Editor, ConTEXT, Eclipse,9 Emacs (Emacs Speaks Statistics), Geany, jEdit,10 Kate,11
RStudio,12 RKWard,13 Syn, TextMate, Tinn-R, Vim, gedit, SciTE, WinEdt (R Package RWinEdt) y
notepad++.14
SPSS Programa estadstico, el cual es muy utilizado en las ciencias sociales. Lo que ms sobre sale
de esta herramienta es su capacidad para trabajar con grandes volmenes de datos, en la versin
12 ya se poda trabajar con 2 millones de registros y 250,000 variables. SPSS es de pago, y se
vende por mdulos. Fue desarrollado por IBM. Quien al dia de hoy sigue dando soporte la ltima
versin es la 22 la cual fue liberada en septiembre del 2013
SAS, Es otro programa estadstico, muy utilizado junto con SPSS son considerados los mejores, el
problema es su alto costo.
Entre otras herramientas .Tambin esta MATLAB, Statistica, Stata, Excel.
WordStat es un software de anlisis de texto, si bien las anterior poseen herramientas para la
minera de texto, este ultimo software, est orientado totalmente a la minera de texto.
Utilidad de la Minera de textos.
Un ejemplo de minera de textos lo realiz Hearst en 1999 y es incluido como ejemplo en el artculo
en Data mining: torturando a los datos hasta que confiesen de Luis Carlos Molina Flix. En el
describe como Don Swanson trato de extraer informacin a partir de colecciones de texto y
demostr cmo cadenas de implicaciones causales dentro de la literatura mdica pueden conducir a
hiptesis para enfermedades poco frecuentes, como por ejemplo ocurri con la migraa. Se
pudieron extraer evidencias a partir de varios artculos de literatura biomdica y algunas de las
claves fueron:
1.El estrs est asociado con la migraa.
2.El estrs puede conducir a la prdida de magnesio.
3.Los bloqueadores de canales de calcio previenen algunas migraas.
4.El magnesio es un bloqueador natural del canal de calcio.
5.La depresin cortical diseminada (DCD) est implicada en algunas migraas.

En Internet cuando se realiza una consulta, los buscadores proporcionan una variedad de
informacin, de la cual solo nos interesen algunos de ellos o seleccionamos solo los que creemos
que tiene alguna informacin.
Con estos objetivos los lingistas han adoptado varias perspectivas de anlisis las cuales se basan
en los conocimientos de la estructura de los idiomas.
Otra perspectiva es la extraccin de palabras o frases claves, que en su parte ms simple son
proporcionadas por los interesados para luego ser comparadas con los textos.
Estas dos formas de tratar el problema generan cdigos computacionales complejos, o que
requieren la intervencin de expertos en cada campo para extraer la informacin.
Esta forma de visualizar los textos ha permitido encontrar las palabras o frases relevantes de textos
y tambin encontrar textos similares, y por lo tanto, seleccionar la informacin que deseamos de
entre el millar de posibilidades.
Pasos para realizar la minera de textos (Text Mining)?
La minera es una tcnica relativamente nueva, cambiante y que puede adaptarse a diferentes
situaciones y casos, por lo que no hay un mtodo estricto a seguir. Sin embargo, en trminos
generales se podra decir que existente algunas tcnicas que puedes ser aplicadas, hay que
destacar que la minera web es una divisin de la Minera de texto por lo que las tcnicas a utilizar
son las misma:

Tcnica Clsica.
1.Determinacin de los objetivos. Aclarar que es lo que se est buscando con esta

investigacin, acotando hasta qu punto se quiere profundizar en la misma y definiendo


claramente los limites.

1.Pre procesamiento de los datos, que sera la seleccin, anlisis y reduccin de los textos

o documentos de los que se extraer la informacin. Esta etapa consume la mayor parte del
tiempo.

1.Determinacin del modelo. Segn los objetivos planteados y la tarea que debe llevarse a

cabo, pueden utilizarse unas tcnicas u otras.

1.Anlisis de los resultados. A partir de los datos extrados se tratara de ver su coherencia y

se buscaran evidencias, similitudes, excepciones, etc, que puedan servir al especialista o al


usuario que haya encargado el estudio para extraer conclusiones que pueda utilizar para
mejorar algn aspecto de su empresa, compaa, administracin u organizacin en general.
Grafos Conceptuales
Un grafo conceptual es un grafo bipartito que tiene dos tipos de nodos, conceptos y relaciones
conceptuales. Los grafos se comparan utilizando conocimiento del dominio como diccionarios de
sinnimos y jerarquas de conceptos. Se realiza una operacin de interseccin entre dos grafos para
dar un resumen de ambos y a dicho resumen se le valora con una puntuacin que indica el grado de
similitud entre ambos textos.
La agrupacin de dos o ms grafos permite descubrir la estructura oculta de la coleccin de textos.
Para agrupar los grafos, se pueden utilizar tcnicas de agrupamiento como las estrategias
colaborativas, el agrupamiento en k medias o Comweb.
Las tcnicas de grafos conceptuales aportan mayor semntica. Todas estas tcnicas se basan en
suministrar a los algoritmos, un conjunto de ejemplos a partir de los cuales se generan las
agrupaciones.
Programacin lgica inductiva
Esta tcnica permite introducir conocimiento a priori del dominio en forma de definiciones mediante
predicados relacionados. Requiere no slo de un conjunto de entrenamiento con ejemplos sino
tambin de las relaciones descubiertas por el diseador y basadas en las clusulas de Horn.
La ventaja que posee es su capacidad de representacin basada en una lgica de segundo orden,
que permite generalizar conceptos y descubrir definiciones de conceptos de forma automtica.
Normalmente se utiliza Prolog para programar las herramientas.
Programacin gentica
Es un mtodo de generacin automtica de programas para computadoras con inspiracin
evolutiva; sobre la base de programas muy simples, mediante el cruce de unos con otros y procesos

de mutacin aleatoria, se generan programas ms y ms aptos para la realizacin de la tarea que se


le asigna. La aptitud de los programas se mide de forma numrica mediante una funcin
denominada de fitness. Algunas extensiones de la programacin gentica permiten describir nuevas
primitivas a partir de las primitivas inicialmente descritas.
Bsicamente, la idea consiste en introducir como primitivas las relaciones expresadas
como clusulas de Horn y utilizar un sistema que permita utilizar las denominadas ADFs, que no son
ms que evoluciones paralelas de otras primitivas que se pueden utilizar en la definicin principal,
para generar definiciones muy resumidas de los conceptos. La funcin de fitness deber medir el
nmero de ejemplos que se cubren con la definicin de cada uno de los individuos generados en
cada generacin, que se pondera con la longitud de la definicin para guiar al algoritmo a soluciones
sencillas y el descubrimiento de conceptos intermedios.
Esta tcnica ha tenido problemas con las definiciones recursivas, debido a que la programacin
gentica tiene problemas de eficiencia con primitivas recursivas. Si se conoce que la naturaleza de
la definicin a encontrar es recursiva, probablemente sean mejor solucin las tcnicas anteriormente
descritas.
Conclusin
Actualmente estamos en la era de la informacin, y es donde la informacin constituye un recurso
altamente valorado, porque permite mejorar los recursos de las organizaciones. Es en este punto
donde la minera juega un papel importante al proporcionar informacin desconocida u oculta en los
textos. Su aplicacin no es sencilla o fcil de realizar por lo que las organizaciones necesitaran
contar con expertos en el rea para que puedan realizar los estudios e interpretar los resultados

Definicin de Trminos
Clustering
Las tcnicas de clustering son tcnicas de clasificacin no supervisadas de patrones
(observaciones, datos o vectores de caractersticos) en grupos o clusters. Estas tcnicas han sido
utilizadas en diversas disciplinas y aplicadas en diferentes contextos, lo cual refleja una gran utilidad
en el anlisis experimental de datos.

Clustering vs clasificacin
Clustering no tiene ninguna informacin

relacionada con la organizacin

de los ?tems en los

grupos o clases y el objetivo es encontrar dicha organizacin en base a la proximidad entre ?tems.
Clasificacin: se posee informacin de que clase pertenece cada ?tem y lo que se desea es
determinar cules son los factores que intervienen en la definicin de las clases y que valores de los
mismos determinan estas. Se puede clasificar el agrupamiento y la clasificacin en general segn
distintos criterios.
Lgica Difusa
La lgica difusa o borrosa parte del principio de que las cosas no son blancas o negras, tal como
establece la lgica clsica, sino con tonalidades y con mltiples valores, lo cual se adapta mejor al
comportamiento humano.
Reglas de Asociacin
Las reglas de asociacin describen como varias combinaciones de items estan apareciendo juntas
en los mismos conjuntos.
El objetivo es encontrar regularidades en los comportamientos de los clientes dentro de trminos de
combinaciones de productos que son comprados muchas veces en un conjunto, o sea reglas que
reflejen relaciones entre los atributos presentes en los datos
{ciruela, lechuga, tomates}
{apio, dulcer?a}
{dulcer?a}
{manzanas, zanahorias, tomates, papas, dulcer?a}
{manzanas, naranjas, lechuga, tomates, dulcer?a}
{duraznos, naranjas, apio, papas}
{frijoles, lechuga, tomates}
{naranjas, lechuga, zanahorias, tomates, dulcera}
{manzana, pltanos, ciruelas, zanahorias, tomates, cebolla, dulcera}
{manzana, papas}
Se puede ver, si se quiere obtener el soporte de manzana, de 10 transacciones disponibles 4
contienen a manzana, por lo que supp(manzana)=4/10 = 0,4 , igualmente para el soporte de la
zanahoria, que hay 3 transacciones que la contienen, as el:

supp(zanahoria)=3/10 = 0,3
supp(dulcer?a)=0,6
Supp(manzana ? dulcer?a)=0,3
Supp(manzana ? tomate)=0,3
Si el soporte es suficientemente alto y el conjunto de transacciones es grande, entonces la
confianza es un estimado de la probabilidad que cualquiera transaccin futura que contenga el
antecedente, contendr el consecuente. Del ejemplo se ve que: Conf(manzana?dulcer?
a)=Supp(manzana ?dulcer?a) supp(manzana)=0,3/0,4 = 0,75 Conf(manzana ? tomates)=0,75
Conf(zanahoria ? tomates)=1,0
El algoritmo de asociacin tratara de descubrir todas las reglas que excedan las cotas mnimas
especificadas para el soporte y confianza. La bsqueda exhaustiva de reglas de asociacin
considerara simplemente todas las combinaciones posibles de los elementos, ponindolos como
antecedentes y consecuentes, entonces se evaluara el soporte y la confianza de cada regla, y se
descartaran todas las reglas que no satisfacen las restricciones.
Algoritmo Aprioritid
El objetivo en todo algoritmo de bsqueda de reglas de asociacin es encontrar las reglas que
satisfacen con la condicin de confianza y soporte mnimo, y en este caso tambin el factor de
certeza mnimo. Esto es necesario porque sino la bsqueda se har exhaustiva, encontrndose al
final una cantidad demasiado grandes de reglas generadas, y no sabiendo que reglas son las que
mejor representan el conjunto de datos.
Anexos

Etapas de la Minera de Texto

Etapas de la Minera Web

Tipos de Minera Web

Arquitectura del sistema WebMiner

Proceso de obtencin de datos desde la actividad del usuario

Modelo para la obtencin de perfiles

Referencias Bibliogrficas.
http://textmining.galeon.com/
http://www.uoc.edu/web/esp/art/uoc/molina1102/molina1102.html
http://www.daedalus.es/que-tecnologias-nos-diferencian/inteligencia-de-negocio/mineria-de-datos/
http://eprints.rclis.org/11501/1/Galvez-Encontros3.pdf
http://www.dataprix.com/171-evoluci-n-historia-miner-datos
http://textmining.galeon.com
http://eprints.rclis.org/10615/1/05-Miner%C3%ADa_de_textos__una_herramienta_%C3%BAtil.pdf
http://mineriatexto.50webs.com/recuperacion-informacion.html

Potrebbero piacerti anche