Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Resumen
Con la evolucin de las computadoras y el aumento exponencial de los datos, que son producen
diariamente por la sociedad. Condujo a varios investigadores a buscar informacin que fuere
potencialmente valioso, dado que un dato en si es inservible, es necesario de aplicar y establecer
patrones para poder extraer conocimientos sobre los datos, es de esta forma como nace la minera
de datos. Por otro lado tambin evoluciona la digitalizacin de documentos que de igual forma que
los datos crece de forma exponencial lo que crea nuevos horizontes para la minera de datos.
Aunque con una notable diferencia ya que con la minera de Datos, estos datos se encuentran
estructurados de alguna forma, sin embargo en la minera de texto los datos no poseen ninguna
estructura, de esta forma se crea la minera de Texto, al igual que los datos la minera de Texto
tambin ofrece la posibilidad de proporcionar conocimiento.
Introduccin
La minera de Texto
procedimientos automticos para: obtener los temas, indexar los documentos, construir bases de
documentos para una bsqueda automtica. La principal finalidad es la de buscar informacin para
lo cual es necesario tratar los textos de varios documentos, para poder construir o descubrir algn
tipo de informacin.
Que es Minera: Minera es el estudio y tratamiento de datos masivos para extraer informacin, la
cual era desconocida y potencialmente til.
Otra caracterstica importante de R, es que posee varios editores de textos. Como Bluefish,8
Crimson Editor, ConTEXT, Eclipse,9 Emacs (Emacs Speaks Statistics), Geany, jEdit,10 Kate,11
RStudio,12 RKWard,13 Syn, TextMate, Tinn-R, Vim, gedit, SciTE, WinEdt (R Package RWinEdt) y
notepad++.14
SPSS Programa estadstico, el cual es muy utilizado en las ciencias sociales. Lo que ms sobre sale
de esta herramienta es su capacidad para trabajar con grandes volmenes de datos, en la versin
12 ya se poda trabajar con 2 millones de registros y 250,000 variables. SPSS es de pago, y se
vende por mdulos. Fue desarrollado por IBM. Quien al dia de hoy sigue dando soporte la ltima
versin es la 22 la cual fue liberada en septiembre del 2013
SAS, Es otro programa estadstico, muy utilizado junto con SPSS son considerados los mejores, el
problema es su alto costo.
Entre otras herramientas .Tambin esta MATLAB, Statistica, Stata, Excel.
WordStat es un software de anlisis de texto, si bien las anterior poseen herramientas para la
minera de texto, este ultimo software, est orientado totalmente a la minera de texto.
Utilidad de la Minera de textos.
Un ejemplo de minera de textos lo realiz Hearst en 1999 y es incluido como ejemplo en el artculo
en Data mining: torturando a los datos hasta que confiesen de Luis Carlos Molina Flix. En el
describe como Don Swanson trato de extraer informacin a partir de colecciones de texto y
demostr cmo cadenas de implicaciones causales dentro de la literatura mdica pueden conducir a
hiptesis para enfermedades poco frecuentes, como por ejemplo ocurri con la migraa. Se
pudieron extraer evidencias a partir de varios artculos de literatura biomdica y algunas de las
claves fueron:
1.El estrs est asociado con la migraa.
2.El estrs puede conducir a la prdida de magnesio.
3.Los bloqueadores de canales de calcio previenen algunas migraas.
4.El magnesio es un bloqueador natural del canal de calcio.
5.La depresin cortical diseminada (DCD) est implicada en algunas migraas.
En Internet cuando se realiza una consulta, los buscadores proporcionan una variedad de
informacin, de la cual solo nos interesen algunos de ellos o seleccionamos solo los que creemos
que tiene alguna informacin.
Con estos objetivos los lingistas han adoptado varias perspectivas de anlisis las cuales se basan
en los conocimientos de la estructura de los idiomas.
Otra perspectiva es la extraccin de palabras o frases claves, que en su parte ms simple son
proporcionadas por los interesados para luego ser comparadas con los textos.
Estas dos formas de tratar el problema generan cdigos computacionales complejos, o que
requieren la intervencin de expertos en cada campo para extraer la informacin.
Esta forma de visualizar los textos ha permitido encontrar las palabras o frases relevantes de textos
y tambin encontrar textos similares, y por lo tanto, seleccionar la informacin que deseamos de
entre el millar de posibilidades.
Pasos para realizar la minera de textos (Text Mining)?
La minera es una tcnica relativamente nueva, cambiante y que puede adaptarse a diferentes
situaciones y casos, por lo que no hay un mtodo estricto a seguir. Sin embargo, en trminos
generales se podra decir que existente algunas tcnicas que puedes ser aplicadas, hay que
destacar que la minera web es una divisin de la Minera de texto por lo que las tcnicas a utilizar
son las misma:
Tcnica Clsica.
1.Determinacin de los objetivos. Aclarar que es lo que se est buscando con esta
1.Pre procesamiento de los datos, que sera la seleccin, anlisis y reduccin de los textos
o documentos de los que se extraer la informacin. Esta etapa consume la mayor parte del
tiempo.
1.Determinacin del modelo. Segn los objetivos planteados y la tarea que debe llevarse a
1.Anlisis de los resultados. A partir de los datos extrados se tratara de ver su coherencia y
Definicin de Trminos
Clustering
Las tcnicas de clustering son tcnicas de clasificacin no supervisadas de patrones
(observaciones, datos o vectores de caractersticos) en grupos o clusters. Estas tcnicas han sido
utilizadas en diversas disciplinas y aplicadas en diferentes contextos, lo cual refleja una gran utilidad
en el anlisis experimental de datos.
Clustering vs clasificacin
Clustering no tiene ninguna informacin
grupos o clases y el objetivo es encontrar dicha organizacin en base a la proximidad entre ?tems.
Clasificacin: se posee informacin de que clase pertenece cada ?tem y lo que se desea es
determinar cules son los factores que intervienen en la definicin de las clases y que valores de los
mismos determinan estas. Se puede clasificar el agrupamiento y la clasificacin en general segn
distintos criterios.
Lgica Difusa
La lgica difusa o borrosa parte del principio de que las cosas no son blancas o negras, tal como
establece la lgica clsica, sino con tonalidades y con mltiples valores, lo cual se adapta mejor al
comportamiento humano.
Reglas de Asociacin
Las reglas de asociacin describen como varias combinaciones de items estan apareciendo juntas
en los mismos conjuntos.
El objetivo es encontrar regularidades en los comportamientos de los clientes dentro de trminos de
combinaciones de productos que son comprados muchas veces en un conjunto, o sea reglas que
reflejen relaciones entre los atributos presentes en los datos
{ciruela, lechuga, tomates}
{apio, dulcer?a}
{dulcer?a}
{manzanas, zanahorias, tomates, papas, dulcer?a}
{manzanas, naranjas, lechuga, tomates, dulcer?a}
{duraznos, naranjas, apio, papas}
{frijoles, lechuga, tomates}
{naranjas, lechuga, zanahorias, tomates, dulcera}
{manzana, pltanos, ciruelas, zanahorias, tomates, cebolla, dulcera}
{manzana, papas}
Se puede ver, si se quiere obtener el soporte de manzana, de 10 transacciones disponibles 4
contienen a manzana, por lo que supp(manzana)=4/10 = 0,4 , igualmente para el soporte de la
zanahoria, que hay 3 transacciones que la contienen, as el:
supp(zanahoria)=3/10 = 0,3
supp(dulcer?a)=0,6
Supp(manzana ? dulcer?a)=0,3
Supp(manzana ? tomate)=0,3
Si el soporte es suficientemente alto y el conjunto de transacciones es grande, entonces la
confianza es un estimado de la probabilidad que cualquiera transaccin futura que contenga el
antecedente, contendr el consecuente. Del ejemplo se ve que: Conf(manzana?dulcer?
a)=Supp(manzana ?dulcer?a) supp(manzana)=0,3/0,4 = 0,75 Conf(manzana ? tomates)=0,75
Conf(zanahoria ? tomates)=1,0
El algoritmo de asociacin tratara de descubrir todas las reglas que excedan las cotas mnimas
especificadas para el soporte y confianza. La bsqueda exhaustiva de reglas de asociacin
considerara simplemente todas las combinaciones posibles de los elementos, ponindolos como
antecedentes y consecuentes, entonces se evaluara el soporte y la confianza de cada regla, y se
descartaran todas las reglas que no satisfacen las restricciones.
Algoritmo Aprioritid
El objetivo en todo algoritmo de bsqueda de reglas de asociacin es encontrar las reglas que
satisfacen con la condicin de confianza y soporte mnimo, y en este caso tambin el factor de
certeza mnimo. Esto es necesario porque sino la bsqueda se har exhaustiva, encontrndose al
final una cantidad demasiado grandes de reglas generadas, y no sabiendo que reglas son las que
mejor representan el conjunto de datos.
Anexos
Referencias Bibliogrficas.
http://textmining.galeon.com/
http://www.uoc.edu/web/esp/art/uoc/molina1102/molina1102.html
http://www.daedalus.es/que-tecnologias-nos-diferencian/inteligencia-de-negocio/mineria-de-datos/
http://eprints.rclis.org/11501/1/Galvez-Encontros3.pdf
http://www.dataprix.com/171-evoluci-n-historia-miner-datos
http://textmining.galeon.com
http://eprints.rclis.org/10615/1/05-Miner%C3%ADa_de_textos__una_herramienta_%C3%BAtil.pdf
http://mineriatexto.50webs.com/recuperacion-informacion.html