Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
2015
Exploracin de datos
Exploracin de Datos
Consiste del anlisis exploratorio preliminar de los
datos para entender mejor sus caractersticas
Ayuda a seleccionar las mejores herramientas para
preprocesarlos y analizarlos
Tipos de Atributos
Existen diferentes tipos de atributos o variables:
Categricos
Nmero finito de valores. No tienen orden.
Ejemplos: gnero, color de ojos, sucursales, rubro, variedad.
Numricos
Ordinales
Nmero finito o finito contable de valores. Tienen orden.
Ejemplos: puntuacin (del 1 al 10), rangos, altura (como alto,
medio y bajo).
Continuos
Nmeros reales
Ejemplos: importes, temperatura, fechas.
Preparacin de datos:
Seleccin, Limpieza y
Transformacin de Datos
Calidad de datos
Qu tipos de problemas de calidad podemos
encontrar?
Cmo podemos detectarlos en los datos?
Qu podemos hacer al respecto?
Manejo de faltantes
Ignorarlos.
Eliminarlos (al atributo, o a los registros)
Reemplazarlos (por una categora faltante, media, todos los
valores segn sus probabilidades)
Estimarlos
Pre-procesamiento de Datos
Agregaciones
Muestreo
Reduccin de la dimensionalidad
Seleccin de conjunto de atributos
Creacin de atributos
Discretizacin
Transformacin de atributos
Ejemplo Muestreo
x1
Ejemplo de ACP
Seleccin de atributos
Transformacin de atributos
Ejemplo de transformacin aplicando funcin logaritmo
26
Data
Equal frequency
Equal interval
width
K-means
Libres:
Weka (http://www.cs.waikato.ac.nz/ml/weka/)
R (http://www.r-project.org/)
Rapid Miner (http://rapid-i.com/)
Y muchos ms..
31
Para comparar el
rendimiento predictivo
de los algoritmos de
aprendizaje
Interfaz basada en
componentes con
funcionalidad
similar al Explorer
Interfaz de lnea de
comando que emula
una terminal
Abrir un archivo
Preguntas:
Cuntos registros tiene el archivo?
Cuntas variables tiene?
Cules son los valores posibles para
humidity?
Cul es la distribucin de la clase?
Est balanceada?
Edit
Solapa Visualizar
Visualizacin de datos
Visualizacin de datos
Creacin de variables
Agregar una
nueva
expresin
Prctica con R
Exploracin y
Pre-procesamiento de Datos
(fuente:
ftp://ftp.ncdc.noaa.gov/pub/dat
a/gsod/2014/)
boxplot(datos_bici$tiemp
ouso[datos_bici$outlier==
1]~datos_bici$wday[dato
s_bici$outlier==1])
plot(data_for_plot$temp, data_for_plot$cant)
plot(data_for_plot2$temp, data_for_plot2$cant)
plot(data_for_plot2$temp, data_for_plot2$tiempoprom)
http://fineo.densitydesign.org/custom/vis/index.php
?tablename=set133397627554&submit=Visualize
http://digital.buenosaires.gob.ar/dataviz-transitoentre-las-estaciones-de-mejor-en-bici/
Fuente: https://www.kaggle.com/users/993/benhamner/bike-sharing-demand/bike-rentals-bytime-and-temperature
Bibliografa y referencias
Pang-Ning Tan, Michael Steinbach, Vipin Kumar (2006)
Introduction to Data Mining, Ed. Pearson Addison Wesley
Hernndez Orallo, Jos, Ramrez Quintana, M. Jos, Ferri
Ramrez, Csar (2004) Introduccin a la minera de datos Ed.
Pearson Prentice Hall
Ian H. Witten, Eibe Frank (2009) Introduction to Data Mining,
New Zealand Digital Library Project.
Ian H. Witten, Eibe Frank, Mark A. Hall (2011) Data Mining,
Practical Machine Learning Tools and Techniques, third edition,
Ed. Elsevier
Crisp-DM (ftp://ftp.software.ibm.com/software/analytics/spss/
documentation/modeler/14.2/fr/CRISP-DM.pdf)
68