Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Ciencia
Medicina
Entretenimiento y Ocio
Negocio y Comercio
Industria, Energa,
Sensores,
Motivacin
El problema de la explosin de informacin:
Disponemos de
http://www.elmundo.es/elmundo/2013/09/03/navegante/1378243782.html
de datos
Introducir las tcnicas clsicas de minera de
datos, casos de estudio, lenguajes de
programacin utilizados,
http://sci2s.ugr.es/docencia/asignatura.php?id_asignatura=16
Ciencia de Datos
Data Science
Ciencia de Datos es el mbito de conocimiento que engloba las
habilidades asociados al procesamiento de datos, incluyendo
Big Data
Ciencia de Datos
Data Science o la Ciencia de Datos incorpora diferentes
elementos y se basa en las tcnicas y teoras de muchos
campos, incluyendo las matemticas, estadstica, ingeniera
de datos, reconocimiento de patrones y aprendizaje,
computacin avanzada, visualizacin, modelado de la
incertidumbre, almacenamiento de datos y la informtica de
alto rendimiento con el objetivo de extraer el significado de
datos y la creacin de productos de datos.
Es un trmino relativamente nuevo que se utiliza a menudo
de manera intercambiable con inteligencia o analtica de
negocio analtica de datos. La ciencia de datos busca
utilizar todos los datos disponibles y relevantes para extraer
conocimiento que pueda ser fcilmente comprendido por
los expertos en el rea de aplicacin. Un experto de la ciencia
de datos se denomina un cientfico de datos.
Ciencia de Datos
Qu es un Cientfico de Datos?
Un cientfico de datos es un profesional que debe
dominar las ciencias matemticas y la estadstica,
conocimientos de programacin (y sus mltiples
lenguajes), ciencias de la computacin y analtica.
Data Science
Machine Learning
Traditional Research
Danger Zone =
Traditional software
Ciencia de Datos
Jos Antonio Guerrero: uno de los mejores
cientficos de datos del mundo (Plataforma Kaggle)
Qu es un cientfico de datos?
Es una persona con fundamentos en matemticas, estadstica
y mtodos de optimizacin, con conocimientos en lenguajes de
programacin y que adems tiene una experiencia prctica en
el anlisis de datos reales y la elaboracin de modelos
predictivos.
De las tres caractersticas quizs la ms difcil es la tercera; no
en vano la modelizacin de los datos se ha definido en
ocasiones como un arte. Aqu no hay reglas de oro, y cada
conjunto de datos es un lienzo en blanco.
Leer ms: http://www.elconfidencial.com/tecnologia/2013-12-19/unmatematico-andaluz-desconocido-es-el-mejor-cientifico-de-datos-delmundo 67675/
Ciencia de Datos
Minera de Datos
Descubrimiento de patrones interesantes en una base de datos (usualmente
grande): Desde la informacin al conocimiento
How can I analyze this data?
Knowledge
Ciencia de Datos
Big Data
Big Data son datos cuyo
volumen, diversidad y complejidad
requieren nueva arquitectura,
tcnicas, algoritmos y anlisis para
gestionar y extraer valor y
conocimiento oculto en ellos ...
Volumen
Big
Data
Variedad
Velocidad
Ciencia de Datos
Big Data
Ciencia de Datos
Big Data
Qu es la Ciencia de Datos?
Minera de Datos
Proceso de Minera de Datos
Tcnicas de Minera de Datos: Clasificacin, Regresin,
Agrupamiento, Asociacin y Otros
Minera de Datos: Casos de uso
Herramientas y Lenguajes en Ciencia de Datos.
Repositorio Kaggle
Comentarios Finales
Qu es la Minera de Datos?
La Minera de datos (MD) es el proceso de
extraccin de patrones de informacin
(implcitos, no triviales, desconocidos y
potencialmente tiles) a partir de grandes
cantidades de datos
Tambin se conoce como:
Qu es la Minera de Datos?
Qu es la Minera de Datos?
How can I analyze this data?
Knowledge
Qu es la Minera de Datos?
Para qu se utiliza el conocimiento obtenido?
Qu es la Minera de Datos?
Qu es la Minera de Datos?
Etapas en un proceso de KDD
Preprocesamiento de Datos
Comprensin del Problema
y de los Datos
Conocimiento
e Implantacin
Modelos
Interpretacin y
Evaluacin
Datos Preprocesados
Datos Fuente
Minera de Datos
Problema de KDD
Qu es la Minera de Datos?
Anlisis de cestas de mercado: asociaciones / corelaciones entre ventas de producto, prediccin basada en
asociacin de informaciones,
Banca
Seguros
Control de calidad
Procesos industriales
Qu informacin aporta?
Qu significa?
A qu se debe?
Acciones a realizar
Se acerca el fin de
semana
Hay un beb en casa
No quedan paales
El padre/madre compra
paales al salir del
trabajo
No pueden salir!
Comprar cervezas para
el fin de semana (y un
partido/pelcula PPV)
Paales Cerveza
Conocimiento
e Implantacin
Modelos
Interpretacin y
Evaluacin
Datos Preprocesados
Datos Fuente
Minera de Datos
Problema de KDD
Decisiones a tomar:
Qu tipo de conocimiento buscamos?
Predictivo, Descriptivo
Qu tcnica es la ms adecuada?
Clasificacin, Regresin, clustering, Asociaciones,
Qu tipo de modelo?
P.e. Clasificacin: reglas, rboles de decisin, SVM, etc.
Qu algoritmo es el ms adecuado?
precisos,
comprensibles, e
interesantes (tiles, novedosos)
Tecnologas de
Bases de Datos
Estadstica
Computacin
paralela
Minera
de datos
Sistemas de toma
de decisiones
Visualizacin
Aprendizaje
automatizado
Otras disciplinas
Mtodos predictivos
Mtodos descriptivos
Aprendizaje supervisado:
Aprende, a partir de un
conjunto de instancias
pre-etiquetadas un
metodo para predecir
(Ejemplo, clasificacin:
la clase a que pertenece
una nueva instancia)
Aprendizaje Supervisado vs No
Supervisado
Aprendizaje no supervisado:
No hay conocimiento a priori
sobre el problema, no hay
instancias etiquetadas, no
hay supervisin sobre el
procedimiento.
(Ejemplo, clustering:
Encuentra un agrupamiento
de instancias natural dado
un conjunto de instancias no
etiquetadas)
Classification [Predictive]
Clustering [Descriptive]
Association Rule Discovery [Descriptive]
Sequential Pattern Discovery [Descriptive]
Regression [Predictive]
Deviation/Anomaly Detection [Predictive]
Time Series [Predictive]
Summarization [Descriptive]
Regresin
Modelado o
Prediccin
El problema
fundamental de la
prediccin est en
modelar la
relacin entre las
variables de
estado para
obtener el valor de
la variable de
control.
Clasificacin
Clasificacin
El problema fundamental
de la clasificacin est
directamente relacionado
con la separablidad de
las clases.
Clasificacin. Ejemplo
http://www.ics.uci.edu/~mlearn/MLRepository.html
setosa
versicolor
virginica
Clasificacin. Ejemplo
versicolor
virginica
1
0,9
Anchura Ptalo
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
0
0,2
0,4
0,6
Longitud Ptalo
0,8
Clasificacin. Ejemplo
Clases Definidas
Basado en Distancias
Basado en Particiones
_
_
+
xq
_ .
_
_
+
.
.
k=3
Agrupamiento
Hay problemas en
los que deseamos
agrupar las
instancias creando
clusters de similares
caractersticas
Ej. Segmentacin de
clientes de una
empresa
Agrupamiento. Niveles
Agrupamiento. Modelos
Modelos
Jerrquicos
Modelos
Particionales
Ejemplos de Agrupamiento
Descubrimiento de Asociaciones
Aplicaciones:
Descubrimiento de asociaciones
Market Basket Analysis
Compra: zumo de naranja,
pltanos, detergente para
vajillas, limpia cristales,
gaseosa, ...
Cmo afecta la
demografa de la
vecindad a la compra de
los clientes?
Es tpico comprar
gaseosa y pltanos? Es
importante la marca de
la gaseosa?
Descubrimiento de Asociaciones.
Ejemplo
Ejemplo: Asociacin Cervezas y Paales
Qu significa?
A qu se debe?
Acciones a realizar
Descubrimiento de asociaciones
Market Basket Analysis
TID
Items
1
2
3
4
5
Rules Discovered:
{Milk} --> {Coke}
{Diaper, Milk} --> {Beer}
Deteccin de Desviaciones/Anomalas
Deteccin de desviaciones
significativas de datos normales
Aplicaciones
Deteccin de fraude en
tarjetas de crdito
Deteccin de intrusos
en redes de ordenadores
Objetivo:
Determinar patrones secuenciales en los datos
Minera de Datos
La Minera de Datos
es una forma de
aprender del pasado
para tomar mejores
decisiones en el
futuro
http://www.bigdata-startups.com/open-source-tools/
1 Generacin
2 Generacin
Ejemplos
KNIME, SAS, R,
Weka, SPSS, KEEL
Escalabilidad
Vertical
Algoritmos
disponibles
Huge collection of
algorithms
Algoritmos
No disponibles
Practically nothing
Tolerancia a
Fallos
Single point of
failure
https://www.knime.org/
Weka
http://www.cs.waikato.ac.nz/ml/weka/
KEEL
University of Granada
Machine learning
software in Java
implementation
http://www.keel.es/
http://blog.revolutionanalytics.com/2013/10/r-usageskyrocketing-rexer-poll.html
cran.r-project.org/
The Comprehensive R Archive Network
http://cran.r-project.org/web/views/MachineLearning.html
MNIST data
60,000 32x32
color images
containing one of
10 object classes,
with 6000 images
per class.
Comentarios Finales
Comentarios Finales
(Data Science, Business Analytics, Data Analytics)
Anlisis de Datos en un contexto amplio
http://www.bzst.com/
DesigningaBusinessAnalyticsprogram
BusinessAnalytics
DataScience
BusinessAnalytics
DataAnalytics
Data
Visualization
Big
Data
Statistical
Analysis
Data
Warehousing
Business
Analytics
Contemporary
Analytics
Data
Mining
Operations
Datamining:DataPreprocessing,Supervisedlearning,unsupervisedlearning,forecasting
ContemporaryAnalytics: textmining,networkanalytics,socialanalytics,customeranalytics,
webanalytics,riskanalytics,informationretrievalandrecommendations
StatisticalAnalysis: Estimation andinference;andregression models
Operations: Simulation andoptimization
Comentarios Finales
Hay que obtener conocimiento til
Aprender informacin ya
conocida
Aprender cosas que no se
pueden utilizar
Comentarios Finales
Surge como profesin el Cientfico de Datos
Cientfico de Datos
Oportunidad profesional: En 2015, Gartner predice
que 4,4 millones de empleos sern creados en torno
a big data. (Gartner, 2013)
Fuente: http://www.gartner.com/technology/topics/big-data.jsp
Comentarios Finales
Una demanda creciente de profesionales en Big Data y
Ciencia de Datos
http://economia.elpais.com/economia/2013/09/27/actual
idad/1380283725_938376.html
Comentarios Finales
Una demanda creciente de profesionales en Big Data y
Ciencia de Datos
Contenido
Lunes 25: Minera de Datos. Herramienta KNIME
Martes 26: Minera de Datos, Visualizacin y Datos
Temporales en el Lenguaje R
Mircoles 27: Big Data. Plataforma Hadoop y
Librera Mahout.
Jueves 25: Mahout. Kaggle (Comunidad,
repositorio, competiciones )
Comentarios Finales