Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Rodrigo Rebolledo
rrebolledo@besmart.cl
13 de enero de 2017
Agenda
Mejores prácticas
Discusión:
¿Qué es Big Data?
Big data: ¿necesidad o moda?
Big data: ¿necesidad o moda?
Lo “convencional”
Las tareas:
1881
El censo de Estados Unidos de 1880 impulsó la búsqueda de nuevas metodologías
para analizar los datos. Así, en 1881 Herman Hollerith inventó la “Tabuladora”.
Se usó exitosamente en el censo de 1890, tardando sólo 6 semanas en obtener
resultados. El censo anterior tardó 7 años.
1911
Fundación de International Business Machines Corp. (IBM).
1937
IBM proveyó servicios de tabulación censal para registrar a los judíos en la
Alemania nazi y Thomas Watson recibió la medalla del águila negra.
En 1941 Thomas Watson devolvió la medalla y terminó la prestación de servicios.
Big data: ¿de dónde nace?
1941
Las bibliotecas de las universidades se enfrentaron a un problema de
almacenamiento debido al rápido aumento de publicaciones e investigación.
1944
El bibliotecario Fremont Rider calculó que las bibliotecas de las universidades de
EE. UU. duplicaban su tamaño cada dieciseis años.
Julio 1997
El término «Big Data» se empleó por primera vez en un artículo de la NASA:
https://www.nas.nasa.gov/assets/pdf/techreports/1997/nas-97-010.pdf
Big data: ¿de dónde nace?
Febrero 2001
Gartner publicó un artículo definiendo las “tres V” de Big Data: volumen,
velocidad y variedad.
http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-
Management-Controlling-Data-Volume-Velocity-and-Variety.pdf
Big data: ¿de dónde nace?
Febrero 2004
Netezza anunció el primer “data warehouse appliance” en la industria para
satisfacer la necesidad de almacenar y procesar grandes volúmenes de datos de
consumidores.
Big data: ¿de dónde nace?
2004
Google publicó su paper “Map Reduce”, en que define la operación de grandes
datos mediante computación paralela.
2005-2006
Un año después de la publicación de Google nació Hadoop: software para
implementar procesos en paralelo. Aquí es donde se inicia el proyecto clave en
lo que hoy llamamos “big data”.
http://static.googleusercontent.com/media/research.google.com/en/us/archive/mapreduce-osdi04.pdf
Big data: ¿de dónde nace?
2010
Se desarrolló y liberó “Spark”, un nuevo componente para el gran ecosistema
que se ha construido alrededor de Hadoop. Provee aún mejores niveles de
desempeño y la capacidad de desarrollar modelos analíticos, entre otras.
Big data: ¿de dónde nace?
Febrero 2010
El supercomputador Watson ganó el concurso Jeopardy!.
Hito para la nueva era cognitiva.
2013
IBM SPSS Modeler habilitó la conexión con fuentes de Hadoop mediante el nuevo
producto IBM SPSS Analytic Server.
4. Variabilidad
5. Veracidad
6. Visualización
7. Valor
Las V de Big Data: la velocidad
Las V de Big Data: el volumen
OK, OK, PERO ¿CUÁNTO VOLUMEN ES “BIG”?
Una empresa de telecomunicaciones puede tener alrededor de 400
millones de registros CDR al mes.
bigint 8
date 8
varchar 255
En una tabla con muchos atributos, una fila podría ocupar 1 KB.
Datos estructurados
Son los tradicionales datos en forma de tabla que se pueden encontrar en
archivos CSV, planillas Excel, bases de datos relacionales.
Las V de Big Data: la variedad
DATOS SEMI-ESTRUCTURADOS:
XML, JSON.
https://graph.facebook.com/127708121003_10155025681531004?access_token=245031128840351|8d0cabbccbf6332ab099dd43.1-100002453978341|245031128840351|anT-byq2EUfRSAjTeeci2T3F1t0
Las V de Big Data: la variedad
Datos NO estructurados
Las V de Big Data: la velocidad
Velocidad en el almacenamiento del dato.
Ejemplo: Netezza almacena a 2TB/hora (estructurados)
CRM
Reportes Operativos y
Analíticos
Cubos
ERP
ETL
Modelamiento y
Web minería de datos
Channel
Datamart
ETL
Enteprise Data
Warehouse
ETL CRM
Call
Datamart Auditoría
Center
ERP
Arquitectura de datos tradicional
• El soporte de volúmenes de datos está
limitado a nivel de los sistemas OLTP.
Otro
DM
EDW
Hadoop Distributed File System (HDFS)
DM
El usuario recibe el
código de
Móvil enrolamiento para
confirmar su registro
Bancos y aseguradoras
Prevención de fraudes.
Predicción de comportamiento de pago de clientes.
Fuga (inactividad) en uso de tarjetas.
Manufactura
Temas de calidad en la línea de producción.
Tolerancia a fallos.
Bajo costo.
Escalabilidad.
Hadoop: la estrella de Big Data
ECOSISTEMA DE HADOOP
Por extensión, a todos los programas que se han desarrollado para ejecutar en
Hadoop se les considera “Hadoop”, lo que puede ser un poco confuso. En
realidad, son parte del “ecosistema” de programas que complementan al HDFS y
MapReduce.
Cassandra
Es una base de datos no relacional de almacenamiento <clave-valor>.
Chukwa
Diseñado para la colección y análisis a gran escala de logs.
HBase
Es una base de datos no relacional columnar que se ejecuta en HDFS. HBase no soporta SQL.
HBase permite que muchos atributos sean agrupados llamándolos familias de columnas.
Hive
Base de datawarehouse que facilita administrar grandes conjuntos de datos que se encuentran
almacenados en un ambiente distribuido. Hive tiene definido un lenguaje similar a SQL llamado
HQL.
La nueva chispa de Big Data
Spark: la nueva chispa de Big Data
Spark: la nueva chispa de Big Data
4. Segmentación: k-means.
SQL Compiler
Query Plan
SMP Hosts
Optimize
Admin
S-Blades™
(with FPGA-based Processor &
Database Accelerator) streaming DB logic
High-performance database
engine streaming joins,
aggregations, sorts, etc.
PureData for Analytics
SPSS Analytic Server
SPSS Analytic Server
SPSS Analytic Server
Uno de los principales desafíos en la adopción de Hadoop es que en la
industria aún no hay suficientes personas expertas que puedan explotar los
datos del sistema.
SPSS Analytic Server facilita las operaciones gracias a que integra los
procesos de Hadoop con la intuitiva interfaz de SPSS Modeler.
SPSS Analytic Server
Watson Machine Learning
Watson Machine Learning
Watson Machine Learning
Watson Machine Learning
Watson Machine Learning
Watson Machine Learning
Watson Machine Learning
Watson Machine Learning
Watson Machine Learning
Rodrigo Rebolledo
rrebolledo@besmart.cl
13 de enero de 2017