Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Tema 11
INGENIERA INFORMTICA
BIG DATA
Pgina 3
Pgina 4
Pgina 5
UNIDADES DE MEDIDA DE
ALMACENAMIENTO
Pgina 6
Pgina 7
Pgina 8
a pesar de la expansin sin precedentes del Universo Digital debido a el Big Data que se generan a diario por personas y mquinas, IDC estima que solo 0,5% de los datos mundiales se analizan.
Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14
Pgina 9
duplicacin del Universo Digital en los ltimos dos aos solamente, hasta alcanzar un tamao descomunal de 2,8 ZB. IDC proyecta que, para el 2020, el Universo Digital alcanzar 40 ZB, cifra que supera las proyecciones anteriores por 14%.
Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14
Pgina 10
Pgina 11
Pina 12
Pgina 13
Pgina 14
Pgina 15
Pgina 16
Pgina 18
Pgina 19
Pgina 20
Pgina 21
Pgina 22
The amount of data in our world has been exploding. Companies capture trillions of bytes of information about their customers, suppliers, and operations, and millions of networked sensors are being embedded in the physical world in devices such as mobile phones and automobiles, sensing, creating, and communicating data.
Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14
Pgina 23
Pgina 24
Pgina 25
This definition is intentionally subjective and incorporates a moving definition of how big a dataset needs to be in order to be considered big datai.e., we dont define big data in terms of being larger than a certain number of terabytes (thousands of gigabytes). We assume that, as technology advances over time, the size of datasets that qualify as big data will also increase. Also note that the definition can vary by sector, depending on what kinds of software tools are commonly available and what sizes of datasets are common in a particular industry. With those caveats, big data in many sectors today will range from a few dozen terabytes to multiple petabytes (thousands of terabytes).
Pgina 26
Pgina 27
LA AVALANCHA DE DATOS
Twitter: (redes sociales)
90 millones de tuits (tweets) por da que representa 8 Terabytes.
Boeing: (industria)
Vuelo transocenico de un jumbo puede generar 640 Terabytes.
Wal-Mart: (comercio)
1 milln de transacciones por hora que se estima que alimenta una base de datos de 2.5 petabytes.
Pgina 28
Pgina 29
Pgina 30
Fuente:
Intel | What Happens in an Internet Minute? www.intel.com/content/www/us/en/communic ations/internet-minute-infographic.html
Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14
Pgina 31
Pgina 32
Pgina 33
Pgina 34
Pgina 35
La cadena hotelera InterContinental ha recabado informacin sobre los 71 millones de miembros de su programa Priority Club, como niveles de ingresos y preferencias sobre las instalaciones. El grupo consolid la informacin en un solo almacn de datos que rene informacin de redes sociales y procesa bsquedas ms rpido
Pgina 36
data. * www-01.ibm.com/software/data/bigdata/
Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14
comes from everywhere: sensors used to gather climate information, posts to social media sites, digital pictures and videos, purchase transaction records, and cell phone GPS signals to name a few. This data is big
Pgina 37
Pgina 38
Pgina 39
Pgina 40
Google procesa 20 petabytes al da En 2020 se esperan 42.000 millones de pagos electrnicos. La Bolsa de Nueva York genera UN terabyte de datos al da Twitter genera 8 TB
Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14
Pgina 41
Pgina 42
Pgina 43
Pgina 44
las cosas) Biometria Datos de transacciones de grandes datos (salud, telecomunicaciones) Datos generados por las personas (humanos)
Pgina 45
Sunil Soares (2003). Big Data Governance Emerging Imperative. Boise. MC Press Online. El autor de este libro mantiene un blog excelente sobre Big Data y Gobierno de Big Data
Pgina 46
Pgina 47
Pgina 48
Pgina 49
Pgina 50
Pgina 51
Pgina 52
Pgina 53
multiestructurados. Tienen un formato y flujo lgico de modo que pueden ser entendidos pero el formato no es amistoso al usuario(HTML. XML, datos de web logs)
Normalmente, se suelen asociar los datos estructurados a los tradicionales y los datos no estructurados a los Big Data Objetivo principal de los sistemas de gestin de datos: Integracin de datos estructurados y no estructurados Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14
Pgina 54
Pgina 55
Pgina 56
1. Almacenamiento
Hacen falta nuevas tecnologas de almacenamiento
RAM vs HHD Memorias hardware. HHD 100 ms barato que RAM pero 1000 veces ms lento Solucin actual:
Solid- state drive (SSD) adems no voltil Tecnologas in-memory (SAP HANA)
Investigacin: Storage Class Memory (SCM) Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14
Pgina 57
2. Base de datos
Las BD relacionales no pueden con todo
volumen de la informacin
Pgina 58
3. Procesamiento HADOOP
Se requieren nuevos modelos de programacin para manejarse con estos datos Solucin: Para conseguir procesar grandes conjuntos de datos:
MapReduce de Google
Hadoop (Yahoo -
Pgina 59
4. Obtencin de valor
Los datos no se pueden comer crudos (en bruto) la informacin no es conocimiento accionable
Para ello tenemos tcnicas de Asociacin Clasificacin Clustering Prediccin ...
Data Mining
La mayora de algoritmos se ejecutan bien en miles de registros, pero son hoy por hoy impracticables en miles de millones.
Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14
Pgina 60
Bases de datos
In-Memory (en-memoria)
SAP Hana Oracle Times Ten IBM solidDB
In-Memory Database
Relacionales
Sistemas RDBMS (SGBDR). Oracle, IBM, Microsoft
Transferencia de datos entre Hadoop y bases de datos
relacionales
Legacy (jerrquicas, en red primeras relacionales) NoSQL (Cassandra, Hive, mongoDB, CouchDB, Hbase)
Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14
Pgina 61
isolation, durability).
Estas propiedades garantizan un comportamiento de las base de datos relacionales y el mejor de los argumentos para su utilizacin.
Pgina 62
Bases de datos de procesamiento paralelo masivo (MPP) Bases de datos en memoria Almacenamiento en columnas
Histricamente estas bases de datos tan especializadas tenan un costo muy elevado, pero hoy el mercado nos ofrece varias alternativas que se adaptan al presupuesto de cada organizacin. Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14
Pgina 63
Almacenamiento en columnas en lugar de filas (registros) Massively parallel processing (MPP) In-Memory Analytics
Pgina 64
Pgina 65
Pgina 66
Pgina 67
Pgina 68
Pgina 69
Pgina 70
Pgina 71
FUENTE: datalytics.com
Pgina 72
FUENTE: datalytics.com
Pgina 73
INGENIERA INFORMTICA
74
INGENIERA INFORMTICA
HADOOP
75
Logo de HADOOP
Pgina 76
Logo de HADOOP
Pgina 77
Pgina 78
Pgina 79
Hadoop
The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using a simple Programming model
De la pgina de Hadoop
Pgina 80
Hadoop
Apache Hadoop es un framework que permite el tratamiento distribuido de grandes cantidades de datos (del orden de peta bytes) y trabajar con miles de mquinas de forma distribuida. Se inspir en los documentos sobre MapReduce y Google File System publicados por Google. Est desarrollado en Java y se ejecuta dentro de la JVM. Actualmente est soportado por Google, Yahoo e IBM entre otros. Tambin existen empresas como Cloudera (http://www.cloudera.com/) que ofrecen soluciones empresariales Open Source basadas en Hadoop. Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14
Pgina 81
Escalable: Si se necesita ms poder de procesamiento o capacidad de almacenamiento solo hay que aadir ms nodos al clster de forma sencilla. Eficiente: Hadoop distribuye los datos y los procesa en paralelo en los nodos donde los datos se encuentran localizados. Confiable (fiable) Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14
Pgina 82
Pgina 83
UN ENTORNO TPICO DE
DATA WAREHOUSE
Pgina 84
Coexistencia de BIG
Pgina 85
sistema de archivos distribuido (Hadoop Distributed File System, HDFS) y un motor de procesamiento de datos que implementa el modelo Map/Reduce (Hadoop MapReduce)..
Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14
Pgina 86
Hadoop
El diseo de Hadoop se divide en dos partes
principales:
Por otro lado la implementacin de MapReduce que se encarga del procesamiento de la informacin de forma distribuida.
Pgina 87
Pgina 88
Historia de HADOOP
2004-2006 Google publica los papers de GFS y MapReduce Doug Cutting implementa una version Open Source en Nutch 2006-2008 Hadoop se separa de Nutch Se alcanza la escala web en 2008 2008-Hasta ahora Hadoop se populariza y se comienza a explotar comercialmente. Fuente: Hadoop: a brief history. Doug Cutting Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14
Pgina 89
Pgina 90
Pgina 91
APACHE HADOOP
Other Hadoop-related projects at Apache include:
Chukwa: A data collection system for managing large HBase: A scalable, distributed database that supports
structured data storage for large tables.
Pgina 92
APACHE HADOOP
Hive: A data warehouse infrastructure that provides
data summarization and ad hoc querying. mining library.
Mahout: A Scalable machine learning and data Pig: A high-level data-flow language and execution
framework for parallel computation. service for distributed applications.
Pgina 93
Pgina 94
Hadoop
Apache Hadoop es un framework que permite el tratamiento distribuido de grandes cantidades de datos (del orden de peta bytes) y trabajar con miles de mquinas de forma distribuida. Se inspir en los documentos sobre MapReduce y Google File System publicados por Google. Est desarrollado en Java y se ejecuta dentro de la JVM. Actualmente est soportado por Google, Yahoo e IBM entre otros. Tambin existen empresas como Cloudera (http://www.cloudera.com/) que ofrecen soluciones empresariales Open Source basadas en Hadoop. Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14
Pgina 95
Hadoop
Las caractersticas principales de Hadoop son Econmico: Est diseado para ejecutarse en equipos de bajo coste formando clsteres. Estos clsteres pueden llevarnos a pensar en miles de nodos de procesamiento disponibles para el procesado de informacin. Escalable: Si se necesita ms poder de procesamiento o capacidad de almacenamiento solo hay que aadir ms nodos al clster de forma sencilla. Eficiente: Hadoop distribuye los datos y los procesa en paralelo en los nodos donde los datos se encuentran localizados. Confiable: Es capaz de mantener Es capaz de mantener mltiples copias de los datos y Luis Joyanes Aguilar automticamente hacer un re-despliegue de las tareas Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14
Pgina 96
Hadoop
El diseo de Hadoop se divide en dos partes
principales:
Por otro lado la implementacin de MapReduce que se encarga del procesamiento de la informacin de forma distribuida.
Pgina 97
Hadoop
Pgina 98
Pgina 99
Pgina 100
HADOOP
HDFS (Hadoop Distributed File System). Es
un sistema de archivos distribuido que est optimizado para almacenar grandes cantidades de datos utilizando un patrn de acceso write-once read-many (escribe una vez, lee muchas). Esto hace que HDFS sea una opcin adecuada cuando es necesario escribir pocos archivos grandes, que son ledos muchas veces. Un cluster HDFS tiene dos tipos de nodos: un nodo de nombre (namenode) y mltiples nodos de datos (datanodes). El primero es responsable del rbol del sistema de archivos y los metadatos, mientras que los segundos son los que realizan el acceso a los datos. Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14
Pgina 101
HADOOP
HBase (Hadoop Database). HBase es una base
de datos distribuida, versionada y orientada a columnas, diseada para almacenar tablas muy grandes (millones de registros con millones de columnas). HBase funciona encima de HDFS y usa la misma arquitectura de nodos: un nodo maestro que divide y distribuye los datos, y mltiples nodos de trabajo que realizan las operaciones de acceso a datos. Los datos de HBase tpicamente se acceden por medio de tareas MapReduce, aunque tambin ofrece interfaces tipo REST.
Pgina 102
HADOOP
Procesamiento de datos
Encima de la capa de datos necesitamos frameworks para procesar dichos datos. La herramienta principal en este capa es un motor de procesamiento de tareas MapReduce.
originalmente por Google para procesar grandes cantidades de datos. Est inspirado en las funciones map y reduce de la programacin funcional, aunque en realidad aqu funcionan de forma un poco distinta:
Pgina 103
HADOOP
Map: En este paso, un nodo maestro recibe una tarea y la divide en tareas ms pequeas que distribuye hacia otros nodos para que las procesen. Cada uno de estos nodos puede a su vez volver a dividir y repartir tareas, lo cual lleva a una estructura de rbol de varios niveles. Cada nodo de procesamiento, una vez que termina su tarea la regresa a su nodo maestro.
recibidas y las combina para generar la salida, es decir, la respuesta al problema que originalmente se trata de resolver.
Pgina 104
Obstculos de MapReduce+NoSQL
Difcil pensar en MapReduce+NoSQL hace falta desaprender Solucin (open source): HIVE, sistema DW basado en Hadoop desarrollado por Facebook que permite escribir consultas en SQL. PIG, lenguaje de alto nivel para ejecutar trabajos sobre MapReduce (desarrollado per Yahoo).
Pgina 105
Obstculos de MapReduce+NoSQL
Propuestas de la industria para integrar NoSQL con SQL: Sqoop de Cloudera Greenplum database Aster Data's nCluster DW system Muchas soluciones DW han optado por conectores Hadoop en vez de integrar sus propias funcionalidades MapReduce.
Pgina 106
Pgina 107
Pgina 108
Pgina 109
Pgina 110
Hadoop en la actualidad
Hadoop se puede utilizar en teora para casi cualquier tipo de trabajo batch, mejor que ha trabajos en tiempo real, ya que son ms fciles de dividir y ejecutar en paralelo. Entre lo campos actuales a aplicacin se encuentran: Anlisis de logs Anlisis de mercado Machine learning y data mining Procesamiento de imgenes Procesamiento de mensajes XML Web crawling Indexacin Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14
Pgina 111
Hadoop en la actualidad
Actualmente Hadoop es un framework muy extendido en el mbito empresarial, sobre todo en compaas que manejan grandes volmenes de datos. Entre las que podemos descarta las siguientes empresas: Yahoo: La aplicacin Yahoo! Search Webmap est implementado con Hadoop sobre un clster de mas de 10.000 nodos Linux y la informacin que produce es la utilizada por el buscador de Yahoo. Facebook: Tiene ha da de hoy el mayor clster Hadoop del mundo que almacena hasta 30 peta bytes de informacin Amazon A9: Se utiliza para la generar ndices de bsqueda de los
productos ofertados en el portal. Disponen de varios clsteres de entre 1 y 100 nodos Luis Joyanes Aguilar cada uno.
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14
Pgina 112
Hadoop en la actualidad
The New York Times: Utiliza Hadoop y EC2 (Amazon Elastic Compute Cloud) para convertir 4 Tera bytes de imgenes TIFF en imgenes PNG de 800 K para ser mostradas en la Web en 36 horas. Adems existen compaas cuyo negocio es principal es Hadoop, como Cloudera, que comercializa CDH (Cloudera's Distribution including Apache Hadoop), que da soporte en la configuracin y despliegue de clsteres Hadoop. Adems proporciona servicios de consultora y formacin en estas tecnologa. Todo el software que distribuyen es Open Source. Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14
Pgina 113
Distribuciones de Hadoop
Pgina 114
Distribuciones de Hadoop
Cloudera mapR Hortonworks IBM ofrece una distribucin llamada InfoSphere BigInsights Amazon Web Services ofrece una marco de trabajo Hadoop que forma parte del servicio Amazon Elastic MapReduce EMC ofrece Greenplus HD Microsoft ofrece Hadoop como un servicio basado en la nube de Microsoft Azure Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14
Pgina 115
Pgina 116
Pgina 118
Pgina 119
Twitter:@luisjoyanes www.facebook.com/joyanesluis
www.slideshare.net/joyanes
PORTAL NTICS : luisjoyanes.wordpress.com
CORREO-e: luis.joyanes@upsam.es
Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14
Pgina 120
BIBLIOGRAFA bsica
JOYANES, Luis (2013). Big Data. Anlisis de los
Pgina 121
BIBLIOGRAFA complementaria
SOARES, Sunil (2013). Big Data Governance. An emerging Imperative. Boise, USA: MC Press. FRANKS, Bill (2012). Taming the Big Data Tidal Wave. New York: Wiley.
Pgina 122
BIBLIOGRAFA complementaria
ZIKOPOULOS, Paul C. et al (2012). Understanding Big
Data. Analytics for Enterprise Class Hadoop and Streaming Data. New York: McGraw-Hill.
www-01.ibm.com/software/data/bigdata/ ZIKOPOULOS, Paul C. et al (2013). Harness the Power of Big Data. The IBM Big Data Platform. New York: McGraw-Hill. Descargable libre en IBM.
Pgina 123
Pgina 124
REFERENCIAS
McKinsey Global Institute . Big data: The
James G. Kobielus. The Forrester Wave: Enterprise Hadoop Solutions, Q1 2012, February 2, 2012. www-01.ibm.com/software/data/bigdata/ Diego Lz. de Ipia Glz. de Artaza. Bases de Datos No
Relacionales (NoSQL). Facultad de Ingeniera,
Universidad de Deusto. www.morelab.deusto.es http://paginaspersonales.deusto.es/dipina Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14
Pgina 125
BIBLIOGRAFA
Philip Russom. BIG DATA ANALYTICS. FOURTH QUARTER 2011. TDWI.org
IBM. http://www-01.ibm.com/software/data/bigdata/
Pgina 126
http://asktom.oracle.com/pls/asktom/f?p=100:11:0::::P11_QUESTION_ID:266
Pgina 127
REFERENCIAS
Fundacin Apache:http://hadoop.apache.org/ Apache ZooKeeper: http://zookeeper.apache.org/ Apache Hive: http://hive.apache.org/ Pig: http://pig.apache.org/ Apache Avro: http://avro.apache.org/ Apache Hbase: http://hbase.apache.org/
Pgina 128
REFERENCIAS
[1] Hadoop Wiki. http://wiki.apache.org/hadoop [2] D. Engfer. Intro to the Hadoop Stack. http://www.slideshare.net/davidengfer/intro-tothe-hadoop-stack-javamug [3] C. Zedlewski, E. Collins. Hadoop Stack: Then, now and future. http://www.slideshare.net/cloudera/the-hadoopstack-then-now-and-in-the-future-eli-collinscharles-zedlewski-cloudera [4] M. Collins. Hadoop and MapReduce: Big Data Analytics. Gartner Research, Enero 2011 http://www.gartner.com/id=1521016 Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14
Pgina 129