SisDeInformacioÌn Tema11 BigData Hadoop v2

GRADO EN INGENIERA INFORMTICA
Tema 11
Big Data y Hadoop Curso 2013/14 1 C

Prof. Luis Joyanes Aguilar
INGENIERA INFORMTICA
BIG DATA
El universo digital de datos y los datos abiertos (OPEN DATA)

2
LA ERA DEL PETABYTE (1.000 TB), Wired , julio 2008 (www.wired.com)

Sensores en todas partes, almacenamiento infinito y Nubes (clouds) de procesadores
Nuestra capacidad para capturar, almacenar y comprender cantidades masivas de datos est cambiando la ciencia, medicina, negocios y tecnologa. A medida que aumenta nuestra coleccin de hechos y figuras, crece la oportunidad de encontrar respuestas a preguntas fundamentales.
Because in the era of big data,
more isnt just more. More is different

Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14
Pgina 3
1TB (250.000 canciones)
LA ERA DEL PETABYTE -2- . Wired , julio 2008 (www.wired.com)
20 TB (fotos uploaded a Facebook cada mes)

120 TB (todos los datos e imgenes recogidos por el telescopio espacial Hubble) ; 460 TB (todos los datos del tiempo climtico en EEU compilados por el National Climatic Data Center); 530 TB (Todos los vdeos de YouTube); 600 TB (base de datos de genealoga, incluye todos los censos de EEUU 1790-2000)
1 PB (datos procesados por los servidores de Google cada 75 minutos)

Pgina 4
Tabla de unidades de almacenamiento
(The Economist, febrero 2010): data, data everywhere

www.economist.com/specialreports/displaystory.cfm?story_id=15557421

Pgina 5
UNIDADES DE MEDIDA DE
ALMACENAMIENTO

Pgina 6
El Universo Digital EMC / IDC

Pgina 7
El Universo Digital EMC / IDC

Pgina 8
EL UNIVERSO DIGITAL DE DATOS, 2013

EMC Corporation PUBLIC en diciembre de 2013, su estudio anual sobre el Universo Digital de IDC, patrocinado por EMC: Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East. El estudio arroj que,
a pesar de la expansin sin precedentes del Universo Digital debido a el Big Data que se generan a diario por personas y mquinas, IDC estima que solo 0,5% de los datos mundiales se analizan.
Pgina 9

La proliferacin a nivel mundial de dispositivos, como PC y telfonos inteligentes, aument el acceso a Internet dentro de los mercados emergentes, y el incremento de datos generados por mquinas, como cmaras de vigilancia o contadores inteligentes, ha contribuido a la
duplicacin del Universo Digital en los ltimos dos aos solamente, hasta alcanzar un tamao descomunal de 2,8 ZB. IDC proyecta que, para el 2020, el Universo Digital alcanzar 40 ZB, cifra que supera las proyecciones anteriores por 14%.
Pgina 10

En trminos de volumen, 40 ZB de datos son equivalentes a lo siguiente:
Existen 700.500.000.000.000.000.000 granos de arena en todas las playas del mundo (o setecientos trillones quinientos mil billones). Esto significa que 40 ZB equivalen a 57 veces la cantidad de granos de arena de todas las playas del mundo. Si pudiramos guardar los 40 ZB en los discos Blue-ray de la actualidad, el peso de dichos discos (sin fundas ni estuches) sera equivalente a 424 portaaviones Nimitz. En 2020, 40 ZB sern 5.247 GB por persona a nivel mundial.
Referencia: America Economia: http://tecno.americaeconomia.com/noticias/el-granuniverso-digital-la-data-crece-mas-rapido-de-lo-quepodemos-protegerla Luis Joyanes Aguilar

Pgina 11
El universo digital de datos, IDC 2013

Pina 12
El universo digital de datos, 2013

Pgina 13
LA ERA DEL EXABYTE/ZETTABYTE CISCO

LA ERA DEL EXABYTE, CISCO . Estudio Cisco Visual Networking Index (VNI) 2007-2012. Trfico mundial de datos. LA ERA DEL ZETTABYTE:Cisco VNI: Forecast and Methodology 2012: 22017. Trfico mundial de datos (publicado en 2013)
Pgina 14
Informe VNI CISCO 2012-2107

Durante 2012, empresas, gobiernos, industria y usuarios finales generan cada mes del ao, una tasa de trfico mensual de 44 EB (aprox. 44 millones de discos duros de 1TB apilados u 11.000 millones de DVDs). Mxico produjo en 2012 un trfico de 0,6 ExaBytes/mes. Se estima que en 2017 producir unos 1,3 EB. Para ese momento el 56% de la poblacin contar con acceso a Internet de acuerdo con el INEGI de Mxico
Pgina 15
Informe VNI CISCO 2012-2107

Los dispositivos que ms ayudan a generar los 44 EB por mes, segn CISCO: 0,6 EB, smartphones 2,7 tabletas 5,8 televisores 7,6 consolas de videojuegos 18,6 computadoras personales En 2017 se espera una tasa global de trfico mensual de 121 EB aprox 1 ZB
Pgina 16
UNIVERSIDAD PONTIFICIA DE SALAMANCA
BIG DATA Y ANALTICA DE DATOS. Nuevas bases de datos NoSQL, In-Memory

17
Harvard Business Review, octubre 2012

Pgina 18
Foreign Affairs, mayo 2013

Pgina 19
Revista BBVA, innovation edge, junio 2013

Pgina 20
ORIGEN DEL TRMINO

Dcada de 2000, fue acuado el trmino Grandes volmenes de datos Datos masivos Macrodatos (Fundacin Funde BBVA) La era de los datos masivos se refiere a cosas que se pueden hacer a gran escala, y pone en cuestin la forma en que vivimos e interactuamos con el mundo (MayerSchmberg, Cukier, The Economist) Correlacin: ya no importa el porqu sino slo el qu
Pgina 21
Big Data McKinsey. Junio 2011

Big data: The next frontier for
innovation, competition, and productivity.
http://www.mckinsey.com/Insights/MGI/ Research/Technology_and_Innovation/Big _data_The_next_frontier_for_innovation

Pgina 22

Big data: The next frontier for innovation,
competition, and productivity.
The amount of data in our world has been exploding. Companies capture trillions of bytes of information about their customers, suppliers, and operations, and millions of networked sensors are being embedded in the physical world in devices such as mobile phones and automobiles, sensing, creating, and communicating data.
Pgina 23

Multimedia and individuals with smartphones and on social network sites will continue to fuel exponential growth. Big datalarge pools of data that can be captured, communicated, aggregated, stored, and analyzedis now part of every sector and function of the global economy. Like other essential factors of production such as hard assets and human capital, it is increasingly the case that much of modern economic activity, innovation, and growth simply couldnt take place without data.
Pgina 24

The question is what this phenomenon means. Is the proliferation of data simply evidence of an increasingly intrusive world? Or can big data play a useful economic role? While most research into big data thus far has focused on the question of its volume, our study makes the case that the business and economic possibilities of big data and its wider implications are important issues that business leaders and policy makers must tackle. To inform the debate, this study examines the potential value that big data can create for organizations and sectors of the economy and seeks to illustrate and quantify that value. We also explore what leaders of organizations and policy makers need to do to capture it. Luis Joyanes Aguilar
Pgina 25
What do we mean by "big data"? : McKinsey 2011

Big data refers to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze.
This definition is intentionally subjective and incorporates a moving definition of how big a dataset needs to be in order to be considered big datai.e., we dont define big data in terms of being larger than a certain number of terabytes (thousands of gigabytes). We assume that, as technology advances over time, the size of datasets that qualify as big data will also increase. Also note that the definition can vary by sector, depending on what kinds of software tools are commonly available and what sizes of datasets are common in a particular industry. With those caveats, big data in many sectors today will range from a few dozen terabytes to multiple petabytes (thousands of terabytes).

Pgina 26
LA AVALANCHA / DILUVIO DE DATOS

Segn Eric Schmidt, presidente ejecutivo de Google, entre el origen de la tierra y el 2003 se crearon cinco exabytes de informacin. Hoy en da creamos la misma cifra cada dos das2. Las previsiones aseguran que en esta dcada crearemos alrededor de 35 zettabytes (40 ZB, informe de diciembre de 2012) Segn la consultora IDC, cifran en 1,8 Zettabytes la informacin generada en 2011. Si tratramos de almacenar esa informacin en iPads (del modelo de 32GB) necesitaramos 57.500 millones; puestos unos al lado de otro formaramos una lnea que dara 3 veces la vuelta al mundo y, si tratramos de apilarlos, la montaa resultante sera 25 veces ms alta que el monte Fuji. Luis Joyanes Aguilar
Pgina 27
LA AVALANCHA DE DATOS
Twitter: (redes sociales)
90 millones de tuits (tweets) por da que representa 8 Terabytes.
Boeing: (industria)
Vuelo transocenico de un jumbo puede generar 640 Terabytes.
Wal-Mart: (comercio)
1 milln de transacciones por hora que se estima que alimenta una base de datos de 2.5 petabytes.
Google procesa al da 20 PB de informacin

Pgina 28

Pgina 29

Pgina 30
BIG DATA, bbva edge, junio 2013

Fuentes:
SAS | Big Data: www.sas.com/big-data. IBM | Big Data at the Speed of Business McKinsey Global Institute | Big Data: The next frontier for innovation, competition, and productivity, junio 2011.
Fuente:
Intel | What Happens in an Internet Minute? www.intel.com/content/www/us/en/communic ations/internet-minute-infographic.html
Pgina 31
EXPANSIN, de Wall Street Journal, 1 de abril 2013

01.04.2013 S. Rosenbush / M. Totty. WSJ. Las empresas estn buscando la mejor forma de aprovechar el exceso de informacin. La informacin abunda y las empresas estn buscando la mejor forma de aprovecharla. Los expertos ya bautizaron este fenmeno como big data. La definicin es amorfa, pero normalmente significa lo siguiente: las empresas tienen acceso a mucha ms informacin que antes, que proviene de muchas ms fuentes y la obtienen casi al momento en que se genera.

Pgina 32

El concepto de big data a menudo se relaciona con las empresas que ya operan en el mundo de la informacin, como Google, Facebook y Amazon. Pero compaas en mltiples industrias estn colocando los datos en el corazn de sus operaciones. Estn recolectando cantidades enormes de informacin, a menudo combinando indicadores tradicionales como las ventas, con comentarios de redes sociales e informacin de ubicacin que viene de los dispositivos mviles. Las empresas escudrian esta informacin para mejorar sus productos, recortar gastos y mantener la fidelidad de sus clientes. Las firmas de logstica, por ejemplo, instalan sensores en sus camiones para detectar formas de acelerar las entregas. Los fabricantes revisan miles de publicaciones en foros de Internet para determinar si a los clientes les gusta una nueva caracterstica. Los gerentes de personal estudian cmo los candidatos a un empleo responden preguntas para ver si encajan bien con la compaa.

Pgina 33

An quedan numerosos obstculos en el camino. Algunos son tcnicos, pero en la mayora de las empresas las decisiones se siguen basando en la opinin de la persona con el salario ms alto y podra ser difcil convencer a un ejecutivo de que los datos superan su intuicin. Los recursos humanos, las operaciones, el desarrollo de productos o el mrketing son las diferentes formas a travs de las cuales las empresas usan el poder de la informacin para transformar sus negocios.
Pgina 34
EXPANSIN, de Wall Street Journal, 1 de abril 2013 (casos de estudio)

UPS UPS comenz a instalar sensores en sus vehculos de reparto para conocer su velocidad y ubicacin, si el cinturn de seguridad del conductor est abrochado... Al combinar su informacin de GPS y los datos de sensores sobre rendimiento en ms de 46.000 vehculos, UPS recort 136 millones de kilmetros de sus rutas.

Pgina 35
EXPANSIN, de Wall Street Journal, 1 de abril 2013 (casos de estudio)

InterContinental
La cadena hotelera InterContinental ha recabado informacin sobre los 71 millones de miembros de su programa Priority Club, como niveles de ingresos y preferencias sobre las instalaciones. El grupo consolid la informacin en un solo almacn de datos que rene informacin de redes sociales y procesa bsquedas ms rpido

Pgina 36
DEFINICIN DE BIG DATA: IBM

What is big data?*
Every day, we create 2.5 quintillion bytes of data so much that 90% of the data in the world today has been created in the last two years alone. This data
data. * www-01.ibm.com/software/data/bigdata/
comes from everywhere: sensors used to gather climate information, posts to social media sites, digital pictures and videos, purchase transaction records, and cell phone GPS signals to name a few. This data is big
Pgina 37

Pgina 38
Modelo 3V de Big Data

VOLUMEN Terabytes Records Transactions Tables, files VELOCIDAD Batch (por lotes) Near time (casi a tiempo) Real time (tiempo real) Streams (flujos) Luis Joyanes Aguilar
VARIEDAD Estructurado No estructurado Semi-estructurado Todos los dems
Pgina 39

Pgina 40

VOLUMEN de datos
procesados por las empresas ha crecido significativamente.
Google procesa 20 petabytes al da En 2020 se esperan 42.000 millones de pagos electrnicos. La Bolsa de Nueva York genera UN terabyte de datos al da Twitter genera 8 TB
Pgina 41

VELOCIDAD. Rapidez con la que se accede
a los datos. La velocidad del movimiento, proceso y captura de datos, dentro y fuera de la empresa ha aumentado considerablemente. Flujo de datos a alta velocidad.
eBay se enfrenta al fraude a travs
de PayPal analizando cinco millones de transacciones en tiempo real al da.

Pgina 42

VARIEDAD: Big data es cualquier tipo de
dato estructurado y no estrutcturado - tales como texto, datos de sensores, datos entre mquinas (M2M), archivos logs, audio, vdeo, flujos de clicks, XML, datos en streaming, cotizaciones burstiles, medios sociales,
Una creciente variedad de datos necesitan ser procesados y convertidos a informacin

Pgina 43

Segn otras definiciones de Big Data de fabricantes, consultoras, NIST, etc. existen otras propiedades de los big data: Veracidad de los datos Valor de los datos Viabilidad de la infraestructuras y las herramientas de almacenamiento
Pgina 44
Fuentes de Big Data

Herramientas para anlisis de datos en grandes volmenes de datos. Infraestructuras de Big Data Fuentes de Big Data (Soares 2012):
Web y Social media
Machine-to-Machine (M2M, Internet de
las cosas) Biometria Datos de transacciones de grandes datos (salud, telecomunicaciones) Datos generados por las personas (humanos)
Pgina 45
Sunil Soares (2003). Big Data Governance Emerging Imperative. Boise. MC Press Online. El autor de este libro mantiene un blog excelente sobre Big Data y Gobierno de Big Data

Pgina 46
Big Data. Joyanes, MxicoDF: Alfaomega (2013)

1. Web y Social Media: Incluye contenido web e informacin que es obtenida de las medios sociales como Facebook, Twitter, LinkedIn, Foursquare, Tuenti, etc, blogs como Technorati, blogs de peridicos y televisiones, wikis como MediaWiki, Wikipedia, marcadores sociales como Del.icio.us, Stumbleupon agregadores de contenidos como Dig, Meneame En esta categora los datos se capturan, almacenan o distribuyen teniendo presente las caractersticas siguientes: Datos de los flujos de clics, tuits, retuits o entradas en general (feeds) de Twitter, Tumblr, Entradas (posting) de Facebook y contenidos web diversos. Luis Joyanes Aguilar
Pgina 47

2. Machine-to-Machine (M2M)/ Internet de las cosas: M2M se refiere a las tecnologas que permiten conectarse a
otros diferentes dispositivos entre s. M2M utiliza dispositivos como sensores o medidores que capturan algn evento en particular (humedad, velocidad, temperatura, presin, variables meteorolgicas, variables qumicas como la salinidad, etc.) los cuales transmiten a travs de cableadas, inalmbricas y mviles a otras aplicaciones que traducen estos eventos en informacin significativa. La comunicacin M2M ha originado el conocido Internet de las cosas o de los objetos. Entre los dispositivos que se emplean para capturar datos de esta categora podemos considerar chips o etiquetas RFID, chips NFC, medidores (de temperaturas, de electricidad, presin). sensores, dispositivos GPS y ocasionan la generacin de datos mediante la lectura de los medidores, lecturas de los RFID y NFC, lectura de los sensores, seales GPS, seales de GIS, etc.

Pgina 48

3.Big Data transaccionales: Grandes datos transaccionales procedentes de operaciones normales de transacciones de todo tipo. Incluye registros de facturacin, en telecomunicaciones registros detallados de las llamadas (CDR), etc. Estos datos transaccionales estn disponibles en formatos tanto semiestructurados como no estructurados. Los datos generados procedern de registros de llamada de centros de llamada, departamentos de facturacin, reclamaciones de las personas, presentacin de documentos

Pgina 49

4. Biometra: La biometra o reconocimiento biomtrico. La informacin biomtrica se refiere a la identificacin automtica de una persona basada en sus caractersticas anatmicas o trazos personales. Los datos anatmicos se crean a partir de las caractersticas fsicas de una persona incluyendo huellas digitales, iris, escaneo de la retina, reconocimiento facial, gentica, DNA, reconocimiento de voz, incluso olor corporal etc. Los datos de comportamiento incluyen anlisis de pulsaciones y escritura a mano. Los avances tecnolgicos han incrementado considerablemente los datos biomtricos disponibles Luis Joyanes Aguilar
Pgina 50

. En el rea de seguridad e inteligencia, los datos biomtricos han sido informacin importante para las agencias de investigacin. En el rea de negocios y de comercio electrnico los datos biomtricos se pueden combinar con datos procedentes de medios sociales lo que hace aumentar el volumen de datos contenidos en los datos biomtricos. Los datos generados por la biometra se pueden agrupar en dos grandes categoras: Gentica y Reconocimiento facial. An Overview of Biometric Recpgnition. http://biometrics.cse.nsu.edu/info.html Luis Joyanes Aguilar
Pgina 51

5. Datos generados por las personas: Las personas generan enormes y diversas cantidades de datos como la informacin que guarda un centro de llamadas telefnicas (call center) al establecer una llamada telefnica, notas de voz, correos electrnicos, documentos electrnicos, estudios y registros mdicos electrnicos, recetas mdicas, documentos papel, faxes, etc. El problema que
acompaa a los documentos generados por las personas es que pueden contener informacin sensible de las personas que necesita, normalmente ser oculta, enmascarada o cifrada de alguna forma para conservar la privacidad de dichas personas. Estos datos al ser sensibles necesitan ser protegidos por las leyes nacionales o supranacionales (como es el caso de la Unin Europea o Mercosur) relativas a proteccin de datos y privacidad.

Pgina 52

Pgina 53
Estructura de Big Data: tipos de datos

Estructurados No estructurados
No estructurados (texto, datos de vdeo, datos de audio,,,) Semiestructurados ( a veces se conocen como
multiestructurados. Tienen un formato y flujo lgico de modo que pueden ser entendidos pero el formato no es amistoso al usuario(HTML. XML, datos de web logs)
Normalmente, se suelen asociar los datos estructurados a los tradicionales y los datos no estructurados a los Big Data Objetivo principal de los sistemas de gestin de datos: Integracin de datos estructurados y no estructurados Luis Joyanes Aguilar
Pgina 54
TRATAMIENTO DE LOS BIG DATA

Pgina 55
ESTADO ACTUAL DE BIG DATA

1. Almacenamiento: hacen falta nuevas tecnologas de almacenamiento 2. Bases de datos: las BD relacionales no pueden con todo 3. Procesamiento: se requieren nuevos modelos de programacin 4. Obtencin de valor: los datos no se pueden comer crudos (en bruto) La informacin no es conocimiento accionable
Pgina 56
1. Almacenamiento
Hacen falta nuevas tecnologas de almacenamiento
RAM vs HHD Memorias hardware. HHD 100 ms barato que RAM pero 1000 veces ms lento Solucin actual:
Solid- state drive (SSD) adems no voltil Tecnologas in-memory (SAP HANA)
Investigacin: Storage Class Memory (SCM) Luis Joyanes Aguilar
Pgina 57
2. Base de datos
Las BD relacionales no pueden con todo
volumen de la informacin
GBs PBs Exabytes . Cada da ms populares

Limitadas para almacenamiento de big data (ACID, SQL, ) ACID: Atomicity, Consistency, Isolation & Durability Luis Joyanes Aguilar
Pgina 58
3. Procesamiento HADOOP
Se requieren nuevos modelos de programacin para manejarse con estos datos Solucin: Para conseguir procesar grandes conjuntos de datos:
MapReduce de Google
Pero fue el desarrollo de
Apache) por parte de Yahoo, el que ha propiciado un

ecosistema de herramientas open source. Luis Joyanes Aguilar
Hadoop (Yahoo -
Pgina 59
4. Obtencin de valor
Los datos no se pueden comer crudos (en bruto) la informacin no es conocimiento accionable
Para ello tenemos tcnicas de Asociacin Clasificacin Clustering Prediccin ...
Data Mining
La mayora de algoritmos se ejecutan bien en miles de registros, pero son hoy por hoy impracticables en miles de millones.
Pgina 60
Bases de datos
In-Memory (en-memoria)
SAP Hana Oracle Times Ten IBM solidDB
In-Memory Database
Relacionales
Sistemas RDBMS (SGBDR). Oracle, IBM, Microsoft
Transferencia de datos entre Hadoop y bases de datos
relacionales
Legacy (jerrquicas, en red primeras relacionales) NoSQL (Cassandra, Hive, mongoDB, CouchDB, Hbase)
Pgina 61
BASES DE DATOS RELACIONALES (REPASO)

La mayora de las bases de datos cumplen con las propiedades ACID (atomicity, consistency,
isolation, durability).
Estas propiedades garantizan un comportamiento de las base de datos relacionales y el mejor de los argumentos para su utilizacin.

Pgina 62
BASES DE DATOS ANALTICAS

Analticas: para permitir a mltiples usuarios contestar rpidamente preguntas de negocio que requieran de grandes volmenes de informacin.
Bases de datos de procesamiento paralelo masivo (MPP) Bases de datos en memoria Almacenamiento en columnas
Histricamente estas bases de datos tan especializadas tenan un costo muy elevado, pero hoy el mercado nos ofrece varias alternativas que se adaptan al presupuesto de cada organizacin. Luis Joyanes Aguilar
Pgina 63
Bases de datos analticas

Bases de datos diseadas especficamente para ser utilizadas como motores de Data Warehouse.
Estas bases de datos logran procesar grandes volmenes de informacin a velocidades asombrosas, gracias a la aplicacin de diferentes conceptos y tecnologas:
Almacenamiento en columnas en lugar de filas (registros) Massively parallel processing (MPP) In-Memory Analytics

Pgina 64
Almacenamiento en columnas, no filas:

FUENTE: datalytics.com

Pgina 65
Computacin en memoria In-Memory

La computacin en memoria es una
tecnologa que permite el procesamiento de cantidades masivas de datos en memoria principal para proporcionar resultados inmediatos del anlisis y de las transacciones. Los datos a procesar, idealmente son datos en tiempo real (es decir, datos que estn disponibles para su procesamiento o anlisis inmediatamente despus que se han creado). Existen un amplio conjunto de tecnologas que emplean bases de datos en memoria. SAP HANA es una de las ms acreditadas y populares (Oracle, IBM,)
Pgina 66

Pgina 67
BASES DE DATOS NoSQL

Las bases de datos no-relacionales son comnmente llamadas bases de datos NoSQL ya que la gran mayora de ellas comparte el hecho de no utilizar el lenguaje SQL para realizar las consultas Es una definicin controvertida, aunque la definicin ms aceptada es Not only SQL. Una de las caractersticas de las bases de datos no relacionales es que la mayora de ellas no utilizan esquemas de datos rgidos como las bases de datos relacionales. Esto hace que estas bases de datos tambin se les llame Schema-less o Schema-free (almacenamiento des-estructurado). Luis Joyanes Aguilar
Pgina 68
Taxonoma de Bases de datos NoSQL

Los principales tipos de BBDD de acuerdo con su implementacin son los siguientes: Almacenes de Clave-Valor Almacenes de Familia de Columnas (columnares) Almacenes de documentos (orientadas a documentos) Almacenes de Grafos (orientadas a grafos) - Cachs de memoria

Pgina 69
SOLUCIONES DE BASES DE DATOS NoSQL

Pgina 70
Quin usa Apache Cassandra?

Algunos usuarios importantes de Cassandra son:
Digg Facebook Twitter Rackspace SimpleGEO

Pgina 71
Integracin con Big Data.

Pgina 72
Integracin con Big Data.

Pgina 73
Arquitectura de Big Data
74
Tecnologas BIG DATA
HADOOP
75
Logo de HADOOP

Pgina 76
Logo de HADOOP

Pgina 77
TECNOLOGAS BIG DATA (HADOOP)

Datos de la consultora IDC de agosto de 2012 prevn que el mercado del software relacionado con los framework open source Apache Hadoop y el MapReduce de Google crecer a un ritmo anual de ms del 60% hasta el ao 2016. La popularidad de Hadoop se ha ido incrementando durante los ltimos meses, a medida que las empresas necesitan manejar grandes cantidades de datos estructurados y no estructurados para despus analizarlos y ser capaces de tomar decisiones lo ms favorables posible para sus negocios.
IDC tambin espera que el mercado de Hadoop-MapReduce evolucione y que poco a poco comienza a introducirse en los sistemas empresariales.

Pgina 78
Fundacin Apache: proyectos open source

The Apache Software Foundation provides support for the Apache community of open-source software projects, which provide software products for the public good The Apache Software Foundation provides support for the Apache community of open-source software projects, which provide software products for the public good

Pgina 79
Hadoop
The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using a simple Programming model
De la pgina de Hadoop

Pgina 80
Hadoop
Apache Hadoop es un framework que permite el tratamiento distribuido de grandes cantidades de datos (del orden de peta bytes) y trabajar con miles de mquinas de forma distribuida. Se inspir en los documentos sobre MapReduce y Google File System publicados por Google. Est desarrollado en Java y se ejecuta dentro de la JVM. Actualmente est soportado por Google, Yahoo e IBM entre otros. Tambin existen empresas como Cloudera (http://www.cloudera.com/) que ofrecen soluciones empresariales Open Source basadas en Hadoop. Luis Joyanes Aguilar
Pgina 81
Hadoop: caractersticas principales

Econmico: Est diseado para ejecutarse en equipos
de bajo coste formando clsteres. Estos clsteres pueden llevarnos a pensar en miles de nodos de procesamiento disponibles para el procesado de informacin.
Escalable: Si se necesita ms poder de procesamiento o capacidad de almacenamiento solo hay que aadir ms nodos al clster de forma sencilla. Eficiente: Hadoop distribuye los datos y los procesa en paralelo en los nodos donde los datos se encuentran localizados. Confiable (fiable) Luis Joyanes Aguilar
Pgina 82
Un ecosistema de tecnologas de BIG DATA

Pgina 83
UN ENTORNO TPICO DE
DATA WAREHOUSE

Pgina 84
Coexistencia de BIG
DATA yDATA WAREHOUSE

Pgina 85

Hadoop es un proyecto de software open source que provee un framework para habilitar el procesamiento distribuido de grandes conjuntos de datos sobre clusteres construidos con hardware genrico. En esencia, Hadoop consiste de dos elementos base: un
sistema de archivos distribuido (Hadoop Distributed File System, HDFS) y un motor de procesamiento de datos que implementa el modelo Map/Reduce (Hadoop MapReduce)..
Pgina 86
Hadoop
El diseo de Hadoop se divide en dos partes
principales:
Por un lado est el sistema de ficheros distribuido
Hadoop Distributed File System (HDFS) que

se encarga de almacenar todos los datos repartindolos entre cada nodo de la red Hadoop.
Por otro lado la implementacin de MapReduce que se encarga del procesamiento de la informacin de forma distribuida.

Pgina 87
What Is Apache Hadoop? (Fundacin Apache)

The Apache Hadoop project develops open-source software for reliable, scalable, distributed computing. The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver highavaiability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-availabile service on top of a cluster of computers, each of which may be prone to failures.
Pgina 88
Historia de HADOOP
2004-2006 Google publica los papers de GFS y MapReduce Doug Cutting implementa una version Open Source en Nutch 2006-2008 Hadoop se separa de Nutch Se alcanza la escala web en 2008 2008-Hasta ahora Hadoop se populariza y se comienza a explotar comercialmente. Fuente: Hadoop: a brief history. Doug Cutting Luis Joyanes Aguilar
Pgina 89
Historia de Hadoop: Doug Cutting

Pgina 90
Componentes HADOOP (Apache)

The project includes these modules: Hadoop Common: The common utilities that support the other Hadoop modules. Hadoop Distributed File System (HDFS): A distributed file system that provides high-throughput access to application data. Hadoop YARN: A framework for job scheduling and cluster resource management. Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.

Pgina 91
APACHE HADOOP
Other Hadoop-related projects at Apache include:
Avro: A data serialization system. Cassandra: A scalable multi-master database with

no single points of failure. distributed systems.
Chukwa: A data collection system for managing large HBase: A scalable, distributed database that supports
structured data storage for large tables.

Pgina 92
APACHE HADOOP
Hive: A data warehouse infrastructure that provides
data summarization and ad hoc querying. mining library.
Mahout: A Scalable machine learning and data Pig: A high-level data-flow language and execution
framework for parallel computation. service for distributed applications.
ZooKeeper: A high-performance coordination

Pgina 93
Componentes fundamentales de Open Source

Apache Hadoop (biblioteca de software de open source) Apache Hadoop consta de los siguientes subproyectos HDFS (Haoop Distributed File System) MapREduce Hadoop Commons y de las siguientes tecnologas Hbase Hive Pig Otras Luis Joyanes Aguilar
Pgina 94
Hadoop
Apache Hadoop es un framework que permite el tratamiento distribuido de grandes cantidades de datos (del orden de peta bytes) y trabajar con miles de mquinas de forma distribuida. Se inspir en los documentos sobre MapReduce y Google File System publicados por Google. Est desarrollado en Java y se ejecuta dentro de la JVM. Actualmente est soportado por Google, Yahoo e IBM entre otros. Tambin existen empresas como Cloudera (http://www.cloudera.com/) que ofrecen soluciones empresariales Open Source basadas en Hadoop. Luis Joyanes Aguilar
Pgina 95
Hadoop
Las caractersticas principales de Hadoop son Econmico: Est diseado para ejecutarse en equipos de bajo coste formando clsteres. Estos clsteres pueden llevarnos a pensar en miles de nodos de procesamiento disponibles para el procesado de informacin. Escalable: Si se necesita ms poder de procesamiento o capacidad de almacenamiento solo hay que aadir ms nodos al clster de forma sencilla. Eficiente: Hadoop distribuye los datos y los procesa en paralelo en los nodos donde los datos se encuentran localizados. Confiable: Es capaz de mantener Es capaz de mantener mltiples copias de los datos y Luis Joyanes Aguilar automticamente hacer un re-despliegue de las tareas Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14
Pgina 96
Hadoop
El diseo de Hadoop se divide en dos partes
principales:
Por un lado est el sistema de ficheros distribuido
Hadoop Distributed File System (HDFS) que

se encarga de almacenar todos los datos repartindolos entre cada nodo de la red Hadoop.
Por otro lado la implementacin de MapReduce que se encarga del procesamiento de la informacin de forma distribuida.

Pgina 97
Hadoop

Pgina 98
Sistema de Ficheros Distribuido

Sistema de ficheros distribuido (HDFS) Bloques grandes: 64 Mb Almacenados en el sistema de ficheros del SO Tolerante a Fallos (replicacion) Formatos habituales: Ficheros en formato texto (CSV) SequenceFiles Ristras de pares [clave, valor]

Pgina 99

Almacenamiento y acceso a datos
Como su nombre lo indica, estos componentes son los que proveen la capacidad de almacenar y acceder grandes volmenes de datos. Aqu tenemos dos tecnologas principalmente: HDFS y HBase.

Pgina 100
HADOOP
HDFS (Hadoop Distributed File System). Es
un sistema de archivos distribuido que est optimizado para almacenar grandes cantidades de datos utilizando un patrn de acceso write-once read-many (escribe una vez, lee muchas). Esto hace que HDFS sea una opcin adecuada cuando es necesario escribir pocos archivos grandes, que son ledos muchas veces. Un cluster HDFS tiene dos tipos de nodos: un nodo de nombre (namenode) y mltiples nodos de datos (datanodes). El primero es responsable del rbol del sistema de archivos y los metadatos, mientras que los segundos son los que realizan el acceso a los datos. Luis Joyanes Aguilar
Pgina 101
HADOOP
HBase (Hadoop Database). HBase es una base
de datos distribuida, versionada y orientada a columnas, diseada para almacenar tablas muy grandes (millones de registros con millones de columnas). HBase funciona encima de HDFS y usa la misma arquitectura de nodos: un nodo maestro que divide y distribuye los datos, y mltiples nodos de trabajo que realizan las operaciones de acceso a datos. Los datos de HBase tpicamente se acceden por medio de tareas MapReduce, aunque tambin ofrece interfaces tipo REST.

Pgina 102
HADOOP
Procesamiento de datos
Encima de la capa de datos necesitamos frameworks para procesar dichos datos. La herramienta principal en este capa es un motor de procesamiento de tareas MapReduce.
MapReduce es un modelo de programacin creado
originalmente por Google para procesar grandes cantidades de datos. Est inspirado en las funciones map y reduce de la programacin funcional, aunque en realidad aqu funcionan de forma un poco distinta:

Pgina 103
HADOOP
Map: En este paso, un nodo maestro recibe una tarea y la divide en tareas ms pequeas que distribuye hacia otros nodos para que las procesen. Cada uno de estos nodos puede a su vez volver a dividir y repartir tareas, lo cual lleva a una estructura de rbol de varios niveles. Cada nodo de procesamiento, una vez que termina su tarea la regresa a su nodo maestro.
Reduce: El nodo maestro colecciona todas las respuestas

Los beneficios principales de MapReduce son su escalabilidad y la variedad de datos que puede procesar tales como archivos, tablas de bases de datos, sitios web (web crawling).
recibidas y las combina para generar la salida, es decir, la respuesta al problema que originalmente se trata de resolver.

Pgina 104
Obstculos de MapReduce+NoSQL
Difcil pensar en MapReduce+NoSQL hace falta desaprender Solucin (open source): HIVE, sistema DW basado en Hadoop desarrollado por Facebook que permite escribir consultas en SQL. PIG, lenguaje de alto nivel para ejecutar trabajos sobre MapReduce (desarrollado per Yahoo).

Pgina 105
Obstculos de MapReduce+NoSQL
Propuestas de la industria para integrar NoSQL con SQL: Sqoop de Cloudera Greenplum database Aster Data's nCluster DW system Muchas soluciones DW han optado por conectores Hadoop en vez de integrar sus propias funcionalidades MapReduce.

Pgina 106
Componentes fundamentales de Open Source

Apache Hadoop (biblioteca de software de open source) Apache Hadoop consta de los siguientes subproyectos HDFS (Haoop Distributed File System) MapREduce Hadoop Commons y de las siguientes tecnologas Hbase Hive Pig Otras Luis Joyanes Aguilar
Pgina 107

Pgina 108

Other Hadoop-related projects at Apache include: Ambari: A web-based tool for provisioning, managing, and monitoring Apache Hadoop clusters which includes support for Hadoop HDFS, Hadoop MapReduce, Hive, HCatalog, HBase, ZooKeeper, Oozie, Pig and Sqoop. Ambari also provides a dashboard for viewing cluster health such as heatmaps and ability to view MapReduce, Pig and Hive applications visually alongwith features to diagnose their performance characteristics in a userfriendly manner Avro: A data serialization system. Cassandra: A scalable multi-master database with no single points of failure.
Pgina 109

Chukwa: A data collection system for managing large distributed systems. HBase: A scalable, distributed database that supports structured data storage for large tables. Hive: A data warehouse infrastructure that provides data summarization and ad hoc querying. Mahout: A Scalable machine learning and data mining library. Pig: A high-level data-flow language and execution framework for parallel computation. ZooKeeper: A high-performance coordination service for distributed applications. Luis Joyanes Aguilar
Pgina 110
Hadoop en la actualidad
Hadoop se puede utilizar en teora para casi cualquier tipo de trabajo batch, mejor que ha trabajos en tiempo real, ya que son ms fciles de dividir y ejecutar en paralelo. Entre lo campos actuales a aplicacin se encuentran: Anlisis de logs Anlisis de mercado Machine learning y data mining Procesamiento de imgenes Procesamiento de mensajes XML Web crawling Indexacin Luis Joyanes Aguilar
Pgina 111
Actualmente Hadoop es un framework muy extendido en el mbito empresarial, sobre todo en compaas que manejan grandes volmenes de datos. Entre las que podemos descarta las siguientes empresas: Yahoo: La aplicacin Yahoo! Search Webmap est implementado con Hadoop sobre un clster de mas de 10.000 nodos Linux y la informacin que produce es la utilizada por el buscador de Yahoo. Facebook: Tiene ha da de hoy el mayor clster Hadoop del mundo que almacena hasta 30 peta bytes de informacin Amazon A9: Se utiliza para la generar ndices de bsqueda de los
productos ofertados en el portal. Disponen de varios clsteres de entre 1 y 100 nodos Luis Joyanes Aguilar cada uno.
Pgina 112
The New York Times: Utiliza Hadoop y EC2 (Amazon Elastic Compute Cloud) para convertir 4 Tera bytes de imgenes TIFF en imgenes PNG de 800 K para ser mostradas en la Web en 36 horas. Adems existen compaas cuyo negocio es principal es Hadoop, como Cloudera, que comercializa CDH (Cloudera's Distribution including Apache Hadoop), que da soporte en la configuracin y despliegue de clsteres Hadoop. Adems proporciona servicios de consultora y formacin en estas tecnologa. Todo el software que distribuyen es Open Source. Luis Joyanes Aguilar
Pgina 113
Distribuciones de Hadoop

Pgina 114
Distribuciones de Hadoop
Cloudera mapR Hortonworks IBM ofrece una distribucin llamada InfoSphere BigInsights Amazon Web Services ofrece una marco de trabajo Hadoop que forma parte del servicio Amazon Elastic MapReduce EMC ofrece Greenplus HD Microsoft ofrece Hadoop como un servicio basado en la nube de Microsoft Azure Luis Joyanes Aguilar
Pgina 115
Proveedores de Big Data

Algunos han desarrollado sus propias distribuciones de Hadoop (con diferentes niveles de personalizacin: disponibilidad, rendimiento, replicas ). Una distribucin muy popular
Otros ejemplos: MapR, Greenplum, Hortonworks, Hay docenas

Pgina 116
Empresas que ya utilizan Big Data

. IBM Intel HP Oracle Teradata Fujitsu CSC Accenture Dell Seagate Capgemini
Pgina 117

Definicin de Analtica de Big Data BIG DATA ANALYTICS : (TDWI): 4Q 2011

Big data analytics is where advanced analytic techniques operate on big data sets. Hence, big data analytics is really about two thingsbig data and analyticsplus how the two have teamed up to create one of the most profound trends in business intelligence (BI) today. The definition is easy to understand, but do users actually use the term? To quantify this question, the survey for this report asked: Which of the following best characterizes your familiarity with big data analytics and how you name it? The survey results show that most users understand the concept of big data analytics, whether they have a name for it or not: Luis Joyanes Aguilar
Pgina 118
ANALTICA DE BIG DATA

Cloudera EMC Greenplum IBM Impetus Technologies Kognitio ParAccel SAP SAND Technology SAS Tableau Software Teradata Luis Joyanes Aguilar
Pgina 119
MUCHAS GRACIAS Preguntas?

Portal GISSIC El gora de Latinoamrica: gissic.wordpress.com
Twitter:@luisjoyanes www.facebook.com/joyanesluis
www.slideshare.net/joyanes
PORTAL NTICS : luisjoyanes.wordpress.com
CORREO-e: luis.joyanes@upsam.es
Pgina 120
BIBLIOGRAFA bsica
JOYANES, Luis (2013). Big Data. Anlisis de los
grandes volmenes de datos.
Marcombo/Alfaomega: Barcelona. JOYANES, Luis (2012). Computacin en la nube.
Estrategias de cloud computing en las empresas.

Marcombo/Alfaomega: Barcelona.

Pgina 121
BIBLIOGRAFA complementaria
SOARES, Sunil (2013). Big Data Governance. An emerging Imperative. Boise, USA: MC Press. FRANKS, Bill (2012). Taming the Big Data Tidal Wave. New York: Wiley.

Pgina 122
BIBLIOGRAFA complementaria
ZIKOPOULOS, Paul C. et al (2012). Understanding Big
Data. Analytics for Enterprise Class Hadoop and Streaming Data. New York: McGraw-Hill.
www-01.ibm.com/software/data/bigdata/ ZIKOPOULOS, Paul C. et al (2013). Harness the Power of Big Data. The IBM Big Data Platform. New York: McGraw-Hill. Descargable libre en IBM.

Pgina 123

Pgina 124
REFERENCIAS
McKinsey Global Institute . Big data: The
next frontier for innovation, competition, and productivity. June 2011
James G. Kobielus. The Forrester Wave: Enterprise Hadoop Solutions, Q1 2012, February 2, 2012. www-01.ibm.com/software/data/bigdata/ Diego Lz. de Ipia Glz. de Artaza. Bases de Datos No
Relacionales (NoSQL). Facultad de Ingeniera,
Universidad de Deusto. www.morelab.deusto.es http://paginaspersonales.deusto.es/dipina Luis Joyanes Aguilar
Pgina 125
BIBLIOGRAFA
Philip Russom. BIG DATA ANALYTICS. FOURTH QUARTER 2011. TDWI.org
IBM. http://www-01.ibm.com/software/data/bigdata/

Pgina 126
Referencias, Ipia Glz. de Artaza

NoSQL vs. RDBMS
Riyaz -- Thanks for the question regarding "NOSQL vs. RDBMS
databases", version 10r2

4632900346253817
http://asktom.oracle.com/pls/asktom/f?p=100:11:0::::P11_QUESTION_ID:266
NoSQL or not NoSQL?

http://www.slideshare.net/ruflin/nosql-or-not-nosql/download
Comparativa de diferentes soluciones NoSQL: http://kkovacs.eu/cassandra-vs-mongodb-vs-couchdb-vs-redis SQL vs. NoSQL. http://www.linuxjournal.com/article/10770
Cassandra. NoSQL Not only SQL (Introduction to Apache Cassandra).
http://www.scriptandscroll.com/3508/technology/nosql-not-only-sqlintroduction-to-apache-cassandra/#.TtonPmMk6nA http://www.datastax.com/docs/0.8/dml/using_cql http://cassandra.apache.org/

Pgina 127
REFERENCIAS
Fundacin Apache:http://hadoop.apache.org/ Apache ZooKeeper: http://zookeeper.apache.org/ Apache Hive: http://hive.apache.org/ Pig: http://pig.apache.org/ Apache Avro: http://avro.apache.org/ Apache Hbase: http://hbase.apache.org/

Pgina 128
REFERENCIAS
[1] Hadoop Wiki. http://wiki.apache.org/hadoop [2] D. Engfer. Intro to the Hadoop Stack. http://www.slideshare.net/davidengfer/intro-tothe-hadoop-stack-javamug [3] C. Zedlewski, E. Collins. Hadoop Stack: Then, now and future. http://www.slideshare.net/cloudera/the-hadoopstack-then-now-and-in-the-future-eli-collinscharles-zedlewski-cloudera [4] M. Collins. Hadoop and MapReduce: Big Data Analytics. Gartner Research, Enero 2011 http://www.gartner.com/id=1521016 Luis Joyanes Aguilar
Pgina 129

SisDeInformacioÌn Tema11 BigData Hadoop v2

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

SisDeInformacioÌn Tema11 BigData Hadoop v2

Caricato da

Copyright:

Formati disponibili

GRADO EN INGENIERA INFORMTICA

Big Data y Hadoop Curso 2013/14 1 C

El universo digital de datos y los datos abiertos (OPEN DATA)

Prof. Luis Joyanes Aguilar

LA ERA DEL PETABYTE (1.000 TB), Wired , julio 2008 (www.wired.com)

Because in the era of big data,

more isnt just more. More is different

1TB (250.000 canciones)

LA ERA DEL PETABYTE -2- . Wired , julio 2008 (www.wired.com)

20 TB (fotos uploaded a Facebook cada mes)

1 PB (datos procesados por los servidores de Google cada 75 minutos)

Tabla de unidades de almacenamiento

(The Economist, febrero 2010): data, data everywhere

Luis Joyanes Aguilar

Luis Joyanes Aguilar

El Universo Digital EMC / IDC

Luis Joyanes Aguilar

El Universo Digital EMC / IDC

Luis Joyanes Aguilar

EL UNIVERSO DIGITAL DE DATOS, 2013

EL UNIVERSO DIGITAL DE DATOS, 2013

EL UNIVERSO DIGITAL DE DATOS, 2013

Referencia: America Economia: http://tecno.americaeconomia.com/noticias/el-granuniverso-digital-la-data-crece-mas-rapido-de-lo-quepodemos-protegerla Luis Joyanes Aguilar

El universo digital de datos, IDC 2013

Luis Joyanes Aguilar

El universo digital de datos, 2013

Luis Joyanes Aguilar

LA ERA DEL EXABYTE/ZETTABYTE CISCO

Informe VNI CISCO 2012-2107

Informe VNI CISCO 2012-2107

UNIVERSIDAD PONTIFICIA DE SALAMANCA

BIG DATA Y ANALTICA DE DATOS. Nuevas bases de datos NoSQL, In-Memory

Prof. Luis Joyanes Aguilar

Harvard Business Review, octubre 2012

Luis Joyanes Aguilar

Foreign Affairs, mayo 2013

Luis Joyanes Aguilar

Revista BBVA, innovation edge, junio 2013

Luis Joyanes Aguilar

ORIGEN DEL TRMINO

Big Data McKinsey. Junio 2011

innovation, competition, and productivity.

http://www.mckinsey.com/Insights/MGI/ Research/Technology_and_Innovation/Big _data_The_next_frontier_for_innovation

Luis Joyanes Aguilar

Big Data McKinsey. Junio 2011

competition, and productivity.

Big Data McKinsey. Junio 2011

Big Data McKinsey. Junio 2011

What do we mean by "big data"? : McKinsey 2011

Luis Joyanes Aguilar

LA AVALANCHA / DILUVIO DE DATOS

Google procesa al da 20 PB de informacin

Luis Joyanes Aguilar

Luis Joyanes Aguilar

BIG DATA, bbva edge, junio 2013

EXPANSIN, de Wall Street Journal, 1 de abril 2013

Luis Joyanes Aguilar

EXPANSIN, de Wall Street Journal, 1 de abril 2013

Luis Joyanes Aguilar

EXPANSIN, de Wall Street Journal, 1 de abril 2013

EXPANSIN, de Wall Street Journal, 1 de abril 2013 (casos de estudio)

Luis Joyanes Aguilar

EXPANSIN, de Wall Street Journal, 1 de abril 2013 (casos de estudio)