Sei sulla pagina 1di 129

GRADO EN INGENIERA INFORMTICA

Tema 11

Big Data y Hadoop Curso 2013/14 1 C


Prof. Luis Joyanes Aguilar

INGENIERA INFORMTICA

BIG DATA

El universo digital de datos y los datos abiertos (OPEN DATA)

Prof. Luis Joyanes Aguilar


2

LA ERA DEL PETABYTE (1.000 TB), Wired , julio 2008 (www.wired.com)


Sensores en todas partes, almacenamiento infinito y Nubes (clouds) de procesadores
Nuestra capacidad para capturar, almacenar y comprender cantidades masivas de datos est cambiando la ciencia, medicina, negocios y tecnologa. A medida que aumenta nuestra coleccin de hechos y figuras, crece la oportunidad de encontrar respuestas a preguntas fundamentales.

Because in the era of big data,

more isnt just more. More is different


Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 3

1TB (250.000 canciones)

LA ERA DEL PETABYTE -2- . Wired , julio 2008 (www.wired.com)

20 TB (fotos uploaded a Facebook cada mes)


120 TB (todos los datos e imgenes recogidos por el telescopio espacial Hubble) ; 460 TB (todos los datos del tiempo climtico en EEU compilados por el National Climatic Data Center); 530 TB (Todos los vdeos de YouTube); 600 TB (base de datos de genealoga, incluye todos los censos de EEUU 1790-2000)

1 PB (datos procesados por los servidores de Google cada 75 minutos)


Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 4

Tabla de unidades de almacenamiento

(The Economist, febrero 2010): data, data everywhere


www.economist.com/specialreports/displaystory.cfm?story_id=15557421

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 5

UNIDADES DE MEDIDA DE

ALMACENAMIENTO

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 6

El Universo Digital EMC / IDC

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 7

El Universo Digital EMC / IDC

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 8

EL UNIVERSO DIGITAL DE DATOS, 2013


EMC Corporation PUBLIC en diciembre de 2013, su estudio anual sobre el Universo Digital de IDC, patrocinado por EMC: Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East. El estudio arroj que,

a pesar de la expansin sin precedentes del Universo Digital debido a el Big Data que se generan a diario por personas y mquinas, IDC estima que solo 0,5% de los datos mundiales se analizan.
Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 9

EL UNIVERSO DIGITAL DE DATOS, 2013


La proliferacin a nivel mundial de dispositivos, como PC y telfonos inteligentes, aument el acceso a Internet dentro de los mercados emergentes, y el incremento de datos generados por mquinas, como cmaras de vigilancia o contadores inteligentes, ha contribuido a la

duplicacin del Universo Digital en los ltimos dos aos solamente, hasta alcanzar un tamao descomunal de 2,8 ZB. IDC proyecta que, para el 2020, el Universo Digital alcanzar 40 ZB, cifra que supera las proyecciones anteriores por 14%.
Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 10

EL UNIVERSO DIGITAL DE DATOS, 2013


En trminos de volumen, 40 ZB de datos son equivalentes a lo siguiente:
Existen 700.500.000.000.000.000.000 granos de arena en todas las playas del mundo (o setecientos trillones quinientos mil billones). Esto significa que 40 ZB equivalen a 57 veces la cantidad de granos de arena de todas las playas del mundo. Si pudiramos guardar los 40 ZB en los discos Blue-ray de la actualidad, el peso de dichos discos (sin fundas ni estuches) sera equivalente a 424 portaaviones Nimitz. En 2020, 40 ZB sern 5.247 GB por persona a nivel mundial.

Referencia: America Economia: http://tecno.americaeconomia.com/noticias/el-granuniverso-digital-la-data-crece-mas-rapido-de-lo-quepodemos-protegerla Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 11

El universo digital de datos, IDC 2013

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pina 12

El universo digital de datos, 2013

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 13

LA ERA DEL EXABYTE/ZETTABYTE CISCO


LA ERA DEL EXABYTE, CISCO . Estudio Cisco Visual Networking Index (VNI) 2007-2012. Trfico mundial de datos. LA ERA DEL ZETTABYTE:Cisco VNI: Forecast and Methodology 2012: 22017. Trfico mundial de datos (publicado en 2013)
Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 14

Informe VNI CISCO 2012-2107


Durante 2012, empresas, gobiernos, industria y usuarios finales generan cada mes del ao, una tasa de trfico mensual de 44 EB (aprox. 44 millones de discos duros de 1TB apilados u 11.000 millones de DVDs). Mxico produjo en 2012 un trfico de 0,6 ExaBytes/mes. Se estima que en 2017 producir unos 1,3 EB. Para ese momento el 56% de la poblacin contar con acceso a Internet de acuerdo con el INEGI de Mxico
Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 15

Informe VNI CISCO 2012-2107


Los dispositivos que ms ayudan a generar los 44 EB por mes, segn CISCO: 0,6 EB, smartphones 2,7 tabletas 5,8 televisores 7,6 consolas de videojuegos 18,6 computadoras personales En 2017 se espera una tasa global de trfico mensual de 121 EB aprox 1 ZB
Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 16

UNIVERSIDAD PONTIFICIA DE SALAMANCA

BIG DATA Y ANALTICA DE DATOS. Nuevas bases de datos NoSQL, In-Memory

Prof. Luis Joyanes Aguilar


17

Harvard Business Review, octubre 2012

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 18

Foreign Affairs, mayo 2013

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 19

Revista BBVA, innovation edge, junio 2013

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 20

ORIGEN DEL TRMINO


Dcada de 2000, fue acuado el trmino Grandes volmenes de datos Datos masivos Macrodatos (Fundacin Funde BBVA) La era de los datos masivos se refiere a cosas que se pueden hacer a gran escala, y pone en cuestin la forma en que vivimos e interactuamos con el mundo (MayerSchmberg, Cukier, The Economist) Correlacin: ya no importa el porqu sino slo el qu
Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 21

Big Data McKinsey. Junio 2011


Big data: The next frontier for

innovation, competition, and productivity.

http://www.mckinsey.com/Insights/MGI/ Research/Technology_and_Innovation/Big _data_The_next_frontier_for_innovation

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 22

Big Data McKinsey. Junio 2011


Big data: The next frontier for innovation,

competition, and productivity.

The amount of data in our world has been exploding. Companies capture trillions of bytes of information about their customers, suppliers, and operations, and millions of networked sensors are being embedded in the physical world in devices such as mobile phones and automobiles, sensing, creating, and communicating data.
Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 23

Big Data McKinsey. Junio 2011


Multimedia and individuals with smartphones and on social network sites will continue to fuel exponential growth. Big datalarge pools of data that can be captured, communicated, aggregated, stored, and analyzedis now part of every sector and function of the global economy. Like other essential factors of production such as hard assets and human capital, it is increasingly the case that much of modern economic activity, innovation, and growth simply couldnt take place without data.
Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 24

Big Data McKinsey. Junio 2011


The question is what this phenomenon means. Is the proliferation of data simply evidence of an increasingly intrusive world? Or can big data play a useful economic role? While most research into big data thus far has focused on the question of its volume, our study makes the case that the business and economic possibilities of big data and its wider implications are important issues that business leaders and policy makers must tackle. To inform the debate, this study examines the potential value that big data can create for organizations and sectors of the economy and seeks to illustrate and quantify that value. We also explore what leaders of organizations and policy makers need to do to capture it. Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 25

What do we mean by "big data"? : McKinsey 2011


Big data refers to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze.

This definition is intentionally subjective and incorporates a moving definition of how big a dataset needs to be in order to be considered big datai.e., we dont define big data in terms of being larger than a certain number of terabytes (thousands of gigabytes). We assume that, as technology advances over time, the size of datasets that qualify as big data will also increase. Also note that the definition can vary by sector, depending on what kinds of software tools are commonly available and what sizes of datasets are common in a particular industry. With those caveats, big data in many sectors today will range from a few dozen terabytes to multiple petabytes (thousands of terabytes).

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 26

LA AVALANCHA / DILUVIO DE DATOS


Segn Eric Schmidt, presidente ejecutivo de Google, entre el origen de la tierra y el 2003 se crearon cinco exabytes de informacin. Hoy en da creamos la misma cifra cada dos das2. Las previsiones aseguran que en esta dcada crearemos alrededor de 35 zettabytes (40 ZB, informe de diciembre de 2012) Segn la consultora IDC, cifran en 1,8 Zettabytes la informacin generada en 2011. Si tratramos de almacenar esa informacin en iPads (del modelo de 32GB) necesitaramos 57.500 millones; puestos unos al lado de otro formaramos una lnea que dara 3 veces la vuelta al mundo y, si tratramos de apilarlos, la montaa resultante sera 25 veces ms alta que el monte Fuji. Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 27

LA AVALANCHA DE DATOS
Twitter: (redes sociales)
90 millones de tuits (tweets) por da que representa 8 Terabytes.

Boeing: (industria)
Vuelo transocenico de un jumbo puede generar 640 Terabytes.

Wal-Mart: (comercio)
1 milln de transacciones por hora que se estima que alimenta una base de datos de 2.5 petabytes.

Google procesa al da 20 PB de informacin


Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 28

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 29

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 30

BIG DATA, bbva edge, junio 2013


Fuentes:
SAS | Big Data: www.sas.com/big-data. IBM | Big Data at the Speed of Business McKinsey Global Institute | Big Data: The next frontier for innovation, competition, and productivity, junio 2011.

Fuente:
Intel | What Happens in an Internet Minute? www.intel.com/content/www/us/en/communic ations/internet-minute-infographic.html
Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 31

EXPANSIN, de Wall Street Journal, 1 de abril 2013


01.04.2013 S. Rosenbush / M. Totty. WSJ. Las empresas estn buscando la mejor forma de aprovechar el exceso de informacin. La informacin abunda y las empresas estn buscando la mejor forma de aprovecharla. Los expertos ya bautizaron este fenmeno como big data. La definicin es amorfa, pero normalmente significa lo siguiente: las empresas tienen acceso a mucha ms informacin que antes, que proviene de muchas ms fuentes y la obtienen casi al momento en que se genera.

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 32

EXPANSIN, de Wall Street Journal, 1 de abril 2013


El concepto de big data a menudo se relaciona con las empresas que ya operan en el mundo de la informacin, como Google, Facebook y Amazon. Pero compaas en mltiples industrias estn colocando los datos en el corazn de sus operaciones. Estn recolectando cantidades enormes de informacin, a menudo combinando indicadores tradicionales como las ventas, con comentarios de redes sociales e informacin de ubicacin que viene de los dispositivos mviles. Las empresas escudrian esta informacin para mejorar sus productos, recortar gastos y mantener la fidelidad de sus clientes. Las firmas de logstica, por ejemplo, instalan sensores en sus camiones para detectar formas de acelerar las entregas. Los fabricantes revisan miles de publicaciones en foros de Internet para determinar si a los clientes les gusta una nueva caracterstica. Los gerentes de personal estudian cmo los candidatos a un empleo responden preguntas para ver si encajan bien con la compaa.

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 33

EXPANSIN, de Wall Street Journal, 1 de abril 2013


An quedan numerosos obstculos en el camino. Algunos son tcnicos, pero en la mayora de las empresas las decisiones se siguen basando en la opinin de la persona con el salario ms alto y podra ser difcil convencer a un ejecutivo de que los datos superan su intuicin. Los recursos humanos, las operaciones, el desarrollo de productos o el mrketing son las diferentes formas a travs de las cuales las empresas usan el poder de la informacin para transformar sus negocios.
Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 34

EXPANSIN, de Wall Street Journal, 1 de abril 2013 (casos de estudio)


UPS UPS comenz a instalar sensores en sus vehculos de reparto para conocer su velocidad y ubicacin, si el cinturn de seguridad del conductor est abrochado... Al combinar su informacin de GPS y los datos de sensores sobre rendimiento en ms de 46.000 vehculos, UPS recort 136 millones de kilmetros de sus rutas.

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 35

EXPANSIN, de Wall Street Journal, 1 de abril 2013 (casos de estudio)


InterContinental

La cadena hotelera InterContinental ha recabado informacin sobre los 71 millones de miembros de su programa Priority Club, como niveles de ingresos y preferencias sobre las instalaciones. El grupo consolid la informacin en un solo almacn de datos que rene informacin de redes sociales y procesa bsquedas ms rpido

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 36

DEFINICIN DE BIG DATA: IBM


What is big data?*
Every day, we create 2.5 quintillion bytes of data so much that 90% of the data in the world today has been created in the last two years alone. This data

data. * www-01.ibm.com/software/data/bigdata/
Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

comes from everywhere: sensors used to gather climate information, posts to social media sites, digital pictures and videos, purchase transaction records, and cell phone GPS signals to name a few. This data is big

Pgina 37

DEFINICIN DE BIG DATA: IBM

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 38

Modelo 3V de Big Data


VOLUMEN Terabytes Records Transactions Tables, files VELOCIDAD Batch (por lotes) Near time (casi a tiempo) Real time (tiempo real) Streams (flujos) Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

VARIEDAD Estructurado No estructurado Semi-estructurado Todos los dems

Pgina 39

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 40

DEFINICIN DE BIG DATA: IBM


VOLUMEN de datos
procesados por las empresas ha crecido significativamente.

Google procesa 20 petabytes al da En 2020 se esperan 42.000 millones de pagos electrnicos. La Bolsa de Nueva York genera UN terabyte de datos al da Twitter genera 8 TB
Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 41

DEFINICIN DE BIG DATA: IBM


VELOCIDAD. Rapidez con la que se accede
a los datos. La velocidad del movimiento, proceso y captura de datos, dentro y fuera de la empresa ha aumentado considerablemente. Flujo de datos a alta velocidad.

eBay se enfrenta al fraude a travs

de PayPal analizando cinco millones de transacciones en tiempo real al da.


Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 42

DEFINICIN DE BIG DATA: IBM


VARIEDAD: Big data es cualquier tipo de
dato estructurado y no estrutcturado - tales como texto, datos de sensores, datos entre mquinas (M2M), archivos logs, audio, vdeo, flujos de clicks, XML, datos en streaming, cotizaciones burstiles, medios sociales,

Una creciente variedad de datos necesitan ser procesados y convertidos a informacin


Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 43

DEFINICIN DE BIG DATA: IBM


Segn otras definiciones de Big Data de fabricantes, consultoras, NIST, etc. existen otras propiedades de los big data: Veracidad de los datos Valor de los datos Viabilidad de la infraestructuras y las herramientas de almacenamiento
Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 44

Fuentes de Big Data


Herramientas para anlisis de datos en grandes volmenes de datos. Infraestructuras de Big Data Fuentes de Big Data (Soares 2012):
Web y Social media
Machine-to-Machine (M2M, Internet de

Luis Joyanes Aguilar

las cosas) Biometria Datos de transacciones de grandes datos (salud, telecomunicaciones) Datos generados por las personas (humanos)
Pgina 45

Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Sunil Soares (2003). Big Data Governance Emerging Imperative. Boise. MC Press Online. El autor de este libro mantiene un blog excelente sobre Big Data y Gobierno de Big Data

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 46

Big Data. Joyanes, MxicoDF: Alfaomega (2013)


1. Web y Social Media: Incluye contenido web e informacin que es obtenida de las medios sociales como Facebook, Twitter, LinkedIn, Foursquare, Tuenti, etc, blogs como Technorati, blogs de peridicos y televisiones, wikis como MediaWiki, Wikipedia, marcadores sociales como Del.icio.us, Stumbleupon agregadores de contenidos como Dig, Meneame En esta categora los datos se capturan, almacenan o distribuyen teniendo presente las caractersticas siguientes: Datos de los flujos de clics, tuits, retuits o entradas en general (feeds) de Twitter, Tumblr, Entradas (posting) de Facebook y contenidos web diversos. Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 47

Big Data. Joyanes, MxicoDF: Alfaomega (2013)


2. Machine-to-Machine (M2M)/ Internet de las cosas: M2M se refiere a las tecnologas que permiten conectarse a
otros diferentes dispositivos entre s. M2M utiliza dispositivos como sensores o medidores que capturan algn evento en particular (humedad, velocidad, temperatura, presin, variables meteorolgicas, variables qumicas como la salinidad, etc.) los cuales transmiten a travs de cableadas, inalmbricas y mviles a otras aplicaciones que traducen estos eventos en informacin significativa. La comunicacin M2M ha originado el conocido Internet de las cosas o de los objetos. Entre los dispositivos que se emplean para capturar datos de esta categora podemos considerar chips o etiquetas RFID, chips NFC, medidores (de temperaturas, de electricidad, presin). sensores, dispositivos GPS y ocasionan la generacin de datos mediante la lectura de los medidores, lecturas de los RFID y NFC, lectura de los sensores, seales GPS, seales de GIS, etc.

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 48

Big Data. Joyanes, MxicoDF: Alfaomega (2013)


3.Big Data transaccionales: Grandes datos transaccionales procedentes de operaciones normales de transacciones de todo tipo. Incluye registros de facturacin, en telecomunicaciones registros detallados de las llamadas (CDR), etc. Estos datos transaccionales estn disponibles en formatos tanto semiestructurados como no estructurados. Los datos generados procedern de registros de llamada de centros de llamada, departamentos de facturacin, reclamaciones de las personas, presentacin de documentos

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 49

Big Data. Joyanes, MxicoDF: Alfaomega (2013)


4. Biometra: La biometra o reconocimiento biomtrico. La informacin biomtrica se refiere a la identificacin automtica de una persona basada en sus caractersticas anatmicas o trazos personales. Los datos anatmicos se crean a partir de las caractersticas fsicas de una persona incluyendo huellas digitales, iris, escaneo de la retina, reconocimiento facial, gentica, DNA, reconocimiento de voz, incluso olor corporal etc. Los datos de comportamiento incluyen anlisis de pulsaciones y escritura a mano. Los avances tecnolgicos han incrementado considerablemente los datos biomtricos disponibles Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 50

Big Data. Joyanes, MxicoDF: Alfaomega (2013)


. En el rea de seguridad e inteligencia, los datos biomtricos han sido informacin importante para las agencias de investigacin. En el rea de negocios y de comercio electrnico los datos biomtricos se pueden combinar con datos procedentes de medios sociales lo que hace aumentar el volumen de datos contenidos en los datos biomtricos. Los datos generados por la biometra se pueden agrupar en dos grandes categoras: Gentica y Reconocimiento facial. An Overview of Biometric Recpgnition. http://biometrics.cse.nsu.edu/info.html Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 51

Big Data. Joyanes, MxicoDF: Alfaomega (2013)


5. Datos generados por las personas: Las personas generan enormes y diversas cantidades de datos como la informacin que guarda un centro de llamadas telefnicas (call center) al establecer una llamada telefnica, notas de voz, correos electrnicos, documentos electrnicos, estudios y registros mdicos electrnicos, recetas mdicas, documentos papel, faxes, etc. El problema que
acompaa a los documentos generados por las personas es que pueden contener informacin sensible de las personas que necesita, normalmente ser oculta, enmascarada o cifrada de alguna forma para conservar la privacidad de dichas personas. Estos datos al ser sensibles necesitan ser protegidos por las leyes nacionales o supranacionales (como es el caso de la Unin Europea o Mercosur) relativas a proteccin de datos y privacidad.

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 52

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 53

Estructura de Big Data: tipos de datos


Estructurados No estructurados
No estructurados (texto, datos de vdeo, datos de audio,,,) Semiestructurados ( a veces se conocen como

multiestructurados. Tienen un formato y flujo lgico de modo que pueden ser entendidos pero el formato no es amistoso al usuario(HTML. XML, datos de web logs)

Normalmente, se suelen asociar los datos estructurados a los tradicionales y los datos no estructurados a los Big Data Objetivo principal de los sistemas de gestin de datos: Integracin de datos estructurados y no estructurados Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 54

TRATAMIENTO DE LOS BIG DATA

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 55

ESTADO ACTUAL DE BIG DATA


1. Almacenamiento: hacen falta nuevas tecnologas de almacenamiento 2. Bases de datos: las BD relacionales no pueden con todo 3. Procesamiento: se requieren nuevos modelos de programacin 4. Obtencin de valor: los datos no se pueden comer crudos (en bruto) La informacin no es conocimiento accionable
Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 56

1. Almacenamiento
Hacen falta nuevas tecnologas de almacenamiento
RAM vs HHD Memorias hardware. HHD 100 ms barato que RAM pero 1000 veces ms lento Solucin actual:

Solid- state drive (SSD) adems no voltil Tecnologas in-memory (SAP HANA)
Investigacin: Storage Class Memory (SCM) Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 57

2. Base de datos
Las BD relacionales no pueden con todo
volumen de la informacin

GBs PBs Exabytes . Cada da ms populares


Limitadas para almacenamiento de big data (ACID, SQL, ) ACID: Atomicity, Consistency, Isolation & Durability Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 58

3. Procesamiento HADOOP
Se requieren nuevos modelos de programacin para manejarse con estos datos Solucin: Para conseguir procesar grandes conjuntos de datos:

MapReduce de Google

Pero fue el desarrollo de

Apache) por parte de Yahoo, el que ha propiciado un


ecosistema de herramientas open source. Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Hadoop (Yahoo -

Pgina 59

4. Obtencin de valor
Los datos no se pueden comer crudos (en bruto) la informacin no es conocimiento accionable
Para ello tenemos tcnicas de Asociacin Clasificacin Clustering Prediccin ...

Data Mining

La mayora de algoritmos se ejecutan bien en miles de registros, pero son hoy por hoy impracticables en miles de millones.
Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 60

Bases de datos
In-Memory (en-memoria)
SAP Hana Oracle Times Ten IBM solidDB

In-Memory Database

Relacionales
Sistemas RDBMS (SGBDR). Oracle, IBM, Microsoft
Transferencia de datos entre Hadoop y bases de datos

relacionales

Legacy (jerrquicas, en red primeras relacionales) NoSQL (Cassandra, Hive, mongoDB, CouchDB, Hbase)
Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 61

BASES DE DATOS RELACIONALES (REPASO)


La mayora de las bases de datos cumplen con las propiedades ACID (atomicity, consistency,

isolation, durability).

Estas propiedades garantizan un comportamiento de las base de datos relacionales y el mejor de los argumentos para su utilizacin.

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 62

BASES DE DATOS ANALTICAS


Analticas: para permitir a mltiples usuarios contestar rpidamente preguntas de negocio que requieran de grandes volmenes de informacin.

Bases de datos de procesamiento paralelo masivo (MPP) Bases de datos en memoria Almacenamiento en columnas
Histricamente estas bases de datos tan especializadas tenan un costo muy elevado, pero hoy el mercado nos ofrece varias alternativas que se adaptan al presupuesto de cada organizacin. Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 63

Bases de datos analticas


Bases de datos diseadas especficamente para ser utilizadas como motores de Data Warehouse.
Estas bases de datos logran procesar grandes volmenes de informacin a velocidades asombrosas, gracias a la aplicacin de diferentes conceptos y tecnologas:

Almacenamiento en columnas en lugar de filas (registros) Massively parallel processing (MPP) In-Memory Analytics

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 64

Almacenamiento en columnas, no filas:


FUENTE: datalytics.com

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 65

Computacin en memoria In-Memory


La computacin en memoria es una
tecnologa que permite el procesamiento de cantidades masivas de datos en memoria principal para proporcionar resultados inmediatos del anlisis y de las transacciones. Los datos a procesar, idealmente son datos en tiempo real (es decir, datos que estn disponibles para su procesamiento o anlisis inmediatamente despus que se han creado). Existen un amplio conjunto de tecnologas que emplean bases de datos en memoria. SAP HANA es una de las ms acreditadas y populares (Oracle, IBM,)
Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 66

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 67

BASES DE DATOS NoSQL


Las bases de datos no-relacionales son comnmente llamadas bases de datos NoSQL ya que la gran mayora de ellas comparte el hecho de no utilizar el lenguaje SQL para realizar las consultas Es una definicin controvertida, aunque la definicin ms aceptada es Not only SQL. Una de las caractersticas de las bases de datos no relacionales es que la mayora de ellas no utilizan esquemas de datos rgidos como las bases de datos relacionales. Esto hace que estas bases de datos tambin se les llame Schema-less o Schema-free (almacenamiento des-estructurado). Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 68

Taxonoma de Bases de datos NoSQL


Los principales tipos de BBDD de acuerdo con su implementacin son los siguientes: Almacenes de Clave-Valor Almacenes de Familia de Columnas (columnares) Almacenes de documentos (orientadas a documentos) Almacenes de Grafos (orientadas a grafos) - Cachs de memoria

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 69

SOLUCIONES DE BASES DE DATOS NoSQL

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 70

Quin usa Apache Cassandra?


Algunos usuarios importantes de Cassandra son:
Digg Facebook Twitter Rackspace SimpleGEO

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 71

Integracin con Big Data.

FUENTE: datalytics.com

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 72

Integracin con Big Data.

FUENTE: datalytics.com

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 73

INGENIERA INFORMTICA

Arquitectura de Big Data

Prof. Luis Joyanes Aguilar

74

INGENIERA INFORMTICA

Tecnologas BIG DATA

HADOOP

Prof. Luis Joyanes Aguilar

75

Logo de HADOOP

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 76

Logo de HADOOP

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 77

TECNOLOGAS BIG DATA (HADOOP)


Datos de la consultora IDC de agosto de 2012 prevn que el mercado del software relacionado con los framework open source Apache Hadoop y el MapReduce de Google crecer a un ritmo anual de ms del 60% hasta el ao 2016. La popularidad de Hadoop se ha ido incrementando durante los ltimos meses, a medida que las empresas necesitan manejar grandes cantidades de datos estructurados y no estructurados para despus analizarlos y ser capaces de tomar decisiones lo ms favorables posible para sus negocios.
IDC tambin espera que el mercado de Hadoop-MapReduce evolucione y que poco a poco comienza a introducirse en los sistemas empresariales.

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 78

Fundacin Apache: proyectos open source


The Apache Software Foundation provides support for the Apache community of open-source software projects, which provide software products for the public good The Apache Software Foundation provides support for the Apache community of open-source software projects, which provide software products for the public good

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 79

Hadoop
The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using a simple Programming model
De la pgina de Hadoop

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 80

Hadoop
Apache Hadoop es un framework que permite el tratamiento distribuido de grandes cantidades de datos (del orden de peta bytes) y trabajar con miles de mquinas de forma distribuida. Se inspir en los documentos sobre MapReduce y Google File System publicados por Google. Est desarrollado en Java y se ejecuta dentro de la JVM. Actualmente est soportado por Google, Yahoo e IBM entre otros. Tambin existen empresas como Cloudera (http://www.cloudera.com/) que ofrecen soluciones empresariales Open Source basadas en Hadoop. Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 81

Hadoop: caractersticas principales


Econmico: Est diseado para ejecutarse en equipos
de bajo coste formando clsteres. Estos clsteres pueden llevarnos a pensar en miles de nodos de procesamiento disponibles para el procesado de informacin.

Escalable: Si se necesita ms poder de procesamiento o capacidad de almacenamiento solo hay que aadir ms nodos al clster de forma sencilla. Eficiente: Hadoop distribuye los datos y los procesa en paralelo en los nodos donde los datos se encuentran localizados. Confiable (fiable) Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 82

Un ecosistema de tecnologas de BIG DATA

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 83

UN ENTORNO TPICO DE

DATA WAREHOUSE

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 84

Coexistencia de BIG

DATA yDATA WAREHOUSE

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 85

TECNOLOGAS BIG DATA (HADOOP)


Hadoop es un proyecto de software open source que provee un framework para habilitar el procesamiento distribuido de grandes conjuntos de datos sobre clusteres construidos con hardware genrico. En esencia, Hadoop consiste de dos elementos base: un

sistema de archivos distribuido (Hadoop Distributed File System, HDFS) y un motor de procesamiento de datos que implementa el modelo Map/Reduce (Hadoop MapReduce)..
Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 86

Hadoop
El diseo de Hadoop se divide en dos partes

principales:

Por un lado est el sistema de ficheros distribuido

Hadoop Distributed File System (HDFS) que


se encarga de almacenar todos los datos repartindolos entre cada nodo de la red Hadoop.

Por otro lado la implementacin de MapReduce que se encarga del procesamiento de la informacin de forma distribuida.

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 87

What Is Apache Hadoop? (Fundacin Apache)


The Apache Hadoop project develops open-source software for reliable, scalable, distributed computing. The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver highavaiability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-availabile service on top of a cluster of computers, each of which may be prone to failures.
Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 88

Historia de HADOOP
2004-2006 Google publica los papers de GFS y MapReduce Doug Cutting implementa una version Open Source en Nutch 2006-2008 Hadoop se separa de Nutch Se alcanza la escala web en 2008 2008-Hasta ahora Hadoop se populariza y se comienza a explotar comercialmente. Fuente: Hadoop: a brief history. Doug Cutting Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 89

Historia de Hadoop: Doug Cutting

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 90

Componentes HADOOP (Apache)


The project includes these modules: Hadoop Common: The common utilities that support the other Hadoop modules. Hadoop Distributed File System (HDFS): A distributed file system that provides high-throughput access to application data. Hadoop YARN: A framework for job scheduling and cluster resource management. Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 91

APACHE HADOOP
Other Hadoop-related projects at Apache include:

Avro: A data serialization system. Cassandra: A scalable multi-master database with


no single points of failure. distributed systems.

Chukwa: A data collection system for managing large HBase: A scalable, distributed database that supports
structured data storage for large tables.

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 92

APACHE HADOOP
Hive: A data warehouse infrastructure that provides
data summarization and ad hoc querying. mining library.

Mahout: A Scalable machine learning and data Pig: A high-level data-flow language and execution
framework for parallel computation. service for distributed applications.

ZooKeeper: A high-performance coordination

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 93

Componentes fundamentales de Open Source


Apache Hadoop (biblioteca de software de open source) Apache Hadoop consta de los siguientes subproyectos HDFS (Haoop Distributed File System) MapREduce Hadoop Commons y de las siguientes tecnologas Hbase Hive Pig Otras Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 94

Hadoop
Apache Hadoop es un framework que permite el tratamiento distribuido de grandes cantidades de datos (del orden de peta bytes) y trabajar con miles de mquinas de forma distribuida. Se inspir en los documentos sobre MapReduce y Google File System publicados por Google. Est desarrollado en Java y se ejecuta dentro de la JVM. Actualmente est soportado por Google, Yahoo e IBM entre otros. Tambin existen empresas como Cloudera (http://www.cloudera.com/) que ofrecen soluciones empresariales Open Source basadas en Hadoop. Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 95

Hadoop
Las caractersticas principales de Hadoop son Econmico: Est diseado para ejecutarse en equipos de bajo coste formando clsteres. Estos clsteres pueden llevarnos a pensar en miles de nodos de procesamiento disponibles para el procesado de informacin. Escalable: Si se necesita ms poder de procesamiento o capacidad de almacenamiento solo hay que aadir ms nodos al clster de forma sencilla. Eficiente: Hadoop distribuye los datos y los procesa en paralelo en los nodos donde los datos se encuentran localizados. Confiable: Es capaz de mantener Es capaz de mantener mltiples copias de los datos y Luis Joyanes Aguilar automticamente hacer un re-despliegue de las tareas Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 96

Hadoop
El diseo de Hadoop se divide en dos partes

principales:

Por un lado est el sistema de ficheros distribuido

Hadoop Distributed File System (HDFS) que


se encarga de almacenar todos los datos repartindolos entre cada nodo de la red Hadoop.

Por otro lado la implementacin de MapReduce que se encarga del procesamiento de la informacin de forma distribuida.

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 97

Hadoop

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 98

Sistema de Ficheros Distribuido


Sistema de ficheros distribuido (HDFS) Bloques grandes: 64 Mb Almacenados en el sistema de ficheros del SO Tolerante a Fallos (replicacion) Formatos habituales: Ficheros en formato texto (CSV) SequenceFiles Ristras de pares [clave, valor]

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 99

TECNOLOGAS BIG DATA (HADOOP)


Almacenamiento y acceso a datos
Como su nombre lo indica, estos componentes son los que proveen la capacidad de almacenar y acceder grandes volmenes de datos. Aqu tenemos dos tecnologas principalmente: HDFS y HBase.

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 100

HADOOP
HDFS (Hadoop Distributed File System). Es
un sistema de archivos distribuido que est optimizado para almacenar grandes cantidades de datos utilizando un patrn de acceso write-once read-many (escribe una vez, lee muchas). Esto hace que HDFS sea una opcin adecuada cuando es necesario escribir pocos archivos grandes, que son ledos muchas veces. Un cluster HDFS tiene dos tipos de nodos: un nodo de nombre (namenode) y mltiples nodos de datos (datanodes). El primero es responsable del rbol del sistema de archivos y los metadatos, mientras que los segundos son los que realizan el acceso a los datos. Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 101

HADOOP
HBase (Hadoop Database). HBase es una base
de datos distribuida, versionada y orientada a columnas, diseada para almacenar tablas muy grandes (millones de registros con millones de columnas). HBase funciona encima de HDFS y usa la misma arquitectura de nodos: un nodo maestro que divide y distribuye los datos, y mltiples nodos de trabajo que realizan las operaciones de acceso a datos. Los datos de HBase tpicamente se acceden por medio de tareas MapReduce, aunque tambin ofrece interfaces tipo REST.

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 102

HADOOP
Procesamiento de datos
Encima de la capa de datos necesitamos frameworks para procesar dichos datos. La herramienta principal en este capa es un motor de procesamiento de tareas MapReduce.

MapReduce es un modelo de programacin creado

originalmente por Google para procesar grandes cantidades de datos. Est inspirado en las funciones map y reduce de la programacin funcional, aunque en realidad aqu funcionan de forma un poco distinta:

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 103

HADOOP
Map: En este paso, un nodo maestro recibe una tarea y la divide en tareas ms pequeas que distribuye hacia otros nodos para que las procesen. Cada uno de estos nodos puede a su vez volver a dividir y repartir tareas, lo cual lleva a una estructura de rbol de varios niveles. Cada nodo de procesamiento, una vez que termina su tarea la regresa a su nodo maestro.

Reduce: El nodo maestro colecciona todas las respuestas


Los beneficios principales de MapReduce son su escalabilidad y la variedad de datos que puede procesar tales como archivos, tablas de bases de datos, sitios web (web crawling).

recibidas y las combina para generar la salida, es decir, la respuesta al problema que originalmente se trata de resolver.

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 104

Obstculos de MapReduce+NoSQL
Difcil pensar en MapReduce+NoSQL hace falta desaprender Solucin (open source): HIVE, sistema DW basado en Hadoop desarrollado por Facebook que permite escribir consultas en SQL. PIG, lenguaje de alto nivel para ejecutar trabajos sobre MapReduce (desarrollado per Yahoo).

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 105

Obstculos de MapReduce+NoSQL
Propuestas de la industria para integrar NoSQL con SQL: Sqoop de Cloudera Greenplum database Aster Data's nCluster DW system Muchas soluciones DW han optado por conectores Hadoop en vez de integrar sus propias funcionalidades MapReduce.

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 106

Componentes fundamentales de Open Source


Apache Hadoop (biblioteca de software de open source) Apache Hadoop consta de los siguientes subproyectos HDFS (Haoop Distributed File System) MapREduce Hadoop Commons y de las siguientes tecnologas Hbase Hive Pig Otras Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 107

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 108

Componentes HADOOP (Apache)


Other Hadoop-related projects at Apache include: Ambari: A web-based tool for provisioning, managing, and monitoring Apache Hadoop clusters which includes support for Hadoop HDFS, Hadoop MapReduce, Hive, HCatalog, HBase, ZooKeeper, Oozie, Pig and Sqoop. Ambari also provides a dashboard for viewing cluster health such as heatmaps and ability to view MapReduce, Pig and Hive applications visually alongwith features to diagnose their performance characteristics in a userfriendly manner Avro: A data serialization system. Cassandra: A scalable multi-master database with no single points of failure.
Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 109

Componentes HADOOP (Apache)


Chukwa: A data collection system for managing large distributed systems. HBase: A scalable, distributed database that supports structured data storage for large tables. Hive: A data warehouse infrastructure that provides data summarization and ad hoc querying. Mahout: A Scalable machine learning and data mining library. Pig: A high-level data-flow language and execution framework for parallel computation. ZooKeeper: A high-performance coordination service for distributed applications. Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 110

Hadoop en la actualidad
Hadoop se puede utilizar en teora para casi cualquier tipo de trabajo batch, mejor que ha trabajos en tiempo real, ya que son ms fciles de dividir y ejecutar en paralelo. Entre lo campos actuales a aplicacin se encuentran: Anlisis de logs Anlisis de mercado Machine learning y data mining Procesamiento de imgenes Procesamiento de mensajes XML Web crawling Indexacin Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 111

Hadoop en la actualidad
Actualmente Hadoop es un framework muy extendido en el mbito empresarial, sobre todo en compaas que manejan grandes volmenes de datos. Entre las que podemos descarta las siguientes empresas: Yahoo: La aplicacin Yahoo! Search Webmap est implementado con Hadoop sobre un clster de mas de 10.000 nodos Linux y la informacin que produce es la utilizada por el buscador de Yahoo. Facebook: Tiene ha da de hoy el mayor clster Hadoop del mundo que almacena hasta 30 peta bytes de informacin Amazon A9: Se utiliza para la generar ndices de bsqueda de los
productos ofertados en el portal. Disponen de varios clsteres de entre 1 y 100 nodos Luis Joyanes Aguilar cada uno.
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 112

Hadoop en la actualidad
The New York Times: Utiliza Hadoop y EC2 (Amazon Elastic Compute Cloud) para convertir 4 Tera bytes de imgenes TIFF en imgenes PNG de 800 K para ser mostradas en la Web en 36 horas. Adems existen compaas cuyo negocio es principal es Hadoop, como Cloudera, que comercializa CDH (Cloudera's Distribution including Apache Hadoop), que da soporte en la configuracin y despliegue de clsteres Hadoop. Adems proporciona servicios de consultora y formacin en estas tecnologa. Todo el software que distribuyen es Open Source. Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 113

Distribuciones de Hadoop

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 114

Distribuciones de Hadoop
Cloudera mapR Hortonworks IBM ofrece una distribucin llamada InfoSphere BigInsights Amazon Web Services ofrece una marco de trabajo Hadoop que forma parte del servicio Amazon Elastic MapReduce EMC ofrece Greenplus HD Microsoft ofrece Hadoop como un servicio basado en la nube de Microsoft Azure Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 115

Proveedores de Big Data


Algunos han desarrollado sus propias distribuciones de Hadoop (con diferentes niveles de personalizacin: disponibilidad, rendimiento, replicas ). Una distribucin muy popular

Otros ejemplos: MapR, Greenplum, Hortonworks, Hay docenas

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 116

Empresas que ya utilizan Big Data


. IBM Intel HP Oracle Teradata Fujitsu CSC Accenture Dell Seagate Capgemini
Pgina 117

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Definicin de Analtica de Big Data BIG DATA ANALYTICS : (TDWI): 4Q 2011


Big data analytics is where advanced analytic techniques operate on big data sets. Hence, big data analytics is really about two thingsbig data and analyticsplus how the two have teamed up to create one of the most profound trends in business intelligence (BI) today. The definition is easy to understand, but do users actually use the term? To quantify this question, the survey for this report asked: Which of the following best characterizes your familiarity with big data analytics and how you name it? The survey results show that most users understand the concept of big data analytics, whether they have a name for it or not: Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 118

ANALTICA DE BIG DATA


Cloudera EMC Greenplum IBM Impetus Technologies Kognitio ParAccel SAP SAND Technology SAS Tableau Software Teradata Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 119

MUCHAS GRACIAS Preguntas?


Portal GISSIC El gora de Latinoamrica: gissic.wordpress.com

Twitter:@luisjoyanes www.facebook.com/joyanesluis
www.slideshare.net/joyanes
PORTAL NTICS : luisjoyanes.wordpress.com
CORREO-e: luis.joyanes@upsam.es
Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 120

BIBLIOGRAFA bsica
JOYANES, Luis (2013). Big Data. Anlisis de los

grandes volmenes de datos.

Marcombo/Alfaomega: Barcelona. JOYANES, Luis (2012). Computacin en la nube.

Estrategias de cloud computing en las empresas.


Marcombo/Alfaomega: Barcelona.

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 121

BIBLIOGRAFA complementaria
SOARES, Sunil (2013). Big Data Governance. An emerging Imperative. Boise, USA: MC Press. FRANKS, Bill (2012). Taming the Big Data Tidal Wave. New York: Wiley.

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 122

BIBLIOGRAFA complementaria
ZIKOPOULOS, Paul C. et al (2012). Understanding Big

Data. Analytics for Enterprise Class Hadoop and Streaming Data. New York: McGraw-Hill.

www-01.ibm.com/software/data/bigdata/ ZIKOPOULOS, Paul C. et al (2013). Harness the Power of Big Data. The IBM Big Data Platform. New York: McGraw-Hill. Descargable libre en IBM.

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 123

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 124

REFERENCIAS
McKinsey Global Institute . Big data: The

next frontier for innovation, competition, and productivity. June 2011

James G. Kobielus. The Forrester Wave: Enterprise Hadoop Solutions, Q1 2012, February 2, 2012. www-01.ibm.com/software/data/bigdata/ Diego Lz. de Ipia Glz. de Artaza. Bases de Datos No
Relacionales (NoSQL). Facultad de Ingeniera,
Universidad de Deusto. www.morelab.deusto.es http://paginaspersonales.deusto.es/dipina Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 125

BIBLIOGRAFA
Philip Russom. BIG DATA ANALYTICS. FOURTH QUARTER 2011. TDWI.org

IBM. http://www-01.ibm.com/software/data/bigdata/

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 126

Referencias, Ipia Glz. de Artaza


NoSQL vs. RDBMS
Riyaz -- Thanks for the question regarding "NOSQL vs. RDBMS

databases", version 10r2


4632900346253817

http://asktom.oracle.com/pls/asktom/f?p=100:11:0::::P11_QUESTION_ID:266

NoSQL or not NoSQL?


http://www.slideshare.net/ruflin/nosql-or-not-nosql/download

Comparativa de diferentes soluciones NoSQL: http://kkovacs.eu/cassandra-vs-mongodb-vs-couchdb-vs-redis SQL vs. NoSQL. http://www.linuxjournal.com/article/10770

Cassandra. NoSQL Not only SQL (Introduction to Apache Cassandra).

http://www.scriptandscroll.com/3508/technology/nosql-not-only-sqlintroduction-to-apache-cassandra/#.TtonPmMk6nA http://www.datastax.com/docs/0.8/dml/using_cql http://cassandra.apache.org/

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 127

REFERENCIAS
Fundacin Apache:http://hadoop.apache.org/ Apache ZooKeeper: http://zookeeper.apache.org/ Apache Hive: http://hive.apache.org/ Pig: http://pig.apache.org/ Apache Avro: http://avro.apache.org/ Apache Hbase: http://hbase.apache.org/

Luis Joyanes Aguilar


Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 128

REFERENCIAS
[1] Hadoop Wiki. http://wiki.apache.org/hadoop [2] D. Engfer. Intro to the Hadoop Stack. http://www.slideshare.net/davidengfer/intro-tothe-hadoop-stack-javamug [3] C. Zedlewski, E. Collins. Hadoop Stack: Then, now and future. http://www.slideshare.net/cloudera/the-hadoopstack-then-now-and-in-the-future-eli-collinscharles-zedlewski-cloudera [4] M. Collins. Hadoop and MapReduce: Big Data Analytics. Gartner Research, Enero 2011 http://www.gartner.com/id=1521016 Luis Joyanes Aguilar
Universidad Pontificia de Salamanca Noviembre 2013 . Curso 2013/14

Pgina 129

Potrebbero piacerti anche