Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
2
dispositivos móviles, análisis de redes utiliza dispositivos como sensores o
sociales (en Twitter son cerca de 12 medidores que capturan algún evento
Terabytes de tweets creados diariamente y en particular (velocidad, temperatura,
Facebook almacena alrededor de 100 presión, variables meteorológicas,
Petabytes de fotos y videos), ubicación variables químicas como la salinidad,
geográfica mediante coordenadas GPS, en etc.) los cuales transmiten a través de
otras palabras, todas aquellas actividades que redes alámbricas, inalámbricas o
la mayoría de nosotros realizamos varias híbridas a otras aplicaciones que
veces al día con nuestros "Smartphone", traducen estos eventos en
estamos hablando de que se generan información significativa.
alrededor de 2.5 quintillones de bytes c. Big Transaction Data: Incluye
diariamente en el mundo. [1] registros de facturación, en
4. Tipo de Información telecomunicaciones registros
detallados de las llamadas (CDR), etc.
Muchas organizaciones se enfrentan a la
Estos datos transaccionales están
pregunta sobre ¿qué información es la que se
disponibles en formatos tanto
debe analizar?, sin embargo, el
semiestructurados como no
cuestionamiento debería estar enfocado hacia
estructurados.
¿qué problema es el que se está tratando de
resolver?.[2] d. Biometrics: Información biométrica
en la que se incluye huellas digitales,
Si bien sabemos que existe una amplia
escaneo de la retina, reconocimiento
variedad de tipos de datos a analizar, una
facial, genética, etc. En el área de
buena clasificación nos ayudaría a entender
seguridad e inteligencia, los datos
mejor su representación, aunque es muy
biométricos han sido información
probable que estas categorías puedan
importante para las agencias de
extenderse con el avance tecnológico.
investigación.
e. Human Generated: Las personas
generamos diversas cantidades de
datos como la información que
guarda un call center al establecer una
llamada telefónica, notas de voz,
correos electrónicos, documentos
electrónicos, estudios médicos, etc.
Tipos de datos por categorías
Los tipos de datos se suelen organizar en 2
categorías principales:
a. Estructurados:
Figura 1. Tipos de datos de Big Data[2]
Creados: datos generados por
nuestros sistemas de una manera
Tipos de datos por origen predefinida (registros en tablas,
ficheros XML asociados a un
a. Web and Social Media: Incluye
esquema)
contenido web e información que es
obtenida de las redes sociales como Provocados: datos creados de manera
Facebook, Twitter, LinkedIn, etc, indirecta a partir de una acción previa
blogs. (valoraciones de restaurantes,
b. MachinetoMachine (M2M): M2M se películas, empresas (Yelp,
TripAdvisor, …)
refiere a las tecnologías que permiten
conectarse a otros dispositivos. M2M
Dirigido por transacciones: datos que capa de aplicaciones, proporcionando de este
resultan al finalizar una acción previa modo una alta precisión. Hadoop, fue la
de manera correcta (facturas plataforma de procesamiento de datos
autogeneradas al realizar una compra, pionera en Big Data, empezó hace nueve
recibo de un cajero automático al años, con licencia de código abierto y
realizar una retirada de efectivo, …) utilizada por gigantes de Internet como
Yahoo y Facebook. Hadoop sigue liderando
Compilados: resúmenes de datos de la revolución de datos masivos pero ya ha
empresa, servicios públicos de interés sido desbancada en capacidad y rapidez de
grupal. Entre ellos nos encontramos procesamiento en determinadas situaciones
con el censo electoral, vehículos por otras plataformas como Spark. Cloudera
matriculados, viviendas públicas, …) introdujo soporte comercial para las
Experimentales: datos generados empresas en 2008, y MapR y Hortonworks se
como parte de pruebas o simulaciones apuntaron al carro en 2009 y 2011,
que permitirán validar si existe una respectivamente. Entre los grandes en gestión
oportunidad de negocio. de datos, IBM y Pivotal (spinout de EMC)
presentaron sus propias distribuciones de
b. No estructurados:
Hadoop. Microsoft y Teradata ofrecen
Capturados: datos creados a partir del también software relacionado y líneas de
comportamiento de un usuario apoyo técnico y comercial para la plataforma
(información biométrica de pulseras Hortonworks. Oracle revende y apoya
de movimiento, aplicaciones de Cloudera, mientras que HP, SAP y otros
seguimiento de actividades (carrera, actúan más con una estrategia de
ciclismo, natación, …), posición diversificación, trabajando con varios
GPS) proveedores Hadoop al mismo tiempo. [17]
Generados por usuarios: datos que
especifica un usuario (publicaciones b. MAPREDUCE
en redes sociales, vídeos
reproducidos en Youtube, búsquedas MapReduce es un motor computacional que
en Google, …) permite una escalabilidad descomunal a
miles de servidores en un cluster Hadoop.
Multiestructurados o híbridos: Datos Literalmente, MapReduce se divide en dos
de mercados emergentes términos, “Mapa” y “Reducir”. “Mapa” viene
Ecommerce a ser la conversión de un dataset en otro
conjunto de datos al descomponer los datos y
Datos meteorológicos la creación de pares de datos (clave / valor).
La tarea de “reducir” es tomar los datos del
“mapa” y combinar los pares clave / valor en
5. Etapas de Transformación pares más pequeños. Otro framework
6. Herramientas para el manejo alternativo dentro del ecosistema Hadoop
del Big Data para aplicaciones de procesamiento de datos
a. HADOOP es Apache Tez. 17]
4
tolerancia a fallos, mensajería distribuida y específicos en memoria para el análisis ultra-
escalabilidad lineal. 17] rápido. 17]
d. HPCC g. SPARK
HPCC, siglas de “clustering computacional Apache Spark es un motor de procesamiento
de alto rendimiento “, es conocido por ofrecer de datos a gran escala rápido y fácil de usar.
un rendimiento superior a Hadoop en Se pueden programar aplicaciones usando
determinados entornos. Esta herramienta está diferentes lenguajes como Java, Scala,
disponible tanto en versión gratuita y versión Python o R. Según las aplicaciones puede
de pago. Tiene un apoyo activo de la llegar a ser 100 veces más rápido que Hadoop
comunidad en todo el mundo. 17] MapReduce en memoria o 10 veces más
rápido en disco. Permite combinar SQL,
streaming y librerías analíticas avanzadas,
e. STORM MLlib para machine learning, GraphX y
Apache Storm es una herramienta de código Spark Streaming. Puede funcionar sobre
libre y abierto. Es fácil de usar y puede ser Hadoop, Mesos, formato standalone, o en
integrada con cualquier lenguaje de cloud. Permite acceder diversas fuentes de
programación. Ofrece una interfaz fácil y datos como HDFS, Cassandra, HBase y S3.
17]
fiable, permite procesamiento en tiempo real,
similar a lo que Hadoop hace en batch
processing (procesamiento por lotes). Es una h. HIVE
de las herramientas más populares y está
siendo utilizada por empresas como Logo apache hiveApache Hive es una
Flipboard, Groupon, Twitter, Spotify, Yahoo infraestructura datawarehouse para Hadoop.
(Japón), WebMD, Baidu y muchos más. Este software facilita la consulta y gestión de
grandes conjuntos de datos que residen en
Además de las anteriores, hay muchas almacenamiento distribuido. La
herramientas de bases de datos / funcionalidad principal de Hive es
datawarehouses que facilitan las tareas de proporcionar resumenes de datos, consultas y
manejo de grandes volúmenes de datos. análisis. Es compatible con el análisis de
Algunas de las más populares son MongoDB, grandes conjuntos de datos almacenados en
CouchDB, Cassandra, HBase, Neo4j, Riak, HDFS de Hadoop, así como en el sistema de
Hypertable. 17] archivos de Amazon S3. Ofrece un
mecanismo para proyectar la estructura sobre
los datos y consultarlos utilizando un
f. HANA
lenguaje similar a SQL llamado HiveQL. [17]
La Ley de Moore también se aplica al Big
Data, lo que nos conduce a soluciones más
rápidas, más asequibles, y gracias a ello i. KAFKA
procesadores y más memoria. Todo tiende al Kafka es un sistema de publicación
análisis de datos en tiempo real. SAP ha sido distribuida. Ha sido diseñado para permitir
el campeón del enfoque in-memory con su que un solo grupo de datos pueda servir como
plataforma Hana, pero Microsoft y Oracle la columna vertebral para una gran
están a punto de introducir opciones en organización. Un único broker de Kafka
memoria a sus soluciones de bases de datos. puede manejar cientos de megabytes en
Proveedores de bases de datos enfocados en lecturas y escrituras por segundo desde miles
analítica como Actium, HP Vertica, y de clientes. Puede ser ampliado de manera
Teradata han introducido opciones para elástica y transparente en modo producción.
relaciones de alto acceso RAM a disco, junto Algunas de las empresas que usan Kafka para
con herramientas para colocar datos el streaming de datos son LinkedIn, Yahoo,
Twitter, Netflix, Square, Spotify, Pinterest,
Uber, Goldman Sachs, Tumblr, Paypal, Box,
Airbnb, Cisco, Mozilla, Foursquare, [17]
j. FLUME
Apache Flume es un servicio distribuido y
fiable para la recogida, agregación, y traslado
de grandes conjuntos de datos de manera
eficiente. Cuenta con una arquitectura simple
y flexible basada en la transmisión de flujos
de datos. [17]
Bibliografía
[1] Ricardo Barranco Fragroso. (2012, junio)
IBM(International Bussiness Machines).
[Online].
http://www.ibm.com/developerworks/ssa/loc
al/im/que-es-big-data/
[2] Jordi Torres i Viñals, "Del cloud
computing al big data," universitat oberta de
catalunya , Barcelona, 2012.
[3] Michael Schroeck, Rebecca Shockley,
Janet Smart, Dolores Romero, and Peter
Tufano, "Analytics: el uso de big data en el
mundo real," IBM Institute for Business
Value, Oxford, Informe ejecutivo 2012.
[4] EDGE. (2012, agosto) Edge organization.
[Online].
http://edge.org/conversation/reinventing-
society-in-the-wake-of-big-data
[5] Hadoop apache. Hadoop. [Online].
http://hadoop.apache.org/
6
[6] apache drill foutation. (2012, septiembre)
wikipedia. [Online].
http://en.wikipedia.org/wiki/Apache_Drill
[7] APPY WEEK. (2014, abril) Appy Week.
[Online]. http://www.appy-
geek.com/Web/ArticleWeb.aspx?regionid=8
&articleid=22290097
[8] pentaho. (2012) pentaho wiki. [Online].
http://infocenter.pentaho.com/help/index.jsp
?topic=%2Fpdi_user_guide%2Ftopic_hadoo
p.html
[9] Cisco, Internet será cuatro veces más
grande en 2016, Artículo Web
http://www.cisco.com/web/ES/about/press/2
012/20120530internetseracuatrovecesmasgr
andeen2016informevinidecisco.Html
[10] Clegg Dai, Big Data: The Data Velocity
Discussion, Artículo Web
http://thinking.netezza.com/blog/bigdatadata
velocitydiscussion
[11] Kobielus James, Big Data Analytics
Helps Researchers Drill Deeper into Multiple
Sclerosis,
Artículo Web
http://thinking.netezza.com/blog/bigdataanal
yticshelpsresearchersdrilldeepermultiplescle
rosis
[12] Aprenda más acerca de Apache Hadoop
en http://hadoop.apache.org/
[13] Zikopolous Paul, Deroos Dirk, Deutsch
Tom, Lapis George, Understanding Big Data:
Analytics for
[14] Enterprise Class Hadoop and Streaming
Data, McGrawHill,
2012