Sei sulla pagina 1di 7

Acercamiento al Big Data

R. Beltrán; K, Lopez; J. Serrano


Articulo Final
UNIVERSIDAD ECCI
Escuela Colombiana de Carreras Industriales
Bogotá / Colombia
2017-1oor

1. Abstract maneras en todo el mundo, por ejemplo de


dispositivos móviles, audio, video, sistemas
Aplicar el conjunto de conocimientos
GPS, incontables sensores digitales en
derivados del entendimiento de la
equipos industriales, automóviles, medidores
importancia que reviste la clasificación de la
eléctricos, veletas, anemómetros, etc., los
tecnología para una empresa en él escenario
cuales pueden medir y comunicar el
actual de competitividad
posicionamiento, movimiento, vibración,
2. Introducción temperatura, humedad y hasta los cambios
El primer cuestionamiento que posiblemente químicos que sufre el aire, de tal forma que
llegue a su mente en este momento es ¿Qué las aplicaciones que analizan estos datos
es Big Data y porqué se ha vuelto tan requieren que la velocidad de respuesta sea lo
importante? Pues bien, en términos generales demasiado rápida para lograr obtener la
podríamos referirnos como a la tendencia en información correcta en el momento preciso.
el avance de la tecnología que ha abierto las Estas son las características principales de
puertas hacia un nuevo enfoque de una oportunidad para Big Data.
entendimiento y toma de decisiones, la cual Es importante entender que las bases de datos
es utilizada para describir enormes convencionales son una parte importante y
cantidades de datos (estructurados, no relevante para una solución analítica. De
estructurados y semiestructurados) que hecho, se vuelve mucho más vital cuando se
tomaría demasiado tiempo y sería muy usa en conjunto con la plataforma de Big
costoso cargarlos a un base de datos Data. Pensemos en nuestras manos izquierda
relacional para su análisis. De tal manera que, y derecha, cada una ofrece fortalezas
el concepto de Big Data aplica para toda individuales para cada tarea en específico.
aquella información que no puede ser Por ejemplo, un beisbolista sabe que una de
procesada o analizada utilizando procesos o sus manos es mejor para lanzar la pelota y la
herramientas tradicionales. Sin embargo, Big otra para atraparla; puede ser que cada mano
Data no se refiere a alguna cantidad en intente hacer la actividad de la otra, mas sin
específico, ya que es usualmente utilizado embargo, el resultado no será el más óptimo.
cuando se habla en términos de petabytes y
exabytes de datos. Entonces ¿Cuánto es 3. Definición
demasiada información de manera que sea Big Data es una base de datos no
elegible para ser procesada y analizada convencional la cual tiene como función
utilizando Big Data? Analicemos principal analizar datos que se han vuelto tan
primeramente en términos de bytes: grandes que no se pueden procesar,
almacenar y analizar mediante métodos
Gigabyte = 10 = 1,000,000,000
convencionales.
Terabyte = 10 = 1,000,000,000,000
Una manera de caracterizar estos datos que se
Petabyte = 10 = 1,000,000,000,000,000 usan es recurriendo a lo que dicen las 3 V [2]
Exabyte = 10 = 1,000,000,000,000,000,000 en referencia a volumen, variedad y
velocidad:
Además del gran volumen de información,
esta existe en una gran variedad de datos que  Volumen: el universo digital sigue
pueden ser representados de diversas expandiendo sus fronteras y se estima
que ya hemos superado la barrera del economía, educación, población, etc.), que
zetta byte. son de gran interés público. [2]
 Velocidad: la velocidad a la que Según una encuesta realizada por IBM
generamos datos es muy elevada, y la [3]explica que hay cierta confusión en la
Proliferación de sensores es un buen definición del Big Data, yaqué a los
ejemplo de ello. Además, los datos en encuestados le pidieron que eligiera dos
tráfico –datos de vida efímera, pero características de Big Data y no hay una
con un alto valor para el negocio– características que predomine sobre el resto
crecen más deprisa que el resto del si no que los encuestados dividieron
universo digital. opiniones acerca de describir las
características del concepto de Big Data.
 Variedad: los datos no solo crecen
sino que también cambian su patrón
De crecimiento, a la vez que aumenta
el contenido desestructurado.

Fig. 2 Dimensión de los Datos [3]


A veces también se añade otra V, la de valor.
[2]Extraer valor de toda esta información Fig. 1 Características del concepto de Big Data [3]
marcará la próxima década. El valor lo
podremos encontrar en diferentes formas: Hay diferentes datos de Big data. El primer
mejoras en el rendimiento del negocio, dato a una cantidad mínima de datos
nuevas fuentes de segmentación de clientes, llamados “duros” (números o hechos)
automatización de decisiones tácticas, etc. descritos por Alex „Sandy‟ Pentland,
profesor del Instituto Tecnológico de
Como ya hemos visto, el origen de los datos Massachusetts, de los Estados Unidos, como
para una empresa puede ser diverso. “migajas digitales”. [4]Se dice que son
Por ejemplo [2], le pueden llegar de sus „estructurados‟ porque constituyen
propios sistemas de información de apoyo a conjuntos de datos de variables que pueden
las ventas o de interacción con sus clientes, ser fácilmente etiquetados, categorizados y
así como estar generados por las máquinas o organizados (en columnas y filas por
sensores incrustados en cualquier tipo de ejemplo) para un análisis sistemático.
dispositivo o producto de la empresa. Y no Esta contribución a la acumulación masiva de
olvidemos la información que circula por las datos la podemos encontrar en diversas
redes sociales sobre una determinada industrias, las compañías mantienen grandes
empresa, que sin duda es muy valiosa para cantidades de datos transaccionales,
esta. reuniendo información acerca de sus clientes,
Pero hay otro origen muy importante de los proveedores, operaciones, etc., de la misma
datos, representado por las plataformas de manera sucede con el sector público. En
información que varios gobiernos están muchos países se administran enormes bases
abriendo. Estos datos públicos pueden ser de datos que contienen datos de censo de
informes, mapas, estadísticas, estudios, población, registros médicos, impuestos, etc.,
análisis, creados y gestionados por la y si a todo esto le añadimos transacciones
administración en todos los ámbitos (sanidad, financieras realizadas en línea o por

2
dispositivos móviles, análisis de redes utiliza dispositivos como sensores o
sociales (en Twitter son cerca de 12 medidores que capturan algún evento
Terabytes de tweets creados diariamente y en particular (velocidad, temperatura,
Facebook almacena alrededor de 100 presión, variables meteorológicas,
Petabytes de fotos y videos), ubicación variables químicas como la salinidad,
geográfica mediante coordenadas GPS, en etc.) los cuales transmiten a través de
otras palabras, todas aquellas actividades que redes alámbricas, inalámbricas o
la mayoría de nosotros realizamos varias híbridas a otras aplicaciones que
veces al día con nuestros "Smartphone", traducen estos eventos en
estamos hablando de que se generan información significativa.
alrededor de 2.5 quintillones de bytes c. Big Transaction Data: Incluye
diariamente en el mundo. [1] registros de facturación, en
4. Tipo de Información telecomunicaciones registros
detallados de las llamadas (CDR), etc.
Muchas organizaciones se enfrentan a la
Estos datos transaccionales están
pregunta sobre ¿qué información es la que se
disponibles en formatos tanto
debe analizar?, sin embargo, el
semiestructurados como no
cuestionamiento debería estar enfocado hacia
estructurados.
¿qué problema es el que se está tratando de
resolver?.[2] d. Biometrics: Información biométrica
en la que se incluye huellas digitales,
Si bien sabemos que existe una amplia
escaneo de la retina, reconocimiento
variedad de tipos de datos a analizar, una
facial, genética, etc. En el área de
buena clasificación nos ayudaría a entender
seguridad e inteligencia, los datos
mejor su representación, aunque es muy
biométricos han sido información
probable que estas categorías puedan
importante para las agencias de
extenderse con el avance tecnológico.
investigación.
e. Human Generated: Las personas
generamos diversas cantidades de
datos como la información que
guarda un call center al establecer una
llamada telefónica, notas de voz,
correos electrónicos, documentos
electrónicos, estudios médicos, etc.
Tipos de datos por categorías
Los tipos de datos se suelen organizar en 2
categorías principales:
a. Estructurados:
Figura 1. Tipos de datos de Big Data[2]
 Creados: datos generados por
nuestros sistemas de una manera
Tipos de datos por origen predefinida (registros en tablas,
ficheros XML asociados a un
a. Web and Social Media: Incluye
esquema)
contenido web e información que es
obtenida de las redes sociales como  Provocados: datos creados de manera
Facebook, Twitter, LinkedIn, etc, indirecta a partir de una acción previa
blogs. (valoraciones de restaurantes,
b. MachinetoMachine (M2M): M2M se películas, empresas (Yelp,
TripAdvisor, …)
refiere a las tecnologías que permiten
conectarse a otros dispositivos. M2M
 Dirigido por transacciones: datos que capa de aplicaciones, proporcionando de este
resultan al finalizar una acción previa modo una alta precisión. Hadoop, fue la
de manera correcta (facturas plataforma de procesamiento de datos
autogeneradas al realizar una compra, pionera en Big Data, empezó hace nueve
recibo de un cajero automático al años, con licencia de código abierto y
realizar una retirada de efectivo, …) utilizada por gigantes de Internet como
Yahoo y Facebook. Hadoop sigue liderando
 Compilados: resúmenes de datos de la revolución de datos masivos pero ya ha
empresa, servicios públicos de interés sido desbancada en capacidad y rapidez de
grupal. Entre ellos nos encontramos procesamiento en determinadas situaciones
con el censo electoral, vehículos por otras plataformas como Spark. Cloudera
matriculados, viviendas públicas, …) introdujo soporte comercial para las
 Experimentales: datos generados empresas en 2008, y MapR y Hortonworks se
como parte de pruebas o simulaciones apuntaron al carro en 2009 y 2011,
que permitirán validar si existe una respectivamente. Entre los grandes en gestión
oportunidad de negocio. de datos, IBM y Pivotal (spinout de EMC)
presentaron sus propias distribuciones de
b. No estructurados:
Hadoop. Microsoft y Teradata ofrecen
 Capturados: datos creados a partir del también software relacionado y líneas de
comportamiento de un usuario apoyo técnico y comercial para la plataforma
(información biométrica de pulseras Hortonworks. Oracle revende y apoya
de movimiento, aplicaciones de Cloudera, mientras que HP, SAP y otros
seguimiento de actividades (carrera, actúan más con una estrategia de
ciclismo, natación, …), posición diversificación, trabajando con varios
GPS) proveedores Hadoop al mismo tiempo. [17]
 Generados por usuarios: datos que
especifica un usuario (publicaciones b. MAPREDUCE
en redes sociales, vídeos
reproducidos en Youtube, búsquedas MapReduce es un motor computacional que
en Google, …) permite una escalabilidad descomunal a
miles de servidores en un cluster Hadoop.
 Multiestructurados o híbridos: Datos Literalmente, MapReduce se divide en dos
de mercados emergentes términos, “Mapa” y “Reducir”. “Mapa” viene
 Ecommerce a ser la conversión de un dataset en otro
conjunto de datos al descomponer los datos y
 Datos meteorológicos la creación de pares de datos (clave / valor).
La tarea de “reducir” es tomar los datos del
“mapa” y combinar los pares clave / valor en
5. Etapas de Transformación pares más pequeños. Otro framework
6. Herramientas para el manejo alternativo dentro del ecosistema Hadoop
del Big Data para aplicaciones de procesamiento de datos
a. HADOOP es Apache Tez. 17]

La popularidad de este ecosistema puede ser


entendido por el hecho de que Hadoop y Big c. GRIDGAIN
Data se han utilizado hasta ahora casi como
Gridgrain es una herramienta que
sinónimos. La biblioteca Hadoop ofrece un
proporciona métodos dinámicos de
framework que utiliza modelos de
computación y almacenamiento de datos
programación simples para el procesamiento
tales como la agrupación dinámica,
distribuido de un gran conjunto de datos a
procesamiento MapReduce, ejecución de
través de varias máquinas conectadas. Fue
cierre distribuido, balanceo de carga,
diseñado para superar fallos y errores en la

4
tolerancia a fallos, mensajería distribuida y específicos en memoria para el análisis ultra-
escalabilidad lineal. 17] rápido. 17]

d. HPCC g. SPARK
HPCC, siglas de “clustering computacional Apache Spark es un motor de procesamiento
de alto rendimiento “, es conocido por ofrecer de datos a gran escala rápido y fácil de usar.
un rendimiento superior a Hadoop en Se pueden programar aplicaciones usando
determinados entornos. Esta herramienta está diferentes lenguajes como Java, Scala,
disponible tanto en versión gratuita y versión Python o R. Según las aplicaciones puede
de pago. Tiene un apoyo activo de la llegar a ser 100 veces más rápido que Hadoop
comunidad en todo el mundo. 17] MapReduce en memoria o 10 veces más
rápido en disco. Permite combinar SQL,
streaming y librerías analíticas avanzadas,
e. STORM MLlib para machine learning, GraphX y
Apache Storm es una herramienta de código Spark Streaming. Puede funcionar sobre
libre y abierto. Es fácil de usar y puede ser Hadoop, Mesos, formato standalone, o en
integrada con cualquier lenguaje de cloud. Permite acceder diversas fuentes de
programación. Ofrece una interfaz fácil y datos como HDFS, Cassandra, HBase y S3.
17]
fiable, permite procesamiento en tiempo real,
similar a lo que Hadoop hace en batch
processing (procesamiento por lotes). Es una h. HIVE
de las herramientas más populares y está
siendo utilizada por empresas como Logo apache hiveApache Hive es una
Flipboard, Groupon, Twitter, Spotify, Yahoo infraestructura datawarehouse para Hadoop.
(Japón), WebMD, Baidu y muchos más. Este software facilita la consulta y gestión de
grandes conjuntos de datos que residen en
Además de las anteriores, hay muchas almacenamiento distribuido. La
herramientas de bases de datos / funcionalidad principal de Hive es
datawarehouses que facilitan las tareas de proporcionar resumenes de datos, consultas y
manejo de grandes volúmenes de datos. análisis. Es compatible con el análisis de
Algunas de las más populares son MongoDB, grandes conjuntos de datos almacenados en
CouchDB, Cassandra, HBase, Neo4j, Riak, HDFS de Hadoop, así como en el sistema de
Hypertable. 17] archivos de Amazon S3. Ofrece un
mecanismo para proyectar la estructura sobre
los datos y consultarlos utilizando un
f. HANA
lenguaje similar a SQL llamado HiveQL. [17]
La Ley de Moore también se aplica al Big
Data, lo que nos conduce a soluciones más
rápidas, más asequibles, y gracias a ello i. KAFKA
procesadores y más memoria. Todo tiende al Kafka es un sistema de publicación
análisis de datos en tiempo real. SAP ha sido distribuida. Ha sido diseñado para permitir
el campeón del enfoque in-memory con su que un solo grupo de datos pueda servir como
plataforma Hana, pero Microsoft y Oracle la columna vertebral para una gran
están a punto de introducir opciones en organización. Un único broker de Kafka
memoria a sus soluciones de bases de datos. puede manejar cientos de megabytes en
Proveedores de bases de datos enfocados en lecturas y escrituras por segundo desde miles
analítica como Actium, HP Vertica, y de clientes. Puede ser ampliado de manera
Teradata han introducido opciones para elástica y transparente en modo producción.
relaciones de alto acceso RAM a disco, junto Algunas de las empresas que usan Kafka para
con herramientas para colocar datos el streaming de datos son LinkedIn, Yahoo,
Twitter, Netflix, Square, Spotify, Pinterest,
Uber, Goldman Sachs, Tumblr, Paypal, Box,
Airbnb, Cisco, Mozilla, Foursquare, [17]

j. FLUME
Apache Flume es un servicio distribuido y
fiable para la recogida, agregación, y traslado
de grandes conjuntos de datos de manera
eficiente. Cuenta con una arquitectura simple
y flexible basada en la transmisión de flujos
de datos. [17]

Bibliografía
[1] Ricardo Barranco Fragroso. (2012, junio)
IBM(International Bussiness Machines).
[Online].
http://www.ibm.com/developerworks/ssa/loc
al/im/que-es-big-data/
[2] Jordi Torres i Viñals, "Del cloud
computing al big data," universitat oberta de
catalunya , Barcelona, 2012.
[3] Michael Schroeck, Rebecca Shockley,
Janet Smart, Dolores Romero, and Peter
Tufano, "Analytics: el uso de big data en el
mundo real," IBM Institute for Business
Value, Oxford, Informe ejecutivo 2012.
[4] EDGE. (2012, agosto) Edge organization.
[Online].
http://edge.org/conversation/reinventing-
society-in-the-wake-of-big-data
[5] Hadoop apache. Hadoop. [Online].
http://hadoop.apache.org/

6
[6] apache drill foutation. (2012, septiembre)
wikipedia. [Online].
http://en.wikipedia.org/wiki/Apache_Drill
[7] APPY WEEK. (2014, abril) Appy Week.
[Online]. http://www.appy-
geek.com/Web/ArticleWeb.aspx?regionid=8
&articleid=22290097
[8] pentaho. (2012) pentaho wiki. [Online].
http://infocenter.pentaho.com/help/index.jsp
?topic=%2Fpdi_user_guide%2Ftopic_hadoo
p.html
[9] Cisco, Internet será cuatro veces más
grande en 2016, Artículo Web
http://www.cisco.com/web/ES/about/press/2
012/20120530internetseracuatrovecesmasgr
andeen2016informevinidecisco.Html
[10] Clegg Dai, Big Data: The Data Velocity
Discussion, Artículo Web
http://thinking.netezza.com/blog/bigdatadata
velocitydiscussion
[11] Kobielus James, Big Data Analytics
Helps Researchers Drill Deeper into Multiple
Sclerosis,
Artículo Web
http://thinking.netezza.com/blog/bigdataanal
yticshelpsresearchersdrilldeepermultiplescle
rosis
[12] Aprenda más acerca de Apache Hadoop
en http://hadoop.apache.org/
[13] Zikopolous Paul, Deroos Dirk, Deutsch
Tom, Lapis George, Understanding Big Data:
Analytics for
[14] Enterprise Class Hadoop and Streaming
Data, McGrawHill,
2012

[15] Foster Kevin, Nathan Senthil, Rajan


Deepak, Ballard Chuck, IBM InfoSphere
Streams: Assembling Continuous Insight in
the Information Revolution, IBM RedBooks,
2011
[16]http://www.politicascti.net/index.php?o
ption=com_docman&task=doc_download&
gid=67&Itemid=36&lang=es
[17]http://www.baoss.es/10-herramientas-
para-manejar-big-data-analytics/

Potrebbero piacerti anche