Sei sulla pagina 1di 6

ECUELA POLITÉCNICA NACIONAL

Facultad de Ingeniería Eléctrica y Electrónica


Carlos Montalvo, Rafael Valle. GR2

carlos.montalvo@epn.edu.ec, byron.valle@epn.edu.ec

BIG DATA

I. Introducción químicos que sufre el aire, de tal forma que las


aplicaciones que analizan estos datos requieren
¿Qué es Big Data?
que la velocidad de respuesta sea lo demasiado
Big Data en términos generales podríamos rápida para lograr obtener la información
referirnos como a la tendencia en el avance de la correcta en el momento preciso.
tecnología que ha abierto las puertas hacia un
II. ¿De dónde proviene toda la
nuevo enfoque de entendimiento y toma de
información?
decisiones, la cual es utilizada para describir
enormes cantidades de datos (estructurados, no Los seres humanos estamos creando y
estructurados y semi estructurados) que tomaría almacenando información constantemente y cada
demasiado tiempo y sería muy costoso cargarlos vez más en cantidades exageradas, esta
a un base de datos relacional para su análisis. De contribución a la acumulación masiva de datos la
tal manera que, el concepto de Big Data aplica podemos encontrar en diversas industrias, las
para toda aquella información que no puede ser compañías mantienen grandes cantidades de
procesada o analizada utilizando procesos o datos transaccionales, reuniendo información
herramientas tradicionales. Sin embargo, Big acerca de sus clientes, proveedores, operaciones,
Data no se refiere a alguna cantidad en etc., de la misma manera sucede con el sector
específico, ya que es usualmente utilizado público. En muchos países se administran
cuando se habla en términos de petabytes y enormes bases de datos que contienen datos de
exabytes de datos. Entonces ¿Cuánto es censo de población, registros médicos,
demasiada información de manera que sea impuestos, etc., y si a todo esto le añadimos
elegible para ser procesada y analizada utilizando transacciones financieras realizadas en línea o
Big Data? Analicemos primeramente en términos por dispositivos móviles, análisis de redes
de bytes: sociales, ubicación geográfica mediante
coordenadas GPS, en otras palabras, todas
Gigabyte = 109 = 1,000,000,000
aquellas actividades que la mayoría de nosotros
Terabyte = 1012 = 1,000,000,000,000 realizamos varias veces al día con nuestros
"smartphones", estamos hablando de que se
Petabyte = 1015 = 1,000,000,000,000,000 generan alrededor de 2.5 quintillones de bytes
diariamente en el mundo.
Exabyte = 1018 = 1,000,000,000,000,000,000
De acuerdo con un estudio realizado por Cisco
Existe en una gran variedad de datos que pueden
[1], entre el 2011 y el 2016 la cantidad de tráfico
ser representados de diversas maneras en todo el
de datos móviles crecerá a una tasa anual de 78%,
mundo, por ejemplo de dispositivos móviles,
así como el número de dispositivos móviles
audio, video, sistemas GPS, incontables sensores
conectados a Internet excederá el número de
digitales en equipos industriales, automóviles,
habitantes en el planeta. Las naciones unidas
medidores eléctricos, veletas, anemómetros, etc.,
proyectan que la población mundial alcanzará los
los cuales pueden medir y comunicar el
7.5 billones para el 2016 de tal modo que habrá
posicionamiento, movimiento, vibración,
cerca de 18.9 billones de dispositivos conectados
temperatura, humedad y hasta los cambios
a la red a escala mundial, esto conllevaría a que

1
el tráfico global de datos móviles alcance 10.8 Web, generada por los usuarios en su
Exabytes mensuales o 130 Exabytes anuales. actividad en las redes sociales o
Este volumen de tráfico previsto para 2016 información de búsquedas en buscadores.
equivale a 33 billones de DVDs anuales o 813  Machine-to-Machine (M2M): datos
cuatrillones de mensajes de texto. generados a partir de la comunicación
entre sensores inteligentes integrados en
Pero no solamente somos los seres humanos
objetos de uso cotidiano.
quienes contribuimos a este crecimiento enorme
 Transacciones: incluye registros de
de información, existe también la comunicación
facturación, llamadas o transacciones
denominada máquina a máquina (M2M machine-
entre cuentas.
to- machine) cuyo valor en la creación de grandes
 Biométricos: datos generados por
cantidades de datos también es muy importante.
tecnología de identificación de personas
Sensores digitales instalados en contenedores mediante reconocimiento facial, de
para determinar la ruta generada durante una huellas dactilares o mediante información
entrega de algún paquete y que esta información genética.
sea enviada a las compañías de transportación,  Generados por personas: a través de
sensores en medidores eléctricos para determinar correos electrónicos, servicios de
el consumo de energía a intervalos regulares para mensajería o grabaciones de llamadas.
que sea enviada esta información a las compañías
del sector energético. Se estima que hay más de
30 millones de sensores interconectados en
distintos sectores como automotriz,
transportación, industrial, servicios, comercial,
etc. y se espera que este número crezca en un
30% anualmente.

III. Tipos de Big Data.

¿Qué tipos de datos debo explorar?

Muchas organizaciones se enfrentan a la


pregunta sobre ¿qué información es la que se
debe analizar?, sin embargo, el cuestionamiento
debería estar enfocado hacia ¿qué problema es el
que se está tratando de resolver? [2] Fig1. Tipos de Big Data.

Si bien sabemos que existe una amplia variedad IV. Herramientas y soluciones
de tipos de datos a analizar, una buena
Big Data necesita nuevas herramientas y
clasificación nos ayudaría a entender mejor su
tecnologías que puedan abarcar la complejidad
representación, aunque es muy probable que
de datos no estructurados y en continua
estas categorías puedan extenderse con el avance
expansión. Para ello, las tecnologías
tecnológico.
tradicionales de base de datos relacionales o
RDBMS, no son adecuadas. Además, se
necesitan aplicaciones avanzadas de análisis y
A la hora de clasificar los “grandes datos” visualización, para poder extraer todo el
podemos hacerlo según dos potencial de los datos y explotarlo para nuestros
criterios: procedencia y estructura. Así, según su objetivos de negocio. Veamos a continuación
procedencia, los datos pueden llegar desde algunas de las principales herramientas: [3]
distintas fuentes, entre otras:
 Hadoop: es una herramienta de código abierto
 Web y Redes Sociales: información que nos permite tanto gestionar los grandes
disponible en Internet como contenido volúmenes de datos, como analizarlos y

2
procesarlos. Hadoop Dentro del mundo del marketing y ventas es
implementa MapReduce, un modelo de donde mejores resultados ha arrojado Big Data,
programación que da soporte a la los datos son utilizados para analizar y sacar
computación paralela sobre grandes conclusiones sobre el comportamiento y
colecciones de datos. preferencias de los clientes de una empresa.
 NoSQL: se trata de sistemas que no utilizan
Para esto, se lleva a cabo la ampliación de los
SQL como lenguaje de consultas, lo que, a
data center comunes con data centers de redes
pesar de no poder garantizar la integridad de
sociales, logins de navegación, análisis de textos
los datos (principios ACID: atomicidad,
y datos de sensores de dispositivos para
consistencia, integridad y durabilidad), les
conseguir un resumen acerca de las preferencias
permite obtener ganancias significativas en
de sus clientes realizando modelos predictivos,
escalabilidad y rendimiento a la hora de
como por ejemplo los realizados por la cadena de
trabajar con Big Data. Una de las bases de
supermercados Target, quienes fueron capaces
datos NoSQL más populares es MongoDB.
de predecir con bastante precisión cuando sus
 Spark: es un framework de computación en
clientes esperarían un hijo. Empresas de alto
clúster de código abierto que permite
impacto pueden predecir además que productos
procesar los datos de forma rápida. Permite
se venderán más o menos en ciertas épocas del
escribir aplicaciones en Java, Scala, Python,
año, aseguradoras de autos pueden obtener
R y SQL y funciona tanto sobre Hadoop,
estimaciones de como manejan sus clientes e
Apache Mesos, Kubernetes, como de forma
incluso se puede optimizar la forma en la que un
independiente o en la nube. Puede acceder a
político realiza campaña electoral.
centenares de fuentes de datos.
 Storm: es un sistema de computación en
tiempo real distribuido de código libre. Storm
permite procesar flujos ilimitados de datos en
tiempo real de manera sencilla, pudiendo
usarse con cualquier lenguaje de
programación.
 Hive: es una infraestructura de Data
Warehouse construida sobre Hadoop. Facilita
la lectura, escritura y administración de
grandes conjuntos de datos que residen en Fig2. Influencia empresarial de Big Data.
almacenamiento distribuido mediante SQL.
 R: es uno de los lenguajes de programación
más utilizados en análisis estadísticos y en
minería de datos. Puede integrarse con
distintas bases de datos y permite generar 2. Optimización de procesos en un
gráficos con alta calidad. negocio.
 D3.js: es una biblioteca de JavaScript para
En distribuidores se está utilizando Big Data en
producir visualizaciones dinámicas e
base a redes sociales, búsquedas en portales web
interactivas de datos en navegadores web,
e incluso predicciones meteorológicas para tomar
usando HTML, SVG y CSS.
decisiones sobre cadenas de suministro y
optimización de rutas de reparto. Mediante GPS
V. Aplicaciones de Big Data.
y sensores de identificación de radiofrecuencia se
Existen áreas específicas en las cuales Big Data realiza un seguimiento a las mercancías y a
marca diferencia, a continuación, se detalla vehículos de reparto para conseguir la mejor ruta
aquellas donde se están obteniendo los mejores posible hacia un destino y así optimizar el uso de
resultados y que han permitido que este concepto recursos, analizando datos de tráfico en tiempo
se desarrolle. real.

1. Segmentación y análisis de clientes. De igual manera, los procedimientos en


departamentos como recursos humanos mejoran

3
gracias al análisis de Big Data; ya que a través de adaptabilidad según el terreno de juego y contra
este se puede detectar y adquirir talento nuevo tácticas a otros jugadores.
para cada tipo de empresa, así como encontrar
De igual manera en el futbol se utilizan
herramientas integradoras de plantillas de
grabaciones y sensores en equipamiento
trabajadores.
deportivo y balones para encontrar nuevos
3. Mejoras en salud pública. itinerarios de entrenamiento, recolectar
información de cada jugador que puede ser usado
Otra aplicación de datos colectivos y masivos es
por sus entrenadores, preparadores e incluso por
dentro de la codificación genética. Mientras más
su agente para ofrecer los servicios de su
datos de usuarios se obtengan se podrá conocer
representado a nuevos clubes.
con mayor precisión información acerca de
antepasados, mejores rutinas alimenticias según Varios equipos de élite incluso lo están usando
el genotipo o para conocer porque ciertos tipos para dar seguimiento a sus jugadores fuera de
de genes que provocan enfermedades cancha, ya que mediante dispositivos inteligentes
degenerativas y mortales se han activado. pueden dar seguimiento al tipo de alimentación
que llevan, horas de descanso y sueño,
Mediante el análisis de cadenas de ADN se puede
preparación física externa o hasta seguimiento en
encontrar nuevos tratamientos y mejores maneras
redes sociales para conocer su estado anímico.
de tratar ciertas enfermedades, sus posibles
desencadenantes y su propagación.

Esto se logra mediante sensores presentes en


dispositivos que son utilizados diariamente y que
cada vez son más comunes, se estima que con el
incremento de popularidad de los mismos en un
futuro los ensayos clínicos ya no estarán
limitados a una pequeña muestra, sino que una
gran parte de la población podrá participar en
ellos.

Por ejemplo, en Canadá mediante técnicas de Big Fig3. Big Data aplicado en deportes.
Data se está monitoreando latidos, patrones de
respiración de recién nacidos para predecir
infecciones incluso 24 horas antes que los 5. Optimización y mejora de ciudades.
primeros síntomas se manifiesten. A través de
redes sociales también se puede predecir brotes En las ciudades más importantes del mundo se
de gripe o enfermedades virales gracias al está utilizando Big Data para optimizar flujos de
análisis de lo que los usuarios publiquen en sus tráfico en las principales vías de cada urbe, a este
perfiles. tipo de ciudades se les ha denominado como
Smart Cities. Por ejemplo, los semáforos actúan
4. Herramienta de análisis deportivo.
de acuerdo al tipo de datos obtenidos de tráfico,
En el tenis se lleva utilizando herramientas de de esta manera se optimiza el uso de una calle o
análisis predictivos desde el 2005 avenida para evitar embotellamientos.
aproximadamente, SlamTracker es una
tecnología de IBM SPSS la cual se aplica a
participantes de eventos como Wimbledon,
Roland Garros, Abierto de Australia para
determinar movimientos característicos y
análisis de estilos de los mejores jugadores, así
como eficiencia en servicios, marcadores,
duración de los encuentros, puntos anotados,
tipos de tiros etcétera. Todo esto para determinar
mejores rutinas de entrenamiento para jugadores,

4
Fig4. Big Data orientado a ciudades. humana entre las diferentes zonas y estudiar la
demanda exacta en cada parada.

Se espera además que este proyecto se extienda a


VI. Aplicaciones ejecutadas en
otros puntos relacionados a movilidad dentro de
Ecuador por Telefónica
Quito, ya que con el crecimiento del parque
(Movistar) mediante Big Data.
automotriz los embotellamientos son cada vez
Telefónica es una de las empresas que más más comunes en distintos puntos de la ciudad.
énfasis ha hecho en la aplicación de Big Data LUCA Transit es una herramienta desarrollada
dentro de su empresa; tanta es la importancia que por Telefónica y puesta a práctica en países como
este sector recibe que esta empresa tiene su Chile y España, esta herramienta permite
propio departamento de Big Data y Advertasing. comprender la movilidad dentro de las ciudades
Al ser una multinacional reconocida en varios realizando un análisis de los datos de los usuarios
países del mundo, Telefónica maneja una gran en su día a día. Los beneficios que ofrece son:
cartera de clientes. Ecuador no es la excepción, y
 Optimiza la planificación del transporte
en el año 2017 se estimó que Movistar manejó
en base a la movilidad.
más de 4.5 millones de líneas telefónicas, este
 Mejora los diseños de rutas de
dato no pasa desapercibido; considerando que el
transporte establecidas.
esquema de Big Data genera tráfico con cada
 Desarrolla una mejor gestión de tráfico.
operación que un abonado realice en su
 Permite determinar cuotas de pasajes y
dispositivo, por lo tanto, uno de los principales
rentabilidad de rutas.
puntos que tomó en cuenta la empresa es la
seguridad de datos; y, adoptando estándares de  Administrar el transporte público.
seguridad europeos garantizan la seguridad y Además de esta herramienta, Telefónica cuenta
privacidad de los clientes. con LUCA Tourism, la cual permite obtener
Telefónica a través de sus empresas Movistar y datos para planificación de proyectos turísticos y
Tuenti realiza un corte o barrido de clientes cada comprender el alcance potencial económico de
cinco minutos, con el cual colectan datos, un evento.
observan y analizan patrones de LUCA Tourism permite:
comportamiento. Esta recopilación es ejecutada
en tres pasos: para empezar, los nombres,  Conocer la cantidad de turistas y origen
apellidos, números telefónicos y en general datos de los mismos a lo largo del año.
privados de los clientes son omitidos.  Adaptar servicios públicos a las
Posteriormente se asocian clústers de 100 o 1000 necesidades de los vistantes.
usuarios, eliminando muestras de grupos  Determinar cuáles son las ciudades que
inferiores a 25 usuarios y para terminar se más turistas reciben y las actividades
extrapolan con el total de abonados. que más se realizan en estas.
 Analizar patrones de comportamiento
Una de las principales tareas que Telefónica
de visitantes.
ejecutó con esta recopilación de datos es el
 Comprender que temporadas son las de
análisis de flujo de usuarios que ocuparán cada
mayor concurrencia de visitas.
estación del nuevo metro de Quito. Dentro de
 Permite tanto a empresas privadas como
este análisis se incluye orígenes y destinos, horas
a entidades públicas explotar de manera
de mayor demanda y barrios y sectores a donde
más eficiente un sector en crecimiento.
pertenecen dichos usuarios. Como extra, se podrá
realizar un análisis de los tipos de servicios que A las anteriores mencionadas se juntan LUCA
se requieren en cada parada, como pueden ser Store y LUCA Audience, herramientas que
cajeros automáticos, asistencia médica etc. permiten conocer el comportamiento de clientes
para tomar decisiones sobre estrategias de
Para llevar este análisis a cabo se dividió a Quito
marketing y de ventas en base un público
en 673 zonas urbanas y 30 zonas rurales, con esto
objetivo.
se logró determinar los puntos de movilidad

5
VII. Conclusiones. VIII. Recomendaciones.
 La naturaleza de la información hoy es  Se recomienda tanto a estudiantes como
diferente a la información en el pasado. profesores relacionados con el mundo
Debido a la abundancia de sensores, de las TICS realizar una investigación
micrófonos, cámaras, escáneres acerca de Big Data, ya que puede
médicos, imágenes, etc. en nuestras resultar un tema de interés común.
vidas, los datos generados a partir de  Antes de relacionarse con Big Data se
estos elementos serán dentro de poco el recomienda tener cierta experiencia con
segmento más grande de toda la la programación orientada a objetos, ya
información disponible. que esta herramienta utiliza Java como
 El uso de Big Data ha ayudado a los lenguaje de programación.
investigadores a descubrir cosas que les
podrían haber tomado años en descubrir
por si mismos sin el uso de estas BIBLIOGRAFÍA
herramientas, debido a la velocidad del
análisis, es posible que el analista de  [1]2019. [Online]. Available:
datos pueda cambiar sus ideas http://www.cisco.com/
basándose en el resultado obtenido y web/ES/about/press/2012/2012-05-30-
hacer el procedimiento una y otra vez internet-sera-cuatro-veces-mas-grande-
hasta encontrar el verdadero valor al en-2016-- informe-vini-de-cisco.html.
que se está tratando de llegar [Accessed: 09- Jul- 2019].
 Big Data es una herramienta  [2]2019. [Online]. Available:
importante, pero esta debe ser usada con http://www.dataversity.net/not-your-
suma precaución; ya que al realizarse el type-big-data-matchmaker- on-five-
análisis de datos de millones de data-types-you-need-to-explore-today/.
personas el sistema puede verse [Accessed: 09- Jul- 2019].
expuesto a vulnerabilidades y ataques  [3]"¿Qué es Big Data y para qué
informáticos los cuales pueden poner en sirve?", #ADNCLOUD, 2019. [Online].
exposición información privada. Es por Available: https://blog.mdcloud.es/que-
eso que en donde se aplique esta es-big-data-y-para-que-sirve/.
estructura de análisis uno de los puntos [Accessed: 09- Jul- 2019].
principales a tomar en cuenta debe ser la
seguridad.
 Las aplicaciones de Big Data no
necesariamente se tienen que ver
enfocadas al campo privado o de
negocios, al contar con varias
alternativas de uso esta herramienta
puede aplicarse para mejorar la calidad
de vida de las personas, así como
solventar problemas cotidianos como el
tráfico dentro de una ciudad, el análisis
extenso y con una gran muestra de
ciertas enfermedades y sus posibles
tratamientos entre otros beneficios. Por
lo tanto, se puede concluir que es
importante que el concepto de Big Data
se haga conocer en los distintos
establecimientos educativos
relacionados con la tecnología.