Sei sulla pagina 1di 30

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA

MAESTRÍA EN GESTIÓN DE TECNOLOGÍA DE INFORMACIÓN


BIG DATA (ELECTIVA I) - 214021A_471

RETO 2
APLICACIÓN DE HERRAMIENTAS DE TRANSFERENCIA

PRESENTADO POR
NEY HERNANDO MUÑOZ SANCHEZ
COD. 16.761.740
nhmunozs@unadvirtual.edu.co

GRUPO: 214021_1

TUTOR
ROBERTO MAURICIO CARDENAS

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD


ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERÍA
MAESTRÍA EN GESTIÓN DE TECNOLOGÍA DE INFORMACIÓN

MARZO DE 2018

29
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
MAESTRÍA EN GESTIÓN DE TECNOLOGÍA DE INFORMACIÓN
BIG DATA (ELECTIVA I) - 214021A_471

1. APLICACIÓN DE HERRAMIENTAS DE TRANSFERENCIA

1.1. Chalenge2

https://docs.google.com/spreadsheets/d/1gAjkBcCTCqrJxLx7klHxsgrItPcYgVtnX3sCQKt
4uJk/edit?usp=sharing

1.2. Chalenge3

1.2.1. Análisis de grafo de contactos de Facebook

Paso 1: Importar el archivo GDF

En el menú file se selecciona spreadsheet, tal como se muestra en la siguiente imagen:

En la ventana open se selecciona el archivo generado desde la página


https://tools.lucahammer.at/jsongdf, con el archivo de extensión json (el cual fue generado
utilizando el complemento de Google Crome Facebook Friends Visualizer – Lost Circles).

29
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
MAESTRÍA EN GESTIÓN DE TECNOLOGÍA DE INFORMACIÓN
BIG DATA (ELECTIVA I) - 214021A_471

Aparece la siguiente ventana en donde muestra el número de nodos y de aristas entre otros.

Paso 2: Primera visualización

29
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
MAESTRÍA EN GESTIÓN DE TECNOLOGÍA DE INFORMACIÓN
BIG DATA (ELECTIVA I) - 214021A_471

Se podrá observar una red densa como la se muestra a continuación:

Dependiendo del número de nodos habrá una mayor densidad y al ser una visualización
aleatoria podrá ser diferente cada vez que se realice.

Paso 3: Familiarizarse con la visualización

Se puede usar el mouse para moverse por moverse por la visualización. La rueda para hacer
zoom y el botón derecho para recorrer el gráfico.

Se puede aumentar o disminuir el grosor de las aristas, quitar o poner las aristas, cambiar el
color y espesor entre otros. La siguiente imagen muestra estas opciones:

29
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
MAESTRÍA EN GESTIÓN DE TECNOLOGÍA DE INFORMACIÓN
BIG DATA (ELECTIVA I) - 214021A_471

Si con los ajustes realizados no se puede observar el gráfico por la posición del mismo en la
ventana, se puede restablecer y lograr visualizarlo completamente a través del icono que
representa una lupa, como se observa a continuación:

Reest
ablec
er
imag
en

Paso 4: Distribución - Layout del Gráfico

Los algoritmos de distribución componen la forma gráfica del grafo, por lo cual se
convierten en algo esencial de la herramienta.

29
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
MAESTRÍA EN GESTIÓN DE TECNOLOGÍA DE INFORMACIÓN
BIG DATA (ELECTIVA I) - 214021A_471

Para ilustrar su uso se seleccionará como ejemplo el layout Yifan Hu Proportional.


Haciendo clic en ejecutar (run), se obtiene lo siguiente:

29
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
MAESTRÍA EN GESTIÓN DE TECNOLOGÍA DE INFORMACIÓN
BIG DATA (ELECTIVA I) - 214021A_471

Paso 5: Control de Layout del Gráfico

El propósito de las propiedades del panel de distribución (Layout), es que el usuario pueda
tomar control del algoritmo para hacer una representación estética más agradable. A manera
de ejemplo se modifica la propiedad “Initial Step Size”, pasando de un valor de 20.0 a 10.0,
obteniendo el siguiente resultado:

Nuevamente volviendo al algoritmo aleatorio, y modificando la propiedad “Space Size”,


pasando de un valor de 100 a 1000, se obtiene el siguiente resultado:

29
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
MAESTRÍA EN GESTIÓN DE TECNOLOGÍA DE INFORMACIÓN
BIG DATA (ELECTIVA I) - 214021A_471

Paso 6: Configurar la Apariencia

El módulo de apariencia se utiliza para configurar el tamaño y color de los nodos y de las
aristas.

Como ejemplo se configura para que el color de los nodos sea rojos y las aristas verdes,
obteniendo en siguiente resultado:

29
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
MAESTRÍA EN GESTIÓN DE TECNOLOGÍA DE INFORMACIÓN
BIG DATA (ELECTIVA I) - 214021A_471

Paso 7: Calcular medidas

A través del módulo de estadísticas se puede realizar una seré de medidas del grafo
analizado.

Como ejemplo se podría medir la longitud media de camino para todos lo pares posibles, lo
cual nos da la cercanía entre los nodos (Avg. Path Length), para ello, se hace clic run del
indicador de esta medida.

Y se obtiene un cuadro de medidas como es el que se muestra a continuación:

29
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
MAESTRÍA EN GESTIÓN DE TECNOLOGÍA DE INFORMACIÓN
BIG DATA (ELECTIVA I) - 214021A_471

29
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
MAESTRÍA EN GESTIÓN DE TECNOLOGÍA DE INFORMACIÓN
BIG DATA (ELECTIVA I) - 214021A_471

Paso 8: Mostrar Etiquetas

Además de cambiar el tamaño y color de los nodos y las aristas Gephi permite mostrar las
etiquetas de los nodos a través de la siguiente opción:

Como se puede observar se puede indicar si se incluye o no las etiquetas, el tipo y tamaño
de letra y color.

En esta opción se puede seleccionar que atributo se quiere mostrar en el grafo. Los atributos
disponibles son: id, label y userid.

29
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
MAESTRÍA EN GESTIÓN DE TECNOLOGÍA DE INFORMACIÓN
BIG DATA (ELECTIVA I) - 214021A_471

Paso 9: Filtración

A través de esta herramienta también se pueden crear filtros para seleccionar que nodos se
quieren mostrar en la gráfica del grafo

En este caso se filtró por la categoría Degree Range Settings, tomando como punto de
partida 33.

29
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
MAESTRÍA EN GESTIÓN DE TECNOLOGÍA DE INFORMACIÓN
BIG DATA (ELECTIVA I) - 214021A_471

Paso 10: Previsualización

Una vez se haya terminado todos los cambios a la gráfica se pude hacer una
previsualización, como se muestra en la siguiente imagen:

Cada vez que se haga cambios en la gráfica se debe hacer clic en la pestaña refrescar para
observar los cambios.

29
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
MAESTRÍA EN GESTIÓN DE TECNOLOGÍA DE INFORMACIÓN
BIG DATA (ELECTIVA I) - 214021A_471

1.2.2. Concepto de data Storytelling

El concepto de Data Storytelling consiste en dar un enfoque estructurado sobre cómo


comunicar las ideas a partir de los datos, e involucra una combinación de tres elementos:
datos, visualización y narrativa. Esta combinación permite explicar qué ha pasado y por
qué una idea puede ser importante en el análisis, permite añadir una visualización de los
datos y pueden explicar ideas que de otra manera no sería posible hacerlo.

Para el análisis del grafo de los contactos de Facebook, se hizo uso del software Gephi
0.9.2, el cual permite dar aplicabilidad al concepto de Data Storytelling. En primera
instancia permitió conocer el número de nodos y aristas del grafo, como se ilustra a
continuación:

Se identificaron 167 nodos, lo cual representa el número de amigos en Facebook y 2049


aristas o número de relaciones entre los nodos.

Una vez cargados los datos lo primero que se hizo fue conocer la distancia y la centralidad
de la red analizada y para ello se utilizó el estadístico “average path length”, obteniendo
como resultado las imágenes que se muestran a continuación:

29
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
MAESTRÍA EN GESTIÓN DE TECNOLOGÍA DE INFORMACIÓN
BIG DATA (ELECTIVA I) - 214021A_471

Luego se ejecutó el estadístico Modularity. El modularidad usa un algoritmo de detección


de comunidad que permite agrupar nodos relacionados. En la red que se analiza se
encontraron 11 comunidades como muestra la imagen siguiente:

Ahora que se ha ejecutado estos cálculos, se dimensionaran los nodos. En el lado superior
izquierdo de Gephi, seleccionando la pestaña Nodos y luego seleccionando "centralidad
entre sí", con tamaño mínimo y máximo 10 y 50 se obtiene la siguiente gráfica:

29
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
MAESTRÍA EN GESTIÓN DE TECNOLOGÍA DE INFORMACIÓN
BIG DATA (ELECTIVA I) - 214021A_471

Lo que muestra esta grafica son los nodos coloreados según los resultados del algoritmo de
detección de comunidad, de acuerdo con sus atributos comunes y la relación entre ellos.

Ahora se dará a los resultados un aspecto más ilustrativo. Debajo de la ventana Particiones
y Clasificación a la izquierda hay una opción de Diseño. Esto permite usar diferentes
algoritmos para diseñar los nodos y los bordes. El mejor para este tipo de datos es Force
Atlas. Simplemente se selecciona, marcando "prevent overlay" y presionado "aplicar". La
imagen muestra claramente los nodos, así como las conexiones entre ellos.

29
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
MAESTRÍA EN GESTIÓN DE TECNOLOGÍA DE INFORMACIÓN
BIG DATA (ELECTIVA I) - 214021A_471

Jugando un poco con los datos se pueden revelar algunas conexiones interesantes. Durante
este ejercicio, por ejemplo, se descubrió algunos patrones que indican las etapas de la vida
de la red amigos que se analiza. Por ejemplo, los nodos representados con color verde
corresponden a los amigos de mi época de adolescencia, los nodos representados con color
fucsia corresponden a los amigos de la época del colegio, los nodos representados con el
color azul corresponden a los amigos de la época universidad, luego aparecen varios nodos
en la zona central de la gráfica de distintos colores, los cuales están representando la época
después de grado de la universidad e inicio de la época laboral. Finalmente, los nodos
representados con color rosado corresponden a mis amigos de actualidad, los cuales están
muy relacionados con mi vida laboral.

En la siguiente gráfica se puede evidencia lo anteriormente expuesto, dado que, se incluyen


los labels de los nodos, que en este caso corresponden a los nombres de mi red de amigos
de Facebook.

29
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
MAESTRÍA EN GESTIÓN DE TECNOLOGÍA DE INFORMACIÓN
BIG DATA (ELECTIVA I) - 214021A_471

1.2.3. Ejercicio de Predicción de Ventas

Se desea hacer una predicción de las ventas de vehículos en Colombia, para lo cual se
cuenta con una serie de datos sobre las ventas de vehículos entre los años 1997 y 2013,
datos que fueron tomados de la página del DANE.

29
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
MAESTRÍA EN GESTIÓN DE TECNOLOGÍA DE INFORMACIÓN
BIG DATA (ELECTIVA I) - 214021A_471

Para la predicción se utiliza la función pronóstico de Excel, tomando como datos de


entrada la columna Año y la columna Total, inicio del pronóstico el año 2013, fin del
pronóstico el año 2025, detección automática de estacionalidad e intervalo de confianza
del 95%.

Los resultados obtenidos fueron los siguientes:

29
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
MAESTRÍA EN GESTIÓN DE TECNOLOGÍA DE INFORMACIÓN
BIG DATA (ELECTIVA I) - 214021A_471

Finalmente se indica que el pronóstico de ventas se hace con base una regresión lineal
utilizando la siguiente ecuación:

A continuación, se muestra la gráfica de predicción:

29
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
MAESTRÍA EN GESTIÓN DE TECNOLOGÍA DE INFORMACIÓN
BIG DATA (ELECTIVA I) - 214021A_471

1.3. Chalenge4

1.3.1. Instalación de la máquina virtual CLOUDERA


Antes de instalar la maquina virtual se instalo en la computadora el sofwtare de virtualizción
VIRTUALBOX, como se muestra en la siguiente imagen:

Luego de instarlar el software de VIRTUALBOX, se imporrta el archivo de la maquina


CLOUDERA

Se procedió con la instalación con los parámetros que por default tiene la máquina virtual:

29
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
MAESTRÍA EN GESTIÓN DE TECNOLOGÍA DE INFORMACIÓN
BIG DATA (ELECTIVA I) - 214021A_471

En las siguientes dos imágenes se muestra el avance porcentual del proceso de importacion de la
maquina virtual CLOUDERA.

29
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
MAESTRÍA EN GESTIÓN DE TECNOLOGÍA DE INFORMACIÓN
BIG DATA (ELECTIVA I) - 214021A_471

Una vez terminado el proceso de importacion la maquina virtual CLOUDERA queda lista
para iniciarla:

En la siguiente imagen se puede observar el proceso de inicio de la maquina virtual. Es


importante anotar que esta maquina funciona con sistema operativo LINUX de la
distribución CENTOS versión 6.7.

29
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
MAESTRÍA EN GESTIÓN DE TECNOLOGÍA DE INFORMACIÓN
BIG DATA (ELECTIVA I) - 214021A_471

En la siguiente imagen se pude evindenciar que la maquina fue iniciada exitosamente.

29
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
MAESTRÍA EN GESTIÓN DE TECNOLOGÍA DE INFORMACIÓN
BIG DATA (ELECTIVA I) - 214021A_471

1.3.2. Ejercicio de MAP REDUCE

Para realizar este ejercicio se tomó como referencia el documento “Introducción al manejo
de datos masivos con HADOOP”, de Agustín Caminero y Luis Grau (2016).

En este ejercicio se van a utilizar datos de YELP, que se pueden descargar del siguiente
enlace: http://www.yelp.com/dataset_challenge/. Desde este enlace, clicando en el enlace
“Get the data”, y tras rellenar un formulario de datos personales, se descarga un fichero
comprimido que contiene, entre otros los siguientes ficheros:

 business.json: fichero que contiene información de negocios.


 review.json: fichero que contiene información de opiniones.

Los datos de los negocios que se tienen son los siguientes:

“city", "review_count", "name", "neighborhoods", "type", "business_id", "full_address",


"hours", "state", "longitude", "stars", "latitude", "attributes", "open", "categories“.

Los datos más importantes con los que trabajará en este ejercicio son:
 review_count: contador de opiniones.
 Latitude, altitude: coordenadas geográficas
 business_id: un identificador para el negocio.
 categories: el tipo de negocio (ej. Restaurante, …)

También se tienen datos de opiniones:

"funny", "useful", "cool", "user_id", "review_id", "text", "business_id", "stars", "date",


"type"

29
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
MAESTRÍA EN GESTIÓN DE TECNOLOGÍA DE INFORMACIÓN
BIG DATA (ELECTIVA I) - 214021A_471

Los datos más importantes con los que se trabajaran en este ejercicio son:

 Text: el texto de la opinión, que refleja la descripción que el usuario de Yelp ha


realizado sobre ese negocio.

 Cool: un número entero que cuanto más alto, mejor es la valoración de este negocio.

Los datos de Yelp Challenge son datos en formato JSON, es decir, que tienen una estructura
como la que sigue, en la que para cada campo tiene su nombre seguido de su valor:

Ejemplo de negocios:

{"business_id": "vcNAWiLM4dR7D2nwwJ7nCA", "full_address": "4840 E Indian


School Rd\nSte 101\nPhoenix, AZ 85018", "categories": ["Doctors", "Health &
Medical"], "city": "Phoenix", "review_count": 9, "name": "Eric Goldberg, MD",
"longitude": -111.98375799999999, "stars": 3.5, "latitude": 33.499313000000001}

Ejemplo de opiniones:

{"votes": {"funny": 0, "useful": 2, "cool": 1}, "user_id":


"Xqd0DzHaiyRqVH3WRG7hzg", "stars": 5, "date": "2007-05-17", "text": "dr. goldberg
offers everything i look for in a general practitioner", "type": "review", "business_id":
"vcNAWiLM4dR7D2nwwJ7nCA"}

Ahora se iniciará HUE, para lo cual se deberá ejecutar el navegador de Internet. En la


página de inicio del navegador de Internet del entorno virtual (ver Figura 19), se hace click
en el botón que dice “Launch Hue UI”. Para conectarte a HUE se deberá utilizar los
siguientes datos de acceso:

29
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
MAESTRÍA EN GESTIÓN DE TECNOLOGÍA DE INFORMACIÓN
BIG DATA (ELECTIVA I) - 214021A_471

29
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
MAESTRÍA EN GESTIÓN DE TECNOLOGÍA DE INFORMACIÓN
BIG DATA (ELECTIVA I) - 214021A_471

Ahora se cargarán los dos ficheros en el clúster de Hadoop. Este punto se realiza desde la
opción “File Browser” situada arriba a la derecha en el interfaz de HUE.

Seguidamente, se crearán tablas partiendo de estos ficheros, una llamada “business” y otra
llamada “reviews”. Este paso se realiza desde “Data Browsers” → “Metastore tables”. Se
debe prestar atención a que las columnas de las tablas tengan los nombres correctos. Para

29
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
MAESTRÍA EN GESTIÓN DE TECNOLOGÍA DE INFORMACIÓN
BIG DATA (ELECTIVA I) - 214021A_471

nombrar las columnas, se hace click en “Bulk edit column names” y se pega los nombres de
las columnas correspondientes a la tabla que se están creando.

Una vez las tablas estén creadas con los datos correctos, se crea una consulta utilizando el
editor de Hive (esto se encuentra en “Query editors”-> “Hive”) con el siguiente contenido:

SELECT name, review_count


FROM business
ORDER BY review_count DESC
LIMIT 25

Esta consulta devuelve el nombre y el contador de opiniones de los 25 negocios que mayor
número de opiniones tengan. Para ejecutar esta consulta se hace click en “Execute”.

Tras ejecutarla, si se va a la opción “Chart” se podrán ver sus resultados graficados de


varias formas diferentes.

29
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
MAESTRÍA EN GESTIÓN DE TECNOLOGÍA DE INFORMACIÓN
BIG DATA (ELECTIVA I) - 214021A_471

BIBLIOGRAFIA

Caminero, A., Grau, L. (2016). “Introducción al manejo de datos masivos con HADOOP”.
Recuperado de http://www.cartagena99.com/recursos/alumnos/apuntes/Practica-
SBD-2015-16_v1.pdf

Power Data. (s.f.). Big Data: ¿En qué consiste? Su importancia, desafíos y gobernabilidad.
Recuperado de https://www.powerdata.es/big-data

Visión Software. (2017). Las 5 Vs que caracterizan el concepto de big data. Recuperado de
http://www.visionsoftware.com.co/las-5-vs-que-caracterizan-el-concepto-de-big-data/

29