Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
TRABAJO
INTEGRANTES:
GILMERT FAUSTINO SILVERA ALARCN
JOS DIOMEDES ARISMENDI GUTIRREZ
MADRID 2014
NDICE GENERAL
1.2
1.3
1.3.1
3.2
3.3
3.3.1
HelpMyCash.com.................................................................................................... 8
3.3.2
Rankia. ..................................................................................................................... 8
Funcionalidad .............................................................................................................. 9
4.1.1.1
4.1.2
4.1.3
4.2
Arquitectura ................................................................................................................ 11
4.3
A.
Hadoop ....................................................................................................................... 12
B.
Java ............................................................................................................................. 12
C.
D.
JSON........................................................................................................................... 12
E.
F.
NetBeans .................................................................................................................... 13
G.
H.
TortoiseSVN ............................................................................................................... 13
I.
Dropbox ...................................................................................................................... 13
J.
Captulo 1 | Introduccin
Actualmente las personas y empresas necesitan recolectar informacin
de varias fuentes para realizar un anlisis de un problema de cualquier tipo, de
all surge la necesidad de una api que pueda agrupar informacin de varias
fuentes y agruparlas de manera efectiva reduciendo considerablemente el
tiempo invertido en la recoleccin de datos, estos ha evolucionado una grande
demanda de estas aplicaciones en el mercado actual, motivado por la creciente
necesidad de manipular los grandes volmenes de informacin que se encuentra
actualmente disponible en muchos medios accesibles para cual.
Actualmente se dispone de la tecnologa de diseo en programacin para
agrupar dichas informaciones de varias fuentes en una sola, as de esta manera
mejoras los servicios y reducir el tiempo de bsquedas gracias a la integracin
de Sistemas de Informacin, el cual puede ser empleado en procesos tanto
mecnicos como software.
1.1
1.2
Limitacin de la Investigacin
Nuestras Aplicacin se origina de la necesidad de manejar temas
1.3
Esquema de Proyecto
A Continuacin se detalla los puntos a desarrollar en nuestro tema de
investigacin:
3.1
Dominio de datos.
En nuestro da a da el manejo de informacin en temas especficos es
vital para el desarrollo de cualquier actividad por ello la necesidad de
establecer dominios de informacin, lo cual es un conjunto de informacin
de diferentes fuentes con una informacin o dato en comn agrupadas
en un solo medio, para ser manipulada de manera fcil y efectiva.
Con
3.3
3.3.1 HelpMyCash.com
En esta pgina se engloban todas las posibles inversiones o informacin
de tipo econmica requerida desde entidades financieras tipos de
inversin y otros.
3.3.2
Rankia.
Esta es una Comunidad de usuarios interesados en el mundo de la
finanzas, la bolsa, la banca y los brokers online en donde se valoran y
opinan sobre cada producto, aqu se va a optener la informacion de
usuario requerida para ser relacionada con los de la otra fuente.
3.3.3 Twitter.
Twitter es una aplicacin web gratuita de microblogging que rene las
ventajas de los blogs, las redes sociales y la mensajera instantnea. Esta
nueva forma de comunicacin, permite a sus usuarios estar en contacto
Funcionalidad
La funcionalidad de la integracin, se puede decir que se ha estructurado
mediante dos grandes mdulos de integracin, los cuales servirn de
ayuda para la gestin de peticiones y muestra de resultados.
4.1.1.1
Proceso de Scraping
Search API
La API de bsqueda est diseada con el objetivo de permitir al usuario
realizar consultas sobre el contenido de Twitter, esto incluye desde la
bsqueda de tweets aplicando diversos filtros (bsqueda de palabras
clave, tweets pertenecientes a un usuario, tweets que hagan referencia a
un usuario especfico, en funcin del idioma, en funcin de la ubicacin,
etc.). Tambin proporciona acceso a las tendencias del momento. El
contenido al que se tiene acceso mediante la API de bsqueda tiene una
limitacin temporal de 50 Twittes cada 15 Minutos.
4.2
Arquitectura
El modelovistacontrolador (MVC) es un patrn de arquitectura de
software que separa los datos y la lgica de negocio de una aplicacin de
la interfaz de usuario y el mdulo encargado de gestionar los eventos y
las comunicaciones. Para ello MVC propone la construccin de
tres componentes distintos que son el modelo, la vista y el controlador, es
decir, por un lado define componentes para la representacin de la
informacin, y por otro lado para la interaccin del usuario.1 2 Este patrn
de arquitectura de software se basa en las ideas de reutilizacin de
cdigo y la separacin de conceptos, caractersticas que buscan facilitar
la tarea de desarrollo de aplicaciones y su posterior mantenimiento
B. Java
Este es un lenguaje de programacin y una plataforma informtica que es
comercializada por Sun Microsystems, esta plataforma es rpida, seguro
y fiable, lo cual la convierte en una opcin favorita entre usuarios y
programadores
el
cual
puede
ser
implementado
desde
sper
Este formado
foros est diseado bajo estar reglas lo cual representa nuestra principal
va de extraccin de informacin ya que los datos son etiquetados para su
manejo y distribucin.
D. JSON
Este es el acrnimo de JavaScript Object, el cual constituye un formato
ligero que se utiliza en el intercambio de datos, el cual est compuesto
por un subconjunto de notaciones de los objetos del JavaScript que hace
no necesario el uso del formato XML. Una de las ventajas de este sobre
XML es que su lenguaje de intercambio de datos es mucho ms fcil de
programar un analizador sintctico de JSON.
E. Java Eclipse
Es un sistema de programacin con una serie de herramientas de cdigo
abierto multiplataforma, que se utiliza para desarrollar aplicaciones de
cliente enriquecido opuesto a las aplicaciones de cliente liviano basadas
en navegadores.
F. NetBeans
Es un ambiente de desarrollo libre, realizado principalmente para el
lenguaje de programacin de java, este proyecto tiene un gran xito
teniendo una gran cantidad de usuarios formando una comunidad de
crecimiento sostenido. Esta plataforma permite que las aplicaciones sean
desarrolladas bajo un conjunto de mdulos y cada mdulo es un archivo
java el cual contiene clases javas, desarrolladas para interactuar con las
apis de netbeans y un archivo especial que identificado como modulo.
G. Subversion (SVN)
Es una herramienta de control de versiones de lenguaje abierto basados
en un deposito centralizado de informacin en forma de un sistema de
ficheros, trabaja en licencia libre de tipo Apache/BSD.
H. TortoiseSVN
Este es un cliente Subversin, el cual es usado como extensin de Shell
de Windows, este es un software libre de fuente abierta que trabaja bajo
la licencia GNU GPL. Con este se consigue la integracin de comandos
de Windows, utilizado habitualmente en el mundo de la programacin,
estando disponible en 28 idiomas diferentes, y se encarga del manejo de
la muestra de diferencias entre documentos de office como los creados
en Word.
I. Dropbox
Es un sistema de almacenamiento online con sincronizacin cuya
principal caracterstica es su explorador de archivos, por medio el cual
podemos acceder a nuestros ficheros almacenados en el servidor de
dropbox como si fuera una unidad ms de nuestro computador.
5.1
Instrucciones de ejecucin
Para la ejecucin del sistema de integracin de datos, y verlo en detalle la
funcionalidad, se realiz un pequeo manual de la mquina virtual a
entregar con todos los procesos a utilizar; en el anexo de este documento.
Anexo
MANUAL DE USUARIO
Paso N 1: Seleccionar la
Maquina Virtual a Ejecutar:
Paso N 3: Seleccionar el
usuario HDUSER, ingresar la
clave: softsil
4. Iniciar el APLICATIVO:
Paso N 6: Hacer
Clic en el botn
ejecutar
Paso N 5:
Seleccionar la
clase Main con
doble click
Paso N 7:
Hacer Clic en el
botn, para
extraer datos de
la primera
fuente, y
esperar a que
nos muestre el
resultado
Paso N10:
Hacer clic en el
botn, para hacer
la consulta a
twitter, esperar a
que nos muestre
los resultados
Paso N11: clic en el botopn para: una vez extrada la informacin necesaria para el
procesamiento en Hadoop, se procede a ingresarlos en el fichero que hadoop utilizar para el
MApReduce.
6. Ejecutar Hadoop.
Abrir terminal.
Paso N13: Una vez iniciado Hadoop ingresar los comando siguientes: (cd
/usr/local) y presionar enter.
YA ubicados en la carpeta local ingresar el siguiente comando: (hadoop jar
/home/hduser/workspace/hadoopdistributed.jar input output). Y presionar enter