Sei sulla pagina 1di 9

Resumen:

A Survey on Big Data Analytics: Challenges, Open


Research Issues and Tools

Nicolás Morales Jélvez


Minería de datos y Big Data
I. INTRODUCCIÓN
Big Data: Grandes cantidades de datos que no son posible procesar con herramientas
tradicionales.

Presentación de datos:
• Estructurados VELOCIDAD
VOLUMEN Tasa de crecimiento y
• Semi – estructurado Gran cantidad de datos rapidez de recopilación
• No estructurado generados. de datos.

Objetivo principal del análisis de Big Data es 4V


procesar datos de alto volumen, velocidad, VERACIDAD
variedad y veracidad utilizando técnicas VARIEDAD
Incluye disponibilidad y Tipos de datos.
tradicionales y computacionales. Con esto se responsabilidad.
tiene una mejor toma de decisiones

El estudio sobre la teoría de la complejidad de Big Data ayudará a comprender las características esenciales
y la formación de patrones complejos, simplificará su representación y guiará el diseño de modelos y
algoritmos informáticos sobre Big Data.
II. CHALLENGES IN BIG DATA
ANALYTICS
A. Almacenamiento y B. Descubrimiento del conocimiento y
análisis de datos complejidades computacionales
Todas estas
El tamaño de los datos crece de manera Herramientas para el
dependen del
exponencial por lo que los medios de descubrimiento de datos
problema y
almacenamiento y velocidad entrada/salida debe
pueden no ser
ser un desafío a enfrentar posicionando la • Conjunto difuso suficientes
accesibilidad como máxima prioridad ya que es • Conjunto aproximado debido al
necesario acceder a la información de manera • Análisis de concepto formal aumento
rápida y fácil para su posterior análisis. • Análisis de componentes exponencial de
principales datos
Los algoritmos existentes pueden no responder
en un tiempo razonable cuando se trata de datos El problema principal de las complejidades
de alta dimensión. Algunas tecnologías recogen computacionales es manejar la incertidumbre e
datos semi – estructurados y no estructurados inconsistencia del conjunto de datos. Las
dando como desafío el como analizar herramientas actuales de análisis de Big Data tienen
efectivamente los datos para un mejor un bajo rendimiento en el manejo de estas
conocimiento. complejidades
C. Escalabilidad y
D. Seguridad en la información
visualización de datos

El desafío para las técnicas de Big Data es su


escalabilidad y seguridad. Las técnicas
La preservación de información confidencial es un
incrementales tienen buena propiedad de
problema en el análisis de Big Data. La seguridad se
escalabilidad en el aspecto de análisis de Big
puede mejorar mediante uso de técnicas de
Data. A medida que los datos se escalonan mas
autenticación, autorización y encriptación.
rápido que la velocidad de CPU, hay cambios en
la tecnología de prosado. Este cambio conduce a
la computación en paralelo.

El desafío es presentarlos de manera clara y


adecuada utilizando alguna teoría de grafos. Algunas medidas que enfrentan las aplicaciones de
Algunas compañías de grandes datos usan big data son:
herramienta Tableau para la visualización, esta - Escala de la Red
transforma grandes cantidades de datos en - Variedad de los dispositivos
imágenes intuitivas. Las herramientas actuales - Monitoreo de seguridad en tiempo real
son pobres en rendimiento de visualización, - Falta de sistema de intrusión
escalabilidad y respuesta al tiempo.
III. OPEN RESEARCH ISSUES IN BIG
DATA ANALYTICS

A. IoT for Big Data B. Cloud computing for


analytics Big Data analytics

Tiene un impacto económico y social imperativo El uso de computadoras virtuales se conoce como
para la construcción futura de tecnologías de computación en la nube y ha sido una de las
información, redes y comunicación. La técnicas de Big Data más robustas.
adquisición de IoT (Internet de las cosas) es el
mayor desafío que enfrentan los profesionales del Big Data y computación en la nube se desarrollan
Big Data. con la importancia de desarrollar una
disponibilidad escalable y baja demanda de
recursos y datos.
Los algoritmos de machine learning y las
técnicas de inteligencia computacional son las La computación en la nube ayuda a desarrollar un
única solución para manejar grandes datos desde modelo de negocio para todas las variedades de
la perspectiva de IoT. aplicaciones con infraestructura y herramientas.
C. Bio – inspired computing D. Quantum Computing
for Big Data Analytics for Big Data Analysis

Principal dificultad es la construcción de una


Las técnicas informáticas de inspiración computadora cuántica. Estas computadoras
biológica sirven como un papel clave en el presentan la información en bits cuánticos o
análisis inteligente de datos y su aplicación a quBits, en cambio una computadora clásica la
Big Data. Estos algoritmos ayudan a realizar la presenta en largas cadenas de Bits. Por ejemplo,
extracción de datos para grandes conjuntos de 100 quBits equivalen a 2100 valores complejos
datos debido a su aplicación de optimización. para ser almacenados en un sistema clásico.
La mayor ventaja es su simplicidad y su rápida
búsqueda de una solución óptima [31] mientras
resuelven los problemas de provisión de Muchas de los grandes problemas de datos se
servicios. pueden resolver mucho más rápido por los
ordenadores cuánticos. Es un desafío la
construcción de una computadora cuántica para
resolver problemas de Big Data.
IV. TOOLS FOR BIG DATA
PROCESSING
A. Apache Hadoop and MapReduce
Map reduce es un modelo de programación para procesar grandes C. Apache Spark
conjuntos de datos que se basa en el método de dividir y conquistar. Apache spark es un marco de
Hadoop y MapReduce funciona como un marco de software poderosa procesamiento de big data de
para resolver problemas grandes de datos. También es útil en el código abierto creado para el
almacenamiento tolerante a fallos y procesamiento de datos de alto procesamiento de velocidad y
rendimiento. análisis sofisticados. Es fácil de
usar y se desarrolló en 2009.
Spark le permite escribir
B. Apache Mahout rápidamente aplicaciones en
Apache Mahout tiene como objetivo proporcionar técnicas de machine java, scala o python. Además de
learning escalables y comerciales para aplicaciones de análisis de datos las operaciones de reducción de
inteligentes a gran escala. Los algoritmos principales de Mahout incluyen mapas, admite consultas SQL,
agrupación, clasificación, extracción de patrones, regresión, reducción de transmisión de datos,
dimensionalidad, algoritmos evolutivos y filtrado colaborativo basado en aprendizaje automático y
lotes que se ejecutan sobre la plataforma Hadoop a través del marco de procesamiento de datos gráficos.
reducción de mapas.
D. Dryad F. Apache Drill
Es otro modelo de programación popular para implementar programas Apache drill es otro sistema
paralelos y distribuidos para manejar grandes bases de contexto en el distribuido para el análisis
gráfico de flujo de datos. Consiste en un grupo de nodos informáticos, y interactivo de Big Data. Tiene
un usuario usa los recursos de un grupo informático para ejecutar su más flexibilidad para admitir
programa de manera distribuida. La principal ventaja es que los usuarios muchos tipos de lenguajes de
no necesitan saber nada sobre programación concurrente. consulta, formatos de datos y
fuentes de datos. También está
especialmente diseñado para
E. Storm explotar datos anidados.
Storm es un sistema de cómputo distribuido y tolerante a fallas en tiempo
real para procesar grandes datos de transmisión. Está especialmente H. Splunk
diseñado para el procesamiento en tiempo real en contraste con Hadoop Splunk es una plataforma
que es para el procesamiento por lotes. Además, también es fácil de inteligente y en tiempo real
configurar y operar, escalable, tolerante a fallas para proporcionar desarrollada para explotar Big
rendimientos competitivos. Data generada por máquinas.

G. Jaspersoft
El paquete Jaspersoft es un software de código abierto que produce informes a partir de columnas de bases de
datos. Es una plataforma analítica escalable de Big Data y tiene una capacidad de visualización rápida de datos en
plataformas de almacenamiento populares, incluyendo MangoDB, Cassandra, Redis, etc.
V. CONCLUSIÓN

En los últimos años, los datos se generan a un ritmo dramático. Analizar estos datos es un
desafío para un hombre en general. Con este fin en este documento, examinamos los
diversos problemas de investigación, desafíos y herramientas utilizados para analizar estos
grandes datos. De esta encuesta, se entiende que cada plataforma de Big Data tiene su
enfoque individual. Algunos de ellos están diseñados para el procesamiento por lotes,
mientras que otros son buenos para el análisis en tiempo real. Cada plataforma de Big Data
también tiene una funcionalidad específica. Las diferentes técnicas utilizadas para el
análisis incluyen análisis estadístico, aprendizaje automático, minería de datos, análisis
inteligente, computación en la nube, computación cuántica y procesamiento de flujo de
datos. Creemos que en el futuro los investigadores prestarán más atención a estas técnicas
para resolver problemas de big data de manera efectiva y eficiente.

Potrebbero piacerti anche