Sei sulla pagina 1di 10

BIG DATA

Elaborado Por:

BYRON ENRIQUE MORÓN CRUZ - 160003646

DIEGO ALEJANDRO AGUILERA MARTÍNEZ - 160003500

Presentado a:

INGENIERA DIANA FRANCO

UNIVERSIDAD DE LOS LLANOS


FACULTAD CIENCIAS BÁSICAS E INGENIERÍA
INGENIERÍA DE SISTEMAS
VILLAVICENCIO
2018

1
1. INTRODUCCIÓN

Tecnologías como el internet día tras día genera grandes cantidades de información, esto
debido a la facilidad con la que cuentan hoy en día las personas para acceder a la red, el
monstruo del internet se expande día a día llegando a lugares donde hace un par de años no
existía conexión alguna a la nube, todo esto genera que inmensas cantidades de información
nos rodeen en la actualidad. Debido al crecimiento exponencial de los datos, se considera
que el gran volumen actual de datos ha superado las capacidades de procesamiento de los
sistemas clásicos de minería de datos [1]. Hemos ingresado en la era del Big Data o datos
masivos [2], esta se encuentra definida como la presencia de Las Tres V, las cuales son el
gran volumen, velocidad y variedad en los datos, estas tres características que gracias al
trabajo de D. Laney fueron introducidas en 2001 [3], ello con el objetivo de hacer surgir
nuevos sistemas de procesamiento de datos de alto rendimiento, sistemas escalables entre
otros. Existen otros dos aspectos importantes que hacen parte de la caracterización del Big
Data o datos masivos, estos son la veracidad de los datos y el valor intrínseco del
conocimiento extraído, con estos dos últimos se forma un conjunto de cinco aspectos que
caracterizan al Big Data, estas cinco características se pueden apreciar en la figura 1.
Cuando se habla de calidad del conocimiento extraído, esta posee una alta dependencia en
cuanto a la calidad de los datos recolectados. Desafortunadamente los datos recolectados se
ven muy afectados de manera negativa por factores como: inconsistencias en los datos
recolectados previamente, ruido, valores perdidos, datos superfluos y un tamaño demasiado
grande de un dato en específico.
La pérdida de calidad en los datos se vuelve bastante influyente cuando entramos en el rol
del Big Data en la medicina convencional, con el paso del tiempo se ha vuelto importante
compartir información relacionada con la medicina, para de esta forma apoyar la
investigación en diferentes áreas de la medicina, esto permitirá salvar miles de vidas humanas
en un futuro no muy lejano y es que en menos de una década, los datos masivos en la medicina
se han convertido en todo un fenómeno y una gran cantidad de disciplinas biomédicas han
obtenido su propia noción sobre el Big Data [4], en este documento se expone el rol del big
data en la salud y sus afines, así como las aplicaciones que este tienes y los proyectos que se
han desarrollado utilizando las tecnologías del Big Data.

2
2. DEFINICIÓN
El Big Data se ha convertido en el tema de moda y uno de los de más renombre hoy en día,
esto se debe al interés pertinente de parte de organizaciones, empresas, medios y el gobierno
intentan sacarle el jugo al Big Data, explotando toda la nueva cantidad de información
disponible [5]. Actualmente no existe una definición consensuada referente al Big Data y
todo lo que este abarca, a continuación, algunas de las definiciones que se acercan a lo que
es Big Data:
Big Data es un término que define los datos de alta tecnología, alta velocidad, alto volumen,
complejos y multivariantes para capturar, almacenar, distribuir, administrar y analizar la
información (TechAmerica Foundation, 2014) [6].
Hashem define Big Data combinando varias definiciones en la literatura de la siguiente
manera: El conjunto de métodos y tecnologías en el que se integran las nuevas formas para
desplegar valores ocultos en diversos, conjuntos de datos complejos y de gran volumen
(Hashem et.al., 2015) [6].
Se puede apreciar que los autores no definen en ningún momento el Big Data solo en el
tamaño del volumen de datos, sino que incluye también la capacidad de manipular todos esos
datos de una manera efectiva.
2.1 LAS TRES V
El Big Data tiene como objetivo principal cubrir las necesidades que son imposibles de
satisfacer por las tecnologías actualmente existentes, como lo es el almacenamiento y
tratamiento de inmensos volúmenes de datos, el Big Data posee unas características muy
concretas como las tres V, también se pueden agregar más características a la lista, pero
las principales son:
2.1.1 Volumen: Cuando se habla de volumen en el Big Data, se hace referencia a datos
que poseen un enorme tamaño que para las tecnologías de información convencionales
como la minería de datos es imposible procesar y por lo tanto no es posible manipular
este tipo de datos, debido a ello, estos conjuntos de datos masivos requieren herramientas
y enfoques nuevos e innovadores para capturar, almacenar y analizar datos [6]. El
volumen de datos disponibles en la actualidad se mide en zettabytes (ZB), una medida
igual a 1 billón de gigabytes (GB) y equivalente a la capacidad de almacenamiento de
datos de aproximadamente 250 mil millones de DVD [16].
2.1.2 Variabilidad: la variabilidad hace hincapié en el hecho de que los datos provienen
de diferentes fuentes, como hojas de cálculo, bases de datos tradicionales, documentos
de texto y flujo de datos digitales. Dentro de esta característica de los datos masivos, está
inmerso los tipos de los datos recolectados, y de igual manera la proveniencia de esos
datos. Existen dos tipos de datos en general, los datos estructurados y los datos no
estructurados [17].
2.1.3 Velocidad: Esta hace referencia a la vida útil que tienen los datos. No tiene sentido
alguno conservar ciertos tipos de datos cuyo recorrido ha culminado y por lo tanto estos
han quedado totalmente obsoletos. Uno de los aspectos más importantes al hacer la
3
recolección y el almacenamiento de grandes cantidades de datos de forma que estos sean
útiles para el sistema, es que la utilidad de toda la información que se conserva sea
vigente, Algunas empresas de diferentes sectores llegan a descartar hasta el 90% de los
datos generados y solo preservan aquellos datos que les pueden ofrecer un rendimiento
óptimo [6].
Las tres características antes mencionadas y descritas, se pueden apreciar en la siguiente
figura

[15]
Figura N°1: Características de Big Data.

3. ANTECEDENTES
La constante generación de información y la necesidad de ser almacenada, guardada o
perpetuada de alguna forma para que esta no se pierda y se siga trasmitiendo a través del
tiempo es un problema que no es actual, realmente es mucho más antiguo de lo que se puede
imaginar, se remonta al año 18000 ac en donde se empleaban métodos rudimentarios para
almacenar datos mediante el empleo de palos o muescas en huesos, los cuales eran usados
para llevar cuantas de provisiones o realizar cálculos básicos, aunque no esté relacionado
directamente con Big Data, este es el primer momento documentado donde la humanidad se
interesó por almacenar datos [7].
Con esto toca hacer un gran salto en el tiempo en donde la información excediera la capacidad
de procesamiento de datos por parte de los humanos, y esto sucedió en los Estados Unidos
en el año 1880 cuando el censo tardó 8 años en tabularse, además se estimó que el censo del
año 1890 tardaría 10 años en tabularse, para esa época en donde apareció la maquina
tabuladora de Hollerith que fue capaz de procesar esta cantidad de datos en 1 año, después
de esto Herman Hollerith se convirtió en un emprendedor y su empresa pasó a formar parte
de lo que conocemos como IBM [8].
En 1928 se patenta el primer sistema magnético para almacenar datos, sus principios se
siguen utilizando hoy en día, más adelante en 1962 IBM presenta Shoebox que supone el
primer paso en el reconocimiento de voz, capaz de registrar palabras en inglés en formato
4
digital. Posteriormente en 1965 empieza a surgir voces que alertan del problema de guardar
la cantidad de datos que se generan. En 1970 y 1991 se desarrolla el modelo relacional de
bases de datos y nace internet respectivamente, este último acontecimiento inició la gran
revolución de la recolección, almacenamiento y análisis de datos, unos pocos años más
adelante sucede algo que es la gran revolución de la historia del Big Data y eso es que los
precios del almacenamiento de datos empiezan a ser accesibles y con un coste eficiente, este
es el primer año en donde el almacenamiento digital es más barato que el papel [7].
En 1997 Michael Lesk publica el estudio “How much information is there in the world?” en
donde concluye que hay tanta información y crece a tal velocidad, que gran parte de ella no
será vista por nadie jamás [9].
Todo esto nombrado anteriormente es para tener un panorama claro de cómo ha ido
cambiando el panorama de los datos en la historia de manera general, ahora si nos acercamos
más a Big Data, tenemos que nombrar que en el ámbito empresarial y de negocios a partir de
1990 hablaba del término Business Intelligence (BI) y hace referencia al conjunto de
estrategias y herramientas que una empresa tenía a sus disposición para poder analizar los
datos de su organización con esto se hacían previsiones y análisis [10]. De Business
Intelligence también se tiene el concepto de Howard Dresner donde se refiere a este como
“el conjunto de sistemas software para el apoyo a la toma de decisiones de negocio, basados
en la recogida de análisis de hechos o datos” [11].
Con el Business Intelligence también viene la minería de datos como complemento, todo esto
como un proceso consecutivo. “El enfoque de Business Intelligence deja al margen, por tanto,
un análisis de tipo predictivo que busca la extracción de conocimiento de los datos en forma
de patrones, tendencias o modelos que permitan una cierta certeza sobre el resultado de
potenciales acciones futuras. Para denominar este tipo de análisis, a finales de los 80 surge
la expresión Data Mining (minería de datos). El origen del término proviene de la analogía
con las técnicas de minería en las que se extrae un material valioso (en este caso,
conocimiento) a partir de yacimientos (bancos de datos). Junto al término Data Mining, como
probablemente el más conocido y utilizado para referirse a este tipo de análisis de entre un
conjunto de expresiones similares, en la misma época empieza también a utilizarse la
expresión Knowledge Discovery in Databases (KDD)” [12].
Se continuo el desarrollo de proyectos de Data Mining usando técnicas de Machine Learning
“Área de la Informática enfocada al estudio y creación de algoritmos capaces de tomar
decisiones (hacer predicciones) basadas en la experiencia acumulada en una batería de casos
(bancos de datos) resueltos con éxito. Sus fundamentos se derivan de la inteligencia artificial,
la estadística y la optimización matemática.” [12] para aplicarlo en el sector bancario y de
seguros, mejorando así los procesos de tomas de decisiones y para evitar fraudes en el sector
de los seguros.
Con todo esto se llega a un punto clave de la historia en donde surgen las tecnologías Big
data y todo esto gracias a Google en donde gracias a la gran cantidad de páginas web ya las
máquinas de alto rendimiento no eran suficiente para procesar el algoritmo PageRank por lo
cual tuvo que buscar una alternativa la cual fue el modelo Map-reduce, el cual se cimienta en

5
dos principios fundamentales, el primero un sistema de ficheros distribuidos y el segundo un
software que implementaba las tareas más complejas de un sistema distribuido. Luego este
tuvo su versión en código abierto llamada Apache Hadoop. [6] Esto fue tan importante que
incluso el creador de Apache Hadoop Doug Cutting dice “Google está viviendo unos años
en el futuro y nos está enviando al resto mensajes”. [13]
Después de esto surgieron muchísimos avances de diversas compañías que dieron
herramientas de código libre, entre las más representativas en el mercado como Cassandra,
ModgoDB. Tambien con el boom de la web 2.0 empresas y redes sociales como Facebook o
Twitter tienen que buscar sus propias soluciones para el análisis de datos que ellos manejan,
y así ellos también han ido contribuyendo a las tecnologías Big data.

4. EL PRESENTE DEL BIG DATA EN LA SALUD


La medicina ha venido presentando cambios importantes a lo largo del tiempo, se ha pasado
de una medicina basada en síntomas, por ende, intuitiva, a una medicina basada en la
evidencia que a la vez contempla muy poco la vivencia de los pacientes, se tiene que dar un
paso hacia una medicina basada en algoritmos.
El Big Data enfocado hacia la salud conlleva una serie de beneficios que los expertos
consideran como incuestionables y que ofrecen un gran avance para el sistema sanitario y
para mejorar de manera significativa la atención que recibe el paciente, no obstante, todavía
existen barreras por superar para aprovechar al máximo las potencialidades que posee el Big
Data. Los principales problemas para realizar la implantación del Big Data sanitario
son: barreras organizativas, tienen que ver con la estructura del sistema de salud. En términos
generales, falta coordinación, tanto entre el sistema público y privado como entre diferentes
centros sanitarios y departamentos [18].
Las barreras organizativas, las cuales están relacionadas directamente con la falta de
coordinación existente entre las distintas Comunidades Autónomas, el sector público y el
sector privado, y los profesionales de la salud entre otros, como los trabajadores. Las barreras
normativas, donde el impedimento está en el actual marco regulatorio de protección de datos,
esto podría entorpecer el Big Data en numerosos contextos. Las técnicas, referidas con la
falta de interoperabilidad entre los sistemas y su escalabilidad, hay sistemas que no son
compatibles y necesitan ser rediseñados o sustituidos. Y, finalmente, las barreras de mercado,
donde se incluye la capacidad de inversión necesaria y la escasez de recursos humanos
adecuados. Todos los tipos de obstáculos mencionados anteriormente es lo que hoy en día
impiden el despegue del Big Data entorno a la salud y sus afines [19].

5. FUTURO Y TENDENCIAS DEL BIG DATA EN LA SALUD


En cuanto el posible futuro y el camino por donde se está llevando el Big Data en el área de
salud, los expertos en las Tecnologías de Información en España, colocan sobre la mesa la
propuesta de ofrecer el dato como un servicio, esta propuesta fue realizada en el IVI.

6
Para implementar con éxito el Big Data en el entorno de la salud, se parte de la necesidad de
realizar un replanteamiento estratégico de la atención socio-sanitaria en el que se tenga como
prioridad la prevención sobre la curación, entre otras cosas prevenir una enfermedad sale más
económico que realizar un tratamiento para eliminar una enfermedad que ya se encuentra
acentuada en el organismo del ser humano.
El realizar un aceleramiento progresivo para que el Big Data se expanda en el área de la salud
y todas sus ramas requiere que se resalte la importancia de elevar considerablemente el
conocimiento que se adquiere de forma empírica sobre la aplicación del Big Data al área
salud y mejorar la coordinación entre los agentes del sistema, donde están incluidos el sector
público y privado, los distintos departamentos de los centros sanitarios, los investigadores
clínicos entre otros [20].
Se habla de Monitorización de pacientes en tiempo real, la cual es la base para llevar a cabo
una atención más proactiva y uno de los mayores éxitos de Big Data en la Salud. A este
seguimiento, hay que sumar la capacidad de análisis en tiempo real, que servirá para enviar
alertas a los proveedores de atención para que conozcan de inmediato los cambios en la
condición de un paciente. Se ofrece a los médicos información que les ayude a tomar
decisiones que les permitan salvar vidas [21].
La salud de hoy en día tiene unos costos elevados para realizar una reducción considerable a
los costes que genera la salud, se propone realizar un uso eficiente del Big Data y de
herramientas adecuadas. Mediante la creación de aplicaciones y robots se pretende brindar
soluciones con un enfoque de tecnología y el uso de grandes volúmenes de datos para el
sector de la salud, como aplicaciones que mediante sensores realizan una evaluación sobre la
condición médica del usuario.
Reed V. Tuckson, el cual es una de las grandes autoridades norteamericanas en salud pública,
y una gran mayoría de médicos que han participado en la cumbre Digital Health Summit son
concluyentes según describe Martín en su artículo: “no hay otra solución en el sector de la
salud: o se aprovechan las tecnologías ya existentes, desde las aplicaciones para móviles a
los big data, o la sanidad pública quebrará en todos los países occidentales” [22].

6. APLICACIONES
Los científicos e investigadores han analizado datos desde hace mucho tiempo, lo que ahora
representa el gran reto es la escala en la que estos son generados. El desarrollo de la
bioestadística y la necesidad de seleccionar una muestra que sea lo suficientemente grande y
representativa de una población han sido los retos y los límites a los que los médicos se
enfrentan en los ensayos clínicos.
Esta posibilidad de obtención, almacenamiento y manejo de grandes datos está
transformando la manera clásica en la que se realiza una investigación. Cada vez más
investigadores están adquiriendo habilidades en el uso de Big Data para resolver problemas
complejos relacionados con el descubrimiento científico, investigación ambiental, biomé-
dica, educación y salud, entre otros aspectos.

7
Entre los proyectos que se han desarrollado en áreas de salud donde se ha utilizado alguna
solución relacionada con el Big Data se pueden destacar:
1. El Grupo Language, Interaction and Computation Laboratory en la Universidad de
Trento (Italia). Se trata de un equipo de investigadores cuyo interés es el estudio de la
comunicación verbal y no verbal tanto con métodos computacionales como cognitivos
centrado actualmente en diversas áreas como [23]:
a. El estudio de la comunicación multimodal desde gestos verbales a la dirección de
las miradas, que puede estar basado en imágenes y diagramas.
b. El estudio de las interfaces de adaptación, o sistemas que se adaptan a sus usuarios
capaces de comunicarse entre sí dependiendo del contexto y de las preferencias del
interlocutor.
c. El estudio de la utilización de conocimiento semántico y enciclopédico en la
comunicación, la combinación de enfoque lingüístico (lingüística formal, semántica
léxica) y filosófico/informacional en métodos computacionales y la experimentación
psicológica y la neurociencia.
2. Lineberger Comprehensive Cancer Center - Bioinformatics Group. Es un centro de
investigación dependiente de la Universidad de Carolina del Norte, en Chapel Hill.
Proporciona servicios de preparación y una biblioteca para ayudar a los investigadores en el
análisis de la expresión génica y mutaciones de genes usando secuenciación de alto
rendimiento. Utiliza herramientas avanzadas de Big Data para analizar los datos generados
por los investigadores de The Cancer Genome Atlas para soportar las investigaciones
relacionadas con el cáncer [24].
3. El PSG College of Technology (India) analiza múltiples secuencias de proteínas para
determinar los enlaces evolutivos y predecir estructuras moleculares. La naturaleza del
algoritmo y el paralelismo computacional basado en el Big Data mejora la velocidad y
exactitud de estas secuencias [25].
4. El Instituto de Tecnología de la Universidad de Ontario junto con el Hospital de
Toronto utilizan una plataforma de Big Data para análisis en tiempo real como IBM
InfoSphere Streams13, para la monitorización de bebés prematuros en las salas de
neonatología para determinar cualquier cambio en variables vitales (presión arterial,
temperatura, alteraciones en los registros del electrocardiograma y electroencefalograma).
Puede detectar hasta con 24 h de antelación aquellas condiciones que puedan ser una amenaza
en la vida de los recién nacidos [26].
5. La comunidad de investigación biomédica de la Universidad del Estado de Nueva
York está realizando análisis con herramientas de Big Data en la investigación para el
diagnóstico y tratamiento de la esclerosis múltiple [27].

8
7. CONCLUSIONES

En este documento se presenta un estudio sobre la creciente importancia de la presencia del


Big Data en áreas de la salud como la biomedicina. Se presenta una revisión por las
características que posee un sistema Big Data y una revisión detallada al concepto y
diferentes definiciones que ciertos autores le han atribuido al termino Big Data.
Como ya se ha mencionado el presente del Big Data enfocado a salud, está limitado por
diferentes barreras entre ellas están las normativas, las técnicas y las organizativas. Dichas
barreras amarran al suelo el crecimiento exponencial que debería tener el Big Data entorno a
la medicina como tal.
Por otra parte, Existen varias organizaciones, universidades e instituciones que ya han
elaborado proyectos utilizando las tecnologías del Big Data y sus algoritmos. De igual
manera estas actualmente se encuentran desarrollando proyectos de investigación destinados
al área de la salud y sus diferentes ramas.

REFERENCIAS BIBLIOGRAFICAS

[1] X. Wu, X Zhu, GQ. Wu, W. Ding. Data mining with big data. IEEE Transactions on
Knowledge and Data Engineering. 2014;26(1): pp. 97107.
[2] V. Mayer-Schnberger. Big Data: A Revolution that will Transform how We Live, Work
and Think. John Murray Publishers, 2013.
[3] D. Laney. 3D Data Management: Controlling Data Volume, Velocity and Variety.
2001.Último acceso: Julio de 2016.
[4] (Lefèvre, 2017; Özköse, Arı, & Gencer, 2015; Torrecilla & Romo, 2018)Lefèvre, T.
(2017). Big data in forensic science and medicine. Journal of Forensic and Legal
Medicine. https://doi.org/https://doi.org/10.1016/j.jflm.2017.08.001
[5] Özköse, H., Arı, E. S., & Gencer, C. (2015). Yesterday, Today and Tomorrow of Big
Data. Procedia - Social and Behavioral Sciences, 195, 1042–1050.
https://doi.org/https://doi.org/10.1016/j.sbspro.2015.06.147
[6] Torrecilla, J. L., & Romo, J. (2018). Data learning from big data. Statistics &
Probability Letters. https://doi.org/https://doi.org/10.1016/j.spl.2018.02.038
[7] https://ignsl.es/historia-del-big-data/
[8] https://www.winshuttle.es/big-data-historia-cronologica/
[9] https://www.forbes.com/sites/gilpress/2013/05/09/a-very-short-history-of-big-
data/#4f79ded365a1
[10] https://telos.fundaciontelefonica.com/docs/2013/11/11/11400001_4_4_0.pdf#page=48

9
[11] https://www.computerworld.com/article/2554088/business-intelligence/bi-at-age-
17.html
[12] https://www.dyna-newtech.com/busqueda-NT/entendiendo-big-data-antecedentes-
origen-y-desarrollo-posterior
[13] https://mapr.com/blog/5-google-projects-changed-big-data-forever/
[14] https://elpais.com/tecnologia/2017/04/26/actualidad/1493195037_932452.html
[15] https://apandre.files.wordpress.com/2013/11/v3.jpg
[16] Alharthi, A., Krotov, V., & Bowman, M. (2017). Addressing barriers to big data.
Business Horizons, 60(3), 285–292.
https://doi.org/https://doi.org/10.1016/j.bushor.2017.01.002
[17] https://news.microsoft.com/es-xl/big-data-volumen-variabilidad-y-velocidad/
[18] http://www.saludediciones.com/2017/11/07/big-data-el-futuro-es-ya-el-presente/
[19] http://www.smartandhealth.com/index.php/homepage-2/94-noticias/703-big-data-
clave-sostenimiento-presente-futuro-sistema-salud
[20] http://valenciaplaza.com/el-divorcio-de-mari-y-los-suyos-de-ciudadanos-deja-11-
comisiones-de-les-corts-a-medio-gas
[21] https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/ejemplos-y-tendencias-de-
big-data-salud
[22] http://poyatosdiaz.com/index.php/big-data-y-el-sector-de-la-salud-el-futuro-de-la-
sanidad
[23] UNITN | Language, Interaction and Computation Laboratory (CLIC) [Internet],
http://web.unitn.it/cimec/10898/language-interaction-and-computation-laboratory-clic
[24] Lineberger Bioinformatics Core. https://lbg.unc.edu/
[25] PSG College of Technology [Internet], http://www.psgtech.edu/
[26] McGregor C. Big Data in Neonatal Intensive Care. Computer. 2013;46:54-9.
http://ieeexplore. ieee.org/xpl/articleDetails.jsp?arnumber=6513228
[27] Kobielus J. Big Data Analytics Helps Researchers Drill Deeper into Multiple
Sclerosis, http://thinking.netezza.com/blog/big-data-analytics-helps-researchers-drill-
deeper-multiple-sclerosis
[28] Rosàrio, R. B. do, Justel, F. B., Rodríguez, K. V., Domingo, A. M., & Tomás, J. F. Á.
de. (2015). Big Data y salud. Potencial para salvar vidas y cuidar personas. FMC - Formación
Médica Continuada En Atención Primaria, 22(6), 312–317.
https://doi.org/10.1016/j.fmc.2015.03.020

10

Potrebbero piacerti anche