Sei sulla pagina 1di 1

Ciencia de datos

La ingente cantidad de datos disponibles, generados de forma continua e incesante


por entidades, usuarios, servicios o dispositivos, ha implicado el desarrollo de nuevos
métodos científicos e ingenieriles para disponer de sistemas y procedimientos capaces
de almacenar, procesar y analizar dichos datos, generando de esta manera información
y conocimiento en sectores tan dispares como la industria, banca, finanzas, marketing,
seguros, redes sociales, comercio electrónico, salud, gobierno electrónico, ciudades
inteligentes, biología, medicina o ciencias de la tierra, por citar algunos.
Big data es un término de origen inglés cuya traducción equivale a “datos masivos”.
Muchas son las definiciones que entidades y organizaciones han dado para el término
big data, pero todas ellas se pueden resumir en el conjunto de datos cuyo tamaño
supera considerablemente la capacidad de captura, almacenado, gestión y análisis del
software convencional de bases de datos.
Sin embargo, el concepto no hace referencia simplemente al tamaño de la información,
sino también a la variedad del contenido y a la velocidad con la que los datos se generan,
almacenan y analizan. Estas dimensiones son las “3V” con las que la empresa Gartner
describió big data, es decir volumen, velocidad y variedad de los datos1:
• Volumen. Como su propio nombre indica, big data corresponde al gran volumen
de datos que se generan diariamente en las empresas y organizaciones de todo
el mundo. Por ejemplo, la cadena de supermercados americana Walmart alma-
cena más de un millón de transacciones comerciales cada hora identificando
los productos que compran sus clientes; más de cien mil gigas de información
almacena la red social Facebook diariamente, así como setenta y dos millones
de descargas se realizan en la tienda online App Store.
• Velocidad. Se trata de los flujos de datos, la creación de registros estructurados
y la disponibilidad para el acceso y la entrega. Es decir, cómo de rápido se están
produciendo los datos, así como la rapidez en la que se trata de satisfacer la de-
manda de éstos. La tecnología big data ha de ser capaz de almacenar y trabajar
en tiempo real con las fuentes generadoras de información tales como sensores,
redes sociales, blogs, páginas webs, etc., fuentes que generan millones de datos
al segundo; y, por otro lado, capacidad de analizar dichos datos con la suficiente
rapidez reduciendo los largos tiempos de procesamiento que presentaban las
herramientas tradicionales de análisis.
• Variedad. Big data ha de tener la capacidad de combinar una gran variedad de
información digital en los diferentes formatos en los que se puedan presentar. Las
empresas líderes en TIC siempre han tenido un problema para traducir grandes
volúmenes de información transaccional en decisiones. Puesto que ahora hay
más tipos de información para analizar, provenientes principalmente de los me-
dios sociales, la complejidad aumenta. Esta variedad en los datos incluye datos
1 http://www.gartner.com/newsroom/id/1731916

14
E-Books & Papers for Statisticians

Potrebbero piacerti anche