La ingente cantidad de datos disponibles, generados de forma continua e incesante
por entidades, usuarios, servicios o dispositivos, ha implicado el desarrollo de nuevos métodos científicos e ingenieriles para disponer de sistemas y procedimientos capaces de almacenar, procesar y analizar dichos datos, generando de esta manera información y conocimiento en sectores tan dispares como la industria, banca, finanzas, marketing, seguros, redes sociales, comercio electrónico, salud, gobierno electrónico, ciudades inteligentes, biología, medicina o ciencias de la tierra, por citar algunos. Big data es un término de origen inglés cuya traducción equivale a “datos masivos”. Muchas son las definiciones que entidades y organizaciones han dado para el término big data, pero todas ellas se pueden resumir en el conjunto de datos cuyo tamaño supera considerablemente la capacidad de captura, almacenado, gestión y análisis del software convencional de bases de datos. Sin embargo, el concepto no hace referencia simplemente al tamaño de la información, sino también a la variedad del contenido y a la velocidad con la que los datos se generan, almacenan y analizan. Estas dimensiones son las “3V” con las que la empresa Gartner describió big data, es decir volumen, velocidad y variedad de los datos1: • Volumen. Como su propio nombre indica, big data corresponde al gran volumen de datos que se generan diariamente en las empresas y organizaciones de todo el mundo. Por ejemplo, la cadena de supermercados americana Walmart alma- cena más de un millón de transacciones comerciales cada hora identificando los productos que compran sus clientes; más de cien mil gigas de información almacena la red social Facebook diariamente, así como setenta y dos millones de descargas se realizan en la tienda online App Store. • Velocidad. Se trata de los flujos de datos, la creación de registros estructurados y la disponibilidad para el acceso y la entrega. Es decir, cómo de rápido se están produciendo los datos, así como la rapidez en la que se trata de satisfacer la de- manda de éstos. La tecnología big data ha de ser capaz de almacenar y trabajar en tiempo real con las fuentes generadoras de información tales como sensores, redes sociales, blogs, páginas webs, etc., fuentes que generan millones de datos al segundo; y, por otro lado, capacidad de analizar dichos datos con la suficiente rapidez reduciendo los largos tiempos de procesamiento que presentaban las herramientas tradicionales de análisis. • Variedad. Big data ha de tener la capacidad de combinar una gran variedad de información digital en los diferentes formatos en los que se puedan presentar. Las empresas líderes en TIC siempre han tenido un problema para traducir grandes volúmenes de información transaccional en decisiones. Puesto que ahora hay más tipos de información para analizar, provenientes principalmente de los me- dios sociales, la complejidad aumenta. Esta variedad en los datos incluye datos 1 http://www.gartner.com/newsroom/id/1731916