Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Gracias a este sistema de software invisible para el usuario final, compuesto por un
lenguaje de definición de datos, un lenguaje de manipulación y de consulta, es posible
gestionar los datos a distintos niveles. Tanto almacenar, modificar y acceder a la
información como realizar consultas y hacer análisis para generar informes.
A su vez, el SGBD puede entenderse como una colección de datos relacionados entre
sí, estructurados y organizados dentro del ecosistema conformado por ese conjunto de
programas que acceden a ellos y facilitan su gestión. Frente al anterior sistema de
gestión de archivos, -un conjunto de programas que definían y trabajaban sus propios
datos-, el acceso a los datos es independiente de los programas que los gestionan,
una gran ventaja de cara a tratar grandes volúmenes de información.
Algunos ejemplos de SGBD son Oracle, DB2, PostgreSQL, MySQL, MS SQL Server,
etc.
Un SGBD debe permitir:
Definir una base de datos: especificar tipos, estructuras y restricciones de
datos.
Construir la base de datos: guardar los datos en algún medio controlado por el
mismo SGBD.
Manipular la base de datos: realizar consultas, actualizarla, generar informes.
Son numerosas las ventajas a la hora de construir y definir la base de datos para
distintas aplicaciones, pues facilita los procesos y también su mantenimiento. Entre
otras funciones, ayuda a realizar acciones tan importantes como la definición de los
datos, el mantenimiento de su integridad, su manipulación y el control de su seguridad
y privacidad.
Al suponer un punto y aparte con respecto al sistema de gestión de archivos, su
desarrollo se debe al objetivo fundamental de subsanar los inconvenientes de aquél
proporcionando eficiencia y seguridad a la hora de extraer o almacenar información en
las bases de datos.
BIG DATA
Características del es Big Data más conocidas como las cuatro V del Big Data:
1. Volumen
2. Velocidad
3. Variedad de los datos
4. Veracidad de los datos
5. Viabilidad
6. Visualización de los datos
7. Valor de los datos
1: Volumen de información
El volumen se refiere a la cantidad de datos que son generados cada segundo, minuto
y días en nuestro entorno. Es la característica más asociada al Big Data, ya que hace
referencia a las cantidades masivas de datos que se almacenan con la finalidad de
procesar dicha información, transformando los datos en acciones.
Cada vez estamos más conectados al mundo 2.0 por lo que generamos más y más
datos. Para algunas empresas, el estar en el mundo digital es algo obligatorio, por lo
que la cantidad de datos generados es aún mayor.
Por ejemplo, una empresa que vende sus productos únicamente a través de un canal
online, le convendría implantar tecnología Big Data para procesar toda aquella
información que recoge su página web rastreando todas las acciones que lleva a cabo
el cliente; conocer donde cliquea más veces, cuántas veces ha pasado por el carrito
de la compra, cuáles son los productos más vistos, las páginas más visitadas, etc.
Para los procesos en los que el tiempo resulta fundamental, tales como la detección
de fraude en una transacción bancaria o la monitorización de un evento en redes
sociales, estos tipos de datos deben estudiarse en tiempo real para que resulten útiles
para el negocio y se consigan conclusiones efectivas.
La variedad se refiere a las formas, tipos y fuentes en las que se registran los datos.
Estos datos pueden ser datos estructurados y fáciles de gestionar como son las bases
de datos, o datos no estructurados, entre los que se incluyen documentos de texto,
correos electrónicos, datos de sensores, audios, vídeos o imágenes que tenemos en
nuestro dispositivo móvil, hasta publicaciones en nuestros perfiles de redes sociales,
artículos que leemos en blogs, las secuencias de click que hacemos en una misma
página, formularios de registro e infinidad de acciones más que realizamos desde
nuestro Smartphone, Tablet y ordenador.
Estos últimos datos requieren de una herramienta específica, debido a que el
tratamiento de la información es totalmente diferente con respecto a los datos
estructurados. Para ello, las empresas necesitan integrar, observar y procesar datos
que son recogidos a través de múltiples fuentes de información con herramientas
cualificadas.
5: Viabilidad
Cuando hablamos de visualización nos referimos al modo en el que los datos son
presentados. Una vez que los datos son procesados (los datos están en tablas y hojas
de cálculo), necesitamos representarlos visualmente de manera que sean legibles y
accesibles, para encontrar patrones y claves ocultas en el tema a investigar. Para que
los datos sean comprendidos existen herramientas de visualización que te ayudarán a
comprender los datos gráficamente y en perspectiva contextual.
El dato no es valor. Tampoco tienes valor por el mero hecho de recopilar gran cantidad
de información. El valor se obtiene de datos que se transforman en información; esta a
su vez se convierte en conocimiento, y este en acción o en decisión. El valor de los
datos está en que sean accionables, es decir, que los responsable de la empresas
puedan tomar una decisión (la mejor decisión) en base a estos datos.
No todos los datos de los que partimos se convierten en acción o decisión. Para ello,
es necesario tener tecnologías aplicadas. Por ejemplo, una publicación en una red
social, que gracias al uso de tecnologías de procesamiento de lenguaje natural, puede
medir el sentimiento positivo o negativo, con la ayuda de un algoritmo de análisis de
redes sociales o herramientas que permitan obtener de esto información.
En definitiva, el Big Data es una combinación de estas siete características donde las
empresas pueden obtener una ventaja competitiva frente a sus competidores
contribuyendo al éxito asegurado con las tres últimas V de viabilidad, visualización y la
más importante, la de valor.
No todas las compañías optaran por la misma metodología con respecto al desarrollo
y la creación de sus capacidades con tecnologías Big Data. Sin embargo, en todos los
sectores existe la posibilidad de recurrir a estas nuevas tecnologías y analíticas para
mejorar la toma de decisiones y el rendimiento, tanto a nivel interno como en el
mercado.
Lo que hace que Big Data sea tan útil para muchas empresas es el hecho de que
proporciona respuestas a muchas preguntas que las empresas ni siquiera sabían que
tenían. En otras palabras, proporciona un punto de referencia. Con una cantidad tan
grande de información, los datos pueden ser moldeados o probados de cualquier
manera que la empresa considere adecuada. Al hacerlo, las organizaciones son
capaces de identificar los problemas de una forma más comprensible.
El análisis de Big Data ayuda a las organizaciones a aprovechar sus datos y utilizarlos
para identificar nuevas oportunidades. Eso, a su vez, conduce a movimientos de
negocios más inteligentes, operaciones más eficientes, mayores ganancias y clientes
más felices. Las empresas con más éxito con Big Data consiguen valor de las
siguientes formas:
Reducción de coste. Las grandes tecnologías de datos, como Hadoop y el análisis
basado en la nube, aportan importantes ventajas en términos de costes cuando se
trata de almacenar grandes cantidades de datos, además de identificar maneras
más eficientes de hacer negocios.
Más rápido, mejor toma de decisiones. Con la velocidad de Hadoop y la analítica
en memoria, combinada con la capacidad de analizar nuevas fuentes de datos, las
empresas pueden analizar la información inmediatamente y tomar decisiones
basadas en lo que han aprendido.
Nuevos productos y servicios. Con la capacidad de medir las necesidades de los
clientes y la satisfacción a través de análisis viene el poder de dar a los clientes lo
que quieren. Con la analítica de Big Data, más empresas están creando nuevos
productos para satisfacer las necesidades de los clientes.
Algunos desafíos a los que se enfrenta la calidad de datos de Big Data son:
DATA MINING
Data mining o la minería de datos o exploración de datos (es la etapa de análisis de
"Knowledge Discovery in Databases" o KDD) es un campo de la estadística y
las ciencias de la computación referido al proceso que intenta descubrir patrones en
grandes volúmenes de conjuntos de datos.1 Utiliza los métodos de la inteligencia
artificial, aprendizaje automático, estadística y sistemas de bases de datos. El objetivo
general del proceso de minería de datos consiste en extraer información de un
conjunto de datos y transformarla en una estructura comprensible para su uso
posterior. Además de la etapa de análisis en bruto, supone aspectos de gestión de
datos y de bases de datos, de procesamiento de datos, del modelo y de las
consideraciones de inferencia, de métricas de Intereses, de consideraciones de
la teoría de la complejidad computacional, de post-procesamiento de las estructuras
descubiertas, de la visualización y de la actualización en línea.
PROCESO:
Un proceso típico de minería de datos consta de los siguientes pasos generales:
Una vez validado el modelo, si resulta ser aceptable (proporciona salidas adecuadas
y/o con márgenes de error admisibles) éste ya está listo para su explotación. Los
modelos obtenidos por técnicas de minería de datos se aplican incorporándolos en los
sistemas de análisis de información de las organizaciones, e incluso, en los sistemas
transaccionales. En este sentido cabe destacar los esfuerzos del Data Mining Group,
que está estandarizando el lenguaje PMML (Predictive Model Markup Language), de
manera que los modelos de minería de datos sean interoperables en
distintas plataformas, con independencia del sistema con el que han sido construidos.
Los principales fabricantes de sistemas de bases de datos y programas de análisis de
la información hacen uso de este estándar.
PROTOCOLO:
Un proyecto de minería de datos tiene varias fases necesarias que son,
esencialmente:
La relación entre todas estas fases sólo es lineal sobre el papel. En realidad, es mucho
más compleja y esconde toda una jerarquía de subfases. A través de la experiencia
acumulada en proyectos de minería de datos se han ido
desarrollando metodologías que permiten gestionar esta complejidad de una manera
más o menos uniforme.
TECNICAS:
Como ya se ha comentado, las técnicas de la minería de datos provienen de
la inteligencia artificial y de la estadística, dichas técnicas, no son más que algoritmos,
más o menos sofisticados que se aplican sobre un conjunto de datos para obtener
unos resultados.
Regresión lineal.- Es la más utilizada para formar relaciones entre datos. Rápida y
eficaz pero insuficiente en espacios multidimensionales donde puedan
relacionarse más de 2 variables.
Según el objetivo del análisis de los datos, los algoritmos utilizados se clasifican en
supervisados y no supervisados (Weiss y Indurkhya, 1998):
DATA WAREHOUSE
2. Ralph Kimball es otro conocido autor en el tema de los data warehouse, define un
almacén de datos como: "Es una almacén de datos que extrae, limpia, conforma y
entrega una fuente de datos dimensional para la consulta y el análisis".3 También fue
Kimball quien determinó que un data warehouse no era más que: "la unión de todos
los Data marts de una entidad". Defiende por tanto una metodología ascendente
(bottom-up) a la hora de diseñar un almacén de datos.
SUBCONJUNTOS DE WAREHOUSE:
Los Data marts son subconjuntos de datos de un data warehouse para áreas
específicas.
Usuarios limitados.
Área específica.
Tiene un propósito específico.
Tiene una función de apoyo.
DISEÑOS DE UN ALMACEN DE DATOS:
Para construir un Data Warehouse se necesitan herramientas para ayudar a la
migración y a la transformación de los datos hacia el almacén. Una vez construido, se
requieren medios para manejar grandes volúmenes de información. Se diseña su
arquitectura dependiendo de la estructura interna de los datos del almacén y
especialmente del tipo de consultas a realizar. Con este criterio los datos deben ser
repartidos entre numerosos data marts. Para abordar un proyecto de data warehouse
es necesario hacer un estudio de algunos temas generales de la organización o
empresa, los cuales se describen a continuación:
VENTAJAS:
Los almacenes de datos hacen más fácil el acceso a una gran variedad de datos a
los usuarios finales
Facilitan el funcionamiento de las aplicaciones de los sistemas de apoyo a la
decisión tales como informes de tendencia, por ejemplo: obtener los ítems con la
mayoría de las ventas en un área en particular dentro de los últimos dos
años; informes de excepción, informes que muestran los resultados reales frente a
los objetivos planteados a priori.
Los almacenes de datos pueden trabajar en conjunto y, por lo tanto, aumentar el
valor operacional de las aplicaciones empresariales, en especial la gestión de
relaciones con clientes.