Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Contenido
Introduccin o
OLAP
Data Mining
Introduccin y Motivacin o o
Cmo puede analizarse de forma eciente volmenes masivos o u de datos? La consulta, Suma de las transacciones anterior y siguiente por cada transaccin es implementable en SQL? o Como procesar informacin proveniente de diferentes origines? o
Orientados a transacciones (OLTP): Grandes volmenes de u informacin, muy detallados, alta transaccionalidad, insumos o para la toma de decisiones. Orientados a la toma de decisiones (OLAP): Baja transaccionalidad, resumidos, consultas extensas, toma de decisiones, identicacin de patrones, comportamientos, etc o
SQL (Est) no es suciente en algunos casos para responder algunas consultas Los lenguajes de consultas no estn optimizados para realizar a consultas de este tipo (anlisis estad a sticos, agrupaciones por dimensiones, etc) Encontrar patrones y tendencias dados un conjunto de datos no es tarea sencilla (I.A) Normalmente se tienen diferentes or genes de datos con diferentes esquemas, diferentes SGBD, etc
OLAP (On Line Analytical Processing). Es una extensin de SQL, o y se reere a una serie de herramientas y tcnicas que permiten e realizar anlisis de datos y ejecutar consultas que soliciten datos a resumidos casi de manera instantnea a
Continuacin o
Atributos de Medida: Miden algn valor y pueden ser u agrupados (valores, cantidades, precios, etc) Atributos de Dimensin: Denen las dimensiones (manera de o agrupar) en la que se observan los atributos de medida Atributos Multi dimensionales: Pueden ser de medida o de dimensin utilizados por ejemplo en las tablas dinmicas o a
Ejemplo
Continuacin o
En forma de tabla: Vend Ven1 Ven1 Ven1 Ven1 Ven2 ... Plan1 ... Plan Plan1 Plan2 Plan3 all Plan1 ... all ... Num 2 5 7 14 1 ... 5 ...
Continuacin o
Como se aprecia en el ejemplo anterior, el nmero de columnas u est determinado por los datos almacenados (en este caso a particular por los diferentes planes), lo que no resulta conveniente para el modelo relacional. El atributo all es representado en los SGBD por null.
Cubos de Datos
Generalizacin de tabulaciones cruzadas bidimensionales a o n-dimensionales. Ejemplo:
Continuacin o
OLAP permite a los analistas crear diferentes resmenes de datos u multi-dimensionales en l nea. Con los cubos de datos se pueden realizar las siguientes operaciones: Pivotaje: Modicacin de las dimensiones utilizadas (Ejemplo: o solo ver el cubo por plan) Corte: Rebanar el cubo, es decir, dejar constante una o varias dimensin del cubo o
Niveles de Granularidad
Abstraccin: Pasar de un nivel de grano no a uno de grano o grueso por medio de agrupaciones. Por ejemplo, de group by plan,ciudad,vendedor a group by plan,ciudad Concrecin: Proceso inverso. Debe obtenerse de los datos o originales
Jerarqu as
Algunos atributos pueden tener diferentes niveles de detalle. Por ejemplo, se pueden realizar resumes agrupando por mes, ao, n semana, d hora ,etc. O por ejemplo la ubicacin puede ser por a, o pa regin, ciudad, sucursal, etc. s, o
Ejecutar todas las funciones de agregacin (muy costoso, 2n o posibles agrupamientos) A partir de una agregacin generar las otras (Concrecin) o o Ejemplo: Pasar de group by pa s,ciudad,sucursal a group by pa s,ciudad
Nuevas Funciones Estad sticas: stddev,variance,media y moda Funciones binarias: Correlacin, covarianza y curvas de o regresin o
Modicadores de Agrupamiento
Cube: Genera la combinacin de los agrup. Ej, group by o cube(x,y,z) genera las agrup (x,y,z), (x,y), (x,z), (y,z), (x), (y), (z), ()
Continuacin o
Rollup: Util para agrup de una jerarqu Ej, group by rollup a. (x,y,z) genera las agrup (x,y,z),(x,y), (x), ()
Continuacin o
Es posible combinar sentencias rollup y cube para generar el producto cartesiano de las posibles combinaciones y con clausulas having eliminar las no deseadas como lo muestra el siguiente ejemplo.
Continuacin o
Clasicacin o
Rank: Dado un rango de valores, clasicar las tuplas. Por ejemplo si se quiere calcular el top-10 de las mejores sucursales. Si dos tuplas ocupan la misma posicin, se obtendr la misma o a clasicacin. o
Continuacin o
Continuacin o
Tambin es posible clasicaciones a partir de una particin, por e o ejemplo, el top ten de los productos mas vendidos por sucursal:
Continuacin o
Percentiles: Con ntile(n) es posible clasicar tuplas a partir de particiones. Por ejemplo:
Continuacin o
Ventanas: Se utilizan para denir rangos de tuplas que se desean agrupar en una sentencia. Por ejemplo, la distancia al promedio diario de ventas:
Continuacin (Ventanas) o
Los siguientes argumentos tambin son validos para denir e ventanas: between rows 1 preceding and 1 following between rows 10 preceding and current range between 10 preceding and current row (haciendo uso del valor de ordenacin) o
Solucin a los problemas de consolidacin de informacin de o o o diferentes or genes de datos Evitan adicionar carga a los sistemas OLTP con consultas para la toma de decisiones Mantienen la informacin del pasado vigente. o
Arquitectura
Continuacin o
Como recoger los datos?: Los or genes pueden enviar al destino las actualizaciones constantemente (arquitectura dirigida por los or genes) o el destino env peticiones de a nuevos datos a los or genes (arq dirigida por el destino) El D.W puede estar ligeramente desactualizado (de lo contrario generar una carga excesiva para los or a genes y el destino)
Continuacin o
Esquema de B.D: Los or genes pueden tener diferentes esquemas. En el D.W se encarga de integrarlos (vistas materializadas). Limpieza de datos: Operaciones de ltro sobre los datos del origen (maysculas, Ids que no coinciden, etc) u
Continuacin o
En cuando al esquema de la B.D del D.W: Tablas de hechos: Se conocen a las tablas que contienen datos multi dimensionales (ventas, compras, aliaciones, etc). Tablas de Dimensiones: Tablas que contienen las referencias de los atributos de las tablas de hechos. Por ejemplo Planes, Vendedores, Ciudades, etc. A estas llaves llegan las referencias (forneas) de las tablas de hechos a
Data Marts
Son almacenes de datos especializados. Si sobre un conjunto espec co del D.W se realizan continuamente anlisis, dicho a subconjunto puede crearse como un data mart. Los D.M puede ser creados a partir de los datos del D.W o utilizar directamente los or genes de datos. Lo que se logra al utilizar los D.M es tener un nivel mas no de granularidad en comparacin al o D.W
Data Mining
Clasicacin o
Dados los Ejemplo de Formacin (casos del pasado) y los o elementos ya pertenecientes a una clase, predecir la clase a la que pertenece un nuevo elemento. Mecanismo: Reglas de clasicacin (Conjuntos Disyuntos) o
Arboles de Decisin o
Las hojas son clases y los nodos predicados o funciones de asociacin o Para clasicar un nuevo elemento se parte de la ra y z siguiendo los predicados se llega a una clase
Redes Neuronales
Clasicacin de la entrada dependiendo del entrenamiento de la o red (peso entre los arcos)
Otros Clasicadores
Redes de Bayes: Estimacin de la probabilidad de que un o elemento se encuentre en una clase CP-Networks: Explotacin de la independencia de las o condiciones de preferencia (preero un automvil automtico o a sobre uno mecnico sin importar las otras caracter a sticas)
Regresin o
Prediccin del valor de una variable dado un conjunto de ellas. o Por ejemplo, dado {X1 , X2 ...Xn } encontrar los coecientes para ajustar Y = a0 X0 ...an Xn
Reglas de Asociacin o
Identicar parejas causa efecto de una poblacin (por ejemplo en o las compras en linea). Soporte: Porcentaje de poblacin que satisface la causa y el o efecto Conanza: Frecuencia con la que ocurre el match Correlacin: Medida para saber que tan ajustado est el o a modelo
Agrupamientos
Saber que tan dispersos se encuentran los elementos de una poblacin o un subconjunto de ellos. (Por ejemplo, se compran o mas electrodomsticos en el norte que en el sur). e