Sei sulla pagina 1di 13

TEMA:

Práctica Datamining: SQL Server Datamining

OBJETIVOS:

 Crear modelos de minería de datos para poder realizar predicciones con la información
obtenida de estos.
 Entender el funcionamiento y la utilidad de tres de los algoritmos más importantes de
minería de datos: agrupación en clústeres, árboles de decisión y Bayes Naive.
 Aprender a realizar análisis de los hallazgos mediante los visores de los modelos de
minería de datos.
 Crear predicciones y gráficos de precisión con las herramientas de minería de datos que
se incluyen en Microsoft SQL Server Analysis Services.
 Aprender a adjuntar filtros a un modelo de minería de datos para usarlos durante el
entrenamiento y las pruebas.

MARCO TEÓRICO:
Microsoft Analysis Services

Define los objetos de una sola base de datos de Analysis Services. Una base de datos de Analysis
Services puede contener muchos tipos diferentes de objetos
- Modelos multidimensionales (cubos).
- Estructuras de minería de datos y modelos de minería de datos.
- Objetos auxiliares como orígenes de datos, vistas del origen de datos y ensamblados
personalizados.

 Minería de datos de Microsoft Analysis Services


La minería de datos de Microsoft Analysis Services incluye las siguientes características que
ayudan con facilidad a desarrollar y comparar varios modelos predictivos y a tomar medidas
posteriormente en función de los resultados:

- Conjuntos de pruebas de datos de exclusión: al crear una estructura de minería de datos,


ahora puede dividir los datos de la estructura en conjuntos de prueba y de
entrenamiento. Esto permite probar modelos en conjuntos de datos similares y
comparar la precisión de los modelos relacionados.
- Filtros de modelo de minería de datos: ahora puede adjuntar filtros a un modelo de
minería de datos y aplicar el filtro durante el entrenamiento y las pruebas. Esto permite
con facilidad generar modelos relacionados en diferentes subconjuntos de datos.
- Obtención de detalles para casos de estructura y columnas de estructura: ahora puede
cambiar fácilmente de los patrones generales del modelo de minería de datos al detalle
procesable en el origen de datos.

 Origen de datos
Es una conexión de datos guardada y administrada en el proyecto e implementada en la base de
datos de Microsoft SQL Server Analysis Services. El origen de datos contiene los nombres del
servidor y la base de datos donde residen los datos de origen, además de otras propiedades de
conexión necesarias.
 Vista del origen de datos
Una vista del origen de datos se genera en un origen de datos y define un subconjunto de los
datos, que puede usar en las estructuras de minería de datos. Mediante el uso de vistas del
origen de datos, puede seleccionar los datos relacionados con un proyecto, establecer
relaciones entre tablas y modificar la estructura de los datos sin modificar el origen de datos
original.

 Asistente de minería de datos


Herramienta que permite crear una estructura de minería de datos y modelos de minería de datos.

 Modelos de minería de datos


Un modelo de minería de datos no es otra cosa que una manera de aplicar un tratamiento a una
cantidad específica de datos para obtener información de ellos.

Cada tipo de modelo se basa en un algoritmo diferente y proporciona visiones diferentes de los
datos.
- El modelo Árbol de decisión le indica los factores que influyen en la compra de bicicletas.
- El modelo Agrupación en clústeres agrupa los clientes por atributos, como el
comportamiento de compra de bicicletas y otros atributos seleccionados.
- El modelo Bayes naive le permite examinar las relaciones entre los diferentes atributos.

DESARROLLO DE LA PRÁCTICA

1. LECCIÓN 1: Preparar la base de datos de analysis services

1.1 Crear un proyecto de Analysis Services.


Se crea un nuevo proyecto de Analysis Services escogiendo la opción “Proyectos de Business
Intelligence” y colocandole el nombre de “BasicDataMining”.

1.2 Crear un origen de datos.


Dar clic derecho en la opción “origen de datos” y seleccionar nuevo, en proveedor se escoge la
opción “OLE DB nativo\SQL Server Native Client 11.0”. Después se escoge el nombre del servidor
donde se encuentra la base “AdventureWorksDW2012”, seguidamente se selecciona la base
mencionada. Para finalizar se deja por defecto el nombre del origen de datos presentado.
1.3 Crear una vista del origen de datos.
Dar clic derecho en la opción “Vista de origen de datos” y seleccione nueva, se escoge el origen
de datos creado anteriormente y a continuación se selecciona la tabla “ProspectiveBuyer”,
perteneciente a los compradores probables de una bicicleta, y la vista “vTargetMail”, que
contiene los datos históricos sobre los compradores de una bicicleta. Finalmente, se le coloca el
nombre de “Targeted Mailing” a esta vista de origen de datos.

2. LECCIÓN 2: Generar una estructura de distribución de correo directo

2.1 Crear una estructura del modelo de minería de datos de distribución de correo directo.
Dar clic derecho en “Estructura de minería de datos” y seleccione nueva, se escoge el método
“A partir de una base de datos relacional” y en la técnica de minería de datos se selecciona
“Arboles de decisión de Microsoft”. A continuación, se elige la vista de origen de datos creada
anteriormente, seleccionando seguidamente a la vista “vTargetedMail” como la tabla de casos.
Ahora se especifica los datos de aprendizaje, para ello se selecciona a la columna “BikeBayer”
como predicción, la columna “CustomerKey” como clave y para las entradas las columnas “Age,
CommuteDistance, EnglishEducation, EnglishOccupation, Gender, GeographyKey,
HouseOwnerFlag, MaritalStatus, NumberCarsOwned, NumberChildrenAtHome, Region,
TotalChildren, YearlyIncome”. A continuación, se selecciona las filas que se agregarán a la
estructura pero no se incluirán en el modelo, siendo estas “AddressLine1, AddressLine,
DateFirstPurchase, EmailAddress, FirstName, LastName”.

2.2 Especificar el tipo de datos y el tipo de contenido.


En el contenido y el tipo de datos asegurarse que se encuentre colocada la información tal como
se presenta en la siguiente imagen.
2.3 Especificar un conjunto de datos de pruebas para la estructura.
Colocar 1000 en la parte de “Número máxima de casos en el conjunto de datos de prueba” y a
continuación colocar el nombre “Targeted Mailing” para la estructura de minería de datos y el
nombre “TM_Decision_Tree” para el modelo de minería de datos.

3. LECCIÓN 3: Agregar y procesar los modelos

3.1 Agregar modelos nuevos a la estructura de correo de destino.


Dar clic derecho en la columna “Estructura” perteneciente a la pestaña “Modelos de minería de
datos” y seleccionar nuevo modelo de minería de datos. A continuación, elegir “Agrupación en
clústeres de Microsoft” y colarle el nombre “TM_Clustering” a este modelo. Realizar los mismos
pasos para el tercer modelo y colocarle el nombre “TM_NaiveBayes” seleccionando a la vez la
opción “Bayes naive de Microsoft”.
3.2 Procesar los modelos de la estructura de distribución de correo directo.
Colocar el número 12 en la opción “HoldoutSeed” en la pestaña propiedades. A continuación,
dar clic en “Procesar estructura de minería de datos y todos los modelos” en el menú “ Modelo
de minería de datos” y en la ventana que se abre por defecto seleccionar la opción “Ejecutar”.

4. LECCIÓN 4: Explorar los modelos de correo directo

4.1 Explorar el modelo de árbol de decisión


Seleccionar la pestaña “Visor de modelo de minería de datos” en “Diseñador de minería de
datos”, deslizar “mostrar nivel” a la cuarta barra y cambiar el valor de la lista de “Fondo” a 1.
Para obtener información sobre cada nodo basta posicionar el cursor sobre el nodo del cual se
quiera obtener dicha información.
4.2 Explorar el modelo de agrupación en clústeres

El Visor de clústeres de Microsoft ofrece las siguientes pestañas para la exploración de


modelos de minería de datos de agrupación en clústeres: Diagrama del clúster, Perfiles del
clúster, Características del clúster, Distinción del clúster.

Para explorar este modelo utilice la lista “Modelo de minería de datos” de la parte superior de
la pestaña “Visor de modelos de minería de datos” para cambiar al modelo “TM_Clustering”.
En la lista Visor, seleccione “Visor de clústeres de Microsoft” En el cuadro Variable de
sombreado, seleccione “Bike Buyer” y seleccione 1 en el cuadro “Estado “para explorar esos
casos donde se compró una bicicleta.

La leyenda Densidad describe la densidad del par de estados del atributo que se selecciona en
Variable de sombreado y Estado. En este ejemplo se indica que el clúster con el sombreado
más oscuro tiene el porcentaje superior de compradores de bicicleta.

4.3 Explorar el modelo Bayes naive


El Visor Bayes Naive de Microsoft ofrece las siguientes pestañas para la exploración de
modelos de minería de datos Bayes naive: Red de dependencias, Perfiles del atributo,
Características del atributo y Distinción del atributo.

Para explorar este modelo utilice la lista “Modelo de minería de datos” de la parte superior de
la pestaña “Visor de modelos de minería de datos” para cambiar al modelo “TM_NaiveByes”.
En la lista Visor, seleccione “Visor Bayes Naive de Microsoft”.

5. Lección 5: Probar los modelos

5.1 Probar la exactitud con gráficos de elevación

- Elegir los datos de entrada


Cambiar a la pestaña “Gráfico de precisión de minería de datos” del Diseñador de minería de
datos y seleccione la pestaña “Selección de entrada”. En el cuadro de grupo “Seleccionar un
conjunto de datos para usarlo en un gráfico de precisión” seleccione “Usar casos de prueba de
estructura de minería de datos”.

- Configurar parámetros del gráfico de precisión


En la pestaña “Selección de entrada”, active la casilla correspondiente a “Sincronizar valores y
columnas de predicción”. En la columna “Nombre de columna de predicción”, compruebe
que Bike Buyer está seleccionado para cada modelo. En la columna “Mostrar”, seleccione cada
uno de los modelos. Ahora, en la columna “Valor de predicción”, seleccione 1. El mismo valor se
rellena automáticamente para cada modelo que tiene la misma columna de predicción.
Finalmente, seleccione la pestaña “Gráfico de elevación”.

5.2 Probar un modelo filtrado

- Usar filtros
Dar clic derecho en el modelo “TM_Decision_Tree” y seleccionar “nuevo”. Ahora colocar en el
campo “Nombre del modelo” el nombre “TM_Decision_Tree_Male”. A continuación, crear un
filtro seleccionando la opción “Establecer filtro de modelos”, escoger “Gender” y colocar en
“Operador” el signo “=” y en “Valor” escribir la letra “M”. Finalmente realizar los mismos pasos,
pero con información correspondiente para el modelo “TM_Decision_Tree_Female”.

- Procesar los modelos filtrados


Hacer clic con el botón secundario en el modelo “TM_Decision_Tree_Male” y
seleccione “Procesar estructura de minería de datos y todos los modelos”. Haga clic
en “Ejecutar” para procesar los nuevos modelos.
- Evaluar los resultados
Seleccione la pestaña “Visor de modelo de minería de datos”. En el cuadro Modelo de minería
de datos, seleccione “TM_Decision_Tree_Male”. Deslice “Mostrar nivel” hasta 3. Ahora, cambie
el valor de la lista “Fondo” por 1. Coloque el cursor sobre el nodo con la etiqueta “Todos “para
ver el número de compradores de bicicleta con respecto a los no compradores. Finalmente
repetir los mismos pasos para “TM_Decision_Tree_Female”.

Ahora cambie a la pestaña “Gráfico de precisión de minería de datos” del Diseñador de minería
de datos y “Selección de entrada”. A continuación, seleccione “Usar casos de prueba de
estructura de minería de datos”. En la pestaña “Selección de entrada” del Diseñador de minería
de datos, active la casilla correspondiente a “Sincronizar valores y columnas de predicción”. En
la columna “Nombre de columna de predicción”, compruebe que “Bike Buyer” este
seleccionado para cada modelo. Por último, en la columna Valor de predicción, seleccione 1.

6. LECCIÓN 6: Crear y trabajar con predicciones


6.1 Crear predicciones

- Crear la consulta
En la pestaña “Predicción de modelo de minería de datos” haga clic en “Seleccionar modelo”.
En el cuadro de diálogo abierto navegue por el árbol hasta la estructura “Targeted Mailing”,
expándala, seleccione “TM_Decision_Tree”. En el cuadro “Seleccionar tabla(s) de entrada”,
haga clic en “Seleccionar tabla de casos.” En el cuadro de diálogo “Seleccionar tabla”, seleccione
la vista del origen de datos Adventure Works DW Multidimensional 2012. Ahora seleccione la
tabla “ProspectiveBuyer (dbo) “.

v
- Asignar Columnas
Dar clic derecho en las líneas que conectan la ventana “Modelo de minería de datos” a la
ventana “Seleccionar tabla de entrada” y seleccione “Modificar conexiones”. Haga clic en la
celda “Bike Buyer” y seleccione “ProspectiveBuyer.Unknown” en el cuadro desplegable. Ahora
seleccione “Diseñador de vistas” y en la tabla ProspectiveBuyer seleccione “Nuevo cálculo con
nombre” y escriba “calcAge”. En “Descripción”, escriba Calcular la edad en función de la fecha
de nacimiento. Finalmente en el cuadro “Expresión”, escriba “DATEDIFF (AAAA, [BirdthDate],
getdate())”.

Finalmente, en el Diseñador de minería de datos, seleccione la pestaña “Predicción de modelo


de minería de datos” y vuelva a abrir la ventana “Modificar conexiones”. En “Columna de la
tabla” haga clic en la celda Age y seleccione “ProspectiveBuyer.calcAge” en el cuadro
desplegable.
- Diseñar la consulta de predicción
Dar clic en la flecha abajo del botón de la barra de herramientas de la pestaña “Predicción de
modelos de minería de datos” y seleccione “Diseño”. Haga clic en la celda de la primera fila
vacía de la columna “Origen” y, a continuación, seleccione “Función de predicción”, en esta fila
escoja “PredictProbability” y escriba “Probabilidad de resultado” en la columna “Alias “.

Ahora arrastre [Bike Buyer]] a la celda “Criterios o argumento”. A continuación, Haga clic en la
siguiente fila vacía de la columna “Origen” y seleccione “TM_Decision_Tree mining model”. En
la fila “TM_Decision_Tree”, en la columna “Campo”, seleccione “Bike Buyer” y en la
columna “Criterios o argumento”, escriba = 1.

Haga clic en la siguiente fila vacía de la columna “Origen” y seleccione la


tabla “ProspectiveBuyer”. A continuación, escoja “ProspectiveBuyerKey”. Agregue cinco filas
más a la cuadrícula. Para cada fila, seleccione la tabla “ProspectiveBuyer” como “Origen” y, a
continuación, agregue las columnas siguientes en las celdas “Campo”: calcAge, LastName,
FirstName, AddressLine1, AddressLine2.

6.2 Usar la obtención de detalles en datos de estructura

- Habilitar la obtención de detalles en un modelo de minería de datos

Dar clic derecho en la pestaña “Modelos de minería de datos” en el


modelo “TM_Decision_Tree” y seleccione “Propiedades”. En las ventanas Propiedades,
haga clic en “AllowDrillThrough” y seleccione “True”. En la pestaña Modelos de minería de
datos, haga clic derecho y seleccione “Procesar modelo”.
- Ver los datos de obtención de detalles de un modelo de minería de datos
Dar clic en la pestaña “Visor de modelo de minería de datos”. Seleccione el
modelo “TM_Decision_Tree” en la lista y cambie el valor “Fondo” a 1. De esta forma, se muestra
solo la parte del modelo que está relacionada con los clientes que compraron bicicletas.

En la lista “Visor”, seleccione Visor de árboles de Microsoft y localice el nodo Edad >=34 y <41 y
haga clic derecho en él. Ahora, seleccione “Obtener detalles” y después “Columnas de modelo
y estructura” para abrir la ventana “Obtener detalles”. Por último, desplácese a la
columna “Structure.Date First Purchase” para ver la fecha de compra de las bicicletas anteriores.
Para copiar los datos en el Portapapeles, haga clic con el botón secundario en cualquier fila de
la tabla y seleccione “Copiar todo”

CONCLUSIONES Y RECOMENDACIONES

 Se logró conocer que la edad y la región de las personas son factores importantes para
predecir la compra de bicicletas.
 Se concluye que el algoritmo de árboles de decisión de Microsoft predice qué
columnas influyen en la decisión de comprar una bicicleta en función de las columnas
restantes del conjunto de entrenamiento.
 Se logró entender que la red de dependencias pertenecientes al modelo de Bayes Naive
muestra las relaciones entre los atributos que contribuyen a la capacidad de predicción
del modelo de minería de datos.

Potrebbero piacerti anche