Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
OBJETIVOS:
Crear modelos de minería de datos para poder realizar predicciones con la información
obtenida de estos.
Entender el funcionamiento y la utilidad de tres de los algoritmos más importantes de
minería de datos: agrupación en clústeres, árboles de decisión y Bayes Naive.
Aprender a realizar análisis de los hallazgos mediante los visores de los modelos de
minería de datos.
Crear predicciones y gráficos de precisión con las herramientas de minería de datos que
se incluyen en Microsoft SQL Server Analysis Services.
Aprender a adjuntar filtros a un modelo de minería de datos para usarlos durante el
entrenamiento y las pruebas.
MARCO TEÓRICO:
Microsoft Analysis Services
Define los objetos de una sola base de datos de Analysis Services. Una base de datos de Analysis
Services puede contener muchos tipos diferentes de objetos
- Modelos multidimensionales (cubos).
- Estructuras de minería de datos y modelos de minería de datos.
- Objetos auxiliares como orígenes de datos, vistas del origen de datos y ensamblados
personalizados.
Origen de datos
Es una conexión de datos guardada y administrada en el proyecto e implementada en la base de
datos de Microsoft SQL Server Analysis Services. El origen de datos contiene los nombres del
servidor y la base de datos donde residen los datos de origen, además de otras propiedades de
conexión necesarias.
Vista del origen de datos
Una vista del origen de datos se genera en un origen de datos y define un subconjunto de los
datos, que puede usar en las estructuras de minería de datos. Mediante el uso de vistas del
origen de datos, puede seleccionar los datos relacionados con un proyecto, establecer
relaciones entre tablas y modificar la estructura de los datos sin modificar el origen de datos
original.
Cada tipo de modelo se basa en un algoritmo diferente y proporciona visiones diferentes de los
datos.
- El modelo Árbol de decisión le indica los factores que influyen en la compra de bicicletas.
- El modelo Agrupación en clústeres agrupa los clientes por atributos, como el
comportamiento de compra de bicicletas y otros atributos seleccionados.
- El modelo Bayes naive le permite examinar las relaciones entre los diferentes atributos.
DESARROLLO DE LA PRÁCTICA
2.1 Crear una estructura del modelo de minería de datos de distribución de correo directo.
Dar clic derecho en “Estructura de minería de datos” y seleccione nueva, se escoge el método
“A partir de una base de datos relacional” y en la técnica de minería de datos se selecciona
“Arboles de decisión de Microsoft”. A continuación, se elige la vista de origen de datos creada
anteriormente, seleccionando seguidamente a la vista “vTargetedMail” como la tabla de casos.
Ahora se especifica los datos de aprendizaje, para ello se selecciona a la columna “BikeBayer”
como predicción, la columna “CustomerKey” como clave y para las entradas las columnas “Age,
CommuteDistance, EnglishEducation, EnglishOccupation, Gender, GeographyKey,
HouseOwnerFlag, MaritalStatus, NumberCarsOwned, NumberChildrenAtHome, Region,
TotalChildren, YearlyIncome”. A continuación, se selecciona las filas que se agregarán a la
estructura pero no se incluirán en el modelo, siendo estas “AddressLine1, AddressLine,
DateFirstPurchase, EmailAddress, FirstName, LastName”.
Para explorar este modelo utilice la lista “Modelo de minería de datos” de la parte superior de
la pestaña “Visor de modelos de minería de datos” para cambiar al modelo “TM_Clustering”.
En la lista Visor, seleccione “Visor de clústeres de Microsoft” En el cuadro Variable de
sombreado, seleccione “Bike Buyer” y seleccione 1 en el cuadro “Estado “para explorar esos
casos donde se compró una bicicleta.
La leyenda Densidad describe la densidad del par de estados del atributo que se selecciona en
Variable de sombreado y Estado. En este ejemplo se indica que el clúster con el sombreado
más oscuro tiene el porcentaje superior de compradores de bicicleta.
Para explorar este modelo utilice la lista “Modelo de minería de datos” de la parte superior de
la pestaña “Visor de modelos de minería de datos” para cambiar al modelo “TM_NaiveByes”.
En la lista Visor, seleccione “Visor Bayes Naive de Microsoft”.
- Usar filtros
Dar clic derecho en el modelo “TM_Decision_Tree” y seleccionar “nuevo”. Ahora colocar en el
campo “Nombre del modelo” el nombre “TM_Decision_Tree_Male”. A continuación, crear un
filtro seleccionando la opción “Establecer filtro de modelos”, escoger “Gender” y colocar en
“Operador” el signo “=” y en “Valor” escribir la letra “M”. Finalmente realizar los mismos pasos,
pero con información correspondiente para el modelo “TM_Decision_Tree_Female”.
Ahora cambie a la pestaña “Gráfico de precisión de minería de datos” del Diseñador de minería
de datos y “Selección de entrada”. A continuación, seleccione “Usar casos de prueba de
estructura de minería de datos”. En la pestaña “Selección de entrada” del Diseñador de minería
de datos, active la casilla correspondiente a “Sincronizar valores y columnas de predicción”. En
la columna “Nombre de columna de predicción”, compruebe que “Bike Buyer” este
seleccionado para cada modelo. Por último, en la columna Valor de predicción, seleccione 1.
- Crear la consulta
En la pestaña “Predicción de modelo de minería de datos” haga clic en “Seleccionar modelo”.
En el cuadro de diálogo abierto navegue por el árbol hasta la estructura “Targeted Mailing”,
expándala, seleccione “TM_Decision_Tree”. En el cuadro “Seleccionar tabla(s) de entrada”,
haga clic en “Seleccionar tabla de casos.” En el cuadro de diálogo “Seleccionar tabla”, seleccione
la vista del origen de datos Adventure Works DW Multidimensional 2012. Ahora seleccione la
tabla “ProspectiveBuyer (dbo) “.
v
- Asignar Columnas
Dar clic derecho en las líneas que conectan la ventana “Modelo de minería de datos” a la
ventana “Seleccionar tabla de entrada” y seleccione “Modificar conexiones”. Haga clic en la
celda “Bike Buyer” y seleccione “ProspectiveBuyer.Unknown” en el cuadro desplegable. Ahora
seleccione “Diseñador de vistas” y en la tabla ProspectiveBuyer seleccione “Nuevo cálculo con
nombre” y escriba “calcAge”. En “Descripción”, escriba Calcular la edad en función de la fecha
de nacimiento. Finalmente en el cuadro “Expresión”, escriba “DATEDIFF (AAAA, [BirdthDate],
getdate())”.
Ahora arrastre [Bike Buyer]] a la celda “Criterios o argumento”. A continuación, Haga clic en la
siguiente fila vacía de la columna “Origen” y seleccione “TM_Decision_Tree mining model”. En
la fila “TM_Decision_Tree”, en la columna “Campo”, seleccione “Bike Buyer” y en la
columna “Criterios o argumento”, escriba = 1.
En la lista “Visor”, seleccione Visor de árboles de Microsoft y localice el nodo Edad >=34 y <41 y
haga clic derecho en él. Ahora, seleccione “Obtener detalles” y después “Columnas de modelo
y estructura” para abrir la ventana “Obtener detalles”. Por último, desplácese a la
columna “Structure.Date First Purchase” para ver la fecha de compra de las bicicletas anteriores.
Para copiar los datos en el Portapapeles, haga clic con el botón secundario en cualquier fila de
la tabla y seleccione “Copiar todo”
CONCLUSIONES Y RECOMENDACIONES
Se logró conocer que la edad y la región de las personas son factores importantes para
predecir la compra de bicicletas.
Se concluye que el algoritmo de árboles de decisión de Microsoft predice qué
columnas influyen en la decisión de comprar una bicicleta en función de las columnas
restantes del conjunto de entrenamiento.
Se logró entender que la red de dependencias pertenecientes al modelo de Bayes Naive
muestra las relaciones entre los atributos que contribuyen a la capacidad de predicción
del modelo de minería de datos.