Sei sulla pagina 1di 17

INSTITUTO TECNOLÓGICO

SUPERIOR DE MISANTLA
INGENIERÍA EN SISTEMAS COMPUTACIONALES
803 – “A”

MINERÍA DE DATOS
MIA. ROBERTO ÁNGEL MELENDEZ ARMENTA

INTEGRANTES:
JOSÉ TAPIA ORTIZ
ANTONIO DE JESÚS ROMERO C. DE VACA

MISANTLA, VER., A 22 DE MARZO DE 2018


ÍNDICE
INTRODUCCIÓN .............................................................................................................................. 1
PRÁCTICA #1: ÁRBOLES DE DECISIÓN EN WEKA .............................................................. 2
ÁRBOLES DE DECISIÓN .......................................................................................................... 2
SOFTWARE WEKA..................................................................................................................... 3
ALGORITMO J48......................................................................................................................... 4
DATASET #1: BREAST CANCER ............................................................................................... 6
Explicación................................................................................................................................... 6
Cantidad y tipos de atributos .............................................................................................. 6
Árbol de decisión utilizando algoritmo J48......................................................................... 6
Explicación matriz de confusión y precisión del modelo ............................................... 7
Reglas de clasificación ............................................................................................................. 7
DATASET #2: CONTAC LENSES ................................................................................................ 8
Explicación................................................................................................................................... 8
Finalidad ................................................................................................................................... 8
Cantidad y tipos de atributos .............................................................................................. 8
Árbol de decisión utilizando algoritmo J48......................................................................... 8
Explicación matriz de confusión y precisión del modelo ............................................... 9
Reglas de clasificación ............................................................................................................. 9
DATASET #3: GLASS .................................................................................................................. 10
Explicación................................................................................................................................. 10
Finalidad ................................................................................................................................. 10
Cantidad y tipos de atributos ............................................................................................ 10
Árbol de decisión utilizando algoritmo J48....................................................................... 10
Explicación matriz de confusión y precisión del modelo ............................................. 10
Reglas de clasificación ........................................................................................................... 11
CONCLUSIÓN ................................................................................................................................ 14
REFERENCIAS .............................................................................................................................. 15
INTRODUCCIÓN
Un árbol de decisión es un modelo predictivo de aprendizaje automático que decide
el valor objetivo (variable dependiente) de una nueva muestra en función de varios
valores de atributos de los datos disponibles. Los nodos internos de un árbol de
decisión denotan los diferentes atributos, las ramas entre los nodos nos dicen los
posibles valores que estos atributos pueden tener en las muestras observadas,
mientras que los nodos terminales nos dicen el valor final (clasificación) de la
variable dependiente.
El atributo que se va a pronosticar se conoce como variable dependiente, ya que su
valor depende de, o lo deciden, los valores de todos los demás atributos. Los otros
atributos, que ayudan a predecir el valor de la variable dependiente, se conocen
como las variables independientes en el conjunto de datos.

1|Página
PRÁCTICA #1: ÁRBOLES DE DECISIÓN EN WEKA
ÁRBOLES DE DECISIÓN
Un Árbol de Decisión es un método analítico que a través de una representación
esquemática de las alternativas disponible facilita la toma de mejores
decisiones, especialmente cuando existen riesgos, costos, beneficios y múltiples
opciones. El nombre se deriva de la apariencia del modelo parecido a un árbol y su
uso es amplio en el ámbito de la toma de decisiones bajo incertidumbre (Teoría de
Decisiones) junto a otras herramientas como el Análisis del Punto de Equilibrio.
Los árboles de decisión son especialmente útiles cuando:
1) Las alternativas o cursos de acción están bien definidas (por ejemplo: aceptar
o rechazar una propuesta, aumentar o no la capacidad de producción,
construir o no una nueva bodega, etc.)
2) Las incertidumbres pueden ser cuantificadas (por ejemplo: probabilidad de
éxito de una campaña publicitaria, probable efecto en ventas, probabilidad
de pasar de etapas, etc.)
3) Los objetivos están claros (por ejemplo: aumentar las ventas, maximizar
utilidades, minimizar costos, etc.)
Es importante comprender la nomenclatura comúnmente utilizada para representar
un árbol de decisión, la cual es la siguiente:
1) Los nodos de decisión se anotan como cuadrados.
2) Los nodos de incertidumbre se anotan como círculos.
3) Los nodos de resultados finales se anotan como triángulos.
4) Los eventos se unen con líneas o ramas del árbol.
5) Los costos o beneficios asociados a una decisión o evento se anotan en la
rama (para efectos de recordar aplicarlos al final de esa rama).
6) Las probabilidades de un evento se anotan entre paréntesis en la rama
correspondiente a ese evento.
7) Los valores asociados a cada pago final se anotan junto al triangulo
correspondiente, e incluyen costos asociados a la rama.
8) Se diseñan comenzando por la decisión inicial, y una rama a la vez. Es
importante tener claro el orden temporal de los eventos.

2|Página
9) Es importante distinguir entre eventos sobre los cuales se tiene poder de
decisión, y aquellos que no.
10)Se debe estimar el valor o resultado final de cada extremo del árbol.
11)Se deben estimar o calcular las probabilidades de ocurrencia de los eventos
inciertos.
12)Se deben estimar los correspondientes valores esperados para cada rama
del árbol. La resolución es hacia atrás.
SOFTWARE WEKA
Weka (Waikato Environment for Knowledge Analysis, en español “Entorno para
Análisis del Conocimiento de la Universidad de Waikato”) es una plataforma de
software para el aprendizaje automático y la minería de datos escrito en Java y
desarrollado en la Universidad de Waikato. Weka es software libre distribuido bajo
la licencia GNU-GPL.
El paquete Weka4 contiene una colección de herramientas de visualización y
algoritmos para análisis de datos y modelado predictivo, unidos a una interfaz
gráfica de usuario para acceder fácilmente a sus funcionalidades. La versión original
de Weka fue un front-end en TCL/TK para modelar algoritmos implementados en
otros lenguajes de programación, más unas utilidades para preprocesamiento de
datos desarrolladas en C para hacer experimentos de aprendizaje automático. Esta
versión original se diseñó inicialmente como herramienta para analizar datos
procedentes del dominio de la agricultura,56 pero la versión más reciente basada
en Java (WEKA 3), que empezó a desarrollarse en 1997, se utiliza en muchas y
muy diferentes áreas, en particular con finalidades docentes y de investigación.
CARACTERÍSTICAS
 Está disponible libremente bajo la licencia pública general de GNU.
 Es muy portable porque está completamente implementado en Java y
puede correr en casi cualquier plataforma.
 Contiene una extensa colección de técnicas para preprocesamiento de
datos y modelado.

3|Página
 Es fácil de utilizar por un principiante gracias a su interfaz gráfica de
usuario.
Weka soporta varias tareas estándar de minería de datos, especialmente,
preprocesamiento de datos, clustering, clasificación, regresión, visualización,
y selección. Todas las técnicas de Weka se fundamentan en la asunción de
que los datos están disponibles en un fichero plano (flat file) o una relación,
en la que cada registro de datos está descrito por un número fijo de atributos
(normalmente numéricos o nominales, aunque también se soportan otros
tipos). Weka también proporciona acceso a bases de datos vía SQL gracias
a la conexión JDBC (Java Database Connectivity) y puede procesar el
resultado devuelto por una consulta hecha a la base de datos. No puede
realizar minería de datos multi-relacional, pero existen aplicaciones que
pueden convertir una colección de tablas relacionadas de una base de datos
en una única tabla que ya puede ser procesada con Weka.7, Un área
importante que actualmente no cubren los algoritmos incluidos en Weka es el
modelado de secuencias.
ALGORITMO J48
El mencionado algoritmo es una implementación libre en java del algoritmo C4.5,
que utiliza el concepto de entropía de la información para la selección de variables
que mejor clasifiquen a la variable (clase) estudiada. Al aplicar un árbol de decisión
como J48 en ese conjunto de datos, le permitirá predecir la variable de destino de
un nuevo registro de conjunto de datos.
El árbol de decisiones J48 es la implementación del algoritmo ID3 (Iterative
Dichotomiser 3) desarrollado por el equipo del proyecto WEKA. R incluye este buen
trabajo en el paquete RWeka.
El clasificador de árbol de decisión J48 sigue el siguiente algoritmo simple. Para
clasificar un nuevo elemento, primero necesita crear un árbol de decisión basado
en los valores de atributo de los datos de entrenamiento disponibles. Por lo tanto,
cada vez que encuentra un conjunto de elementos (conjunto de entrenamiento),
identifica el atributo que discrimina más claramente las distintas instancias. Se dice

4|Página
que esta función, que es capaz de decir más sobre las instancias de datos para que
se pueda clasificar de la mejor manera, tiene la mayor ganancia de información.
Ahora, entre los posibles valores de esta característica, si hay algún valor para el
cual no hay ambigüedad, es decir, para el cual las instancias de datos que caen
dentro de su categoría tienen el mismo valor para la variable objetivo, entonces
terminamos esa rama y asignamos a ella el valor objetivo que hemos obtenido.
Para los demás casos, buscamos otro atributo que nos brinde la mayor ganancia de
información. Por lo tanto, continuamos de esta manera hasta que obtengamos una
decisión clara de qué combinación de atributos nos da un valor objetivo particular,
o nos quedan sin atributos. En el caso de que nos quedemos sin atributos, o si no
se puede obtener un resultado inequívoco de la información disponible, asignamos
a esta rama un valor objetivo que poseen la mayoría de los artículos bajo esta rama.
Ahora que tenemos el árbol de decisiones, seguimos el orden de selección de
atributos que hemos obtenido para el árbol. Al verificar todos los atributos
respectivos y sus valores con los que se ven en el modelo de árbol de decisión, se
puede asignar o predecir el valor objetivo de esta nueva instancia.

5|Página
DATASET #1: BREAST CANCER
Explicación
Los datos sobre cáncer de mama se obtuvieron en el Centro Médico de la
Universidad, Instituto de Oncología, Ljubljana, Yugoslavia. los datos fueron
proporcionarnos por M. Zwitter y M. Soklic. Los datos y atributos del cáncer de seno
se obtienen de la mama pacientes con cáncer dados en el conjunto de datos.
Cantidad y tipos de atributos
Este conjunto de datos incluye 201 instancias de una clase (eventos sin repetición)
y 85 instancias de otra clase (eventos de recurrencia). Las instancias están descritas
por 9 atributos y un atributo de clase algunos de los cuales son lineales y otros son
nominales.

Árbol de decisión utilizando algoritmo J48

6|Página
Explicación matriz de confusión y precisión del modelo
a b <-- clasificado como
201 0 | a = sin eventos recurrente
85 0 | b = eventos recurrentes
Según la matriz de confusión, 201 instancias de una clase (eventos sin repetición)
y 85 instancias de otra clase (eventos de recurrencia).
Las instancias correctamente clasificadas son 73.52% y las instancias
incorrectamente clasificadas son 26.48%, las estadísticas de Kappa son 0.2824, y
el error absoluto medio es 0.3354.
Reglas de clasificación
node-caps = yes
| deg-malig = 1: eventos recurrentes (1.01/0.4)
| deg-malig = 2: eventos no recurrentes (26.2/8.0)
| deg-malig = 3: eventos recurrentes (30.4/7.4)
node-caps = no: eventos no recurrentes (228.39/53.4)

7|Página
DATASET #2: CONTAC LENSES
Explicación
Se tiene conocimiento de datos sobre el tipo de lentes de contacto recomendadas
en función de ciertos datos: edad (3 valores), tipo de problema visual (2 valores),
existencia de astigmatismo (2 valores) y nivel de producción de lágrimas (2 valores).
Con esto, generar un modelo que se ajuste a los ejemplos de entrenamiento y
posteriormente usar el modelo para clasificar un ejemplo nuevo.
Finalidad
El objetivo es generar un modelo que se ajuste a los ejemplos de entrenamiento y
posteriormente usar el modelo para clasificar un ejemplo nuevo.
Cantidad y tipos de atributos

Los datos se dividen en 10 tamaños iguales (o casi iguales) segmentos o pliegues.


Se completan 10 iteraciones de entrenamiento y validación, en cada interacción se
presenta un pliegue diferente de los datos para validación, con los 9 pliegues
restantes utilizados para el aprendizaje.
Árbol de decisión utilizando algoritmo J48

8|Página
Explicación matriz de confusión y precisión del modelo
a b c <-- classified as
0 0 5 | a = suave
0 0 4 | b = difícil
0 0 15 | c = ninguno
Cobertura = 6
Clasificación errónea = 1
Exactitud = 5/6 = 83.3%
Reglas de clasificación
IF tear-prod-rate = reduced THEN contact/lenses = none
IF astigmatism = no THEN contact-lenses = soft

9|Página
DATASET #3: GLASS
Explicación
El conjunto de datos de vidrio proviene del Servicio de Ciencias Forenses de EE.
UU. Contiene datos sobre seis tipos de vidrio. El vidrio se describe por su índice de
refracción y los elementos químicos que lo contiene, este dataset contiene 214
ejemplos, cada uno de los cuales tiene 10 atributos numéricos. Estos se distribuyen
en 7 clases por lo que se produce un conjunto más complejo de resultados.
Finalidad
El objetivo es clasificar diferentes tipos de vidrio en función de las características.
Este conjunto de datos se toma de los conjuntos de datos UCI, que han sido
recopilados por la Universidad de California en Irvine.
Cantidad y tipos de atributos
Instances: 214
Attributes: 10
Type RI, Na, Mg, Al, Si, Ca, Ba, Fe
Árbol de decisión utilizando algoritmo J48

Explicación matriz de confusión y precisión del modelo


a b c d e f g <-- classified as
50 15 3 0 0 1 1 | a = build wind float
16 47 6 0 2 3 2 | b = build wind non-float

10 | P á g i n a
5 5 6 0 0 1 0 | c = vehic wind float
0 0 0 0 0 0 0 | d = vehic wind non-float
0 2 0 0 10 0 1 | e = containers
1 1 0 0 0 7 0 | f = tableware
3 2 0 0 0 1 23 | g = headlamps
Los resultados muestran una precisión de solo 66.8% y se logra una kappa de
0.55.
 El sistema no es muy bueno para distinguir dos clases: 'construir viento
flotante' y 'construir viento no flotante'. Esto tiene un efecto importante porque
entre ellos, estas dos clases forman 2/3 del conjunto de datos.
 Clasificación muy pobre de la clase 'flotador de viento de los vehículos'. Solo
6 de los 17 ejemplos fueron clasificados correctamente. Estas debilidades se
reflejan en las medidas de retiro para las clases en cuestión.
Reglas de clasificación
J48 pruned tree
Ba <= 0.27
| Mg <= 2.41
| | K <= 0.03
| | | Na <= 13.75: build wind non-float (3.0)
| | | Na > 13.75: tableware (9.0)
| | K > 0.03
| | | Na <= 13.49
| | | | RI <= 1.5241: containers (13.0/1.0)
| | | | RI > 1.5241: build wind non-float (3.0)
| | | Na > 13.49: build wind non-float (7.0/1.0)
| Mg > 2.41
| | Al <= 1.41
| | | RI <= 1.51707
| | | | RI <= 1.51596: build wind float (3.0)
| | | | RI > 1.51596
| | | | | Fe <= 0.12

11 | P á g i n a
| | | | | | Mg <= 3.54: vehic wind float (5.0)
| | | | | | Mg > 3.54
| | | | | | | RI <= 1.51667: build wind non-float (2.0)
| | | | | | | RI > 1.51667: vehic wind float (2.0)
| | | | | Fe > 0.12: build wind non-float (2.0)
| | | RI > 1.51707
| | | | K <= 0.23
| | | | | Mg <= 3.34: build wind non-float (2.0)
| | | | | Mg > 3.34
| | | | | | Si <= 72.64
| | | | | | | Na <= 14.01: build wind float (14.0)
| | | | | | | Na > 14.01
| | | | | | | | RI <= 1.52211
| | | | | | | | | Na <= 14.32: vehic wind float (3.0)
| | | | | | | | | Na > 14.32: build wind float (2.0)
| | | | | | | | RI > 1.52211: build wind float (3.0)
| | | | | | Si > 72.64: vehic wind float (3.0)
| | | | K > 0.23
| | | | | Mg <= 3.75
| | | | | | Fe <= 0.14
| | | | | | | RI <= 1.52043: build wind float (36.0)
| | | | | | | RI > 1.52043: build wind non-float (2.0/1.0)
| | | | | | Fe > 0.14
| | | | | | | Al <= 1.17: build wind non-float (5.0)
| | | | | | | Al > 1.17: build wind float (6.0/1.0)
| | | | | Mg > 3.75: build wind non-float (10.0)
| | Al > 1.41
| | | Si <= 72.49
| | | | Ca <= 8.28: build wind non-float (6.0)
| | | | Ca > 8.28: vehic wind float (5.0/1.0)
| | | Si > 72.49

12 | P á g i n a
| | | | RI <= 1.51732
| | | | | Fe <= 0.22: build wind non-float (30.0/1.0)
| | | | | Fe > 0.22
| | | | | | RI <= 1.51629: build wind float (2.0)
| | | | | | RI > 1.51629: build wind non-float (2.0)
| | | | RI > 1.51732
| | | | | RI <= 1.51789: build wind float (3.0)
| | | | | RI > 1.51789: build wind non-float (2.0)
Ba > 0.27
| Si <= 70.16: build wind non-float (2.0/1.0)
| Si > 70.16: headlamps (27.0/1.0)

13 | P á g i n a
CONCLUSIÓN
Un árbol de decisión es importante no porque resume lo que se sabe, sino porque
esperamos que clasifique correctamente nuevos casos que se puedan tener. Así,
cuando se construye modelos de clasificación se debe tener datos de
entrenamiento, así como datos de test para saber cómo funciona realmente. El
algoritmo más básico es el ID3 (que no se utilizó), y las ideas básicas son:
 En el árbol de decisión cada nodo corresponde con un atributo no-categórico
y un arco con el valor posible de ese atributo. Una hoja del árbol especifica
el valor esperado del atributo para los valores descritos en el camino desde
el nodo inicial hasta la hoja.
 En el árbol de decisión cada nodo debe estar asociado al atributo no-
categórico que da más información acerca de los atributos que aún no hayan
sido considerados.
 Se utiliza la entropía para medir la información que tiene un nodo. C.45 es
una extensión de ID3 que tiene en cuenta valores no disponibles, rangos de
valores continuos en los atributos, derivación de reglas, etc. Utilizaremos
varios algoritmos a lo largo de la práctica para conocer mejor el
funcionamiento de los mismos, estudiando diferentes estrategias de
entrenamiento utilizando los parámetros disponibles para cada uno.

14 | P á g i n a
REFERENCIAS
Julio Escribano Barreno . (Desconocido). Análisis de Datos mediante WEKA . Marzo
22, 2018, de Inteligencia en redes de Comunicaciones Sitio web:
http://www.it.uc3m.es/jvillena/irc/practicas/03-04/12.mem.pdf
PAULA ANDREA VIZCAINO GARZON . (2008). APLICACIÓN DE TÉCNICAS DE
INDUCCIÓN DE ÁRBOLES DE DECISIÓN A PROBLEMAS DE CLASIFICACIÓN
MEDIANTE EL USO DE WEKA (WAIKATO ENVIRONMENT FOR KNOWLEDGE
ANALYSIS). . Marzo 22, 2018, de FUNDACIÓN UNIVERSITARIA KONRAD
LORENZ FACULTAD DE INGENIERÍA DE SISTEMAS BOGOTÁ Sitio web:
http://www.konradlorenz.edu.co/images/stories/suma_digital_sistemas/2009_01/fin
al_paula_andrea.pdf

15 | P á g i n a

Potrebbero piacerti anche