Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Actividades
Esta actividad tiene como objetivo tomar un primer contacto con la herramienta Weka
aplicando técnicas de árbol de decisión sobre un conjunto de datos, y comprendiendo la
visualización en árbol mostrada por Weka.
http://www.cs.waikato.ac.nz/ml/weka/downloading.html
2. Weka trae consigo una serie de datasets o conjuntos de datos por defecto. Estos
están disponibles en la carpeta /data incluida en el directorio raíz de Weka creado
en la instalación del software. Abre el fichero iris.arff que se encuentra en dicha
carpeta con un editor de texto.
3. Una vez abierto el fichero con un editor de texto podrás ver en comentarios quién es
el creador de ese conjunto de datos, publicaciones en las que ha sido utilizado y otra
información relevante.
6. Ejecuta el algoritmo C4.5 (algoritmo denominado J48 en Weka) con las opciones
por defecto: factor de confianza igual a 0.25, validación cruzada de 10 iteraciones y
un mínimo número de instancias requerido en una hoja igual a 2.
7. Copia la salida obtenida tras la ejecución del algoritmo en el paso previo y pégala
antes del informe que incluye tus respuestas a esta actividad.
En esta actividad debes entregar un informe que incluya la salida obtenida al ejecutar el
algoritmo C4.5 y que responda a las preguntas 1 a 7 expuestas a continuación
El informe, sin contar con la salida proporcionada por Weka, tendrá una
extensión máxima de 2 páginas (Georgia 11, interlineado, 1,5).
=== Run information ===
Number of Leaves : 5
TP Rate FP Rate Precision Recall F-Measure MCC ROC Area PRC Area
Class
0,980 0,000 1,000 0,980 0,990 0,985 0,990 0,987 Iris-
setosa
0,940 0,030 0,940 0,940 0,940 0,910 0,952 0,880 Iris-
versicolor
0,960 0,030 0,941 0,960 0,950 0,925 0,961 0,905 Iris-
virginica
Weighted Avg. 0,960 0,020 0,960 0,960 0,960 0,940 0,968 0,924
a b c <-- classified as
49 1 0 | a = Iris-setosa
0 47 3 | b = Iris-versicolor
0 2 48 | c = Iris-virginica
Pregunta 1: Describe los datos del problema indicando:
Número de clases indicando que representan dichas clases y el tipo de valor que
toman.
Pregunta 4: Una instancia nueva con los siguientes valores de atributos, según el
árbol de decisión generado, ¿en qué clase se clasificaría?
Petalwidth= 1.6 cm
Petallength= 4 cm
Sepalwidth= 3.4 cm
Sepallength= 6 cm
Se clasifica en iris-versicolor.
Pregunta 5: ¿Qué significan los números que Weka muestra entre paréntesis junto a
los nombres de las clases en las hojas del árbol generado?
Los números que se presentan junto al nombre de las clases de las hojas el primer
número es el valor de aciertos para esa clase y el segundo es el número de desaciertos
que existen.
Pregunta 6: De acuerdo al resumen de resultados de la validación cruzada con 10
iteraciones, que es una medida de los errores que se esperarían si se aplicara un
conjunto de datos de prueba independiente, ¿se puede considerar que el árbol generado
en el paso 6 (utilizando el conjunto completo de datos de entrenamiento) es optimista
respecto a la precisión en la predicción?
Al realizar el ejercicio se esperaba obtener 10 errores, pero se obtuvieron únicamente 6.