Arbol de Decision en Spss

Universitat de de Barcelona. Barcelona.
Institut Institut de de Cincies Cincies de de lEducaci lEducaci Universitat
Vanesa Berlanga Silvente, Mara Jos Rubio Hurtado, Ruth Vil Baos, Cmo aplicar rboles de decisin en SPSS
<Artculo> Cmo aplicar rboles de decisin en SPSS.

Vanesa Berlanga Silvente, Mara Jos Rubio Hurtado, Ruth Vil Baos
Fecha de presentacin: 11/10/2012 Fecha de aceptacin: 19/10/2012 Fecha de publicacin: 08/01/2013
//Resumen Un rbol de decisin es una forma grfica y analtica de representar todos los eventos (sucesos) que pueden surgir a partir de una decisin asumida en cierto momento. Nos ayudan a tomar la decisin ms acertada, desde un punto de vista probabilstico, ante un abanico de posibles decisiones. Estos rboles permiten examinar los resultados y determinar visualmente cmo fluye el modelo. Los resultados visuales ayudan a buscar subgrupos especficos y relaciones que tal vez no encontraramos con estadsticos ms tradicionales. Los rboles de decisin son una tcnica estadstica para la segmentacin, la estratificacin, la prediccin, la reduccin de datos y el filtrado de variables, la identificacin de interacciones, la fusin de categoras y la discretizacin de variables continuas. La funcin rboles de decisin (Tree) en SPSS crea rboles de clasificacin y de decisin para identificar grupos, descubrir las relaciones entre grupos y predecir eventos futuros. Existen diferentes tipos de rbol: CHAID, CHAID exhaustivo, CRT y QUEST, segn el que mejor se ajuste a nuestros datos. //Palabras clave rbol de decisin, CHAID, clasificacin, minera de datos. // Referencia recomendada Berlanga Silvente, V., Rubio Hurtado, M. J., Vil Baos, R. (2013). Cmo aplicar rboles de decisin en SPSS. [En lnea] REIRE, Revista dInnovaci i Recerca en Educaci, 6 (1), 65-79. Accesible en: http://www.ub.edu/ice/reire.htm // Datos de las autoras Vanesa Berlanga Silvente. Profesora. Universidad de Barcelona. Departamento de Mtodos de Investigacin y Diagnstico en Educacin (MIDE). berlanga.silvente@ub.edu Mara Jos Rubio Hurtado. Profesora. Universidad de Barcelona. Departamento de Mtodos de Investigacin y Diagnstico en Educacin (MIDE). mjrubio@ub.edu Ruth Vil Baos. Profesora. Universidad de Barcelona. Departamento de Mtodos de Investigacin y Diagnstico en Educacin (MIDE). ruth_vila@ub.edu
//REIRE, Vol. 6, nm. 1, enero 2013 //ISSN: 1886-1946 //Depsito legal: B.20973-2006 // DOI:10.1344/reire2013.6.1615
- 65 -
Universitat de Barcelona. Institut de Cincies de lEducaci
1. Dnde ubicamos los rboles de decisin

Los rboles de decisin son una tcnica de minera de datos (Data Mining, DM) prepara, sondea y explora los datos para sacar la informacin oculta en ellos. Se aborda la solucin a problemas de prediccin, clasificacin y segmentacin. Las tcnicas de la minera de datos provienen de la Inteligencia Artificial y de la Estadstica. Dichas tcnicas no son ms que algoritmos, ms o menos sofisticados, que se aplican sobre un conjunto de datos para obtener unos resultados. Las tcnicas ms representativas son: redes neuronales, regresin lineal, rboles de decisin, modelos estadsticos, agrupamiento o clustering y reglas de asociacin. La clasificacin inicial de las tcnicas de minera de datos distingue entre tcnicas predictivas, en las que las variables pueden clasificarse en dependientes e independientes; tcnicas descriptivas, en las que todas las variables tienen el mismo estatus y tcnicas auxiliares, en las que se realiza un anlisis multidimensional de datos. En la figura 1 se muestra una clasificacin de las tcnicas de minera de datos donde hallamos los rboles de decisin (Prez y Santn, 2008).
Figura 1. Clasificacin de las tcnicas de Data Mining (Prez y Santn, 2008).
- 66 -
2. Usos generales del anlisis de rboles de decisin

Los rboles de decisin crean un modelo de clasificacin basado en diagramas de flujo. Clasifican casos en grupos o pronostican valores de una variable dependiente (criterio) basada en valores de variables independientes (predictoras). Las ventajas de un rbol de decisin son (Prez, 2011): Facilita la interpretacin de la decisin adoptada. Facilita la comprensin del conocimiento utilizado en la toma de decisiones. Explica el comportamiento respecto a una determinada decisin. Reduce el nmero de variables independientes.
Para ejemplificar de forma grfica lo que es un rbol de decisin proponemos un sencillo ejemplo. Imaginemos que queremos conocer qu variables influyen primordialmente a la hora de aprobar el primer curso de Ingeniera Electrnica. Es decir, queremos conocer qu estudiantes matriculados de primer curso de esta carrera tienen ms probabilidades de aprobar el conjunto de las asignaturas, y qu caractersticas estn asociadas a este xito acadmico. En este caso, la variable de inters (VD) es el rendimiento acadmico en el primer curso. Tras introducir los datos necesarios en el programa, ste nos devuelve un diagrama que nos permite comprobar que la satisfaccin con la carrera y las horas de estudio diarias son las variables que determinan principalmente el xito acadmico de un estudiante. Aprueban, sobre todo, los estudiantes satisfechos con la carrera que cursan y, dentro de este grupo, los que dedican ms horas al estudio. Es decir, si un estudiante de primer curso de Ingeniera Electrnica est satisfecho con la carrera y estudia ms de tres horas diarias, entonces tiene una probabilidad de aprobar el conjunto del primer curso del 93%.
Estudiantes de primer curso de Ingeniera Electrnica Aprueban 65% Suspenden 45%
Satisfechos con la carrera Aprueban 75% Suspenden 25%
No satisfechos con la carrera Aprueban 40% Suspenden 60%
Estudian menos de tres horas diarias Aprueban 45% Suspenden 55%
Estudian tres o ms horas diarias Aprueban 93% Suspenden 7%
Figura 2. rbol de clasificacin del rendimiento acadmico de estudiantes de primer curso de Ingeniera Electrnica (datos ficticios para uso didctico).
- 67 -
La terminologa asociada a la tcnica de los rboles de decisin recurre a una terminologa especfica, por lo que consideramos interesante, antes de seguir adelante, clarificarla.
Nodo de decisin: Nodo que indica que una decisin necesita tomarse en ese punto del
proceso. Est representado por un cuadrado.
Nodo de probabilidad: Nodo que indica que en ese punto del proceso ocurre un evento aleatorio. Probabilidades de que ocurran los eventos posibles como resultado de las
decisiones. Est representado por un crculo.
Nodo terminal: Nodo en el que todos los casos tienen el mismo valor para la variable
dependiente. Es un nodo homogneo que no requiere ninguna divisin adicional, ya que es puro.
Rama: Nos muestra los distintos caminos que se pueden emprender cuando tomamos una decisin o bien ocurre algn evento aleatorio. Resultados de las posibles
interacciones entre las alternativas de decisin y los eventos.
Existen cuatro mtodos de divisin para los rboles cuyas caractersticas resumimos a continuacin:
CHAID (Chi-square automatic interaction detector): Consiste en un rpido algoritmo de

rbol estadstico y multidireccional que explora datos de forma rpida y eficaz, y crea segmentos y perfiles con respecto al resultado deseado. Permite la deteccin automtica de interacciones mediante Chi-cuadrado. En cada paso, CHAID elige la variable independiente (predictora) que presenta la interaccin ms fuerte con la variable dependiente. Las categoras de cada predictor se funden si no son significativamente distintas respecto a la variable dependiente.
CHAID exhaustivo: Supone una modificacin de CHAID que examina todas las divisiones
posibles para cada predictor y trata todas las variables por igual, independientemente del tipo y el nmero de categoras.
rboles de clasificacin y regresin (CRT-Classification and regression trees): Consiste en

un algoritmo de rbol binario completo que hace particiones de los datos y genera subconjuntos precisos y homogneos. CRT divide los datos en segmentos para que sean lo ms homogneos posible respecto a la variable dependiente.
QUEST (Quick, unbiased, efficient, statistical tree): Consiste en un algoritmo estadstico

que selecciona variables sin sesgo y crea rboles binarios precisos de forma rpida y eficaz. Con cuatro algoritmos tenemos la posibilidad de probar mtodos diferentes de crecimiento de los rboles y encontrar el que mejor se adapte a nuestros datos. Es un mtodo rpido y que evita el sesgo que presentan otros mtodos al favorecer los predictores con muchas categoras. Slo puede especificarse QUEST si la variable dependiente es nominal.
- 68 -
El paquete estadstico de SPSS permite las siguientes posibilidades en relacin con la tcnica de los rboles de decisin: Identificar grupos, segmentos y patrones de forma altamente visual. Seleccionar entre diferentes tipos de rbol: CHAID, CHAID exhaustivo, CRT y QUEST, segn el que mejor se ajuste a nuestros datos. Presentar resultados de forma intuitiva, lo que facilita la interpretacin para pblicos sin demasiados conocimientos de estadstica. Guardar informacin de los rboles como nuevas variables en los datos. Informacin como el nmero de nodo de terminal, el valor pronosticado y las probabilidades pronosticadas.
3.
Crear un rbol de decisin

Para acompaar la creacin de un primer rbol de decisin y concretarlo en el programa SPSS, proponemos el siguiente caso prctico:
Se ha realizado una encuesta a 3.511 estudiantes de Ingeniera Electrnica de diversas universidades catalanas con el objetivo de identificar los factores ms significativos a la hora de aprobar el primer curso de esta carrera universitaria.
Es importante que antes de empezar revisemos: Las escalas de medida asignadas a la matriz de datos del SPSS, ya que pueden afectar a la creacin del rbol, si no estn bien definidas. La muestra: se aconseja que sea suficientemente cuantiosa (evitar muestras con menos de 1.000 casos). La seleccin del mtodo de crecimiento ms adecuado: CHAID, CHAID Exhaustivo, CRT o QUEST.
- 69 -
Para ejecutar el anlisis de rbol de decisiones se seleccionan los mens: Analizar-Clasificar-rbol.
Figura 3. Cuadro de dilogo rbol de decisin en SPSS.
La variable que queremos explicar, es decir, la variable dependiente es el rendimiento acadmico de los estudiantes de primer curso de Ingeniera Electrnica, y como variables explicativas, esto es, las variables independientes, seleccionamos algunas del total de variables de tipo sociodemogrfico incluidas en la encuesta, las consideradas ms probables. En nuestro ejemplo seleccionamos las siguientes variables: nmero de horas de estudio diarias, eleccin de la carrera en primera opcin, trabajar y satisfaccin con la carrera.
a b c
Figura 4. Cuadro de dilogo rbol de decisin CHAID exhaustivo.
- 70 -
El procedimiento excluir de forma automtica cualquier variable de las seleccionadas cuya contribucin al modelo final no sea significativa. En este momento ya se puede ejecutar el procedimiento y generar un modelo de rbol bsico, pero vamos a modificar algunos parmetros que podemos seleccionar en los diferentes botones del cuadro de dilogo general de la figura 4. En el botn Categoras se pueden especificar las categoras objetivo de inters de la variable dependiente. Hay que tener en cuenta que, si bien las categoras objetivo no afectan al modelo del rbol propiamente dicho, algunos resultados y opciones slo estarn disponibles si se han seleccionado categoras objetivo. Es decir, para variables dependientes categricas (nominales, ordinales), se puede controlar qu categoras se incluirn en el anlisis e identificar las categoras objeto de inters. La opcin primera variable forzosa sirve para forzar que la primera variable independiente de la lista sea la primera que aparezca en la divisin del rbol. Esta opcin nicamente se marcar cuando la investigacin as lo requiera. El desplegable mtodo de crecimiento permite seleccionar entre los cuatro existentes: CHAID, CHAID exhaustivo, CRT y QUEST. Para este ejemplo, utilizaremos el mtodo CHAID exhaustivo. Resultados Pulsando el botn de Resultados (en la figura 4 marcado con a) se abre un cuadro de dilogo con pestaas, en el que se pueden seleccionar distintos tipos de opciones.
Figura 5. Cuadro de dilogo Resultados, pestaa rbol.
- 71 -
La pestaa rbol permite controlar el aspecto inicial del rbol o suprimir completamente su presentacin. Por defecto aparecen ya marcadas las siguientes opciones:
Orientacin. El rbol se muestra de arriba abajo, con el nodo raz situado en la parte
superior. Tambin se podra mostrar de izquierda a derecha, o de derecha a izquierda.
Contenidos de los nodos. Los nodos pueden mostrar tablas, grficos o ambos. Para
variables dependientes categricas, las tablas muestran frecuencias y porcentajes, y los grficos son diagramas de barras. Para variables dependientes de escala, las tablas muestran medias, desviaciones tpicas, nmero de casos y valores pronosticados, y los grficos son histogramas. Por defecto, aparece la tabla, aunque sugerimos seleccionar rbol en formato de tabla y grfico. Esta opcin ofrece una opcin grfica muy clarificadora del rbol.
Escala. Por defecto, los rboles grandes se reducen de forma automtica para
intentar ajustar el rbol a la pgina, pero se puede especificar un porcentaje de escala personalizado de hasta el 200%.
Estadsticos de las variables independientes. Para CHAID y CHAID exhaustivo, los

estadsticos incluyen el valor F (para variables dependientes de escala) o el valor Chi-cuadrado (para variables dependientes categricas) as como el valor de significacin y los grados de libertad. Para CRT, se muestra el valor de mejora. Para QUEST, se muestra el valor F, el valor de significacin y los grados de libertad para las variables independientes ordinales y de escala; por su parte, para las variables independientes nominales se muestra el valor Chi-cuadrado, el valor de significacin y los grados de libertad.
Definiciones de los nodos. Las definiciones de nodos muestran el valor o valores de

la variable independiente utilizados en cada divisin de nodos.
En la pestaa Estadsticos las opciones disponibles dependen del nivel de medida de la variable dependiente, del mtodo de crecimiento y de otros valores de configuracin. Por defecto estn seleccionadas las siguientes opciones:
Resumen. El resumen incluye el mtodo utilizado, las variables incluidas en el

modelo y las variables especificadas pero no incluidas en el modelo.
Riesgo. Estimacin del riesgo y su error tpico. Una medida de la precisin predictiva del rbol. Para variables dependientes categricas, la estimacin de riesgo es la proporcin de casos clasificados incorrectamente despus de haber sido corregido respecto a las probabilidades previas y los costes de clasificacin errnea. Para variables dependientes de escala, la estimacin de riesgo corresponde a la varianza dentro del nodo. Tabla de clasificacin. Para variables dependientes categricas (nominales, ordinales), esta tabla muestra el nmero de casos clasificados correcta e
- 72 -
incorrectamente para cada categora de la variable dependiente. No est disponible para variables dependientes escalares. La pestaa Reglas ofrece la capacidad de generar reglas de seleccin o clasificacin/prediccin en forma de sintaxis de comandos, SQL o slo texto (ingls sin formato). Estas reglas se pueden visualizar en el Visor y/o guardar en un archivo externo. Validacin del modelo En el botn Validacin (en la figura 4 marcado con b) podemos validar el modelo. La validacin permite evaluar la bondad de la estructura de rbol cuando se generaliza para una mayor poblacin. Existen dos mtodos de validacin disponibles: la validacin cruzada y la validacin por divisin muestral. La validacin cruzada divide la muestra en un nmero de submuestras y, a continuacin, se generan los modelos de rbol. Con la validacin por divisin muestral, el modelo se genera utilizando una muestra de entrenamiento y despus pone a prueba ese modelo con una muestra de reserva.
Figura 6. Cuadro de dilogo validacin.
Criterios de crecimiento del rbol El botn Criterios (en la figura 4 marcado con c) permite establecer los criterios de crecimiento del rbol. Para este ejemplo, deseamos que el rbol sea lo ms sencillo posible, as que limitaremos el crecimiento del rbol elevando el nmero de casos mnimo para nodos parentales y filiales, tal como aparece por defecto en el programa.
- 73 -
La pestaa Lmites de crecimiento permite limitar el nmero de niveles del rbol y controlar el nmero de casos mnimo para nodos parentales y filiales. Se pueden modificar algunos de los siguientes parmetros:
Mxima profundidad de rbol. Controla el nmero mximo de niveles de crecimiento por debajo del nodo raz. El ajuste Automtica limita el rbol a tres
niveles por debajo del nodo raz para los mtodos CHAID y CHAID exhaustivo y a cinco niveles para los mtodos CRT y QUEST.
Nmero de casos mnimo. Controla el nmero de casos mnimo para los nodos. Los
nodos que no cumplen estos criterios no se dividen. El aumento de los valores mnimos tiende a generar rboles con menos nodos. La disminucin de dichos valores mnimos generar rboles con ms nodos. Para archivos de datos con un nmero pequeo de casos, es posible que, en ocasiones, los valores por defecto de 100 casos para nodos parentales y de 50 casos para nodos filiales den como resultado rboles sin ningn nodo por debajo del nodo raz; en este caso, la disminucin de los valores mnimos podra generar resultados ms tiles.
Figura 7. Cuadro de dilogo Criterios, pestaa Lmites de crecimiento.
Para los mtodos CHAID y CHAID exhaustivo (pestaa CHAID), puede controlarse el nivel de significacin para la divisin de nodos y la fusin de categoras. Para ambos criterios, el nivel de significacin por defecto es igual a 0,05. Debe tenerse en cuenta que, para variables dependientes ordinales, el valor de Chicuadrado para determinar la divisin de nodos y la fusin de categoras se calcula mediante el mtodo de la razn de verosimilitud. Para variables dependientes nominales, puede seleccionarse el mtodo Pearson.
- 74 -
4.
Cmo interpretar los outputs

Al generar el rbol obtenemos tres outputs en SPSS: Tabla que proporciona informacin acerca del modelo. Diagrama del rbol. Las variables de prediccin del modelo aadidas al conjunto de datos activo.
La Tabla de resumen del modelo proporciona informacin general sobre las especificaciones utilizadas para crear el modelo y sobre el modelo resultante. La seccin Especificaciones ofrece informacin sobre los valores de configuracin utilizados para generar el modelo de rbol, incluidas las variables utilizadas en el anlisis. La seccin Resultados muestra informacin sobre el nmero de nodos totales y terminales, la profundidad del rbol (nmero de niveles por debajo del nodo raz) y las variables independientes incluidas en el modelo final.
Figura 8. Tabla Resumen del modelo..
El Diagrama de rbol obtenido es una representacin grfica del modelo del rbol. En el ejemplo, todas las variables son tratadas como nominales y cada nodo contiene una tabla de frecuencias que muestra el nmero de casos (frecuencia y porcentaje) para cada categora de la variable dependiente. Tambin incluye el grfico de frecuencias. La categora pronosticada, que es la categora con el mayor valor de frecuencia en cada nodo, aparece resaltada con una franja gris.
- 75 -
Figura 9. Diagrama del rbol para el modelo de xito acadmico en el primer curso de Ingeniera Electrnica.
Cmo empezar a interpretar el rbol de decisin:
1. En primer lugar, nos fijamos en el nodo 0 que describe la variable dependiente: porcentaje de los estudiantes que suspenden y de los que aprueban. 2. Seguidamente observamos que la variable dependiente se ramifica en dos nodos: Nodo 1 y 2 pertenecientes a la variable Satisfaccin con la carrera, indicando que sta es la variable principal predictora.
- 76 -
3. A continuacin, debemos fijarnos en el Nodo 1, ya que su Chi-Cuadrado es superior a la del Nodo 2. Adems, nos interesa conocer el perfil de los estudiantes que aprueban, por ser nuestro objetivo de investigacin. El Nodo 1 nos indica que del 55.9% de los que estn satisfechos con su carrera, el 67% aprueban. 4. El Nodo 1 se vuelve a ramificar en los Nodos 3 y 4 pertenecientes a la variable Horas de estudio. Observamos en el Nodo 4 que aprueban ms los estudiantes que dedican ms de tres horas diarias al estudio, con un 74.6%, frente a un 51.4% del Nodo 3 que aprueban estudiando menos de tres horas diarias. 5. El Nodo 4 se ramifica en los nodos 9 y 10, pertenecientes a la variable Si trabaja o no. Y aqu observamos que un 92.9% de los estudiantes que no trabajan aprueban. 6. Por tanto, a modo resumen, los nodos que definen el perfil de los estudiantes que aprueban (variables que influyen en Aprobar) son: Nodo 0 -Nodo 1 - Nodo 4 - Nodo 10. Es decir, influyen las siguientes variables: Rendimiento acadmico - Satisfaccin con la carrera - Nmero de horas de estudio - Si trabaja o no.
Algunas conclusiones posibles del rbol de la figura 10, son: La variable Satisfaccin con la carrera es el mejor predictor para el Rendimiento acadmico del primer curso, con dos categoras: aprobar y suspender. La probabilidad ms alta de aprobar (92.9%) se da entre los estudiantes que se sienten satisfechos con la carrera, estudian ms de tres horas diarias y no trabajan (tal como hemos sealado en el crculo de la figura 9). La probabilidad ms baja de aprobar (20.7%) se da entre los estudiantes que no estn satisfechos con la carrera y que dedican menos de tres horas diarias al estudio. Si estos alumnos estudian ms de tres horas diarias y adems no trabajan, la probabilidad de aprobar aumenta hasta el 82.3%. Entre los estudiantes que estn satisfechos con la carrera, los que estudian menos de tres horas y no han escogido la carrera como primera opcin slo tienen el 41.3% de probabilidad de aprobar.
Para finalizar, las variables de prediccin del modelo aparecen en las tablas de riesgo y de clasificacin, y proporcionan una rpida evaluacin de la bondad del funcionamiento del modelo, tal y como se observa en la figura 10.
- 77 -
Figura 10. Tablas de riesgo y clasificacin del rbol de decisin.
Para la interpretacin de estas tablas debemos considerar que los resultados en la tabla de clasificacin son coherentes con la estimacin de riesgo. La tabla muestra que el modelo clasifica de forma correcta, aproximadamente, al 69.3% de los individuos en general. De forma especfica para cada categora de la variable dependiente ofrece un acierto ligeramente ms elevado en el caso de la categora aprobar, con un 69.6%.
<Referencias bibliogrficas>
Hernndez, J.; Ramrez, M.J. y Ferri, C. (2004). Introduccin a la minera de datos. Madrid: Pearson educacin. Lind, D.A; Marchal, W.G. y Wathen, S.A. (2012). Estadstica aplicada a los negocios y la economa. Mxico D.F.: MCGraw Hill. Prez, C. (2011). Tcnicas de segmentacin. Conceptos, herramientas y aplicaciones. Madrid: Gaceta Grupo Editorial. Prez, C. (2004). Tcnicas de anlisis multivariante de datos. Aplicaciones con SPSS. Madrid: Pearson educacin. Prez, C. y Santn, D. (2007). Minera de Datos: Tcnicas y Herramientas. Madrid: Ediciones Paraninfo, S.A.
- 78 -
Silberschatz, A. (2007). Fundamentos de diseo de bases de datos (5 ed.). Madrid: Mcgraw-hill/ Interamericana de Espaa, S.A. Torrado, M. (2011). Minera de datos aplicados a la educacin. Consultado el 1 de octubre de 2012, en Depsito digital de la UB http://hdl.handle.net/2445/19862 Valderrey, P. (2010). Tcnicas de segmentacin de mercados. Madrid: Starbook editorial. Vil, R. y Bisquerra, R. (2004). El anlisis cuantitativo de los datos. Bisquerra, R. (coord). Metodologa de la investigacin educativa (pp. 259-274). Madrid: La Muralla. Vil, R. (2012). Arbres de decisi amb SPSS. Consultado el 1 de octubre de 2012, en Depsito digital de la UB: http://hdl.handle.net/2445/22282.
Copyright 2013. Esta obra est sujeta a una licencia de Creative Commons mediante la cual, cualquier explotacin de sta, deber reconocer a sus autores, citados en la referencia recomendada que aparece al inicio de este documento.
- 79 -

Arbol de Decision en Spss

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Arbol de Decision en Spss

Caricato da

Copyright:

Formati disponibili

Universitat de de Barcelona. Barcelona.

Institut Institut de de Cincies Cincies de de lEducaci lEducaci Universitat

<Artculo> Cmo aplicar rboles de decisin en SPSS.

Universitat de Barcelona. Institut de Cincies de lEducaci

1. Dnde ubicamos los rboles de decisin

Figura 1. Clasificacin de las tcnicas de Data Mining (Prez y Santn, 2008).

Universitat de Barcelona. Institut de Cincies de lEducaci

2. Usos generales del anlisis de rboles de decisin

Estudiantes de primer curso de Ingeniera Electrnica Aprueban 65% Suspenden 45%

Satisfechos con la carrera Aprueban 75% Suspenden 25%

No satisfechos con la carrera Aprueban 40% Suspenden 60%

Estudian menos de tres horas diarias Aprueban 45% Suspenden 55%

Estudian tres o ms horas diarias Aprueban 93% Suspenden 7%

Universitat de Barcelona. Institut de Cincies de lEducaci

CHAID (Chi-square automatic interaction detector): Consiste en un rpido algoritmo de

rboles de clasificacin y regresin (CRT-Classification and regression trees): Consiste en

QUEST (Quick, unbiased, efficient, statistical tree): Consiste en un algoritmo estadstico

Universitat de Barcelona. Institut de Cincies de lEducaci

Crear un rbol de decisin

Universitat de Barcelona. Institut de Cincies de lEducaci

Para ejecutar el anlisis de rbol de decisiones se seleccionan los mens: Analizar-Clasificar-rbol.

Figura 3. Cuadro de dilogo rbol de decisin en SPSS.

Figura 4. Cuadro de dilogo rbol de decisin CHAID exhaustivo.

Universitat de Barcelona. Institut de Cincies de lEducaci

Figura 5. Cuadro de dilogo Resultados, pestaa rbol.

Universitat de Barcelona. Institut de Cincies de lEducaci

Estadsticos de las variables independientes. Para CHAID y CHAID exhaustivo, los

Definiciones de los nodos. Las definiciones de nodos muestran el valor o valores de

Resumen. El resumen incluye el mtodo utilizado, las variables incluidas en el

Universitat de Barcelona. Institut de Cincies de lEducaci

Figura 6. Cuadro de dilogo validacin.

Universitat de Barcelona. Institut de Cincies de lEducaci

Figura 7. Cuadro de dilogo Criterios, pestaa Lmites de crecimiento.

Universitat de Barcelona. Institut de Cincies de lEducaci

Cmo interpretar los outputs

Figura 8. Tabla Resumen del modelo..

Universitat de Barcelona. Institut de Cincies de lEducaci

Cmo empezar a interpretar el rbol de decisin:

Universitat de Barcelona. Institut de Cincies de lEducaci

Universitat de Barcelona. Institut de Cincies de lEducaci

Figura 10. Tablas de riesgo y clasificacin del rbol de decisin.

Universitat de Barcelona. Institut de Cincies de lEducaci

Potrebbero piacerti anche