Sei sulla pagina 1di 136

COLEGIO DE POSTGRADUADOS

INSTITUCIN DE ENSEANZA E INVESTIGACIN


EN CIENCIAS AGRCOLAS

CAMPUS MONTECILLO
SOCIOECONOMA, ESTADSTICA E INFORMTICA
ESTADSTICA

MINERA DE DATOS USANDO


SAS ENTERPRISE MINER;
UNA APLICACIN EN DATOS FORESTALES

VICTORIA LUCIA CARMONA MOTA

T E S I S
PRESENTADA COMO REQUISITO PARCIAL
PARA OBTENER EL GRADO DE:

M A E S T R A EN C I E N C I A S
MONTECILLO, TEXCOCO, EDO. DE MXICO

2006

DEDICATORIAS
A mis Padres
Por el amor que me han dado, enseanzas, y sobre todo su entereza ante
las adversidades.
A mis Hermanos y Hermanas
Por el amor, proteccin y apoyo que me han brindado durante toda mi vida.
A mis Sobrinos y Sobrinas
(Beto, Monse, Paco, Rebeca, y Fernandito).
Porque sin ustedes no hubiera sido posible lograr esta meta.

AGRADECIMIENTOS
A Dios
Al Consejo Nacional de Ciencia y Tecnologa (CONACYT) por el apoyo
econmico brindado durante esta etapa de mi formacin acadmica.
Al Dr. Humberto Vaquera Huerta por el compromiso, motivacin y
paciencia para la realizacin del presente trabajo.
Al Dr. Antonio Martnez Alcntara por sus conocimientos; y por sus
sugerencias para mejorar este trabajo.
A la Dra. Martha Elva Ramrez Guzmn por sus sugerencias y correcciones
para la realizacin de este trabajo.
Al Dr. Ren Valdez Lazalde por su valiosa ayuda, y disponibilidad en la
elaboracin de este trabajo.
Al M.C. Guadalupe Hernndez Lira por su apoyo e impulso para continuar
mis estudios.
Al M.C. Paulino Prez Rodrguez por los conocimientos compartidos y su
maravillosa calidad humana.
A mi amigo Adalberto Pineda por su compaa, cario y apoyo en el tiempo
compartido durante la maestra.
A mis amigas: Vernica Macias, Laura Cabaas y Roco Cervantes por los
nimos y apoyo durante este tiempo de estudio.
A mis profesores, amigos y todas las personas que de alguna manera me
ayudaron durante mis estudios de maestra. Muchas gracias.
VLCM

CONTENIDO
RESUMEN ....................................................................................................i
ABSTRACT..................................................................................................ii
1. Introduccin............................................................................................1
1.1. Objetivos .............................................................................................................. 3
Objetivo General ................................................................................................... 3
Objetivos Particulares ........................................................................................... 3
1.2. Justificacin.......................................................................................................... 3

2. Descubrimiento de conocimiento en bases de datos (KDD) y


minera de datos.........................................................................................4
2.1. Historia de la minera de datos............................................................................. 4
2.2. Definicin de descubrimiento de conocimiento en bases de datos (KDD) ........... 4
2.3. El proceso de descubrimiento de conocimiento en bases de datos (KDD) .......... 5
2.4. Minera de datos................................................................................................... 8
2.4.1. Objetivos de la minera de datos................................................................. 8
2.5. La importancia de la estadstica en KDD y minera de datos. ............................ 10
2.6. Evaluacin de patrones del descubrimiento de conocimiento en bases de datos
(KDD). ....................................................................................................................... 11

3. Modelos de clasificacin .....................................................................12


3.1. Introduccin........................................................................................................ 12
3.2. Modelos de regresin logstica........................................................................... 12
3.3. Modelo de regresin logstica polinomial (multinomial). ..................................... 14
3.4. Modelos de redes neuronales artificiales ........................................................... 16
3.4.1. Estructura de una red neuronal natural..................................................... 16
3.4.2. Redes neuronales artificiales .................................................................... 17
3.4.3. Perceptrn simple capa. ........................................................................... 17
3.4.4. Funcin de activacin o transferencia....................................................... 18
3.4.5. Modelo perceptrn multicapa con dos capas............................................ 20
3.4.5. Modelo perceptrn multicapa.................................................................... 21
3.4.6. Entrenamiento de los modelos perceptrn multicapa ............................... 22
3.5. Modelos de rboles de decisin ......................................................................... 25
3.5.1 rboles de regresin .................................................................................. 25
3.5.2. Mtodo para podar rboles de decisin. ................................................... 26
3.5.3. rboles de clasificacin............................................................................. 27
3.6. Certeza de los modelos de clasificacin. ........................................................... 28

4. Minera de datos con SAS (Enterprise Miner)....................................30


4.1. Introduccin........................................................................................................ 30
4.2. Requerimientos de SAS Enterprise Miner. ......................................................... 30
4.3. El proceso de minera de datos usando SAS Enterprise Miner.......................... 31
4.4. Inicio de SAS Enterprise Miner........................................................................... 31

4.5. Proyecto ............................................................................................................. 33


4.5.1. Estructura de un proyecto. ........................................................................ 33
4.5.2. Crear un proyecto. .................................................................................... 34
4.5.3. Exportar un proyecto................................................................................. 34
4.6. Proyecto cliente/servidor .................................................................................... 35
4.6.1. Servidor nico-usuario .............................................................................. 35
4.6.2. Servidor multi-usuario ............................................................................... 35
4.6.3. Acceso al mtodo de comunicacin.......................................................... 35
4.6.4. Definir un cliente/servidor.......................................................................... 36
4.7. Diagrama............................................................................................................ 36
4.7.1. Crear un diagrama .................................................................................... 37
4.8. Nodos .................................................................................................................39
4.8.1. Sampling ................................................................................................... 41
4.8.2. Exploring ................................................................................................... 41
4.8.3. Modify ....................................................................................................... 42
4.8.4. Model ........................................................................................................ 43
4.8.5. Assessing.................................................................................................. 45
4.8.6. Scoring...................................................................................................... 45
3.8.7. Utility ......................................................................................................... 46
4.8.8. Clonar un nodo.......................................................................................... 47
4.9. Modelos de clasificacin..................................................................................... 48
4.9.1. Seleccin de variables para el modelo multinomial .................................. 48
4.9.2. Modelo de redes neuronales..................................................................... 48
4.9.3. rboles de clasificacin............................................................................. 49
4.9.4. Matriz de decisiones y probabilidades a-priori .......................................... 49
4.9.4. Evaluacin y seleccin de los modelos de clasificacin............................ 51

5. Un ejemplo de minera de datos usando Enterprise Miner en la


clasificacin de la cobertura forestal .....................................................52
5.1. Introduccin........................................................................................................ 52
5.2. Antecedentes del problema................................................................................ 53
5.3. Planteamiento del problema de aplicacin. ........................................................ 55
5.4. Inicio del diagrama. ............................................................................................ 56
5.5. Base de datos de entrada. ................................................................................. 56
5.5.1. Definicin del archivo objetivo................................................................... 60
5.5. Base de datos para el entrenamiento, validacin y prueba. ............................... 62
5.6. Visualizacin de datos........................................................................................ 64
5.7. Transformacin de variables. ............................................................................. 68
5.8. Modelos de clasificacin..................................................................................... 69
5.8.1. Ajuste de un modelo de regresin multinomial ......................................... 69
5.8.2. Ajuste un modelo de redes neuronales..................................................... 72
5.8.3. Ajuste del modelo de rboles de clasificacin........................................... 76
5.9. Evaluacin de los modelos................................................................................. 80
5.10. Base de datos para futuras clasificaciones. ..................................................... 86
5.11. Base de datos Score. ....................................................................................... 86
5.12. Prdida esperada del nuevo conjunto de datos. .............................................. 88

5.13. Uso de SAS Code para los resultados de SAS Score...................................... 90


5.14. Reporte Web. ................................................................................................... 92
5.15. Resultados y Discusin .................................................................................... 94

6. Conclusiones........................................................................................95
Bibliografa................................................................................................96
Anexo 1 .....................................................................................................99
Anexo 2 ...................................................................................................101

RESUMEN
La minera de datos es una disciplina nueva que es til para investigadores que
manejan grandes volmenes de informacin. SAS Institute Inc. ha desarrollado la
metodologa SEMMA; la cual automatiza el proceso de la minera de datos a travs del
programa Enterprise Miner. Este trabajo busc encontrar una estructura para clasificar
la cobertura forestal con el programa mencionado, utilizando datos de cuatro reas del
bosque Roosevelt National Forest localizado aproximadamente a 70 millas al noroeste
de Denver, Colorado, EEUU. Se entrenaron tres modelos de clasificacin: redes
neuronales, multinomial y rboles de clasificacin, con el criterio de minimizar la
prdida, la cual es cuantificada en una escala de 0 a 7. Los resultados sealan que el
modelo de redes neuronales clasifica correctamente 74.83% de cobertura forestal, el
multinomial 72.26%, y el de rboles de clasificacin 69.35%. La prdida promedio es
1.05 para el modelo de redes neuronales, 1.16 para el multinomial, y 1.30 para el de
rboles de clasificacin.
Palabras clave: rboles de clasificacin, bases de datos, matriz de prdidas, modelo
de regresin logstica multinomial, redes neuronales artificiales.

ABSTRACT
Data mining is a new discipline that is useful for researchers that manage large
databases. SAS Institute Inc. has developed the SEMMA methodology, which
automatizes the data mining process through the Enterprise Miner software. This work
looks for finding a structure for classifying forest cover with Enterprise Miner. Using data
sets from the Roosevelt National Forest, located approximately 70 miles northwest of
Denver, Colorado USA. Three classification models were trained: a neural network, a
multinomial and a classification tree with minimum loss criterion, which is scaled at the
range 0 to 7. The results indicated that the neural network model classification accuracy
was 74.83% of the forest cover, the multinomial model classification accuracy was
72.26% and the classification tree model classification accuracy was 69.35%. The
average loss was 1.05 for the neural networks model, 1.16 for the multinomial model
and 1.30 for the classification tree.
Keywords: Classification Trees, Databases, Loss Matrix, Logistic Regression
Multinomial Model, Artificial Neural Networks.

ii

1. Introduccin
En la ltimas dcadas el avance de la ciencia computacional ha provocado un enorme
crecimiento de informacin almacenada, no es exagerado decir que el mundo actual es
un universo de datos, basta con mencionar el tamao de algunas bases de datos tales
como Yahoo que a travs de su red transfiere arriba de 10TB1 por da, adems es
utilizada por ms de 410 millones de usuarios en un mes generando una enorme
cantidad de informacin (Piatestsky-Shapiro, 2006a). Otro caso es WalMart que aade
alredor de 1 billn de registros a su base de datos diariamente (USA TODAY, 2006). En
reas cientficas tambin hay grandes volmenes de informacin un ejemplo de ello es
Digital Palomar Sky Survey (DPOSS) quien genera imgenes de aproximadamente 3TB
de pxeles por da (AAS, 2002). Consecuentemente a tal crecimiento y la rapidez con
que se actualizan los datos surge la necesidad de desarrollar mtodos que permitan
automatizar el proceso de encontrar patrones ocultos en enormes bases de datos, dicho
proceso es llamado minera de datos.
En los ltimos aos el xito de la minera de datos ha sido impresionante, as lo
muestran las siguientes aplicaciones: El sistema SKY Image Cataloguing and Analysis
Tool (SKYCAT) se basa en tcnicas de minera de datos para poder clasificar los
objetos en estrellas, planetas, sistemas y galaxias. El FBI analiza bases de datos
comerciales para detectar terroristas. Los registros (logs) que dejan los navegadores de
pginas web son procesados mediante tcnicas denominadas Webmining. Informacin
oculta en colecciones de texto se extrae mediante mtodos de Texmining (Molina,
2005). En general la minera de datos se aplica a cualquier rea interesada en explotar
bases de datos.
La minera de datos es una disciplina que fusiona reas tales como bases de datos,
inteligencia artificial y estadstica, expertos de dichas reas se han involucrado en el
desarrollo de tcnicas que permitan encontrar relaciones y patrones ocultos en los
datos, pero a pesar de los avances an hay mucho por hacer, tan es as que
instituciones como Microsoft se han interesado en la ciencia computacional para el
anlisis de datos (Piatestsky-Shapiro, 2006b). Pero no solo Microsoft se ha interesado
en la comercializacin de metodologas y programas para sistematizar problemas de
minera de datos. Algunas metodologas disponibles son: CRISP-DM principalmente
usado en problemas de negocios y marketing, esta metodologa es de uso libre aunque
actualmente es el soporte para el software Clementine SPSS Data Mining (Jackson,
2002). Por su parte SAS Institute desarroll SEMMA llamada as por sus siglas en
ingls que significan: Sampling, Exploring, Modifying, Model y Assessing ste
procedimiento sistematiza la minera de datos a travs del programa SAS Enterprise
Miner (SAS Institute Inc., 2004). Otros paquetes son S-plus Insightful Miner y Oracle
Data Mining.
El objetivo de sta investigacin es mostrar el proceso de la minera de datos usando
SAS Enterprise Miner, utilizando para ello el problema de encontrar una estructura que
1

TB=Terabytes, 1TB=1012 Bytes

clasifique la cobertura forestal de cuatro reas del bosque de Roosevelt National Forest
localizado al noroeste de Denver Colorado. De manera que el trabajo esta estructurado
de la siguiente forma, el captulo 1 contiene el objetivo general, los objetivos especficos
y la justificacin del estudio, el captulo 2 se refiere a la definicin de minera de datos
dentro del proceso de descubrir conocimientos en bases de datos KDD por sus siglas
en ingls, aunque los dos trminos se usan indistintamente, en un enfoque cientfico
existe diferencia la cual se puntualiza en este captulo, adems se describen algunas
tcnicas de minera de datos y se destaca la importancia de la estadstica dentro de
esta disciplina. En el captulo 3 se describe los aspectos tericos de los modelos de
clasificacin de redes neuronales artificiales, modelo multinomial y rboles de decisin
los cuales se ocupan en el ejemplo de aplicacin. El captulo 4 es una gua del
funcionamiento y manejo del programa incluye especificaciones de los modelos de
clasificacin y los criterios para evaluar y seleccionar stos. El captulo 5 est dedicado
a la aplicacin se detalla cada paso a seguir en el proceso de solucionar el problema de
clasificar la cobertura forestal, adems de discutir los resultados encontrados. Por
ltimo el captulo 6 son las conclusiones de la investigacin.

1.1. Objetivos

Objetivo General
Mostrar el uso de la minera de datos con SAS Enterprise Miner en el anlisis de
bases de datos en el rea de las ciencias agropecuarias.
Objetivos Particulares
Encontrar alguna estructura oculta que lleve a la correcta clasificacin de la
cobertura forestal del bosque Roosevelt National Forest.
Realizar una revisin de bibliografa de las tcnicas de minera de datos,
principalmente de modelos de clasificacin.
Explicar el uso del programa SAS Enterprise Miner.

1.2. Justificacin
El crecimiento de las bases de datos en las ltimas dcadas ha sido impresionante, de
tal manera que la minera de datos es una disciplina til para el entendimiento de la
informacin y toma de decisiones. Esta se utiliza principalmente en reas de negocios y
marketing, sin embargo, en los aos recientes han incrementado las aplicaciones en las
ciencias agropecuarias y en general en reas cientficas.
Por otro lado a pesar de que la literatura relacionada con el tema es extensa se requiere
de documentos prcticos que expliquen de manera clara el proceso de la minera de
datos, por ello la presente investigacin proporciona una gua de tal disciplina usando
SAS Enterprise Miner en un problema de aplicacin, se utiliza este programa debido a
que es una herramienta poderosa comparada con otros programas en el uso de la
disciplina, adems de que en Mxico es un programa de uso tradicional en las ciencias
agropecuarias.

2. Descubrimiento de conocimiento en bases de datos (KDD)


y minera de datos.
2.1. Historia de la minera de datos
El trmino minera de datos no es nuevo, desde los aos 70s los estadsticos
manejaban para explicar el significado de minera de datos, expresiones como:
extraccin de conocimientos, descubrimiento de informacin, cosecha de informacin,
arqueologa de los datos, procesamiento de patrones de los datos, inclusive minera de
datos (Fayyad et al., 1996).
El trmino minera de datos es usado principalmente por los estadsticos. Aunque
conceptualmente hay una diferencia entre minera de datos y descubrimiento de
conocimiento en bases de datos (KDD), regularmente su uso es indistinto, ms adelante
se puntualiza la diferencia.
La frase descubrimiento de conocimiento en bases de datos fue ideada en un primer
taller en 1989 por G. Piatetsky-Shapiro, para destacar que el conocimiento es el fin de
un proceso de exploracin de datos, dicho taller continuo los subsecuentes aos 19911994 donde U. Fayyad, G. Piatetsky-Shapiro, P. Smyth y R. Uthurusamy, presentaban
avances de KDD la primera conferencia que incluy el trmino minera de datos fue a
mediados de los 90s International Conferences on Knowledge Discovery in Databases
and Data Mining; para finalizar el milenio y en los primeros aos del nuevo las
conferencias acerca del tema aumentaron, algunas fueron European Conference on
Principles and Practice of Knowledge Discovery in Databases (PKDD) (1997) PacificAsia Conference on Knowledge Discovery in Databases (PAKDD) (1997), Conference
International on Data Mining, Institute International of Electrical Engineers (IEEE)
(2001), y Conference International on Data Mining, Society for Industrial and Applied
Mathematics (SIAM) (2001). Actualmente el nmero de conferencias y reuniones etc.
acerca del tema es bastante amplio algunas asociaciones destacadas son: SIAM,
PKDD, PAKDD, IEEE, ICDEM, DaWak, SIPIE-DM entre otras (Christen, 2005).

2.2. Definicin de descubrimiento de conocimiento en bases de datos


(KDD)
El descubrimiento de conocimiento en bases de datos, es un rea de investigacin de
naturaleza multidisciplinaria comprende reas como: bases de datos, inteligencia
artificial (aprendizaje de computadoras, reconocimiento de patrones, sistemas de
expertos), y estadstica.

Una definicin formal es ofrecida por (Vazirgiannis et al., 2003 citando a Fayyad et al.
1996). El descubrimiento de conocimiento en bases de datos es un proceso no-trivial de
identificacin valida, novedosa, potencialmente til y entendible de patrones
comprensibles que se encuentran en los datos.
Se desglosan algunos trminos que son parte de la definicin:
Proceso: Implica varios pasos los cuales incluyen pre-procesamiento de los datos,
bsqueda de patrones, evaluacin y mejoramiento del conocimiento.
No trivial: Significa que alguna bsqueda o inferencia esta involucrada.
Patrn: Es un subconjunto de datos que comparten propiedades similares.
Datos: Es un conjunto de registros que aparecen en una base de datos.
Validez: Extraer patrones puede ser validado con base en alguna prueba de datos
con algn grado de certeza, ms adelante se mencionan algunos mtodos de
validacin o evaluacin.
Potencialmente tiles: Que sean de beneficio para el usuario.
Entendibles: El objetivo de descubrir conocimientos es identificar patrones y hacer
esto entendible para los humanos.

2.3. El proceso de descubrimiento de conocimiento en bases de datos


(KDD)
El proceso de descubrimiento de conocimiento en bases de datos es un proceso
iterativo e interactivo. Es iterativo porque el resultado de cada paso podra ser usado
para previos pasos como se muestra en la Figura 1.1. Es interactivo porque el usuario o
experto en el campo de aplicacin debe estar involucrado para ayudar en la
preparacin de los datos, descubrimiento y evaluacin de conocimiento (Vazirgiannis et
al., 2003)
Los pasos en el proceso de KDD son:
1. Desarrollar un entendimiento del dominio de la aplicacin y el conocimiento apriori relevante, as como la identificacin del objetivo del proceso KDD desde el
punto de vista de cliente o usuario.
2. Integrar datos de diferentes tipos de informacin que puede ser usada en el
proceso de descubrir conocimiento. As es que, fuentes de datos mltiples
pueden ser combinados definiendo el conjunto para el cual el proceso minera
es aplicado.
3. Crear un conjunto de datos target (objetivo), seleccionando un conjunto de datos
o un subconjunto de variables sobre los cuales el proceso de descubrir ser
interpretado.
5

4. Limpiar datos y pre-procesamiento, este paso incluye las operaciones bsicas


tales como eliminar datos extremos, colectar la informacin necesaria para
modelar o explicar el ruido y las decisiones sobre las estrategias para datos
faltantes.
5. Transformar los datos o consolidarlos en forma apropiada para explotar o minar
usando reduccin de dimensionalidad o mtodos de transformacin para reducir
el nmero de variables efectivas bajo consideracin o encontrar informacin
invariante para los datos.
6. Seleccionar la tarea de minera de datos y algoritmos, se decide el objetivo del
proceso de KDD seleccionando la tarea de minera de datos para llevar a cabo
dicho objetivo, esto incluye decidir que modelo y parmetros son apropiados,
adems de adecuar los mtodo de minera de datos con los requerimientos y
todos los criterios del proceso de KDD.
7. Aplicar los mtodos de minera de datos para encontrar patrones interesantes de
conocimiento. Los patrones pueden ser para una representacin especfica o un
conjunto de tales representaciones tales como: reglas de clasificacin, rboles de
decisin, regresin, agrupamiento etc. La ejecucin y los resultados de minera
de datos depende de los pasos precedentes.
8. La extraccin de patrones son evaluados sobre algunas mediciones interesantes
para identificar patrones representando conocimientos, ms adelante hay un
apartado acerca de esto.
9. La extraccin de conocimientos es incorporado en un sistema o simplemente la
visualizacin y tcnicas de representacin de conocimientos son usadas para
representar el conocimiento minado para su uso. Tambin se chequea y resuelve
conflictos con conocimientos previos.

Figura 2.1. Proceso de descubrimiento de conocimiento en bases de datos


(Vazirgiannis et al., 2003).
Como se mencion anteriormente el descubrimiento de conocimiento en bases de datos
fusiona varias reas como: bases de datos, inteligencia artificial (aprendizaje de
computadoras, reconocimiento de patrones etc.), y estadstica.
Cada una de estas reas dirige una parte especfica del problema, por ejemplo bases
de datos esta designada al pre-procesamiento, submuestras y transformaciones de los
datos. Un campo relacionado que ha evolucionado con las bases de datos es data
warehousing, el cual se refiere a coleccionar y limpiar transacciones de bases de datos
para hacer estos disponibles para el anlisis y soporte de decisin. Data warehousing
ayuda al KDD en dos importantes formas: limpieza de datos y acceso a los datos.
Por otro lado la estadstica e inteligencia artificial estn enfocadas al desarrollo de
algoritmos para la bsqueda de patrones ocultos, ms adelante destacaremos la
importancia de la estadstica en la minera de datos.

2.4. Minera de datos.


El corazn del proceso de KDD es la aplicacin de mtodos de minera de datos para
descubrir y extraer patrones, con base en el entrenamiento y pruebas utilizando reas
como: aprendizaje de mquinas, reconocimiento de patrones y estadstica.
La minera de datos es un paso en el proceso de KDD que consiste de la aplicacin de
anlisis de datos y descubrimiento de algoritmos con ayuda de mtodos
computacionales produciendo una enumeracin particular de patrones o modelos sobre
los datos (Fayyad et al., 1996).
A continuacin se hace una resea de los mtodos de minera de datos.

2.4.1. Objetivos de la minera de datos.

Los mtodos de minera de datos tienen principalmente dos objetivos:


1.- Prediccin
2.-Descripcin
La prediccin involucra usar variables o campos de las bases de datos para predecir en
un futuro valores desconocidos de otras variables de inters y la descripcin esta
enfocada a encontrar patrones humanamente interpretables que describan los datos.
Aunque la diferencia entre prediccin y descripcin no es muy clara, ya que algunos
modelos de prediccin pueden ser descriptivos y viceversa, la distincin es til para
entender el objetivo general del descubrimiento de conocimientos (Fayyad et al., 1996).
Los objetivos de la minera de datos pueden cumplirse usando una variedad de
mtodos diseados para encontrar patrones ocultos en las bases de datos, en este
apartado se presenta de manera breve una descripcin de los mismos ya que el
objetivo no es presentar de manera detallada tales mtodos, si se requiere ms
informacin se puede consultar (Vazirgiannis et al., 2003)
Antes de presentar las diferentes tcnicas de minera de datos nos enfocamos en dos
conceptos importantes en la aplicacin de los mismos, estos conceptos son:
aprendizaje con supervisin y aprendizaje sin supervisin.
Aprendizaje con supervisin: Suponga un escenario tpico, es decir una variable
respuesta y que se quiere predecir con base en un conjunto de caractersticas x, se
realiza entonces un entrenamiento en el cual se observa las caractersticas de medicin
de un conjunto de casos para la respuesta y, usando estos datos se construye entonces
un modelo de prediccin o clasificacin el cual nos permitir predecir la respuesta con
nuevos datos. A este tipo de aprendizaje se le llama aprendizaje con supervisin porque
la presencia de una variable respuesta gua el proceso de aprendizaje.

Aprendizaje sin supervisin: En este aprendizaje nicamente se observan los datos


durante el entrenamiento y no hay una variable respuesta que gui el proceso.
En minera de datos la variable de respuesta es llamada objetivo y las tcnicas
generalmente se pueden clasificar de acuerdo a su tipo de aprendizaje como:
De clasificacin
El problema de clasificacin ha sido estudiado extensivamente en reconocimiento de
patrones y aprendizaje de mquinas como una posibilidad para adquirir conocimientos.
Es una de las principales tareas de minera de datos.
Un modelo de clasificacin es una funcin que asigna un dato a alguna clase
predefinida. El proceso divide la base de datos en tres conjuntos: entrenamiento,
validacin y prueba. Con el primer conjunto de datos se ajustan iterativamente modelos
hasta elegir uno que satisfaga algn criterio de seleccin. Con el conjunto de validacin
se estima la certeza de los modelos ajustados en el entrenamiento. La certeza es el
porcentaje de datos que son clasificados correctamente por el modelo ajustado en el
entrenamiento. El tercer conjunto de datos se usa para estimar la certeza del modelo
final.
Algunos mtodos de clasificacin son: clasificacin de Bayes, rboles de decisin,
redes neuronales, clasificacin de nearest neighbor, entre otras.
De regresin
Los modelos de regresin son una funcin de aprendizaje que asigna datos para
predecir una variable tomando valores reales. En minera de datos se hace una
distincin entre prediccin y clasificacin, se utiliza prediccin si la variable objetivo que
se quiere predecir es una variable continua o binaria y se clasifica si el objetivo es una
variable categrica o nominal.
De agrupamiento
Es una de las herramientas ms utilizadas en minera de datos para descubrir grupos e
identificar patrones y distribuciones interesantes de los datos bajo estudio. El
agrupamiento se refiere a una particin de un conjunto de datos en grupos tal que los
puntos en un grupo son ms similares que los puntos en diferentes grupos. Tambin se
usan otros nombres para la tcnica de agrupamiento: en el rea de reconocimiento de
patrones se les llama aprendizaje sin supervisin, en biologa y ecologa taxonoma
numrica, topologa en ciencias sociales y particin en teora de grficas.
El procedimiento del agrupamiento no tiene clases pre-definidas ni ejemplos que
puedan mostrar que tipo de relaciones deseables puedan ser validadas entre los datos,
por eso es que se percibe como un proceso sin supervisin.
De resumen
Resumir es el proceso de encontrar una descripcin compacta para un conjunto de
datos. Por ejemplo resumir puede ser usado para estimar la media y desviacin

estndar para todos los atributos de un conjunto de datos. Otra aplicacin ms


sofisticada de resumir son las reglas de derivacin resumidas, tcnicas de visualizacin
multivariada, las tcnicas para resumir son frecuentemente aplicada para anlisis de
exploracin de los datos y generar reportes automatizados.
Otros mtodos de minera de datos son: reglas de asociacin, secuencia de patrones,
series de tiempo, visualizacin y reduccin de dimensionalidad.

2.5. La importancia de la estadstica en KDD y minera de datos.


Originalmente KDD no surge dentro de estadstica sino dentro de las bases de datos,
principalmente se debe a que los estadsticos no se haban preocupado por los
conjuntos de datos que contienen muchos millones o billones de registros.
La minera de datos tiene mucho en comn con estadstica, principalmente en la
estimacin de parmetros y uso de tcnicas de anlisis multivariado por ello es que la
mayora de la tcnicas de minera de datos son de naturaleza estadstica, tan es as,
que se dice que KDD es un esfuerzo estadstico, sin embargo, hay una diferencia clara
entre los mtodos convencionales de estadstica y los mtodos requeridos para analizar
grandes cantidades de informacin y es que, en estadstica generalmente se asumen
supuestos acerca de la distribucin de los datos el ms comn es que han sido
muestreados independientes y de la misma distribucin iid, pero las condiciones de los
datos en minera de datos son en muchas ocasiones muy diferentes al ideal iid (Hand,
1998).
Por otro lado la parte conceptual es un punto importante a tratar, ya que minera de
datos es la bsqueda de patrones interesantes o alguna estructura en los datos pero
antes hay que definir que significa patrones interesantes o alguna estructura y ms
antes es necesario decidir que significa interesante, generalmente lo interesante,
depende de cada problema en particular.
La esencia de minera de datos es que no se sabe con precisin que estructura se esta
buscando en los datos, lo que provoca un nmero grande de patrones candidatos pero
probablemente falsos, algunas estrategias que han sido desarrollados para solucionar
este problema son: modelos de familias restringidas (limitando el tamao de la clase de
parmetros examinados), penalizacin de patrones, y reduccin de la
sobreparametrizacin del modelo (imponiendo fuertemente un criterio de seleccin de
modelos o patrones), para que finalmente estos patrones sean identificados por un
experto en el rea de consideracin y no totalmente sobre las estructuras internas de
los mtodos (Hand, 1998). Algunos mtodos robustos o menos rgidos en las
suposiciones que se han utilizado con xito son: modelos de redes neuronales, rboles
de decisin, tambin cluster y modelos de regresin entre otros.

10

Otro problema es el tamao enorme de las bases de datos y la velocidad con que stas
se actualizan, por lo que es necesario encontrar mtodos tericamente bien
sustentados que arrojen resultados rpidos y confiables. De tal manera que hay una
urgencia de que los estadsticos se involucren con problemas de minera de datos, para
aprender acerca de estos y para contribuir de manera importante al desarrollo de
nuevos mtodos que resuelvan problemas de minera de datos.

2.6. Evaluacin de patrones del descubrimiento de conocimiento en


bases de datos (KDD).
La calidad de los patrones depende de la calidad del anlisis y de la calidad de los
resultados encontrados (Vazirgiannis et al., 2003)
Generalmente el trmino calidad en minera de datos requiere de:
Representar conocimientos reales incluidos en el anlisis de los datos, el anlisis
de datos oculta informacin interesante que los mtodos de minera de datos
revelan. Un requisito para la evaluacin de la extraccin de conocimientos y
representacin es que debe estar involucrado el experto en el tema.
Muchos algoritmos y tcnicas son propuestos bajo diferentes supuestos que pueden
conducir a diferentes resultados. La seleccin de un mtodo adecuado para una
tarea de anlisis especifico en trminos de su ejecucin y la calidad de estos
resultados es uno de los mayores problemas en minera de datos, frecuentemente
este paso es referido como sintonizacin de algoritmos.
Regularmente es muy largo el nmero de patrones generados pero solamente unos
de estos patrones son probables de ser de algn inters para el experto del anlisis.
muchos de estos patrones son irrelevantes u obvios y no proporcionan nuevos
conocimientos, es por ello que la seleccin de patrones ms representativos para un
conjunto de datos es un importante tema en trminos de evaluacin de calidad.
Existen varios mtodos y pruebas para validar la calidad de los patrones encontrados
en el proceso de minera de datos, en este trabajo se presentan los mtodos para
evaluar modelos de clasificacin debido a que estos son utilizados ms adelante en el
ejercicio de aplicacin para otros mtodos ver (Vazirgiannis et al., 2003)

11

3. Modelos de clasificacin
3.1. Introduccin.
Como se mencion en el captulo anterior uno de los propsitos de la minera de datos
es predecir el objetivo (variable de respuesta) con relacin a una o ms variables
explicativas, es decir estimar los parmetros que aproximen la asociacin entre dichas
variables. Cuando el objetivo es categrico los modelos son referidos como modelos de
clasificacin.
En este trabajo se utilizan los modelos de clasificacin como tcnicas de aprendizaje
con supervisin y se basan en la teora de estimacin de parmetros de los modelos
lineales generalizados (GLM), los modelos lineales generalizados son una unificacin
de modelos lineales y modelos no-lineales (Montgomery et al., 2002). La finalidad de
este apartado es establecer los aspectos tericos de los modelos de clasificacin. El
captulo se inicia con los modelos de regresin logstica, regresin logstica multinomial,
y redes neuronales, finalmente nos enfocamos en los rboles de decisin y la
evaluacin de la certeza de los modelos.

3.2. Modelos de regresin logstica.


Los modelos de regresin logstica toman las ideas de un modelo lineal (Hosmer y
Lemeshow, 1989), se usan cuando la variable respuesta es binaria. Debido a que los
modelos multinomiales y en algunos ocasiones los modelos de redes neuronales toman
de base la funcin logit, se describen algunos aspectos importantes de este modelo que
sern de ayuda para el entendimiento de los modelos subsecuentes.
Por notacin se usa p ( x) = E {Y | x} para representar la media condicional de una
variable Y dado x cuando la distribucin logstica es usada. La forma del modelo de
regresin logstica esta dada en (3.1)

( x ) =

exp

0 +1 x

1 + exp

0 +1 x

(3.1)

donde 0 y 1 son los parmetros que se desean estimar, x es la variable explicativa.


Una transformacin a ( x ) es central para el estudio de regresin logstica, dicha
12

transformacin es conocida como transformacin logit. Esta transformacin se define en


trminos de ( x) , como sigue:
( x )
g (x) = ln
= 0 + 1 x
1 ( x )

(3.2)

La principal importancia de esta transformacin es que g ( x ) tiene muchas de las


deseables propiedades del modelo lineal. La distribucin logit es lineal en sus
parmetros puede ser continua en dependiendo del rango de x .
Otro punto importante concierne a la distribucin condicional de la variable de
respuesta, el modelo de regresin lineal asume que una observacin de la variable de
respuesta puede ser expresada como (3.3):

y = E {Y | x}+ e

(3.3)

donde e es el error de estimacin de la observacin y , el supuesto ms comn en un


modelo lineal es que e sigue una distribucin normal con media 0 y alguna varianza
que es constante entre los niveles de la variable independiente, as que la distribucin
condicional de la variable respuesta dado x es normal con media E {Y | x}, y varianza
constante entre los niveles de la variable independiente, el cual no es el caso de una
variable binaria, en esta situacin podemos expresar el valor de una variable de
respuesta y dada como y = p ( x) + e de manera que y = 1 entonces e = 1 - p ( x)
con probabilidad

p ( x) ,

y si y = 0 entonces e = - p ( x) con probabilidad 1 - p ( x) ,

entonces e tiene una distribucin con media 0 y varianza p ( x)[1 sigue una distribucin Binomial.

p ( x)] ,

es decir

Suponga que se tiene una muestra de n observaciones independientes de los pares


( xi , yi ) , i=1,2,, n, adems yi denota los valores de una variable binaria Y, las
observaciones yi son codificadas para estimar los valores de 0 y 1 en la ecuacin
(3.2). De manera que para los pares ( xi , yi ) , cuando yi = 1 la contribucin para la

funcin de verosimilitud es p ( xi ) , y cuando yi = 0 es 1 ( xi ) , la funcin de


verosimilitud se expresa en (3.4).

( xi ) = ( xi ) y [1 ( xi )]1 y
i

La funcin de verosimilitud es obtenida como el producto de los trminos de (3.4).

13

(3.4)

l () = ( xi )

(3.5)

i =1

tomando el logaritmo a l () en (3.5)


n

L()=ln l () = { yi ln ( xi ) + (1 yi ) ln(1 ( xi )) }

(3.6)

i =1

Para encontrar los valores de que maximizan l () se deriva (3.6) con respecto a 0 y

1 respectivamente y el conjunto de las expresiones resultantes se iguala a cero.


Desarrollando (3.6) obtenemos las ecuaciones de verosimilitud para 0
n

[ y ( x )] = 0
i

i =1

(3.7)

Y para 1
n

x [ y ( x )] = 0
i =1

(3.8)

En regresin logstica las expresiones (3.7) y (3.8) no son lineales en 0 y 1 , para


estimar los parmetros se requieren mtodos especiales para su solucin. Estos
mtodos son de naturaleza iterativos y estn disponibles en varios paquetes
estadsticos.

3.3. Modelo de regresin logstica polinomial (multinomial).


El modelo de regresin logstica polinomial es una extensin del modelo de regresin
logstica, se utiliza cuando la variable de respuesta est en una escala categrica y se
modelan los errores mediante la distribucin multinomial, por ello es que en este estudio
nos referimos a este modelo como multinomial. Se asume que la variable categrica Y
es codificada como 0,1, 2, , l , al igual que en regresin logstica donde la variable Y
es parametrizada en trminos de la funcin logit y = 1 vs y = 0 , para un modelo
multinomial tendramos l -1 funciones logit como en (3.9) (Hosmer y Lemeshow, 1989).
P( Y = j | x )
t
= ( 1, x ) j
P(Y
=
0
|
x
)

g j = ln

14

para j = 1,...,l - 1

(3.9)

donde x es un vector de covariables de dimensin p, j es un vector de dimensin p+1


y P( Y = j | x ) es la probabilidad condicional de Y = j dado x .
De manera similar que (3.1) para cada j = 0 ,1,...,l 1 , j ( x ) = P( Y = j | x ) es una
funcin de la matriz de parmetros de dimensin l -1filas y ( p + 1) columnas
denotada por (3.10)

j ( x ) = P( Y = j | x ) =

exp { g j ( x )}
l 1

exp { g

m=0

para j = 0,1,...,l 1

( x )}

(3.10)

donde g 0 ( x) 0 . De tal manera que la funcin de mxima verosimilitud es construida de


l variables ficticias Y codificadas como 0 1 para indicar el grupo de miembros de una
observacin. Estas variables son introducidas nicamente para aclarar la funcin de
verosimilitud y no son usadas en el anlisis de regresin logstica multinomial adems
l

Y j = 1 . De tal manera que la funcin de verosimilitud condicional para una muestra

j= 1

de n valores independientes esta construida como (3.11).

n l -1
y ji

j ( x)

i =1 j =0

l () =

tomando el logaritmo de l () y usando el factor

(3.11)

ji

= 1 para cada i , la funcin de

Log-verosimilitud condicional esta dada:


n l 1

l 1

i =1 j =1

k =0

j =1

k =0

L() = y ji ( jk ( xki )) ln 1 + exp jk ( xki )


p

(3.12)

para j = 1,2,..., l 1 y k = 0,1,..., p


donde x0i = 1 . Los parmetros son encontrados calculando la primera derivada parcial
de L() con respecto a cada uno de los l 1( p + 1 ) parmetros desconocidos. Para
simplificar la notacin se hace ji = j (x i )
De tal manera que los parmetros son calculados mediante la ecuacin (3.13).

L() n
= xki (y ji ji ) para k = 0,1,,..., p y j = 1, 2,...,l - 1
jk
i =1
15

(3.13)

para cada sujeto x0i 1 .

Los estimadores de mxima verosimilitud


son obtenidos igualando la ecuacin (3.13)
a cero y resolviendo el conjunto de ecuaciones resultante mediante algn procedimiento
computacional

3.4. Modelos de redes neuronales artificiales


3.4.1. Estructura de una red neuronal natural
La estructura bsica de un modelo de redes neuronales es una representacin de una
neurona natural, esta se muestra en la Figura 3.1, las principales caractersticas son el
ncleo con el cuerpo de la clula, el axn y el nervio de fibras (dendritas). Un tpico
axn genera 103 conexiones sinpticas con otras neuronas, es claro que el sistema
global de conexiones de un cerebro es muy complicado (Chen y Titterington, 1994).

Figura 3. 1. Estructura bsica de una neurona natural (Chen y Titterington, 1994).


El funcionamiento de una neurona natural es el siguiente: una neurona puede tener
muchas entradas llamadas dendritas que condicionan el estado de su nica salida, el
axn. El axn es un tubo largo y delgado que ramifica en su extremo pequeos bulbos
finales que casi tocan las dendritas de las clulas vecinas. Este axn puede ir
conectado a una dendrita de otra neurona mediante la sinopsis (Leos, 2000).

16

3.4.2. Redes neuronales artificiales


Una neurona artificial se asemeja a una neurona natural por sus elementos de entradas,
pesos y salidas. La entrada de una neurona es un atributo, la forma en que se
representa ste atributo constituye la entrada a la red. El peso expresa la fuerza relativa
(valor matemtico) de los datos de entrada en las conexiones que transfiere los datos
de una capa a otra. Las salidas de la red contiene la solucin del problema.
Existen varios tipos de redes neuronales artificiales, las ms usadas son las redes
perceptrn multicapa, en sta investigacin se utilizan las redes feedforward perceptrn
multicapa llamadas as porque la nica conexin permitida es entre unidades y en
capas posteriores hacia delante (Figura 3.9), otros tipos de redes neuronales artificiales
se pueden ver en Haykin (1994).

3.4.3. Perceptrn simple capa.


La arquitectura de una neurona artificial o modelo perceptrn simple capa se presenta
en la Figura 3.2.

Figura 3. 2. Perceptrn simple capa con una neurona (Demuth y Beale, 2001).
El funcionamiento de un perceptrn simple establece un conjunto de valores de entrada
xi multiplicados por los pesos wi , a travs de una funcin de activacin (.) que genera
una salida y , este funcionamiento es representado mediante (3.14), con x0 = 1

y = (a) = w1 x1 + w2 x2 + ... + wp x p + w0 = wi xi
i =0

(3.14)

donde xi y wi son las entradas y los pesos de la red para i = 0,1, 2,..., P , w0 es el umbral
o sesgo, a es el escalar resultante de multiplicar wi *xi , llamada actividad interna de una
neurona, (a) es la funcin de activacin descrita ms adelante. Por ltimo y es la
salida de la red.

17

La arquitectura de un perceptrn simple capa con S 1 neuronas esta dada en la Figura


3.3.

Figura 3. 3. Perceptrn simple capa con una S 1 neuronas (Demuth y Beale, 2001).
La arquitectura de la Figura .3.3., se puede denotar mediante (3.15)

y = 1(W1x))

(3.15)

donde y es el vector de salida de la red, x es el vector de entrada, W1 es la matriz de


pesos de entrada de dimensin S 1, P + 1 ya que los sesgos de cada neurona son
incluidos en la matriz de pesos, 1 es la funcin de activacin.

3.4.4. Funcin de activacin o transferencia.


La funcin de activacin o transferencia denotada por (.) limita la amplitud de la salida
de una neurona, sta funcin puede ser lineal o no-lineal. Existen varias funciones de
transferencia (.) que pueden ser usadas, aqu describimos las que se utilizan con
mayor frecuencia, otras funciones de activacin son mencionadas en Haykin (1994).
Funcin umbral: Esta funcin produce respuestas con valor de 0 1 denotada en
(3.16), y tiene la forma de la Figura 3.4.
1
(a) =
0

si a 0
si a < 0

18

(3.16)

Figura 3. 4. Funcin umbral


Funcin lineal: Las respuesta de una neurona que usa esta funcin son una
aproximacin lineal denotada en (3.17), y tiene la forma de la Figura 3.5.
1

( a ) = n

-1

si a 1
si 1>a>-1
si a -1

(3.17)

Figura 3. 5. Funcin lineal


Funcin Sigmoidea: Esta funcin es la ms comn funcin de activacin usada en la
construccin de redes neuronales, est definida como una funcin estrictamente
creciente, que exhibe suavidad y que tiene propiedades asintticas, tiene la forma de la
Figura 3.6. Un ejemplo de la funcin sigmoide es la funcin logstica dada en (3.18),
produciendo valores entre (0,1). Un punto importante es que esta funcin es
diferenciable.

( a ) =

1
1 + exp {a}

Figura 3. 6. Funcin Sigmoidea

19

(3.18)

Funcin tangente hiperblica: Cuando la funcin de activacin de un modelo


perceptrn multicapa es no-simtrica con respecto al origen, el entrenamiento de la red
es ms rpido. Una funcin asimtrica es la funcin no-lineal sigmoide en la forma
tangente hiperblica definida en (3.19), sta funcin produce respuestas entre (-1,1).

(a)=b

1 exp
tanh( ca ) = b
1 + exp

{ba}
{ba}

(3.19)

donde b y c son constantes, la funcin tiene la forma de la Figura 3.7.

Figura 3. 7. Funcin tangente hiperblica

3.4.5. Modelo perceptrn multicapa con dos capas


La arquitectura de un perceptrn con dos capas una capa oculta con S 1 neuronas, y una
sola neurona en la capa de salida est dada en la Figura 3.8. Se especifica ste modelo
porque ser utilizado ms adelante en el ejemplo de aplicacin (Seccin 5.8.2).
Entradas

Capa1: oculta

Capa2: Salida

Figura 3.8. Perceptrn con dos capas: con S 1 neuronas en la capa oculta y S 2 neuronas
en la capa de salida (Demuth y Beale, 2001).
La estructura de y de la Figura 3.8., se representa en forma matricial mediante (3.20).

y = 2(W21(W1x))
20

(3.20)

donde y es la salida de la red, x es el vector de entrada, W1 es la matriz de pesos de


entrada de dimensin S 1, P + 1 . W2 es la matriz de pesos de la segunda capa de
dimensin S 2 ,S1 + 1 , 2 y 1 son las funciones de transferencia para la primera y
segunda capa.
El funcionamiento de la red es el siguiente: cada elemento del vector de entrada x es
conectado a cada neurona de la capa oculta a travs de la matriz de pesos W1 , a la
cual se le aplica la funcin de transferencia 1 , formando un vector de entradas para la
segunda capa, repitindose el procedimiento para obtener la salida y .
En la prctica casi todas las aplicaciones del perceptrn multicapa tienen una sola capa
oculta. Adems, deacuerdo con el teorema citado por Tianping Chen y Hong Chen
(1995), este modelo de redes neuronales puede aproximar casi cualquier funcin con
una sola capa oculta. Sin embargo, es posible, que la solucin de un problema en
particular, mejore si se usan ms capas ocultas (Leos, 2000), sin embargo, en el
siguiente apartado se muestra la generalizacin de un modelo perceptrn multi-capa.

3.4.5. Modelo perceptrn multicapa


La arquitectura generalizada para algn perceptrn multicapa con K capas se presenta
en la Figura 3.9.
Entradas

Capa 1

Capa k

Capa K

Figura 3. 9. Estructura de un perceptrn multicapa (Demuth y Beale, 2001).


El funcionamiento del perceptrn multicapa se expresa en (3.21). El nmero de capas y
nodos generalmente es determinados por ensayo y error.

y=K (WK K - 1(...k (Wkk 1( ...1(W1x)...))...))

21

(3.21)

Donde: y es el vector de salida de la red.


x es el vector de entrada
k es la funcin de transferencia de la k sima capa, para k = 1, 2,..., K .
Wk es la matriz de pesos de la k sima capa, para k = 1, 2,..., K .
La red tiene P entradas, y S1 neuronas en la primera capa, S 2 neuronas en la segunda
capa y as sucesivamente. Las salidas para alguna capa intermedia son las entradas de
las siguientes capas, por ejemplo la capa 2 puede ser analizada como una capa de red
con S1 entradas y S 2 salidas o neuronas.

3.4.6. Entrenamiento de los modelos perceptrn multicapa


El entrenamiento o aprendizaje de una red neuronal es el proceso en el cual los pesos
de un modelo son adaptados a travs de una continua estimulacin (Haykin, 1994).
ste proceso en estadstica se le llama estimacin de parmetros.
El aprendizaje es realizado mediante un algoritmo iterativo, suponga que wkj,i ( n ) denota
el valor del peso de la j sima fila y la i sima columna de la matriz de pesos de la
capa k, en el tiempo n. Una correccin wkj,i es aplicada al peso wkj,i construyendo un

valor para wkj,i (n + 1) , de manera que el aprendizaje para el peso wkj,i se denota como en
(3.22).

wkj,i (n + 1) = wkj,i ( n ) + wkj,i ( n )

(3.22)

Hay varias reglas de aprendizaje para la solucin de (3.22) llamadas algoritmos de


aprendizaje, su aplicacin depende de la manera en que wkj,i es formulada.
El algoritmo comnmente usado para el entrenamiento de un perceptrn multicapa es
propagacin hacia atrs. Aqu se describe el algoritmo para obtener el peso ajustado
wkj,i ( n + 1 ) en (3.22) en dos casos: 1) cuando wkj,i ( n ) es un peso de la j sima neurona
de salida, como el perceptrn de la Figura 3.3., y 2) cuando wkj,i ( n ) es un peso de la

j sima neurona de una capa oculta, como el perceptrn de la Figura 3.8. Para
simplificar la notacin se omite el superndice del peso wkj,i ( n ) .

22

Para el caso 1. El algoritmo aplica la correccin en (3.22) para el peso w j ,i ( n ) usando el


gradiente2 de alguna funcin de w j ,i ( n ) , generalmente se usa el error cuadrado medio
(3.24) como funcin de w j ,i ( n ) .
ECM =

1 N
E ( n)
N
n =1

(3.23)

donde N es el nmero de datos en el entrenamiento, el objetivo es ajustar los pesos de


la red para minimizar (3.23), tal ajustamiento es realizado para cada dato del
entrenamiento con su respectivo error denotado por (3.24).

ej ( n ) = d j ( n ) y j ( n )

(3.24)

donde d j ( n ) es la salida deseada (objetivo observado), y j ( n ) = 1 j ( a j ( n )) para


P

a j = w ji ( n )xi ( n ) consecuentemente la suma de cuadrados de todas las neuronas en


i =0

la capa de salida de la red esta dada por (3.23)


S1

( n ) = 1 e2j ( n )
2

(3.25)

j =1

donde S1 es en nmero de neuronas en la capa de salida. El gradiente para


obtiene derivando (3.23) con respecto a

wj ,i ( n ) ,

wj,i se

utilizando la regla de la cadena, se

tiene:

( n ) = ( n ) e j ( n ) y j ( n ) a j ( n )

(3.26)

( n ) = e ( n )1, ( a ( n ))x ( n )
j
j
j
i
w ji ( n )

(3.27)

w ji ( n )

e j ( n ) y j ( n ) a j ( n ) w ji ( n )

La correccin w j ,i ( n ) aplicada a w j ,i est dada por la regla delta definida en (3.28)

w j,i ( n ) =

E( n )

w j,i ( n )

(3.28)

donde es la razn de aprendizaje para el algoritmo de propagacin hacia atrs.


Usando (3.27) y (3.28) se construye (3.29).
2

El gradiente es la primera derivada parcial de una funcin

23

w j,i ( n ) = j ( n )xi ( n )

(3.29)

donde j ( n ) es el gradiante local de (3.29) definido por (3.30).

e j ( n ) y j ( n )
e j ( n ) y j ( n ) a j ( n )
= e ( n )1 , ( a ( n ))

j ( n ) = E( n )

(3.30)

Para obtener el peso ajustado de w j,i ( n + 1 ) de la j sima neurona de la capa de salida


se substiuye (3.29) en (3.22).
Para el caso 2, cuando w j ,i ( n ) esta localizado en j sima neurona de la capa oculta
(Figura 3.8.), no hay una respuesta especfica deseable para tal neurona,
consecuentemente el error designado puede determinarse recursivamente en trminos
de los errores designados de todas las neuronas para el cual w j,i ( n ) est directamente
conectado. Se redefine j ( n ) como (3.30).
y j ( n )
y j ( n ) a j ( n )

j ( n ) = E( n )

(3.31)

E( n ) ,
( a ( n ))
=
y j ( n ) j j

Para calcular la derivada parcial de E( n ) y ( n ) se reescribe (3.23) como (3.30) para


j
evitar confusin se utiliza el ndice l en lugar de j .
S2

( n ) = 1 el2( n )

(3.32)

2 l =1

donde el ( n ) = dl ( n ) yl ( n ) = dl ( n ) l ( al ( n )) note que ahora j indica el peso de la neurona


S1

oculta, adems al ( n ) = wl j ( n )a j ( n ) . La derivada de (3.30) es entonces:


j =0

E( n ) S 2 el ( n ) al ( n )
= el
y j ( n )
al ( n ) y j ( n )
l =1
=

S2

S2

el ( n ) , ( a ( n ))w ( n ) = l ( n )w ( n )

l =1
l =1
l

lj

lj

(3.33)

Sustituyendo (3.31) en (3.29) obtenemos:


S2

j ( n ) = ,j ( a j ( n )) l ( n )wlj ( n )
l =1

24

(3.34)

Para obtener el peso ajustado de w j,i ( n + 1 ) de la j sima neurona de la capa oculta se


substiuye (3.34) en (3.29) y posteriormente en (3.22). El clculo de

j ( n ) para modelos

perceptrn con ms de dos capas es similar, el algoritmo nicamente va modificando


(3.25) de manera recursiva. Hay algunas variaciones que se han desarrollado para
mejorar el algoritmo uno de ellos es propagacin hacia atrs por gradientes conjugados,
ste y otros se pueden ver en Haykin, (1994).
Es importante mencionar que en problemas donde la variable objetivo est en escala
nominal realizar el entrenamiento minimizando (3.23) no tiene mucho sentido debido a
que los nmeros que se utilizan son nicamente etiquetas de las clases del objetivo, sin
sentido numrico, por lo que generalmente se usa la funcin entropa como una funcin
de errores, otras funciones que se sugieren son Bernoulli mltiple, y multinomial, ests
funciones se construyen mediante una funcin de verosimilitud o deviance. Haykin
(1994) muestra la construccin del algoritmo mediante la funcin entropa relativa.

3.5. Modelos de rboles de decisin


Los mtodos de rboles de decisin dividen un espacio caracterstico en un conjunto de
rectngulos llamados nodos y entonces ajustan un modelo simple (buscan una
constante) en cada rectngulo o nodo (Friedman et al., 2001).

3.5.1 rboles de regresin

Consisten de un objetivo y , un vector de entradas x de dimensin p, para cada N


observaciones, es decir ( xi , yi ) para i = 1,2,..., N con x i = ( xi1 ,xi 2 ,...,xip ) Se tiene una
divisin en M regiones R1 R2,, RM entonces se modela la respuesta y como una
constante cm en cada regin.
M

f ( X ) = cm I { x Rm }

(3.35)

m =1

Si se adopta el criterio de minimizar la suma de cuadrados ( y i f ( xi )) 2 , el mejor c) m es


justamente la media de yi en la regin Rm :
)
c = ave( y | x R)

(3.36)

Posteriormente se encuentra la mejor divisin binaria en trminos de minimizar la suma


de cuadrados, el procedimiento es un algoritmo ambicioso que empieza con todos los

25

datos se considera una variable divisin j y un punto de divisin s , se definen un par


de planos divididos por mitad.

R1 ( j , s ) = {x | x s} y R2 ( j , s ) = {x | x > s}

(3.37)

Se busca entonces la variable de divisin j y el punto de divisin s que resuelve

mn mn ( yi c1 ) 2 + mn ( yi c2 ) 2
j ,s
c2
xR ( j , s )
xR ( j , s )
c1

(3.38)

Para algn cambio de j y s , la minimizacin de la suma interna es resuelta por


)
)
c1 = ave ( y | x R1 ( j , s) ) y c2 = ave ( y | x R2 ( j , s) )

(3.39)

Para cada divisin de variable la determinacin del punto de divisin puede hacerse
muy rpido y por lo tanto escanear a travs de todas la entradas la determinacin del
mejor par j, s una vez que se tiene la mejor divisin, los datos son clasificados en las
dos regiones resultantes y se repite el proceso sobre todas las regiones resultantes.

3.5.2. Mtodo para podar rboles de decisin.

Otra cuestin importante es la longitud de un rbol, claramente un rbol muy largo


puede sobre fijar los datos, mientras que un rbol muy pequeo puede no capturar la
importancia de la estructura. Un enfoque puede ser dividir un nodo del rbol nicamente
si decrece el error cuadrado medio (ECM) debido a que la divisin excede un lmite.
El enfoque preferido es el crecimiento de un rbol largo T0, deteniendo el proceso de
divisin nicamente cuando algn nodo de tamao mnimo es alcanzado. Entonces el
rbol es podado usando podamiento costo- complejidad, este mtodo consiste en
definir un subrbol T T0 para ser un rbol que pueda ser obtenido podando T0 . El nodo
terminal se indexa por m , con m nodos representando las Rm regiones. Sea T que
denota el nmero de nodos terminales en T , se definen (3.40) y (3.41) (Friedman et al.,
2001).

1
)
cm =
Nm

y
xR

y Qm (T ) como el error cuadrado medio o funcin de impureza


1
)
( yi cm ) 2
Qm (T ) =

N m xR

26

(3.40)

(3.41)

Entonces el criterio costo- complejidad se define como:


|T |
)
c (T ) = N mQm (T ) + | T |)

(3.42)

m =1

)
La idea es encontrar para cada , el subrbol T T0 que minimice c (T ) .

3.5.3. rboles de clasificacin.

Si el objetivo es una respuesta de clasificacin tomando valores l = 1,2,...,L , el nico


cambio necesario en el algoritmo de rbol pertenece al criterio para dividir nodos y
podar el rbol. Para nodos de regresin se utiliza el error-cuadrado como una medicin
de impureza Qm (T ) pero esta no es sustituible para clasificacin. En un nodo m ,
)
representando una regin con un nodo Rm con Nm observaciones, y definimos pml
como (3.43).
1
)
pml =
(3.43)
Nm

1
)
pml =
Nm

I(y
xR

= l)

(3.44)

La ecuacin (3.44) es la proporcin de observaciones de la clase l en el nodo m. la


)
clasificacin de las observaciones para el nodo m se hace con l ( m ) = arg max pml( m ) , el
l

mximo de la clase l , para el nodo m . Algunas funciones de impureza Qm (T ) son:


Errores de clasificaciones incorrectas:
1
)
I ( yi l (m)) = 1 pml ( m )

iR
Nm

(3.45)

Entropa-cruzada o devianza:
L

)
log pml

(3.46)

L
) )
)
)
pml pml ' = pml (1 pml )

(3.47)

ml

l =1

ndice de Gini:

l l

l =1

27

3.6. Certeza de los modelos de clasificacin.


La certeza de un modelo de clasificacin esta diseada acorde a un entrenamiento de
datos este es uno de los criterios ms importantes y es completamente usado en el
proceso de clasificacin,
El entrenamiento de un modelo de clasificacin se refiere a seleccionar aleatoriamente
una parte de la base de datos para fijar un modelo. Suponga el escenario tpico de una
variable de respuesta y que se desea predecir con base en un conjunto de
caractersticas x , un modelo de prediccin o clasificacin f (x) y una funcin de
errores como ECM.
De tal forma que el entrenamiento busca minimizar los ECM segn sea el caso,
generalmente este es un procedimiento iterativo.
El entrenamiento permite una evaluacin con precisin de como el modelo diseado
clasificar futuros datos (e.d. datos sobre los cuales el modelo no ha sido entrenado).
La certeza tambin ayuda en la comparacin de diferentes clasificadores. Las tcnicas
ms comunes para evaluar la certeza de un clasificador segn (Vazirgiannis et al.,
2002) son:
1). Mtodo-Hold-out El conjunto de datos dado es dividido aleatoriamente en dos
conjuntos independientes, un conjunto para entrenar y otro para probar. Usualmente
dos terceras partes son consideradas para el entrenamiento y el resto de los datos es
asignado para probar. El entrenamiento de los datos es usado para definir el modelo de
clasificacin entonces la certeza del clasificador es estimada con base en la prueba de
los datos. nicamente una proporcin de los datos es usada para derivar el modelo.
Una variacin de Hold-out la tcnica de submuestras aleatorias. En este caso
Hold-out es repetido k veces y la certeza global es estimada como el promedio de las
precisiones obtenidas de cada iteracin.
2). K-fold cross-validation Los datos iniciales son divididos en k subconjuntos

S = {S1 ,S2 ,...,Sk } .

Estos

subconjuntos

son

mutuamente

exclusivos

tienen

aproximadamente igual tamao. El clasificador es iterativamente entrenado y probado


k veces . En la iteracin i sima , el subconjunto Si es reservado como el conjunto
de prueba, el resto de los conjuntos es usado para el entrenamiento del clasificador,
entonces la certeza es estimada como el nmero total de clasificaciones correctas de
las k iteraciones , dividas por un nmero total de muestras en los datos iniciales.
Una variacin de este mtodo es la validacin-cruzada estratificada en la cual los
subconjuntos son estratificados esto es la clase de la distribucin de la muestra en cada
subconjunto es aproximadamente la misma como en el conjunto de datos iniciales.

28

3). Bootstraping. Este mtodo es k-fold validacin-cruzada, con k conjuntos de


muestras iniciales. Estas muestras son seleccionadas del entrenamiento uniformemente
con reemplazamiento y sale-una-fuera. En cada iteracin, el clasificador es entrenado
sobre el conjunto de k 1 muestras que son seleccionadas aleatoriamente del conjunto
inicial de muestras S . la prueba es ejecutada usando el subconjunto restante.

29

Equation Section 4

4. Minera de datos con SAS (Enterprise Miner)

4.1. Introduccin
Como se mencion anteriormente el objetivo de este trabajo es ejemplificar el proceso
de la minera de datos usando SAS Enterprise Miner, aunque hay otros programas
disponibles Enterprise Miner es un programa que proporciona un proceso completo de
minera de datos debido a su metodologa SEMMA. Por otro lado en Mxico ste
programa ha sido de uso tradicional en las reas Agropecuarias.
En este captulo se describe el programa SAS Enterprise Miner. Se inicia con los
requerimientos computacionales del minero, posteriormente se da una explicacin de la
metodologa SEMMA llamada as por sus siglas en ingls que significan: Sampling,
Exploring, Modifying, Model y Assessing. Se mencionan las instrucciones de inicio del
programa, y el diseo de diagramas, los cuales son un aspecto muy importante de
Enterprise Miner ya que representan grficamente el problema de minera de datos que
se desea resolver. Posteriormente se mencionan interfases de herramientas avanzadas
para construir diagramas tales como: Mtodos de preparacin y limpieza de datos,
transformacin de variables, divisin de la base de datos para entrenar, validar y probar
modelos, tcnicas de visualizacin para anlisis exploratorios, herramientas estadsticas
como: agrupamiento, rboles de decisin, regresin lneal, regresin logstica, redes
neuronales entre otras.
Finamente se presentan aspectos de los modelos de clasificacin, y de los criterios que
Enterprise Miner utiliza para evaluar y seleccionar modelos. Para la realizacin de este
captulo se consult SAS System help (SAS Institute Inc., 1999-2001a). y las siguientes
referencias (SAS Institute Inc., 2004) (SAS Institute Inc. 2003) (SAS Institute Inc., 2002).

4.2. Requerimientos de SAS Enterprise Miner.


SAS Enterprise Miner versin 4.1., est diseado para computadoras que corren bajo
Windows 95, 98, NT 2000, XP y subsiguientes versiones de este ambiente operacional.
La interfaz Enterprise Miner es un componente de SAS system. Para abrir la ventana de
Enterprise Miner se deber iniciar una Sesin en SAS.

30

4.3. El proceso de minera de datos usando SAS Enterprise Miner.


El proceso de minera de datos segn SAS Enterprise Miner se resume por las
siguientes siglas en ingls SEMMA Sampling, Exploring, Modifying, Model y Assessing
(SAS Institute Inc., 2004). Este procedimiento sistematiza la minera de datos mediante
el siguiente procedimiento: 1) muestrea la base de datos para crear una o ms tablas
de datos. La muestra puede ser suficientemente grande para contener informacin
significativa, pero bastante pequea para que el proceso sea rpido; 2) explora los
datos para buscar anticipadamente relaciones, tendencias y anomalas a fin de ganar
entendimientos e ideas; 3) modifica los datos para crear, seleccionar y transformar las
variables para enfocar el proceso de seleccin del modelo; 4) modela los datos usando
herramientas analticas para buscar una combinacin de los datos que resulte en
predicciones confiables de la respuesta deseada; 5) evala los datos para conocer la
utilidad y seguridad del proceso de minera de datos.

4.4. Inicio de SAS Enterprise Miner.


Para iniciar Enterprise Miner, existen dos opciones:
Teclear miner sobre la barra de comandos de SAS o
Del men de SAS, se selecciona Solutions, posteriormente Analysis y
finalmente Enterprise Miner como en la Figura 4.1.

Figura 4.1. Inicio de SAS Enterprise Miner.


SAS Enterprise Miner contiene las siguientes interfases

31

Figura 4. 2. SAS Enterprise Miner versin 4.1., para windows.


1) Navegador de proyectos: El navegador de proyectos se usa para manejar
proyectos y diagramas, tiene tres componentes.
Diagramas: Lista los proyectos actuales y los diagramas dentro del proyecto, el
diagrama es la parte fundamental de Enterprise Miner, ms adelante se explica a
detalle.
Herramientas: Contiene la paleta de herramientas de Enterprise Miner.
Reportes: Contiene los reportes HTML de entrada para el proyecto.
2) Barra de herramientas: Contiene un subconjunto de herramientas (llamadas
nodos3) de Enterprise Miner que son comnmente usadas para construir diagramas.
Estas son agrupadas segn la metodologa SEMMA.
3) Espacio de diagrama: Permite construir, editar, correr y guardar el procesamiento
del diagrama.

Adems de algunos indicadores de ayuda en el proceso:


Indicador de progreso: Indica el estado de ejecucin de una tarea.
Mensaje de panel: Despliega mensajes acerca de la ejecucin de una tarea,
Indicador de estado de conexin: Despliega el nombre de la computadora e
indicadores acerca de si la conexin esta activada o no para un proyecto
cliente/servidor el cual se describe en las siguientes secciones.

En este apartado se le llama nodos a las herramientas de minera de datos que Enterprise Miner proporciona.

32

4.5. Proyecto
Un proyecto de Enterprise Miner es una coleccin de diagramas e informacin
relacionada con este. Se puede crear un proyecto para cada problema de minera de
datos que se quiere resolver.

4.5.1. Estructura de un proyecto.

Enterprise Miner usa una estructura de directorio estndar almacenando el archivo de


algn proyecto en la raz del directorio del proyecto, esto permite tener una copia del
directorio y subdirectorios del proyecto en una localizacin. Enterprise Miner no tiene un
lmite en el nmero de directorios. Para cada proyecto Enterprise Miner crea un nmero
de subdirectorios que tienen la siguiente estructura:

Cuando se crea un proyecto automticamente se crean las carpetas emdata y emproj y


reports como subdirectorios.

Subdirectorio emdata: contiene varios archivos que son creados cuando se


ejecuta uno o varios diagramas en el proyecto.

Subdirectorio emproj: Contiene informacin de cada diagrama, de sus nodos, y


del archivo de la variable objetivo4, tambin se guarda en este directorio el
archivo de bloqueo del diagrama (.lck) cada vez que un diagrama es abierto, este
previene que dos usuarios abran el diagrama al mismo tiempo, el nombre del
archivo de bloqueo es siempre igual al nombre del diagrama usado excepto por
la extensin .lck. El subdirectorio users contiene archivos actuales del proyecto.

Subdirectorio reports: En este subdirectorio se almacena un reporte final en


formato HTML, donde los resultados de cada nodo del diagrama son
almacenados, ms adelante se mencionan detalles acerca de este reporte.

Para saber el directorio del proyecto; se hace clic derecho en el botn del nombre del
proyecto y selecciona explorar.

Es un archivo con informacin acerca del objetivo tal como matriz de decisiones, matriz de costos, y probabilidades
a-priori, las secciones 4.8.1 y 4.9.1 contienen ms informacin al respecto.

33

4.5.2. Crear un proyecto.

Para crear un proyecto, de la barra de men se selecciona File posteriormente New


Project, se abre la ventana de la Figura 4.3.

Figura 4. 3. Nuevo proyecto.


Cuando se crea un proyecto la ventana de propiedades se abre (Figura 4.4). Esta
ventana contiene los aspectos: General, Initialization, Server, Warehouse y Users.

Figura 4. 4. Propiedades de un proyecto

4.5.3. Exportar un proyecto

Exportar un proyecto involucra copiar o mover el proyecto entero a una ubicacin


deseable usando una aplicacin externa como el explorador de Windows.
Para proyectos cliente-servidor, se
separadamente del archivo de clientes.

deber

34

guardar

el

archivo

del

servidor

4.6. Proyecto cliente/servidor


Enterprise Miner permite accesar a fuentes de datos (tales como conjuntos de datos o
sistemas de manejo de bases de datos) de un servidor para usarse con la sesin local
del minero, hay dos programas que establecen la conexin entre computadoras locales
y lejanas estos son: SAS/CONNECT y SAS/SHARE. SAS (Institute Inc. 1999-2001b).

4.6.1. Servidor nico-usuario

SAS/CONNECT proporciona la funcionalidad de usuario nico. Es una herramienta


cliente-servidor que permite crear una sesin de SAS sobre una computadora lejana y
usar esta sesin para accesar a datos lejanos y ejecutar instrucciones de SAS como si
estuvieran en una sesin local. Permite entre otros usos:
Procesar directamente una fuente lejana de datos y obtener los resultados de
regreso a la sesin local.
Usar interfases grficas de uso local que procesen fuentes de datos lejanos.
Transferir fuentes de datos lejanos
SAS/CONNECT pone todo el poder del sistema de SAS a disposicin de una
computadora lejana. Una sesin de SAS/CONNECT tiene un usuario exclusivo, el
usuario empieza y termina la sesin lejana cuando lo necesita.

4.6.2. Servidor multi-usuario

SAS/SHARE proporciona funcionalidad de usuario-mltiple en un ambiente


cliente\servidor para el sistema de SAS. Un servidor de SAS/SHARE es una sesin de
SAS individual que es compartida por muchos usuarios con el propsito de accesar
localmente a datos lejanos. El servidor lee y escribe datos sobre un nombre de dichos
usuarios.

4.6.3. Acceso al mtodo de comunicacin.

Un mtodo de acceso a la comunicacin es la interfaz entre SAS y el protocolo de red


que se usa para conectar dos sesiones, SAS deber especificar un mtodo de acceso
de comunicacin para ambos SAS/CONNECT y SAS/SHARE. El acceso de
comunicacin que se escoge es determinado por el protocolo de red que esta
disponible en el sitio de operacin al ambiente que se esta conectado, para saber los
distintos mtodos de acceso a la comunicacin se puede consultar (SAS Institute Inc.,
1999b).

35

4.6.4. Definir un cliente/servidor.

Para definir un cliente servidor se requiere de dos pasos bsicos, los cuales son
consumados va un proyecto, estos son:
1. Definir la localizacin del cliente para el proyecto proporcionando el nombre y
localizacin para el proyecto.
2. Proporcionar un archivo de configuracin del servidor. Se puede especificar un
archivo existente o crear uno nuevo.
Para definir un proyecto cliente/servidor. De la barra de men se selecciona File
posteriormente New Project, se escribe el nombre del proyecto y se seala la
indicacin Client/server project como en la Figura 4.5. Se usa Location para
especificar la ruta donde se quiere registrar el proyecto, y se selecciona create.

Figura 4. 5. Definir un cliente/servidor


La Figura 4.6 muestra la ventana que se abre cuando se crea un cliente-servidor, en
esta ventana se debe especificar el archivo de configuracin.

Figura 4. 6. Proyecto cliente/servidor

4.7. Diagrama
Un diagrama es la va a travs de la cual se especifican las tareas de minera de datos
y los parmetros de la tarea que se quieren realizar sobre un conjunto de datos. El
diagrama es una representacin grfica del problema que se desea resolver, es decir es
el medio de Enterprise Miner para aplicar la metodologa SEMMA. El diagrama se

36

disea en el espacio de diagrama (Figura 4.2) utilizando las interfases o nodos que el
programa proporciona. Cuando iniciamos un proyecto automticamente Enterprise
Miner crea un diagrama, el nmero de diagramas que Enterprise Miner permite es
100,000 diagramas por proyecto.

4.7.1. Crear un diagrama

Para crear un nuevo diagrama se siguen los pasos:


1). Abrir el proyecto dentro del cual estar el nuevo programa
2). Hacer clic-derecho en algn diagrama del navegador de proyectos y
seleccionar New Diagram
3). Por default, un nuevo diagrama llamado Untitled se aade al proyecto para
renombrar el diagrama hacer clic-derecho sobre la etiqueta del diagrama y
seleccionar Rename como en la Figura 4.7.

Figura 4. 7. Nuevo diagrama


Algunas opciones que permite SAS EM para diagramas son:
Conectar items: Un modo de edicin donde los botones de los nodos son fijos, de
manera que se pueden hacer conexiones entre ellos.
Mover items: Un modo de edicin donde los botones de los nodos se pueden
mover
Mover y conectar: Un modo de edicin donde los botones de los nodos se
pueden mover y conectar en el espacio de diagrama.

37

Items grandes: Despliega botones grandes en el espacio diagrama


Propiedades: Permite ver las propiedades de un diagrama.

Despus de abrir un diagrama, se usa el espacio de diagrama, la paleta de


herramientas o nodos del navegador de proyectos para editar y modificar diagramas
(Figura 4.2), se puede aadir, conectar y eliminar nodos.

Espacio de diagrama: Permite construir, editar, correr y guardar el


procesamiento del diagrama

Paleta de herramientas: Despliega todas la herramientas de minera de datos


que se permiten para la construccin de diagramas, las herramientas son
agrupadas de acuerdo a las letras de SEMMA de minera de datos. Se pueden
ver las propiedades de cada nodo haciendo clic-derecho en cada nodo.

Barra de herramientas: La barra de herramientas contiene un subconjunto de


herramientas de Enterprise Miner que son frecuentemente usadas para construir
diagramas, se puede aadir herramientas de la paleta de herramientas.

El esquema de un diagrama esta dado en la Figura 4.8. El cual corresponde al


diagrama utilizado en Captulo 5 del ejercicio de aplicacin.

Figura 4. 8. Diagrama de SAS Enterprise Miner

38

4.8. Nodos
La paleta de herramientas contiene herramientas de minera de datos llamadas nodos,
los cuales son los mtodos de minera de datos que proporciona Enterprise Miner para
solucionar problemas. Los nodos estn organizados en categoras de acuerdo la
metodologa SEMMA es decir: Sample, Explore, Modify, Model y Assess,
adicionalmente estn Scoring y Utilty.
Todos los nodos de Enterprise Miner son listados en carpetas localizadas en la paleta
de herramientas (Figura 4.10). Los nodos estn clasificados segn la funcin que
realizan para ejecutar la metodologa SEMMA. A continuacin se describe brevemente
cada nodo segn su carpeta.

39

Figura 4. 9. Paleta de herramientas de Enterprise Miner

40

4.8.1. Sampling

Input Data Source


Lee la fuente de datos y define los atributos o variables que se utilizarn en el
procesamiento del Diagrama5. Automticamente se crea una muestra de meta-datos
cuando se importa un conjunto de datos con Input Data Source. Enterprise Miner
automticamente define la escala de medicin de cada variable y el rol6 de esta en el
modelo. Si se desea se pueden modificar las definiciones realizadas automticamente,
adems despliega un resumen de estadsticas para variables de intervalo y otro para
variables categricas. Tambin se puede definir un archivo de la variable objetivo, este
contiene informacin relacionada con el variable objetivo como: matriz de decisiones,
costos, y probabilidades a-priori que son consideradas durante el proceso de validacin
y evaluacin del modelo. Aunque este archivo se puede definir y editar en algn nodo
de modelacin es conveniente definir esta informacin en el inicio del proceso.
Sampling
Permite realizar muestras aleatorias, aleatorias estratificadas y tomar grupos del
conjunto de datos. Sampling es recomendable para bases de datos extremadamente
grandes porque este puede reducir el tiempo de entrenamiento de un modelo.
Data Partition
Se usa para dividir los datos en tres conjuntos: entrenamiento, validacin y
prueba. El entrenamiento de los datos es usado para ajustar modelos preliminares. El
conjunto de datos de validacin es usado para monitorear y sintonizar los pesos o
parmetros del modelo durante la estimacin, tambin se usa para evaluar el modelo.
Los datos se prueban en un conjunto de datos adicional y se usa para la evaluacin del
modelo final. El nodo usa muestras aleatorias, muestras aleatorias estratificadas o
divisiones definidas por el usuario.

4.8.2. Exploring

Distribution Explorer
Es una herramienta de visualizacin avanzada que permite explorar rpida y
fcilmente grandes volmenes de datos en histogramas multidimensionales, es decir se
puede ver la distribucin de tres variables al mismo tiempo. Para variables binarias,
nominales u ordinales se pueden seleccionar valores especficos para incluir en el
grafico, tambin es posible generar un resumen de estadsticas para una lista de
variables.

Procesamiento del diagrama se refiere a la ejecucin de los nodos usados para resolver un problema de minera de
datos.
6
Es la representacin de la variable en el modelo puede ser: entrada, objetivo, id, no-considerada entre otras.

41

Multiplot
Es otra herramienta de visualizacin que permite explorar grficamente grandes
volmenes de datos
Insight
Programa SAS/ INSIGHT es un herramienta interactiva para explora y analiza datos.
Con ella se pueden explorar datos a travs de grficas y anlisis que son ligadas a
travs de ventanas mltiples. Se puede tambin analizar distribuciones univariadas,
investigar distribuciones multivariadas y fijar modelos lineales.
Association
Identifica la asociacin de relaciones entre los datos, por ejemplo A B. esta tcnica
tambin es conocida como Market Basket Analysis. El objetivo debe ser una variable
numrica no-continua (binaria, nominal u ordinal). Las secuencias binarias se
construyen automticamente pero puede usarse Even Chain Handler para construir una
secuencia de cadenas binarias.
Variable Selection
Evala la importancia de las variables de entrada en la prediccin o clasificacin del
objetivo. Para preseleccionar las entradas se usa como criterio de seleccin la Chicuadrada o R-cuadrada. Se puede usar el criterio de la R-cuadrada para eliminar
variables estableciendo algn orden de importancia, se pueden eliminar variables que
tienen alto porcentaje de datos faltantes y quitar variables de clases que nicamente
tienen un valor. Las variables que no estn relacionadas con el objetivo, aparecen con
status rejected. Aunque las variables rejected son pasadas a subsecuentes nodos en el
proceso del diagrama estas no son usadas en el modelo.
Link Analysis
Se usa para transformar datos de diferentes fuentes en un modelo de datos que pueda
ser graficado. El modelo soporta mediciones simples de estadstica representadas en
una grfica simple iterativa para una exploracin analtica y genera registros de grupos
para cada fila en los datos que pueden ser usados para reduccin de dimensionalidad o
segmentacin.

4.8.3. Modify

Data Set Atributes


Se usa para modificar atributos de los datos, tales como: nombres, descripcin y roles.
Tambin se usa para modificar la muestra de meta datos que esta asociada con el
conjunto se datos y para especificar el archivo objetivo.
Transform Variables
Se utiliza para realizar transformaciones a las variables de entrada, maximizan la
informacin y en muchas ocasiones se usa para estabilizar varianzas, remover no-

42

linealidad, corregir normalidad. Soporta un uso de definicin de formulas para


transformaciones, adems proporcionar una interfaz visual para el agrupamiento de
variables en cuantiles o intervalos.

Filter Outliers
Identifica y elimina outliers o ruido del conjunto de datos.
Replacement
Permite remplazar valores para variables de intervalo con media, mediana, rango
medio, o con una distribucin. Alternativamente se puede usar un M-estimador tales
como: Tukeys biweight, Hubers o Andrews Wave, tambin se pueden estimar valores
de reemplazamiento para cada entrada de intervalo usando un mtodo como rboles de
decisin. Para variables de clase los valores faltantes pueden reemplazarse con el de
mayor frecuencia o usando un mtodo como rboles de decisin o una constante.
Clustering
Se usa para segmentar datos, identificando observaciones que de alguna manera son
similares. En una grafica se despliegan las observaciones que son similares en el
mismo grupo y las observaciones que son diferentes tienden a estar en diferentes
grupos. Cada observacin es identificada dentro de un grupo, es posible usar esta
informacin en otros nodos como entradas o tambin puede usarse en otros nodos
como un grupo de variables que permite construir modelos para cada grupo por
separado.
SOM/Kohonen
Genera mapas auto-organizacionales, redes Kohonen y vectores de cuantificacin de
redes. SOM/ Kohonen ejecuta aprendizajes no-supervisados en los cuales se intenta
aprender de la estructura de los datos. SOM/ Kohonen presenta el anlisis de
resultados en forma de un mapa interactivo que ilustra las caractersticas de los grupos.
De tal manera que los resultados de SOM/ Kohonen mejoran un reporte que indica la
importancia de cada variable.
Time series
Convierte los datos a una serie de tiempo, ejecuta anlisis temporales y de tendencia
para un objetivo en escala continua o de intervalo.

4.8.4. Model

Regression
Se puede usar para modelos regresin lineal y logstica, el objetivo puede ser de escala
continua, ordinal y binaria, las variables de entrada pueden ser continuas y discretas, el
nodo soporta los mtodos de seleccin de variables Stepwise, forward y backward
(Seccin 4.9.2). Un modo interactivo permite crear modelos de alto-orden tales como
los modelos polinomiales.

43

Tree
Se usa para modelar rboles de decisin. La implementacin incluye caractersticas que
son encontradas en una variedad de algoritmos populares de rboles de decisin (p.e.
CHAID, CART, C4.5, y C5.0.) el nodo Tree soporta dos tipos de entrenamiento
automtico e interactivo. Cuando corremos el nodo tree en automtico, este ordena las
variables de entrada con base en la intensidad de su contribucin al rbol. Este orden
puede ser usado para seleccionar variables para su uso en subsecuentes modelos,
tambin se puede anular automticamente algn paso con la opcin que define una
regla de divisin o impureza y borrar explcitamente nodos o subrboles. Los
entrenamientos interactivos permiten explorar y evaluar un conjunto grande de rboles
como desarrollo de estos.
Neural Networks
Construye, entrena y evala redes feedforward perceptrn multicapa por omisin el
nodo de redes neuronales construye redes que tienen una capa oculta que contiene
tres neuronas. En general, cada entrada esta completamente conectada a la primera
capa oculta, cada capa oculta es conectada a la siguiente capa oculta y la ultima ltima
capa oculta esta conectada a la salida. En la seccin 4.9.2. Se dan ms detalles del
nodo.
Princomp/Dmneural
Se usa para fijar un modelo no-lineal aditivo que usa componentes principales como
entradas para predecir una variable objetivo binaria o de intervalo. El nodo
Princomp/Dmneuralt tambin funciona como un anlisis de componentes principales y
pasa los registros de componentes principales a un nodo sucesor.
User Defined Model
Permite generar una evaluacin estadstica usando valores predichos de un modelo que
se construye usando un cdigo de SAS (p.e. un modelo logstico usando el
procedimiento SAS/STAT LOGISTIC) o el nodo Variable Selection. Los valores
predichos tambin pueden ser guardados en un conjunto de datos de SAS y entonces
importar estos para un diagrama de flujo con el nodo Input Data Source.
Ensemble
Se usa para crear un nuevo modelo para la media de las probabilidades posteriores
(para objetivo nominal) o valores predichos (para objetivo de intervalo) de mltiples
modelos. El nuevo modelo es entonces usado para registrar nuevos datos. Un enfoque
comn es re-muestrear el entrenamiento de los datos y ajustar un modelo por separado
para cada muestra. Los componentes del modelo son entonces integrados por este
nodo para formar una solucin potencialmente fuerte.
Memory-Based Reasoning
Usa un algoritmo k-nearest neighbor para categorizar o predecir observaciones.

44

Two Stage Model


Ajusta un modelo de dos estados para predecir un objetivo de clases y otro para
objetivo de intervalo.
Los nodos de modelacin usan una tabla llamada model manager, en la cual se puede
evaluar el modelo que se esta usando.
4.8.5. Assessing

Assessment
Proporciona una estructura comn para comparar modelos y predicciones para algunos
de los nodos de modelacin (Regression, Tree, Neural Networks, y User Defined
Model). La comparacin esta basada sobre la ganancia esperada o prdida esperada
que pueden resultar de la implementacin del modelo. El nodo produce los siguientes
grficos que ayudan para describir el uso del modelo: beneficio, ganancia/ prdida,
grfica de diagnstico, sensibilidad, y ganancia acumulada.
Reporte
Evala los resultados de un proceso de anlisis de flujo dentro de un reporte de HTML
que puede ser visto con un buscador de web. Cada reporte contiene informacin de
cabecera, una imagen del diagrama de flujo, y un subreporte separado para cada nodo
en el diagrama. Los reportes son listados en el tabulador de reportes del navegador del
proyecto ver Figura 4.2.

4.8.6. Scoring

Score
Permite generar y manejar valores predichos de un modelo de entrenamiento. Las
formulas resultantes son creadas para evaluacin y prediccin. Enterprise Miner genera
y maneja formulas resultantes en la forma de SAS DATA step code, el cual puede ser
usado en ms desarrollos de SAS con o sin Enterprise Miner.
Score Converter
Se usa para convertir los datos del diagrama del cdigo SAS score producidos por
nodos precedores a Score Converter a los lenguajes C y Java. Esta es una herramienta
para usuarios experimentados de C y Java.
El nodo Score Converter soporta de entrada los siguientes nodos de Enterprise Miner:
Nodos Sampling
Entrada Data Source
Sampling
Data Partition

45

Nodo Exploring
Distribution Explorer
Multiplot
Insight
Association
Variable Selection
Link Anlisis
Modify.
Data Set Atributes
Transform Variables
Filter Outliers
Replacement
Clustering
SOM/Kohonen
Interactive grouping
Model
Regression
Tree
Neural Networks
User Defined Model
Ensemble
Two Stage Model
Assessing
Assessment
Reporter
Scoring
Score
Utility
Group processing
Data mining Database
Control point
Subdiagram

3.8.7. Utility

Group processing
Define una(s) variable grupo tal como gnero, para obtener anlisis por separado para
cada nivel de la variable grupo. Se puede analizar ms de un objetivo, y se puede remuestrear la base de datos del entrenamiento para obtener un catlogo de modelos.
Data Mining Database
Permite crear bases de datos de minera de datos (DMDB) por sus siglas en ingls, la
cual es una base de datos que esta diseada para optimizar la ejecucin de los

46

siguientes nodos analticos: Variable Selection, Tree, Neural Networks, y Regression.


La DMDB realza el rendimiento que un motor analtico necesita hacer a travs de los
datos.

SAS Code
Incorpora cdigos nuevos o existentes de SAS en procesos de diagramas de flujo. La
habilidad para escribir el cdigo de SAS permite incluir procedimientos adicionales de
SAS en el anlisis de minera de datos. Se puede tambin usar un paso de SAS DATA
para crear cdigos personalizados, para condicionar procesos de datos, y para
concatenar o juntar conjuntos de datos. El nodo proporciona un macro para referenciar
dinmicamente conjuntos de datos del entrenamiento, validacin, prueba o scoring y
variables tales como: entrada, objetivo, y variables predichas. Despus se puede
ejecutar el nodo SAS Code, el resultado y los datos pueden exportarse para uso de
nodos subsecuentes en el diagrama.
Control point
Establece un punto de control para reducir el nmero de conexiones que son hechas en
el proceso del diagrama. Por ejemplo, suponga que tres nodos de Input Data Source
son conectados a tres nodos de modelacin. Si el nodo Control Point no es usado
entonces nueve conexiones son requeridas para conectar todos los nodos Input Data
Source a todos los nodos de modelacin. Sin embargo, si el nodo Control Point es
usado, solamente son requeridas seis conexiones.
Subdiagram
Se usa para agrupar o condensar un fragmento del proceso de diagrama en un
subdiagrama. Para procesos complejos de diagramas, se pueden crear subdiagramas
que diseen mejor el proceso del diagrama.

4.8.8. Clonar un nodo

Si se quisiera usar un nodo repetidamente en varios proyectos, el nodo se puede


clonar. Es decir si se quisiera definir una base de datos en un nodo Input Data Source y
se quiere usar la misma base en tal o en otro diagrama, entonces se clona un nodo.
Cuando un nodo es clonado este se aade como un nuevo nodo en la paleta de
herramientas dentro de una sesin llamada custom. Cuando se quiere usar el nodo
simplemente se arrastra al espacio de diagrama, toda la informacin contenida en el
nodo original esta incluida en el nodo clonado. Por ejemplo: objetivo, niveles de
medicin, rol de las variables en el modelo etc.

47

4.9. Modelos de clasificacin.


4.9.1. Seleccin de variables para el modelo multinomial

El nodo de Regresin en Enterprise Miner proporciona tres mtodos de seleccin


secuencial de variables.
Forward: Crea una secuencia de modelos incrementando su complejidad. La
secuencia empieza con un modelo base, el algoritmo busca el modelo del conjunto
de una-entrada y selecciona el modelo que mejora el modelo base, ste entonces
busca el modelo del conjunto de dos-entrada que contiene la entrada seleccionada
en previos pasos y selecciona el modelo que mejora la significancia. Para adherir
una nueva entrada a estos pasos previos, se genera una secuencia anidada del
incremento de la complejidad del modelo. La secuencia termina cuando la
significancia (p-value) del modelo no mejora.
Backward: Crea una secuencia de modelos que decrementan su complejidad. La
secuencia empieza con un modelo saturado, un modelo que contiene todas las
entradas disponibles, de esta manera, tiene el ms alto posible modelo estadstico
fijo. Las entradas son secuencialmente removidas del modelo. En cada paso, la
entrada removida reduce al menos la media global del estadstico fijo. Esto es
equivalente a remover la entrada con el ms alto p-value. La secuencia termina
cuando todas las entradas removidas tienen un p-value mayor un valor
predeterminado.
Stepwise: Combina elementos de ambos mtodos de seleccin forward y backward.
El mtodo comienza con el procediendo de forward, secuencialmente adhiere
entradas con el p-value ms pequeo debajo de un valor de entrada establecido,
posteriormente cada entrada es adherida, sin embargo, el algoritmo re-evala la
significancia estadstica de todas las entradas incluidas si el p-value para alguna
entrada incluida que excede al valor de entrada, entonces la entrada es removida del
modelo y entra nuevamente dentro del juego de variables disponibles para la
inclusin en una secuencia de pasos. El proceso termina cuando todas las entradas
disponibles para la inclusin en el modelo tiene p-value mayor al valor de entrada y
todas las entradas ya incluidas en el modelo tiene un p-value menor que valor de
entrada.

4.9.2. Modelo de redes neuronales

El nodo de redes neuronales de SAS Enterprise Miner proporciona redes del tipo
feedforward perceptrn multicapa con dos capas los aspectos tericos de estas redes
fueron presentados en la seccin 3.4. Aqu solo se presentan algunos aspectos que
Enterprise Miner permite. La estructura del modelo bsicamente tiene arreglos de

48

neuronas en tres capas. La primera capa llamada capa de entrada conecta a un estrato
de neuronas llamada capa oculta a su vez este conecta a un estrato final llamado
salida. La funcin de activacin que SAS Enterprise Miner usa por omisin para la capa
de entrada es la tangente inversa hiperblica y la funcin logit para la capa de salida,
sin embargo, se permiten algunas variaciones de la estructura de la red (Institute Inc.,
1999-2001c).
La red es entrenada de manera que los parmetros o pesos se actualizan hasta
encontrar un mnimo de la funcin de error o hasta que se cumpla cierto nmero de
iteraciones el programa ejecuta 100 iteraciones por omisin pero se pueden ejecutar
ms o menos iteraciones segn se desee. La funcin de error que se utiliza
frecuentemente es el error cuadrado medio, sin embargo, depende del tipo de escala de
medicin del objetivo, cuando este es una variable nominal se usan las funciones de
error Bernoulli mltiple, entropa o multinomial.
Enterprise Miner permite otras arquitecturas de redes neuronales del tipo de Funciones
Radiales Bsicas (Radial Basic Function), para ms detalles de esta red ver (SAS
Institute Inc. 1999-2001b).

4.9.3. rboles de clasificacin


Enterprise Miner permite el uso de algoritmos de rboles de clasificacin tales como
CART, C4.5. y C5.0. El primero fue descrito en la seccin 3.5. los otros representan un
mejor competidor para CART. Mediante una serie de instrucciones se puede utilizar
cualquiera de estos mtodos en el programa. SAS System Help proporciona los detalles
para el uso de stos (Institute Inc. 1999-2001c).

4.9.4. Matriz de decisiones y probabilidades a-priori

Es una matriz cuadrada ( L x L ) que refleja la ganancia o prdida de las decisiones


(clasificaciones o predicciones) hechas por un modelo. En los problemas de
clasificacin, la consecuencia de las observaciones mal clasificadas es ms seria en
algunas clases que otras. El objetivo de crear una matriz de decisiones es seleccionar
el modelo que maximiza la ganancia, o minimiza la prdida total. De manera que la
ganancia esperada para la decisin d para el caso i esta definida en (4.1) (Institute
Inc. 1999-2001c).

E{ i,d } =

Qi,l ,d Posti,l

(4.1)

donde l es el ndice para los valores del objetivo, d es el ndice para las decisiones
hechas por el modelo, Qi ,t ,d es la ganancia o prdida de hacer la decisin d cuando el

49

objetivo es l para el caso i , Posti ,t es la probabilidad posterior del objetivo para la clase
l del caso i .
Para cada i la decisin se realiza seleccionando el valor de d que maximiza la
ganancia esperada, la cual se denota por D( i )

D( i ) = arg max Qi ,l ,d Posti ,l


d

(4.2)

La ganancia C( i ) del valor del objetivo usando la decisin


seleccionado se puede calcular mediante

C( i ) = Qi , L( i ), D( i )

D( i ) del modelo

(4.3)

donde L( i ) es el ndice del valor de objetivo para el caso i . Para la prdida se utiliza el
negativo de C( i )
De manera que la ganancia total y la ganancia promedio estn dadas por (4.4) y (4.5)
respectivamente
Ganancia total = F( i )C( i )
(4.4)

Ganancia promedio=

Ganancia total
F( i )

(4.5)

Para una matriz de prdidas, la prdida total y media son calculadas como el negativo
de (4.4) y (4.5). Cuando las probabilidades a-priori son conocidas la ganancia total y
ganancia media son ajustadas como en (4.6) y (4.7).

Ganancia total = Paw( l )

F( i )C( i )

(4.6)

iclase( l )

Ganancia promedio=

Ganancia total
F( i )

(4.7)

donde:

Paw( l ) =

Pr ior ( l )
F( i )
F( i ) i

iclase( l )

Pr ior( l ) es la probabilidad a-priori del objetivo para la clase l .

50

(4.8)

4.9.4. Evaluacin y seleccin de los modelos de clasificacin.

El nodo Assessment permite evaluar los modelos de clasificacin usando una serie de
grficas algunas de ellas son (Institute Inc. 1999-2001c):

Ganancias/prdidas.
Grfica de ganancias cruzadas.
Grfica de diagnstico.
Grfica de Ganancias/prdidas
Para realizar una grfica de ganancias, los datos de un conjunto de validacin o prueba
son ordenados de manera descendente a la ganancia promedio (4.8) de cada dato,
entonces se dividen los datos en deciles, los cuales son representados en el eje
horizontal de la grfica, mientras que en el eje vertical se representa la ganancia
promedio, de manera que el primer decil tiene la ganancia ms alta y el ltimo decil la
ganancia menor. El procedimiento de un grafico de prdidas es similar solo que los
datos son ordenados de manera descedente.
Grfica de Ganancias/cruzadas
Es igual que una grfica de ganancias/perdidas, pero en esta se pueden comparar dos
conjuntos de datos (validacin y prueba)
Grfica de Diagnstico (matriz de confusin)
Compara el valor observado de cada clase del objetivo con la clasificacin que hace el
modelo para cada clase del objetivo para cada caso de algn conjunto de datos
(validacin o prueba).

Adicionalmente el nodo permite dos criterios para seleccionar un modelo:


1. Elegir el modelo que maximiza la ganancia o minimiza la prdida total,
calculada mediante (4.4) segn sea el caso.
2. Construir una grfica de beneficios fijando umbral de decisin, sta decisin no
esta incluida en la matriz de decisiones se conoce como no hacer nada, de
manera que se elige esta opcin en caso de que el modelo que maximiza la
ganancia o minimiza la prdida no mejore la ganancia o prdida fijada en la
grfica.

51

5. Un ejemplo de minera de datos usando Enterprise Miner


en la clasificacin de la cobertura forestal
5.1. Introduccin
En este captulo se ejemplifica el proceso de la minera de datos usando SAS
Enterprise Miner. Los datos que se usan en el ejemplo pertenecen al estudio realizado
por Blackard y Dean (1999a), el objetivo general de dicho estudio fue evaluar la certeza
de un modelo de redes neuronales contra un modelo basado en anlisis discriminante
para clasificar la cobertura forestal del bosque Roosevelt National Forest, localizado al
norte de Colorado en Estados Unidos.
En el ejemplo se utilizan los datos mencionados, principalmente por las siguientes
razones: 1) La bsqueda de una estructura o modelo de clasificacin es un problema
caracterstico de minera de datos, 2) La base de datos es de gran tamao y 3) El
problema pertenece al rea Agropecuaria, especficamente Forestal. De manera que
estos datos son adecuados para el propsito de esta investigacin.
En este apartado se detalla paso a paso la solucin de problema mediante Enterprise
Miner, se empieza por: dividir, explorar y modificar los datos, para realizar de una
manera ms eficiente la aplicacin de modelos de clasificacin (multinomial, redes
neuronales, y rboles de clasificacin), posteriormente se evalan los modelos y se
selecciona el que mejor clasifica la cobertura forestal de acuerdo al criterio de minimizar
la prdida, por ltimo se realiza la clasificacin a un conjunto de datos para los cuales
no se ha especificado el objetivo, con esta secuencia de herramientas se logra
ejemplificar el proceso de la minera de datos en la solucin de este problema en
particular, para ello se ocupan las siguientes interfases de Enterpriser Miner estas son:
Input Data Source, Data Partition, Multiplot, Transform Variables, Regression, Neural
Network, Tree, Assessment, Score, Distribution Explorer, SAS Code y Reporter.
Se detalla cada una de las interfases que se utilizan, tambin se presenta una discusin
de los resultados encontrados, sin embargo, el reporte completo con las salidas de cada
interfaz se encuentra en el Anexo2. Para la realizacin del captulo se consult SAS
System Help (SAS Institute Inc., 1999-2001c) y otros manuales de SAS Institute Inc.
(SAS Institute Inc., 2004), (SAS Institute Inc., 2003), (SAS Institute Inc., 2002).

52

5.2. Antecedentes del problema


Originalmente los datos fueron usados en la disertacin Comparison of Neural
Networks and Discriminant analysis in Predicting Forest Cover Types (Blackard y Dean,
1999a). El objetivo general de tal disertacin fue evaluar la certeza del modelo de redes
reuronales contra un modelo basado en anlisis discriminante para predecir la cobertura
forestal, el estudio incluye cuatro reas del bosque de Roosevelt National Forest,
localizadas aproximadamente a 70 millas al noroeste de Denver, Colorado. La razn
para seleccionar stas reas fue por que contienen suelos forestales que han tenido
poco manejo humano, consecuentemente el tipo de cobertura forestal en estas reas es
principalmente un resultado del proceso ecolgico natural ms que del manejo humano
de la actividad forestal.
Las reas de estudio son las siguientes ver Figura 5.1.
1.
Rawah (29628 hectreas o 73213 acres)
2.
Neota(3904 hectreas o 9647 acres)
3.
Comanche Peak (27389 hectreas o 67680 acres) y
4.
Cache la Poudre 7(3817 hectreas o 9433 acres)

Figura 5. 1. reas del bosque Roosevelt National Forest (Blackard y Dean, 1999)
La informacin del tipo de cobertura forestal (objetivo) fue extrada del United States
Forest Service (USFS). Las variables independientes o de entrada, las cuales se
describen en el Cuadro 5.1., fueron obtenidas del United States Geological Survey
(USGS).

53

Cuadro 5.1. Descripcin de las variables de entrada para la clasificacin de la cobertura


forestal (Blackard y Dean, 1999).
VARIABLES
1.-Elevacin (Altura de un terreno en metros sobre el nivel del mar)
2.-Aspecto (distancia angular entre el horizonte para localizar un objeto se
mide grados azimuth por conviccin del norte hacia el este).
3.-Pendiente(Porcentaje de inclinacin donde 0 indica un terreno
horizontal y 70 una inclinacin muy pronunciada)
4.-Distancia horizontal a la superficie hidrolgica ms cercana (m)
5.-Distancia vertical a la superficie hidrolgica ms cercana (m)
6.-Distancia horizontal a la carretera ms cercana (m)
7.-ndice de sombra de montaa a las 9:00am en el solsticio de verano
(donde 0 indica un terreno oscuro y 255 un rea que recibe directa la luz)
8.-ndice de sombra de montaa a las 12:00am en el solsticio de verano
(donde 0 indica un terreno oscuro y 255 un rea que recibe directa la luz)
9.-ndice de sombra de montaa a las 3:00pm en el solsticio de verano
(donde 0 indica un terreno oscuro y 255 un rea que recibe directa la luz)
10.-Distancia horizontal al punto de inicio del incendio forestal mas
cercano(m)
11.-rea de bosque (4 variables cualitativas codificadas con 0-1)
12.-Designacin del tipo de suelo (40 variables cuantitativas codificadas
con 0-1)
La elevacin fue obtenida directamente del Modelo Digital de Datos de Elevacin (DEM)
del USGS con base en celdas raster7 de (30 x 30) m. (escala 1:24000). Aspecto,
pendiente y las tres mediciones relativas al ndice de sombra fueron desarrolladas por el
DEM usando el estndar GIS-base del anlisis de superficie y el procedimiento de
sombra de montaa (Instituto de Investigacin de Sistemas del Medioambiente, 1991).
La distancia horizontal a las superficies hidrolgicas y la distancia horizontal a las
carreteras fueron determinadas aplicando anlisis de distancias euclidianas por el
USGS hidrolgico y transportacin de datos. La distancia horizontal al punto de inicio
del incendio forestal ms cercano fue determinada usando un anlisis de distancias
euclidianas y el USFS el cual identifica los puntos de inicio de incendios forestales
ocurridos en los ltimos 20 aos. La distancia vertical a la superficie hidrolgica ms
cercana fue calculada usando una combinacin del DEM, datos hidrolgicos y un
programa de anlisis espacial costumbre-construccin. Las variables tipo de suelo y
rea bosque fueron obtenidas del USFS. Estas variables son cualitativas y fueron
tratadas como columnas binarias para cada una de sus etiquetas y codificadas como 0

Una celda raster es una cuadricula de 30x30m en donde se especifica el cobertura forestal

54

1, donde 0 denota ausencia y 1 denota presencia, los detalles acerca del suelo se
presentan en el Anexo1.
El tipo de cobertura forestal (objetivo) del bosque de Roosevelt National Forest, tiene
una de las siguientes clasificaciones:
1. Picea/Abeto (Picea engelmannii y Abies lasiocarpa)
2. Pino lodgepole (Pinus contorta)
3. Pino ponderosa (Pinus ponderosa)
4. lamo/Sauce (Populus angustifolia, Populus detoides, Salix amygdaloides)
5. lamo Aspen (Populus tremuloides)
6. Abeto Douglas (Pseudotsuga menziesii)
7. Krummholz Engelmann spruce(Picea engelmannii) subalpine fir (Abies lasiocarpa) y
rocky mountain bristlecone pine (Pinus aristata)
Los mapas del tipo de cobertura para estas reas fueron creados por el USFS y estn
basados en estndares homogneos variando en tamao de 2 a 80 hectreas (de 5 a
200 acres) que fueron derivados de fotografas areas de escala-grande.
El tamao de la base de datos es de 73,408 KB, los datos tienen 581,012
observaciones o filas. Cada fila de los datos representa una nica celda raster de (30 x
30)m. correspondiente a los datos USGS DEM. Los datos se obtuvieron de los archivos
de la UCI KDD (Blackard y Dean, 1999b).

5.3. Planteamiento del problema de aplicacin.


Como se ha mencionado anteriormente el arte de la minera de datos es encontrar
patrones o estructuras ocultas en grandes bases de datos, adems uno de los objetivos
de la disciplina es predecir o clasificar una variable objetivo en relacin con un conjunto
de variables explicativas (Seccin 2.4.1.).
El objetivo del ejemplo de aplicacin es encontrar una estructura o modelo que lleve a la
correcta clasificacin de la cobertura forestal del bosque Roosevelt National Forest,
para posteriormente utilizar este modelo en un nuevo conjunto de datos donde se
desconoce el tipo de cobertura del bosque. Para lograr este objetivo se construye un
diagrama de Enterpriser Miner siguiendo la metodologa SEMMA. Durante este
apartado se explicar cada uno de los nodos utilizados en el diagrama y el porque de
uso para solucin de este ejemplo en particular. La Figura 5.2. Muestra el diagrama
empleado.

55

Figura 5. 2. Diagrama de SAS Enterprise Miner utilizado para la clasificacin de la


cobertura forestal del bosque Roosevelt National Forest.

5.4. Inicio del diagrama.


Primero se inicia SAS Enterprise Miner como se explic en el apartado 4.4. y en la
Figura 4.1., posteriormente se crea un proyecto, el nombre de ste para el ejemplo es
PROYECTO-FORESTAL (apartado 4.5.2.), por ltimo se crea el diagrama como en
4.7.1. De manera que siguiendo la metodologa SEMMA, se empezar por ocupar los
nodos Input Data Source, y Data Partition ambos pertenecen a la letra S de SEMMA,
ver 4.3.

5.5. Base de datos de entrada.


Para especificar los datos de entrada se utiliza el nodo Input Data Source, antes de
detallar los pasos de este nodo, se mencionan las modificaciones hechas a los datos
antes de ocuparlos en SAS.
Los datos originalmente se obtuvieron en formato ASSCII (Blackard y Dean, 1999b).
Posteriormente en ACCESS 2003, se modificaron dndole nombre a las variables
(Cuadro 5.2.), adems se incluy una nueva variable ID como identificador de los
registros o filas, sta variable es empleada ms adelante en el apartado 5.14. Por ltimo
se exportaron los datos a SAS en la librera SASHELP8 usando la opcin Export- Data
8

En SAS existen otras librerias donde se puede guardar los datos, se elegi sta pero se puede seleccionar
cualquier otra.

56

del men principal de SAS. Adems del nombre el Cuadro 5.2., muestra el rol y la
escala de medicin de las variables de entrada. Las columnas rol y escala (Cuadro
5.2.), se definieron posteriormente en SAS Enterprise Miner.
Cuadro 5.2: Nombre, rol y escala de medicin de las variables de entrada.
NOMBRE
ROL
TIPO DE MEDICIN
ELEVACION

Entrada

Intervalo

ASPECTO

Entrada

Intervalo

PENDIENTE

Entrada

Intervalo

HRZ_HIDRO

Entrada

Intervalo

VER_HIDRO

Entrada

Intervalo

HRZ_CARR

Entrada

Intervalo

SOMBRA9

Entrada

Intervalo

SOMBRA12

Entrada

Intervalo

SOMBRA3

Entrada

Intervalo

HRZ_INCEN

Entrada

Intervalo

AREA1-AREA4

Entrada

Binaria

SUELO1-SUELO40

Entrada

Binaria

COBERTURA

Objetivo

Nominal

Los pasos para definir la base de datos del estudio en Enterprise Miner son los
siguientes:
1. Arrastrar al espacio de diagrama de la paleta de herramientas el nodo Input Data
Source como se ve en la Figura 5.3.

57

Figura 5.3. Definicin de la base de datos de entrada.


2. Hacer doble clic en Input Data Source, para este ejemplo se selecciona de la
librera SASHELP la base de datos FORESTAL, es importante notar que el rol de
los datos es RAW como en la Figura 5.4.

Figura 5.4. Especificacin de los datos de entrada.


3. Posteriormente seleccionar la opcin Variables. De manera automatizada
Enterprise Miner identifica la escala de medicin de las variables de entrada en
este ejemplo hay variables de intervalo (continua), binaria y nominal (categrica).
Como se ha mencionado anteriormente los mtodos usados en este ejemplo son
referidos como de aprendizaje con supervisin, es necesario entonces indicarle al
programa la variable objetivo que guiar el aprendizaje.
4. Para indicarle al programa el objetivo se da clic derecho en la variable
COBERTURA en la columna Model Role como se muestra en la Figura 5.5., un
pequeo men aparece se seleccionar Set Model Role y posteriormente target,

58

hay que especificar el tipo de escala del objetivo en Measurement, en este caso
nominal. La opcin Class Variables contiene informacin acerca de las variables
nominales como el nmero de clases en cada variable y el orden en que estas se
presentan, aunque esto no tiene ninguna consecuencia en los resultados
simplemente es la manera de presentarlo, en este ejemplo se elige un manera
ascedente para todas la variables (Ascending).

Figura 5.5. Variables de entrada en SAS Enterprise Miner.


5. Es posible tambin ver el comportamiento de cada variable mediante un
histograma, en este estudio se grafic el objetivo para calcular la frecuencia en
cada clase ver Figura 5.5, de manera que se da un clic derecho en la variable
COBERTURA y se selecciona View Distribution of Cobertura. De la Figura 5.6.
se observa que las especies Picea/Abeto (1) y Pino lodgepole (2) representan el
85.19% del total de especies de la cobertura forestal del bosque, el resto de las
variables tienen menor presencia en la cobertura.

59

283301
(48.74%)

211840
(36.45%)

35754
(6.15%)

2747
(0.47%)

9493
(1.63%)

17637
(3.03%)

20510
(3.53%)

Figura 5.6. Frecuencias del objetivo (cobertura forestal).

5.5.1. Definicin del archivo objetivo.

Como se mencion en la seccin 4.9.4. Un criterio para seleccin un modelo como los
que se ajustan ms adelante (multinomial, redes neuronales, y rboles de clasificacin),
es minimizar la prdida para lo cual es necesario definir una matriz de prdidas ver
seccin 4.9.3. sta matriz es subjetiva se construye de acuerdo a la experiencia de un
experto del rea de estudio, en este caso el Dr. Rene Valdez9 ayud a construir la
matriz de prdidas dada en el Cuadro 5.3., En este caso los valores de la matriz van de
0 a 7, donde 0 significa no tener prdida es decir cuando el modelo clasifica
correctamente y 7 es el error de clasificacin ms penalizado, por ejemplo clasificar una
especie lamo/Sauce (4) como Picea/Abeto (1) es ms riesgoso que clasificar una Pino
lodgepole (2) Picea/Abeto (1).

9
Profesor investigador del rea de Sistemas de Informacin Geogrfica, Colegio de Postgraduados, E-mail
(valdez@colpos.mx).

60

Cuadro 5.3. Matriz de prdidas utilizada en la clasificacin de la cobertura forestal.


Decisin
Clases
Picea/Abeto (1)
Pino lodgepole (2)
Pino ponderosa (3)
lamo/Sauce (4)
lamo Aspen (5)
Abeto Douglas(6)
Krummholz (7)

Picea/
Abeto
(1)

Pino
lodgepole
(2)

Pino
ponderosa
(3)

lamo/
Sauce
(4)

lamo
Aspen
(5)

Abeto
Douglas
(6)

Krummholz
(7)

0
4
7
7
4
4
2

4
0
7
7
4
4
4

7
7
0
2
7
7
7

7
7
2
0
7
7
7

4
4
7
7
0
2
4

4
4
7
7
2
0
4

2
4
7
7
4
4
0

En Enterprise Miner la matriz de decisiones al igual que otras especificaciones del


objetivo pueden disear en el nodo Input Data Source dentro del archivo target
(objetivo), o bien definirse ms adelante en los nodos de modelacin ver 4.8.1. Para
definir un archivo target se siguen los siguientes pasos:
1. Dar clic derecho en la variable COBERTURA en la columna Model Role ver la
Figura 5.5.
2. Un pequeo men es desplegado seleccionar Edit target profile, aparece la
ventana de la Figura 5.7.

Figura 5.7. Definicin del archivo target.


3. Seleccionar la opcin Assessment Information, SAS proporciona dos opciones
de matrices de decisiones predeterminadas10. En nuestro caso se aade una
nueva matriz, en el panel de la izquierda se hace clic derecho, se selecciona Add,
entonces se teclea el nombre y los valores de las prdidas definidas en el cuadro
5.3. se da un clic derecho y se selecciona Set to use un asterisco indica que es la
matriz que se esta usando como se muestra en la Figura5.8.

10
Por omisin Enterprise Miner predetermina dos matrices una de prdidas y otra de ganancias, con valores de
ceros y unos.

61

Figura 5.8. Definicin de la matriz de prdidas usada en el ejemplo.


4. Por omisin en Edit Decisions aparece Maximize profit, en nuestro caso se
selecciona minimizar la prdida (Minimize loss), ver Figura 5.9, posteriormente se
cierra el apartado.

Figura 5. 9. Editor de Decisiones de la matriz de prdidas.


5. Por ltimo se cierra las ventanas target profile e Input Data Source, y se guardan
los cambios.

5.5. Base de datos para el entrenamiento, validacin y prueba.


Siguiendo SEMMA y como se explica en el apartado 2.4.1., la aplicacin de los modelos
de clasificacin requiere un procedimiento que consiste en entrenar y validar modelos.
En este estudio la base de datos de entrada fue dividida en tres conjuntos, el primero
para el entrenamiento, el segundo para la validacin y el ltimo para probar el modelo,
el criterio de divisin fue 50%, 25% y 25% respectivamente. La seleccin de los datos

62

se hizo de manera estratificada de acuerdo al objetivo, para prevalecer la proporcin de


las clases del objetivo en cada conjunto de datos.
1. El primer paso es aadir el nodo Data Partition al espacio de diagrama.
2. Para lograr lo anterior conectar el nodo Data Partition al nodo Input Data Source.
3. Abrir el nodo Data Partition y establecer los porcentajes de la base para el
entrenamiento, validacin y prueba en este caso 50%, 25% y 25%
respectivamente como en la Figura 5.10.

Figura 5. 10. Divisin de la base de datos para entrenamiento, validacin y prueba.


4. El mtodo que se us para dividir los datos es estratificado por lo tanto hay que
seleccionar la variable segn la cual se realizar la estratificacin, por lo tanto en
la opcin Stratification, dar clic derecho en la columna status de la variable
COBERTURA y seleccionar use en set status como en la Figura 5.11.

Figura 5. 11. Especificacin de la variable de estratificacin en cada conjunto de datos.


5. Cerrar la ventana de Data Partition, guardar los cambios y seleccionar run para
ejecutar un nodo. La ejecucin (run) de un nodo se refiere a la instruccin para
que el programa realice la tarea indicada, automticamente cuando se ejecuta un
nodo, los nodos antecesores a este son tambin ejecutados.

63

5.6. Visualizacin de datos.


Para explorar los datos (E de SEMMA) se ocupa una herramienta para visualizar la
informacin mediante graficas, en este ejemplo se utiliz Multiplot, los pasos para este
nodo son:
1. Aadir el nodo Multiplot al espacio de diagrama, el cual realiza una grfica
cruzando cada variable de entrada con el tipo de cobertura.
2. Conectar el nodo Multiplot al nodo Data Partition.
3. Abrir el nodo y especificar la forma en que se desea que se presenten los
resultados como se observa en la Figura 5.12.
4. Cerrar nodo, guardar cambios y ejecutar el nodo. El programa grfica cada una
de las variables de entrada segn el tipo de cobertura, nicamente se presentan
los resultados donde se observa alguna tendencia segn el tipo de cobertura.

Figura 5. 12. Grficos Multiplot


Los resultados ms relevantes son (Figura 5.13).
La reas Neota (rea 2) y Cache la Poudre (rea 4) tiene menos presencia que las
otras reas, destaca que el rea Cache la Poudre no hay la especie Picea/Abeto (1).
La elevacin vara entre 1,859m.-3,858m. se aprecia que en los niveles bajos de
elevacin la presencia de las especies Pino ponderosa (3) y Abeto Douglas (6) es
destacable, en los niveles medios y altos destaca el tipo de cobertura Pino lodgepole (2)
y en los niveles mas altos de elevacin florece el tipo de cobertura Picea/Abeto (1), de
tal manera que la elevacin en una variable fundamental en la clasificacin de la
cobertura. El aspecto se mide en grados azimuth, es decir va de 0-360, de manera
general hay mas observaciones cercanas a 0 y/o 360, no se aprecia algn
agrupamiento segn el tipo de cobertura.
La pendiente se concentra entre 0-20 y no se aprecia alguna distincin segn la
cobertura forestal.

64

La distancia horizontal a la superficie hidrolgica ms cercana varia entre 0-1,397m


pero la concentracin de observaciones es alrededor de 0-300m, la distancia vertical a
la superficie hidrolgica varia entre -173 y 601m concentrndose entre -15 y 75m. en
cuanto al tipo de cobertura no se aprecia distincin.
La distancia horizontal a la carretera ms cercana se encuentra entre 0-7,117m, las
observaciones estn ms concentradas entre 250-1500, no se observa algn cambio en
la distribucin segn el tipo de cobertura.
El ndice de sombra de montaa solsticio de verano vara entre 0-255 donde 0
significa oscuridad total y 255 luz directa solar. Se hicieron mediciones a las 9am, 12pm
y 3pm. Las observaciones en las mediciones de 9am y 12am tienden a tener mucha luz,
mientras que a las 3pm las observaciones tienen una distribucin aproximadamente
normal, no se observa alguna tendencia segn el tipo de cobertura.
La distancia horizontal al punto de incendio ms cercano vara entre 0-7,173m, las
observaciones se concentran entre 375-1,375m, sin embargo hay una ligera tendencia
de la cobertura Lodgepole pine (2) hacia las distancias ms lejanas del punto de
incendio.
En los tipos de suelo destacan las coberturas Pino lodgepole (2), Pino ponderosa (3)
y Abeto Douglas (6) en el suelo 10, Pino lodgepole (2) en el suelo 12, Picea/Abeto (1) y
Pino lodgepole (2) en los suelos 22, 23, 29 y 33, Pino lodgepole (2) en el suelo 30.

Figura 5. 13. Grfica de las variables de entrada segn cobertura.

65

Figura 5. 14. Grfica de las variables de entrada segn cobertura (continuacin).

66

Figura 5. 13. Grfica de las variables de entrada segn cobertura (Continuacin)

67

5.7. Transformacin de variables.


En ocasiones en el proceso de minera de datos es recomendable hacer alguna
transformacin o modificacin a los datos para que subsecuentes herramientas sean
ms eficientes, por ello la primera M de SEMMA se refiere a la modificacin de los
datos (Seccin 4.8.3.). En este ejemplo se estandarizaron las variables de entrada que
estn en escala de intervalo. Los pasos que se siguieron son:
1. Arrastrar al espacio de Diagrama el nodo Transform variables.
2. Conectar el nodo Transform variables al nodo Data Partition.
3. Abrir el nodo, las variables son listadas en la pestaa Variables.
4. La variable ELEVACION fue estandarizada mediante la frmula
ELEVACION - MEAN
, de igual manera fueron estandarizadas el resto de las
STD DEV
variables de intervalo. MEAN y STD DEV son calculadas con la base de datos
de entrada (incluyendo todos los registros).
5. Automticamente las variables originales no son usadas como se observa en
la Figura 5.14., donde el nombre de cada variable aparece en la columna keep
con un valor No. en los nodos subsecuentes se utilizan las variables
estandarizadas que se muestran en la Figura 5.14.

Figura 5. 15. Nodo de transformacin de variables.


6. Cerrar, guardar cambios y ejecutar el nodo.

68

5.8. Modelos de clasificacin


Como se mencion al inicio del ejercicio, se busca una estructura o modelo que lleve a
la clasificacin de la cobertura forestal, Enterprise Miner permite la aplicacin de varias
tcnicas de modelacin (segunda M de SEMMA), se utilizan los modelos de regresin
logstica multinomial, redes neuronales y rboles de clasificacin para seleccionar el
que tenga mayor certeza en la clasificacin de la cobertura forestal, con el criterio de
minimizar la prdida (Seccin 4.9.4.).

5.8.1. Ajuste de un modelo de regresin multinomial

El primer modelo que se ajusta, es el multinomial los aspectos tericos fueron


presentados en la Seccin 3.3. Los pasos son los siguientes:
1. Aadir el nodo de Regression al espacio de diagrama.
2. Conectar el nodo de Regression al nodo de Data Partition.
3. Abrir el nodo de Regression, ste se muestra en la Figura 5.15.

Figura 5. 16. Variables de entrada al modelo de regresin logstica multinomial.


4. En la pestaa Model Options ver Figura 5.16., se muestra como
automticamente SAS reconoce el tipo de modelo y la funcin liga en este caso
Multinomial y la funcin liga es la Logit.

69

Figura 5. 17. Opciones del modelo de regresin logstica multinomial.


5. La opcin Selection Method permite utilizar los mtodos de seleccin de
variables tales como: Forward, Backward o Stepwise (Seccin 4.9.1.). Para este
ejercicio de utiliz Stepwise y el criterio de evaluacin fue Profit/Loss como se
muestra en la Figura 5.17.

Figura 5. 18. Mtodo de seleccin de variables: nodo Regression.


6. Por ltimo cerrar el nodo y guardar el nombre del modelo (Figura 5.18). Hacer clic
derecho en el nodo y selecciona run, para ejecutar el nodo.

70

Figura 5. 19. Nombre del modelo de regresin logstica multinomial.


Los resultados ms relevantes se presentan en la siguiente figura y en el Cuadro 5.4.,
sin embargo, el reporte completo de resultados se encuentra en el Anexo 2.

Figura 5. 20. Estadsticas del de regresin logstica multinomial.


La Figura 5.19., muestra entre otras mediciones los errores cuadrados promedio (ASE)
por sus siglas en ingls, lo ideal en un modelo es que ASE sea lo ms cercano a cero,
en ste caso los tres conjuntos de datos: entrenamiento, validacin y prueba tienen un
ASE aproximado de 0.54, tambin contiene la proporcin de clasificaciones incorrectas
(Missclassifaction Rate) aproximadamente de 0.27 para los tres conjuntos de datos, y la

71

prdida promedio para la Cobertura 1.15 de igual manera para los tres conjuntos de
datos, estas mediciones son importantes para evaluar y seleccionar un modelo.
Por otra parte el mtodo de seleccin de variables Stepwise, realiza 33 pasos y
selecciona las variables que mejor ajustan el modelo, las cuales son: Area1, Area3,
ASPECTO, ELEVACIN, HRZ_CARR, HRZ_HIDRO, HRZ_INCEN, PENDIENTE,
SOMBRA12, SOMBRA3, SOMBRA9, Suelo11, Suelo12, Suelo13, Suelo17, Suelo19,
Suelo2, Suelo20, Suelo21, Suelo22, Suelo23, Suelo24, Suelo3, Suelo31, Suelo32,
Suelo33, Suelo37, Suelo38, Suelo39, Suelo4, Suelo9, y VER_HIDRO.

5.8.2. Ajuste un modelo de redes neuronales

El segundo modelo que se ajusta es una red neuronal feedforward perceptrn


multicapa, la estructura de la red se muestra en la Figura 3.8., con S=120 neuronas en
la capa oculta se utiliza la funcin de errores Bernoulli mltiple, la funcin de
transferencia utilizada para la capa oculta fue la tangente hiperblica, para la capa de
salida se utiliz la logstica (softmax).
Es importante mencionar que se uso esta arquitectura para aprovechar la experiencia
de Blackard y Dean (1999a), quienes despus entrenar varias redes finalmente
propusieron un perceptrn multicapa con dos capas, utilizando 120 neuronas en la capa
interna, y siete neuronas en la capa de salida, la funcin de transferencia fue la logstica
en las dos capas, realizaron 1000 iteraciones y el criterio de seleccin fue del cuadrado
medio del error (CME).
Para ejecutar un perceptrn multicapa en Enterpriser Miner se siguen los siguientes
pasos:
1. Aadir el nodo Neural Network al espacio de diagrama.
2. Conectar el nodo Neural Network al nodo Data Partition.
3. Abrir el nodo de Neural Network; la opcin Variables lista las variables de entrada
al modelo como se muestra en la Figura 5.20.
4. El criterio de seleccin del modelo es Profit/Loss para seleccionar el modelo que
minimiza la prdida ver Figura 5.21.
5. En este estudio se us la opcin avanzada de Neural Network para establecer la
arquitectura de la red. Dar clic en Advanced como se ve en la Figura 5.21. La
ventana superior de la Figura 5.22 se abre.

72

Figura.5.21. Variables de entrada al modelo de redes neuronales.

Figura 5. 22. Criterio de seleccin del modelo.


6. Se hace clic izquierdo en Create Network, teclear 120 en Set number en Hidden
neurons como se muestra en la Figura 5.22.
7. Para seleccionar la funcin de activacin (transferencia) de la capa oculta, Dar
clic en el cuadrado de la arquitectura de la red como en la Figura 5.22. En este
estudio se utiliz la tangente hiperblica (inferior izquierda de la Figura 5.22).
8. Para seleccionar la funcin de activacin y la funcin de error de la capa de salida
se da clic en el pentgono (Figura 5.22). En este caso se us la funcin de
activacin softmax (logstica) y la funcin de errores Bernoulli mltiple
9. Para especificar el algoritmo de entrenamiento dar un clic en la opcin Train (parte
superior de la Figura 5.22). Se abre una ventana que contiene los mtodos de
entrenamientos que se pueden. usar en Training Techinique, por omisin

73

Enterprise Miner establece como mtodo de entrenamiento gradientes


conjugados (Conjugate Gradient) y 100 iteraciones. En este caso se utiliz la
opcin sugerida por omisin (Figura 5.23).
10. Se cierra la interfaz, se guarda el modelo, en este caso el nombre del modelo fue
redes 120 y se ejecuta el nodo.

Figura 5.23. Modelo multi-capa con dos capas, con 6 nodos en la capa interna.

74

Figura 5. 24. Tcnica de entrenamiento.

Figura 5. 25. Estadsticas del modelo de redes neuronales.


De Figura 5.24 Se observa que el ASE para el modelo de redes neuronales es de
aproximadamente 0.50 para los tres conjuntos de datos, tambin contiene la razn de
clasificaciones incorrectas (Missclassifaction Rate) 0.2517 en el conjunto de prueba, los
pesos estimados y el resto de los resultados se encuentran en el Anexo 2.

75

5.8.3. Ajuste del modelo de rboles de clasificacin.

Otro modelo que se entren fue rboles de clasificacin (Seccin 3.5.3), se utiliz la
entropa como medida de impureza (divisin) con otras opciones que equivalen a un
algoritmo C.4. (Seccin 4.9.3.). Para seleccionar el modelo se utiliz la prdida
promedio (Average loss).
Los pasos que se siguieron para un modelo de rboles son:
1. Aadir el nodo de Tree al espacio de diagrama.
2. Conectar el nodo Tree al nodo Data Partition
3. Abrir el nodo para hacer las especificaciones del modelo, en nuestro caso se
seleccion Entropy reduction en Spliting criterion y en surrogate rules saved in
each nodo teclear 0 como se observa en la Figura 5.25.

Figura 5.26. Mtodo de divisin para el modelo de rboles de clasificacin.


4. Dar un clic izquierdo en la opcin Advanced seleccionar Average loss en Model
assessment measure para utilizar el criterio de seleccionar el modelo que
minimice la perdida, y Best assessment value en sub-tree como se muestra en la
Figura 5.26.

76

Figura 5. 27. Criterio de evaluacin del modelo de rboles de clasificacin.


5. Cerrar el nodo, guardar el modelo como Tree y correr el nodo.

Figura 5. 28. Resultados del modelo de rboles de clasificacin.


La Figura 5.27 muestra que con 30 ramas del rbol, la prdida promedio para
Cobertura es de 1.30, la razn de clasificaciones incorrectas (Missclassifaction Rate) es
0.3065, las variables que selecciona el algoritmo para dividir las ramas del rbol son:
ELEVACION, HRZ_HIDRO, VER_HIDRO, HRZ_INCEN, HRZ_CARR, SOMBRA12,
AREA1, AREA2, AREA3, SUELO 32, SUELO 39.
El rbol indica (Figura 5.28), que para algn registro con ELEVACION entre 2,488.5 y
2,697.5m., con AREA diferente del rea Rawah 1, y SOMBRA12 mayor o igual a 220.5

77

el modelo clasifica ste registro como Pino ponderosa (3), o bien si ELEVACION es
menor a 2,488.5m tambin se clasifica como Pino ponderosa (3), es importante
mencionar que para esta especie el modelo tiene un porcentaje de clasificaciones
correctas de 82.56, el cual es ms alto comparado con los otros modelos (Cuadro 5.6.).
Estos patrones de comportamiento son nicamente dos ramas de las treinta que tiene
el rbol, las otras se pueden interpretar de igual manera.

78

Figura 5. 29. rbol de clasificacin de la cobertura forestal de bosque Roosevelt National Forest.
Donde: D1= Picea/Abeto, D2= Pino lodgepole, D3=Pino ponderosa, D5=lamo Aspen, D7=Krummholz

79

5.9. Evaluacin de los modelos


La evaluacin y seleccin del modelo final es muy importante dentro de la minera de
datos. En la seccin 4.9.4., se mencionaron las herramientas y criterios que Enterprise
Miner proporciona para seleccionar un modelo. En este estudio se seleccion el modelo
que minimice mejor la prdida promedio para ello se realiz una grfica de prdidas
(prdida promedio), y la matriz de clasificaciones (confusin) de cada modelo.
Para evaluar los modelos se siguieron los siguientes pasos:
1. Aadir el nodo Assessment al espacio de Diagrama.
2. Conectar los tres modelos al nodo Assessment, el nodo ensambla los resultados
de cada modelo durante el entrenamiento para compararlos mediante grficos de
evaluacin.
3. Abrir el nodo Assessment, una tabla es desplegada con los valores del Root ASE
y la proporcin de clasificaciones incorrectas (Missclassifaction Rate) para cada
modelo en las fases de entrenamiento, validacin y prueba como se muestra en la
Figura 5.29. De aqu que el porcentaje de clasificacin correcta de cada modelo es
72.26 para el multinomial, 74.83 para redes neuronales y 69.35 para rboles de
clasificacin.

Figura 5.30. Evaluacin de los modelos ajustados.


4. Se sealan los tres modelos oprimiendo la tecla control + clic, posteriormente en la
barra de herramientas en Tools (Figura 5.29) se selecciona Lift Chart en este
caso el programa realiz un grfico de prdida promedio (Loss Chart) debido a
que el criterio de seleccin es minimizar la prdida. La Figura 5.30 muestra que el
modelo con menor prdida promedio es el modelo de redes neuronales.
5. Para ver la matriz de clasificaciones de cada modelo, se selecciona nicamente
ste con control + clic en la ventana de la Figura 5.29. se da clic en Thresholdbased chart en Tools.

80

Figura 5 31. Grfica de la prdida promedio para cada modelo ajustado


El porcentaje de clasificaciones correctas que realiza el modelo multinomial para cada
tipo de cobertura est dado por la diagonal de la matriz de clasificacin (Cuadro 5.4.),
es decir clasifica correctamente: Picea/Abeto (69.56), Pino lodgepole (80.02), Pino
ponderosa (80.13) lamo/Sauce (40.32) lamo Aspen (0.51) Abeto Douglas (24.04) y
Krummholz (57.59), mientras que el modelo de redes neuronales (Cuadro 5.5.) clasifica
correctamente a Picea/Abeto (72.71), Pino lodgepole (82.22), Pino ponderosa (79.6),
Abeto Douglas (30.31) y
lamo/Sauce (35.37), lamo Aspen (8.93)
Krummholz.(59.87), el modelo de rboles de decisin clasifica correctamente (Cuadro
5.6.) Picea/Abeto (74.64), Pino lodgepole (71.47), Ponderosa pino (82.56%) lamo
Aspen (22.92%), y Krummholz (51.99%) no puede clasificar las especies lamo/Sauce
y Douglas-fir.
Debido a que el modelo de redes neuronales clasifica todas las clases, adems de
manera global tiene un porcentaje de clasificacin mejor que los otros, y como su
prdida promedio es ms pequea (Figura 5.32) se selecciona ste modelo para
clasificar la cobertura forestal del bosque Roosevelt National Forest.
La evaluacin (Assessment) de modelos es la ltima letra de SEMMA, adicionalmente
se utilizaron los nodos Score, SAS Code y Reporter para continuar con el proceso de
minera de datos, simulando que se tiene un conjunto de datos donde no se conoce la
cobertura forestal y se quisiera clasificar sta utilizando el modelo seleccionado.
6. Para seleccionar el modelo de redes neuronales con el propsito de usarse en
nodos subsecuentes, se seala ste en output como se ve en la Figura 5.31.

81

Figura 5. 32. Seleccin del modelo de redes neuronales.

82

Cuadro 5.4. Matriz de clasificacin del modelo de regresin logstica multinomial.


Objetivo
Frecuencia/
Procentaje

Picea/
Abeto
(1)

Pino
lodgepole
(2)

Pino
ponderosa
(3)

Decisin
lamo
lamo/
"Aspen"
Sauce
(4)
(5)

Abeto
Douglas
(6)

Krummholz
(7)

Total

Picea/Abeto (1)

36840
69.56

15035
28.39

18
0.03

0
0

0
0

22
0.04

1045
1.97

52960

Pino lodgepole(2)

12915
18.24

56674
80.02

753
1.06

1
0

44
0.06

409
0.58

29
0.04

70825

Pino ponderosa (3)

0
0

911
10.19

7162
80.13

134
1.5

1
0.01

730
8.17

0
0

8938

lamo/Sauce (4)

0
0

4
0.58

338
49.2

277
40.32

0
0

68
9.9

0
0

687

15
0.63

2267
95.53

72
3.03

0
0

12
0.51

7
0.29

0
0

2373

0
0

986
22.71

2301
52.99

9
0.21

2
0.05

1044
24.04

0
0

4342

2133
41.6

42
0.82

0
0

0
0

0
0

0
0

2953
57.59

5128

51903
75919
35.73
52.27
Total
Conjunto de datos: Prueba (145,253)
Porcentaje correcto de clasificacin 72.26%

10644
7.33

421
0.29

59
0.04

2280
1.57

lamo "Aspen"

Abeto Douglas (6)

Krummholz (7)

83

4027 145253
2.77
100

Cuadro 5.5. Matriz de clasificacin del modelo redes neuronales.


Decisin
Objetivo
Pino
Pino
lamo/
lamo
lodgepole ponderosa
Sauce
"Aspen"
Picea/
Frecuencia/ Procentaje Abeto (1)
(2)
(3)
(4)
(5)

Abeto
Douglas
(6)

Krummholz
(7)

Total

Picea/Abeto (1)

38506
72.71

13536
25.56

15
0.03

0
0

1
0

29
0.05

873
1.65

52960

Pino lodgepole(2)

11364
16.05

58231
82.22

575
0.81

6
0.01

55
0.08

534
0.75

60
0.08

70825

Pino ponderosa (3)

0
0

966
10.81

7115
79.6

186
2.08

0
0

671
7.51

0
0

8938

lamo/Sauce (4)

0
0

6
0.87

339
49.34

243
35.37

0
0

99
14.41

0
0

687

lamo "Aspen" (5)

45
1.9

2032
85.63

75
3.16

0
0

212
8.93

9
0.38

0
0

2373

Abeto Douglas (6)

9
0.21

928
21.37

2071
47.7

18
0.41

0
0

1316
30.31

0
0

4342

2024
39.47

34
0.66

0
0

0
0

0
0

0
0

3070
59.87

5128

51948
75733
35.76
52.14
Total
Conjunto de datos: Prueba (145,253)
Porcentaje correcto de clasificacin 74.83

10190
7.02

453
0.31

268
0.18

2658
1.83

4003
2.76

Krummholz (7)

84

145253
100

Cuadro 5.6. Matriz de clasificacin del modelo de rboles de clasificacin.


Objetivo
Frecuencia/
Procentaje

Picea/
Abeto (1)

Pino
lodgepole
(2)

Decisin
Pino
lamo
ponderosa "Aspen"
(3)
(5)

Krummholz
(7)

Total

Picea/Abeto (1)

39527
74.64

12082
22.81

111
0.21

130
0.25

1110
2.1

52960

Pino lodgepole(2)

17859
25.22

50622
71.47

1710
2.41

533
0.75

101
0.14

70825

Pino ponderosa (3)

0
0

1559
17.44

7379
82.56

0
0

0
0

8938

lamo/Sauce (4)

0
0

0
0

687
100

0
0

0
0

687

lamo "Aspen" (5)

24
1.01

1670
70.38

135
5.69

544
22.92

0
0

2373

Abeto Douglas (6)

0
0

1276
29.39

3066
70.61

0
0

0
0

4342

2431
47.41

31
0.6

0
0

0
0

2666
51.99

5128

59841
67240
41.2
46.29
Total
Conjunto de datos: Prueba (145,253)
Porcentaje correcto de clasificacin 69.35

13088
9.01

1207
0.83

3877
2.67

145253
100

Krummholz (7)

85

5.10. Base de datos para futuras clasificaciones.


SAS Enterprise Miner permite continuar con el proceso de la minera de datos utilizando
el modelo seleccionado para clasificar un conjunto de datos donde no se conoce el
objetivo, para seguir ilustrando este procedimiento se seleccion aleatoriamente una
muestra de datos de la base completa omitiendo el objetivo con el nico propsito de
ejemplificar la aplicacin hasta el final. El primer paso es agregar sta nueva base al
diagrama, el procedimiento fue:
1. Aadir al espacio de Diagrama el nodo Input Data Source
2. Hacer doble clic en Input Data Source.
3. Para este ejemplo en particular seleccionar SASHELP. NUEVAC en Source Data
(Figura 5.33).
4. Seleccionar Score en Role en el Tab Data como en la Figura 5.32.

Figura 5.33. Definicin de los datos de prediccin


5. Cerrar el nodo y guardar los cambios.

5.11. Base de datos Score.


En este nodo se crea una base de datos con los valores predichos (decisiones) del
modelo seleccionado en la nueva base de datos (ver 4.8.6). Los pasos que se siguen
son:
1. Conectar el nodo Assessment al nodo Score.
2. Conectar el nodo Input Data Source al nodo Score.

86

3. Abrir el nodo Score en la opcin Setting seleccionar Apply training data score
code to score data set como se muestra en la Figura 5.34.

Figura 5. 34. Interfaz del nodo Score


4. En la opcin Score code se selecciona current imports y el cdigo del modelo de
redes neuronales en este caso es T2HP2TTM, ste es importado del nodo
Assessment, para ver el cdigo, dar doble clic en Assessment (Figura 5.35), el
cdigo se despliega del lado derecho de la interfaz del Score.

Figura 5. 35. Score Code del modelo de redes neuronales.


5. Cerrar el nodo Score y guardar los cambios.

87

5.12. Prdida esperada del nuevo conjunto de datos.


La base de datos creada por el nodo score tambin contiene la prdida esperada de
cada decisin hecha por el modelo, sta es calculada como el negativo de la ecuacin
(3.30), para graficar la prdida esperada de la nueva base de datos se siguen los
siguientes pasos:
1. Aadir el nodo de Distribution Explorer al espacio de diagrama.
2. Conectar el nodo Score al nodo de Distribution Explorer.
3. Abrir el nodo de Distribution Explorer. El nodo Score exporta las bases del
entrenamiento, validacin, prueba y score al nodo, se debe seleccionar la base
del score como la base activa, entonces en la pestaa Data set se hace clic en
select y despus en la base con prefijo SD_ como se muestra en la Figura 5.36.

Figura 5.36. Seleccin de la base de datos Score


4. En la opcin Variables (Figura 5.36) se observan todas las variables que son
creadas por el nodo Score. Dos variables importantes que se deben graficar son:
EL_COBERTURA_ Contiene la prdida esperada del objetivo.
88

D_COBERTURA_ Contiene el porcentaje de clasificaciones hechas por el


modelo para cada clase del objetivo en la nueva base de datos

5. Para graficar la prdida esperada, dar clic derecho en Axis y asignar


EL_COBERTURA_ como Y Set Axis, de igual manera asignar D_COBERTURA_
como X Set Axis para graficar las clasificaciones hechas por el modelo al nuevo
conjunto de datos (Figura 5.37).

Figura 5.37. Distribucin de la prdida esperada


6. Para ver la distribucin de la prediccin de la COBERTURA hacer clic izquierdo
en X Axis la cual se muestra en la Figura 5.38.

Figura 5. 38. Porcentaje de clasificacin para cada clase de cobertura forestal

89

7. El histograma de la prdida esperada de la COBERTURA se muestra en la Figura


5.39, hacer clic izquierdo en Y Axis

Figura 5. 39. Histograma de la prdida esperada.


8. Cerrar el nodo y dar clic en Run Distribution Explorer.

5.13. Uso de SAS Code para los resultados de SAS Score


En este estudio se us SAS code para visualizar la clasificacin y prdida esperada que
genera el modelo selecciona para alguna clase de la cobertura forestal. Los pasos que
se siguieron fueron:
1. Aadir el nodo.SAS Code al espacio de diagrama.
2. Conectar el nodo Distribution Explorer al nodo SAS Code.
3. Abrir el nodo SAS Code, el cual proporciona macros para facilitar la dinmica de
la referencia del conjunto de datos y variables. Se hace clic izquierdo en el Botn
Macros y en este caso en particular dar clic izquierdo en &_MAC_4 ste contiene
la base de datos score ver Figura 5.40.

90

Figura 5. 40. Macros del nodo SAS code.


4. Dar clic en Program y escribir el cdigo de la Figura 5.40

Figura 5. 41. Comandos para clasificar nuevos datos.


Una breve explicacin de los comandos del programa es:
La variable d_cobertura_ contiene la decisin (clasificacin) hecha por el
modelo, creada por el nodo Score.
La instruccin data lee las observaciones de la base de datos score (&_mac_4),
la instruccin if asigna la decisin del tipo 4 de cobertura forestal y la escribe en
la salida resultados.
El paso proc print produce un listado que reporta la prdida esperada, la
decisin y la variable ID.
91

La variable id es un identificador para los casos en la base datos.


5. Cerrar, guardar los cambios y correr el nodo. La Figura 5.42. muestra las
observaciones que son clasificadas como lamo/Sauce (4) de la base de datos
NUEVAC con su respectiva prdida esperada calculada como en (3.4).

Figura 5. 42. Clasificacin de la especie lamo/Sauce (4) para los datos NUEVAC.

5.14. Reporte Web.


Enterprise Miner proporciona una manera de resumir un reporte del diagrama en un
documento Web. El reporte captura los escenarios de todos los nodos del diagrama.
1. Aadir el nodo Reporter al espacio de diagrama.
2. Correr el nodo, el proceso termina con la pregunta de que si desea abrir el reporte
como en la Figura 5.43.
3. Para abrir el reporte hacer click derecho en Reporter y seleccionar Open.
Enterprise Miner abre el archivo del reporte HTML.

92

Figura 5. 43. Caracterstica del reporte HTML.


Por default los archivos del reporte son almacenados en el subdirectorio reports del
proyecto. Sin embargo el reporte puede moverse o copiarse a otro directorio. El reporte
completo se presenta en el Anexo2.

Figura 5.44. Reporte HTML del PROYECTO-FORESTAL

93

5.15. Resultados y Discusin


Despus de seguir la metodologa SEMMA que sugiere SAS para la minera de datos
se encontr que el porcentaje de clasificaciones correctas de la cobertura forestal que
hace modelo multinomial fue 72.26 (Cuadro 5.7). Las especies Picea/Abeto (1), Pino
lodgepole (2) y Pino ponderosa (3) tienen un alto porcentaje de clasificaciones correctas
(Cuadro 5.4). Las otras especies son clasificadas correctamente en menor proporcin.
El modelo de redes neuronales tienen un porcentaje de clasificaciones correctas de
74.83 (Cuadro 5.6.). Este modelo de manera global clasifica mejor que los otros.
Tambin es mejor que la red propuesta por Blackard y Dean (1999a), cuyo modelo tiene
un porcentaje de clasificaciones correctas de 70.58 y un ECM de 0.228.
El porcentaje de clasificaciones correctas del modelo de rbol es 69.35 (Cuadro 5.7.).
Aunque clasifica mejor que los otros las especies Pino ponderosa (3) y Aspen (5), no
puede clasificar las especies Alamo/Sauce (4) y Abeto Douglas (6) (Cuadro 5.6.). Su
ventaja es que el tiempo de ejecucin es muy rpido, comparado con los otros modelos.
Cuadro 5.6. ASE, porcentaje correcto de clasificacin y prdida promedio .
Error
cuadrado
promedio
ASE

Porcentaje
correcto de
clasificacin

Prdida
Promedio

0.2237

74.83

1.05

0.2339

72.26

1.16

rboles de
clasificacin
0.2459
69.35
Conjunto de datos: Prueba (145,253)

1.30

Modelo
Redes
neuronales
Multinomial

El modelo de redes neuronales minimiza mejor la prdida promedio que los otros
modelos, esto es 1.05 en una escala del 0 al 7 (Cuadro 5.6.). Por otro lado una
medicin similar al error cuadrado medio utilizado tradicionalmente para evaluar
modelos es error cuadrado promedio (ASE), el cual es menor para la red neuronal que
para los otros modelos. Por ello se selecciona el modelo de redes neuronales para
clasificar la cobertura forestal de un nuevo conjunto de datos del bosque Roosevelt
National Forest.
Se clasifica un conjunto de datos en el cual no se incluye el objetivo, los datos NUEVAC
contiene 116,202 filas y 54 variables explicatorias, adems de un ID para identificar
cada elemento, el nodo SAS Code permite clasificar la cobertura forestal para este
nuevo conjunto de datos, como salida se tienen los resultado de lamo/Sauce (4) pero
es posible obtener la clasificacin de cualquier otra especie.

94

6. Conclusiones
Se concluye que la minera de datos requiere de los siguientes aspectos: 1) Una
enorme base datos, 2) un especialista de dicha base de datos, 3) un minero de datos
(una persona experta en minera de datos). 4) una metodologa a seguir tal como
SEMMA de SAS, 5) mtodos de validacin de resultados, adems de un determinado
tiempo de ejecucin que generalmente no es corto.
Es muy importante contar con el especialista de la base de datos ya que es esta
persona quien domina el significado de los datos, adems es la persona indicada para
evaluar los conocimientos o estructuras encontradas y quien decidir si son o no tiles
tales conocimientos hallados por el minero o experto en minera de datos, este ltimo
tambin muy importante para el proceso.
En cuanto a la metodologa SEMMA de SAS Enterprise Miner fue exitosa en el
problema de clasificar la cobertura forestal del bosque del bosque Roosevelt National
Forest, el programa es de gran utilidad para quienes requieren aplicar minera de datos.
Aunque presenta algunas fallas tales como: permitir nicamente el uso de dos tipos de
redes neuronales, el tiempo de ejecucin de stos modelos el cual es muy lento sobre
todo para bases de datos de gran tamao, adems de que no posee una sistema de
recuperabilidad ante fallos. Cabe mencionar que la versin ms reciente de Enterprise
Miner es la versin 5.2.
Por ltimo enfatizamos el tiempo que se requiere para hacer minera de datos pues es
un proceso largo que requiere de meses de trabajo para llegar a resultados
satisfactorios aunque esto no siempre es posible, sin embargo la necesidad de la
minera de datos ha incrementado en los ltimos aos, cada vez hay ms demanda de
sta disciplina pues el incremento de las bases de datos la ha hecho necesaria.
Para finalizar se hace una invitacin a la comunidad estadstica a voltear hacia los
problemas de minera de datos pues hay mucho por hacer en esta disciplina que cada
da requiere mejores mtodos en la solucin de encontrar patrones ocultos en grandes
bases de datos.

95

Bibliografa
AAS. 2002. Bulletin American Astromical Society. Electronic Edition ISSN:0002-7537
20th Meeting Program, Alburqueque NM. Volumen 34, No.2, Seccion 60.06.
http://www.aas.org/publications/baas/v34n2/aas200/153.htm. Activa (abril de 2006).
Blackard J., and D. Dean. 1999a. Comparative accuracies of artificial neural networks
and discriminant analysis in predicting forest cover types from cartographic variables.
Computers and Electronics in Agriculture, 24 131-151.
Blackard
J.,
and
D.
Dean.
1999b.
The
UCIKDD
Archive
[http://kdd.ics.uci.edu/databases/covertype/covertype.html] Irvine, CA: University of
California, Department of Information and Computer Science. Activa (septiembre de
2006).
Chen B., and Titterington D.M. 1994. Neural Networks: A Review from a Statistical
Perspective, Statistical Science, 9, 2-30.
Christen P. 2005. A very short introduction to Data Mining. Department of Computer
Science.
FEIT
Australian
National
University,
Abril
http://datamining.anu.edu.au/talks/2005/datamining-comp2340-2005.8up.pdf.
Activa
(abril de 2006).
Demuth H., and M. Beale. 2001. Neural Network Toolbox (Nnet). Matlab version 6.1. 228pp.
Fayyad U., G. Piatetsky-Shapiro, and P. Smyth. 1996. From Data Mining to Knowledge
Discovery in Data Base. American Association for Artificial Intelligence. 39, 11.
Friedman J., H. Trevor, and R. Tibshirani. 2001. The Elements of Statistical Learning.
Data Mining, Inference, and Prediction. Springer-Verlag, New York
Friedman J. 1997. Data mining and Statistics: Whats the connection?. Stanford
University. Stanford CA 94305.
Hand D. 1998. Data mining: Statistics and More. Journal of the American Statistical
Association. 52, 112-118.
Haykin S. 2003. Neural Networks. A Comprehensive Foundation. Macmillan Publishing
Company. United States of America. 696 pp.
Hosmer D., and S. Lemeshow. 1989. Applied Logistic Regression. John Wiley & Sons,
Inc. pp 6-10, 217-219.

96

Jackson J. 2002. Data Mining: A Conceptual Overview. Communications of the


Association for Information Systems Volumen 8, 267-296.
Leos G.Y. 2000. Una alternativa para el anlisis de series temporales: Redes
Neuronales Recurrentes. Colegio de Postgraduados.
Molina L. 2005. Data mining: torturando a los datos hasta que confiesen
http://www.uoc.edu/web/esp/art/uoc/molina1102/molina1102.html. Activa (abril de 2006).
Montgomery D., E. Peck, y G. Vining. 2002. Introduccin al Anlisis de Regresin
Lineal. 3a.Edicin. Compaa Editorial Continental pp 399.
Piatestsky-Shapiro G. 2006a. KDnuggets: Data Mining, Knowledge Discovery, Text
Mining Web Mining, Springer Science + Busines Media B.V. ISSN: 1573-756X Online
http://www.kdnuggets.com/news/2005/n20/4i.html. Activa (abril de 2006).
Piatestsky-Shapiro G. 2006b. KDnuggets: Data Mining, Knowledge Discovery, Text
Mining Web Mining, Springer Science + Busines Media B.V. ISSN: 1573-756X Online
http://kdnuggets.com/news/2005/n22/39i.html. Activa (abril de 2006).
Richard P.L. 1987. An Introduction to Computing whit Neural Nets. IEEE Computer
Society Press, ISBN 0-8186-0855-2.
SAS Institute Inc. 1999-2001a. SAS Institute Inc. Cary, NC. SAS Enterprise Miner
version 4.1. SAS System Help.
SAS Institute Inc. 1999-2001b. SAS Institute Inc. Cary, NC. SAS Enterprise Miner
version 4.1. SAS System Help\SAS\CONNECTsoftware.
SAS Institute Inc. 1999-2001c. SAS Institute Inc. Cary, NC. SAS Enterprise Miner
version 4.1. SAS System Help\Predictive Modeling
SAS Institute Inc., 2002. Data Mining and the Case for Sampling: Solving Business
Problems Using SAS Enterprise Miner Software, SAS Institute Inc. Cary, NC.
SAS Institute Inc. 2003. Predictive Models Using Enterprise MinerTM Course Notes,
SAS Institute Inc. Cary, NC.
SAS Institute Inc. 2004. Getting Started with SAS Enterprise MinerTM 4.3, SAS Institute
Inc. Cary, NC: SAS Institute Inc.
USA TODAY. 2006. USATODAY.com. a division of Gannett Co Inc. 7950 Jones Branch
Drive,
McLean
VA22107.
http://www.usatoday.com/money/industries/technology/maney/2006-05-16-nsaprivacy_x.htm. Activa (abril de 2006).

97

Vazirgiannis M., M. Halkidi, and D. Gunopulos. 2003. Uncertainty Handling and Quality
Assessment in Data Mining. Springer-Verlag, London. pp. 12-19, 73-79.

98

Anexo 1
El tipo de suelo (SUELO1-SUELO40) esta dado mediante un cdigo de 4 dgitos,
primer digito se refiere al tipo de zona climtico y el segundo digito a la zona geolgica,
el tercer y cuarto digito (ELU) son nicos para el mapa unitario y no tienen un
significado especial para las zonas climticas o geolgicas.
Primer digito: Zona climtica
1. Montaa seca baja
2. Montaa baja
3. Montaa seca
4. Motaa
5. Montaa seca y montaa
6. Montaa y subpino
7. Subpino
8. Alpine
Segundo digito: Zona geolgicas
1. Alluvium
2. Glacial
3. Shale
4. Sandstone
5. Mixto sedimentario
6. No especificado en la USFS ELU
7. Ingenioso y metamrfico
8. Volcnico

99

1
2
3
4
5
6
7
8
9

VARIABLE
SAS
VAR15
VAR16
VAR17
VAR18
VAR19
VAR20
VAR21
VAR22
VAR23

CDIGO SEGN USFS


Y ELU
2702
2703
2704
2705
2706
2717
3501
3502
4201

10

VAR24

4703

11
12
13
14
15
16
17
18
19
20
21

VAR25
VAR26
VAR27
VAR28
VAR29
VAR30
VAR31
VAR32
VAR33
VAR34
VAR35

4704
4744
4758
5101
5151
6101
6102
6731
7101
7102
7103

22

VAR36

7201

23
24
25
26
27

VAR37
VAR38
VAR39
VAR40
VAR41

7202
7700
7701
7702
7709

28
29
30

VAR42
VAR43
VAR44

7710
7745
7746

31
32
33
34
35
36
37

VAR45
VAR46
VAR47
VAR48
VAR49
VAR50
VAR51

7755
7756
7757
7790
8703
8707
8708

38
39
40

VAR52
VAR53
VAR54

8771
8772
8776

100

DESCRIPCIN
(FAMILIA)
Cathedral
Vanet-Ratake
Haploborolis
Ratake
Vanet
Vanet-Wetmore
Gothic
Supervisor-Limber
Troutville
Bullwark-Catamount. Rock outcrop
complex, rubbly
Bullwark-Catamount. Rock land
complex, stony
Legault
Catamount
Pachic Argiborolis-Aqualis
No especificado por el USFS y ELU.
Cryaquolis-Cryoborolis
Gateview
Rogert
Tipic Cryaquolis.
Tipic Cryaquolis
Tipic Cryaquolis
Leighcan. till substratum, extremely
bouldery
Leighcan. till substratum, typic
Cryaquolls complex
Leighcan. extremely stony
Leighcan. warm extremely stony
Granile-Catamount
Leighcan. Warm, rock outcrop complex
Leighcan. Rock outcrop complex,
extremely stony
Como-Legault
Como
Leighcan-Catamount complex,
extremely stony
Catamount- Rock outcrop- Leighcan
Leighcan-Catamount. Rock outcrop
Cryorthents
Cryumbrepts
Bross
Rock outcrop
Leighcan-Moran- Cryaquolls complex
extremely stony
Moran- Cryorthents- Leighcan
Moran- Cryorthents- Rock land complex

Anexo 2
SAS Enterprise Miner
User : Lucia
Date : 29AUG1993:16:04:24
Notes:
"EM Workspace" :

SASHELP.NUEVAC

Input Data Settings:


Source Data: SASHELP.NUEVAC ( 116,202 rows, 55 columns)
Output: EMDATA.VIEW_HP3
Description: SASHELP.NUEVAC
Role: SCORE
Metadata Sample: EMPROJ.SMP_VIDZ ( 116,202 rows)

101

All variables
Name
ID
ELEVACION
ASPECTO
PENDIENTE
HRZ_HIDRO
VER_HIDRO
HRZ_CARR
SOMBRA9
SOMBRA12
SOMBRA3
HRZ_INCEN
AREA1
AREA2
AREA3
AREA4
SUELO1
SUELO2
SUELO3
SUELO4
SUELO5
SUELO6
SUELO7
SUELO8
SUELO9
SUELO10
SUELO11
SUELO12
SUELO13
SUELO14
SUELO15
SUELO16
SUELO17
SUELO18
SUELO19
SUELO20
SUELO21
SUELO22
SUELO23
SUELO24
SUELO25
SUELO26
SUELO27
SUELO28
SUELO29
SUELO30
SUELO31
SUELO32
SUELO33
SUELO34
SUELO35
SUELO36
SUELO37
SUELO38
SUELO39
SUELO40

Model
Role
rejected
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
rejected
input
input
rejected
input
input
input
input
input
input
rejected
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
rejected
input
input
input
input

Measurement
interval
interval
interval
interval
interval
interval
interval
interval
interval
interval
interval
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
unary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary

Type
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num

Interval Variables
Class Variables
Notes: not available

102

Format
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.

Variable
Label

SASHELP.FORESTAL

Input Data Settings:


Source Data: SASHELP.FORESTAL ( 581,012 rows, 56 columns)
Output: EMDATA.VIEW_LHE
Description: SASHELP.FORESTAL
Role: RAW
Metadata Sample: EMPROJ.SMP_VIMX ( 581,012 rows)
All variables
Name
ID
ELEVACION
ASPECTO
PENDIENTE
HRZ_HIDRO
VER_HIDRO
HRZ_CARR
SOMBRA9
SOMBRA12
SOMBRA3
HRZ_INCEN
AREA1
AREA2
AREA3
AREA4
SUELO1
SUELO2
SUELO3
SUELO4
SUELO5
SUELO6
SUELO7
SUELO8
SUELO9
SUELO10
SUELO11
SUELO12
SUELO13
SUELO14
SUELO15
SUELO16
SUELO17
SUELO18
SUELO19
SUELO20
SUELO21
SUELO22
SUELO23
SUELO24
SUELO25
SUELO26
SUELO27
SUELO28
SUELO29
SUELO30
SUELO31
SUELO32

Model
Role
rejected
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
rejected
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input

Measurement
interval
interval
interval
interval
interval
interval
interval
interval
interval
interval
interval
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary

Type
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num

103

Format
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.

Variable
Label

SUELO33
SUELO34
SUELO35
SUELO36
SUELO37
SUELO38
SUELO39
SUELO40
COBERTURA

input
input
input
rejected
input
input
input
input
target

binary
binary
binary
binary
binary
binary
binary
binary
nominal

num
num
num
num
num
num
num
num
num

BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.

Interval Variables
Class Variables
Notes: not available

Data Partition
Partition Settings
Method: STRATIFIED
Partition percentages: Training: 50%, Validation: 25%, Test: 25%
Stratification variables: COBERTURA
Output
The SAS System
1993

15:49 Saturday, June 26,

1
The FREQ Procedure
Cumulative
Cumulative
Cobertura
Frequency
Percent
Frequency
Percent
-------------------------------------------------------------1
211840
36.46
211840
36.46
2
283301
48.76
495141
85.22
3
35754
6.15
530895
91.37
4
2747
0.47
533642
91.85
5
9493
1.63
543135
93.48
6
17367
2.99
560502
96.47
7
20510
3.53
581012
100.00
The SAS System
15:49 Saturday, June 26, 1993
2
The CONTENTS Procedure
Data Set Name:
Member Type:
Engine:
Created:
Last Modified:
Protection:
Data Set Type:
Label:

EMDATA.TRN4C7N3
DATA
V8
16:27 Saturday, June 26, 1993
16:27 Saturday, June 26, 1993

Observations:
Variables:
Indexes:
Observation Length:
Deleted Observations:
Compressed:
Sorted:

290505
56
0
448
0
NO
NO

-----Engine/Host Dependent Information----Data Set Page Size:


Number of Data Set Pages:
First Data Page:
Max Obs per Page:
Obs in First Data Page:
Number of Data Set Repairs:
File Name:
Release Created:
Host Created:

16384
8070
1
36
21
0
C:\Documents and Settings\Lucia\Mis documentos\My SAS Files\V8\EM
Projects\PROYECTO6\emdata\trn4c7n3.sas7bdat
8.0202M0
WIN_PRO

104

The CONTENTS Procedure


Data Set Name:
Member Type:
Engine:
Created:
Last Modified:
Protection:
Data Set Type:
Label:

EMDATA.VALCSS5K
DATA
V8
16:27 Saturday, June 26, 1993
16:27 Saturday, June 26, 1993

Observations:
Variables:
Indexes:
Observation Length:
Deleted Observations:
Compressed:
Sorted:

145254
56
0
448
0
NO
NO

-----Engine/Host Dependent Information----Data Set Page Size:


Number of Data Set Pages:
First Data Page:
Max Obs per Page:
Obs in First Data Page:
Number of Data Set Repairs:
File Name:
Release Created:
Host Created:

16384
4036
1
36
21
0
C:\Documents and Settings\Lucia\Mis documentos\My SAS Files\V8\EM
Projects\PROYECTO6\emdata\valcss5k.sas7bdat
8.0202M0
WIN_PRO

The CONTENTS Procedure


Data Set Name:
Member Type:
Engine:
Created:
Last Modified:
Protection:
Data Set Type:
Label:

EMDATA.TSTKBU4Z
DATA
V8
16:27 Saturday, June 26, 1993
16:27 Saturday, June 26, 1993

Observations:
Variables:
Indexes:
Observation Length:
Deleted Observations:
Compressed:
Sorted:

145253
56
0
448
0
NO
NO

-----Engine/Host Dependent Information----Data Set Page Size:


Number of Data Set Pages:
First Data Page:
Max Obs per Page:
Obs in First Data Page:
Number of Data Set Repairs:
File Name:
Release Created:
Host Created:

16384
4036
1
36
21
0
C:\Documents and Settings\Lucia\Mis documentos\My SAS Files\V8\EM
Projects\PROYECTO6\emdata\tstkbu4z.sas7bdat
8.0202M0
WIN_PRO

Log
Training Code
Notes: not available

Transform Variables
Interval Variables and Transformations
Name
ID
ELEVACION
ELEV_J8M
ASPECTO
ASPE_QBL
PENDIENTE

Keep
Yes
No
Yes
No
Yes
No

Mean
290396.86
2959.33
-0.00
155.84
0.00
14.10

Std Dev
167526.60
280.30
1.00
111.94
1.00
7.49

Skew
0.00077
-0.82251
-0.82251
0.40043
0.40043
0.78681

105

Kurtosis
-1.20003
0.75906
0.75906
-1.22353
-1.22353
0.57114

C.V.
0.58
0.09
-9091.71
0.72
615.90
0.53

PEND_DNF
HRZ_HIDRO
HRZ__PYP
VER_HIDRO
VER__C6A
HRZ_CARR
HRZ__4CW
SOMBRA9
SOMB_J50
SOMBRA12
SOMB_8LP
SOMBRA3
SOMB_D5H
HRZ_INCEN
HRZ__WN8

Yes
No
Yes
No
Yes
No
Yes
No
Yes
No
Yes
No
Yes
No
Yes

-0.00
268.89
-0.00
46.29
-0.00
2351.05
0.00
212.13
-0.00
223.33
0.00
142.56
0.00
1977.57
0.00

Formula

(ASPECTO - 155.6568) / 111.9137


14.1037) / 7.488242

(HRZ_HIDRO - 269.4282) / 212.5494


(VER_HIDRO - 46.41886) / 58.29523
(HRZ_CARR - 2350.147) / 1559.255
(SOMBRA9 -

212.146) / 26.76989

(SOMBRA12 - 223.3187) /

0.78681
1.13966
1.13966
1.79494
1.79494
0.71433
0.71433
-1.18158
-1.18158
-1.05500
-1.05500
-0.28015
-0.28015
1.29048
1.29048

Format

(ELEVACION - 2959.365) / 279.9847

(PENDIENTE -

1.00
212.20
1.00
58.15
1.00
1560.04
1.00
26.81
1.00
19.74
1.00
38.31
1.00
1322.58
1.00

19.7687

(SOMBRA3 - 142.5283) / 38.27453


(HRZ_INCEN - 1977.571) / 1322.584
Notes: not available

BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.

Label

standardize(ELEVACION)
standardize(ASPECTO)
standardize(PENDIENTE)
standardize(HRZ_HIDRO)
standardize(VER_HIDRO)
standardize(HRZ_CARR)
standardize(SOMBRA9)
standardize(SOMBRA12)
standardize(SOMBRA3)
standardize(HRZ_INCEN)

Regression
Parameters:

0.57114
1.36501
1.36501
5.36688
5.36688
-0.38520
-0.38520
1.89058
1.89058
1.97173
1.97173
0.39062
0.39062
1.65442
1.65442

Estimates Table

106

-1369.62
0.79
-394.80
1.26
-439.19
0.66
1720.71
0.13
-1502.61
0.09
1417.33
0.27
1132.01
0.67
4649008.05

Fit Statistics
Fit Statistic
Akaike's Information Criterion
Average Squared Error
Average Error Function
Degrees of Freedom for Error
Model Degrees of Freedom
Total Degrees of Freedom
Divisor for ASE
Error Function
Final Prediction Error
Maximum Absolute Error
Mean Square Error
Sum of Frequencies
Number of Estimate Weights
Root Average Sum of Squares
Root Final Prediction Error
Root Mean Squared Error
Schwarz's Bayesian Criterion
Sum of Squared Errors
Sum of Case Weights Times Freq
Misclassification Rate
Total Loss for COBERTURA
Average Loss for COBERTURA

Training

Validation

Test

366812.26035
0.0544627538
0.1801809462
1742826
204
1743030
2033535
366404.26035
0.0544755037
0.9999999817
0.0544691288
290505
204
0.2333725644
0.2333998794
0.2333862223
369335.97199
110751.91609
2033535
0.2761432678
334253.28382
1.15059391

.
0.0546860189
0.1812644971
.
.
.
1016778
184305.75282
.
0.9999999856
0.0546860189
145254
.
0.2338504198
.
0.2338504198
.
55603.540874
1016778
0.2767359247
167848.72053
1.1555531726

.
0.0547172053
0.1809758835
.
.
.
1016771
184011.03002
.
0.999999985
0.0547172053
145253
.
0.2339170907
.
0.2339170907
.
55634.867593
1016771
0.2773849766
167866.00571
1.1556801286

Target Information:
Name: COBERTURA
Label:
Measurement: nominal

Objective function: Minimize loss

Assessment Matrix: Matriz de perdidas

Utilities

Prior vector: DATA

Regression Settings:
Regression type: multinomial
Selection method: Stepwise
Optimization technique: DEFAULT
Output

107

Log
Training Code
Score Code
Model assessment settings
Train data set is not selected for assessment.
Validation data set is selected for assessment.
Test data set is selected for assessment.
Scored data set: 5000 observations are saved for interactive model assessment.

108

109

110

111

Confusion Matrix (Assessed Partition=VALIDATION) Confusion Matrix (Assessed


Partition=TEST)
Notes: not available

Tree

Model assessment plot:

Fit Statistic
Average Squared Error
Sum of Squared Errors
Root Average Squared Error
Maximum Absolute Error
Divisor for ASE
Total Degrees of Freedom
Misclassification Rate
Number of Estimated Weights
Sum of Frequencies
Sum Case Weights * Frequencies

Training

Validation

Test

0.06
122319.51
0.25
1.00
2033535.00
1743030.00
0.30
30.00
290505.00
2033535.00

0.06
61377.09
0.25
1.00
1016778.00
.
0.31
.
145254.00
1016778.00

0.06
61458.04
0.25
1.00
1016771.00
.
0.31
.
145253.00
1016771.00

112

LEAF
ID
16
60
61
35
18
68
69
39
72
73
41
21
80
81
45
84
85
86
87
12
26
27
92
93
94
95
29
54
55
31
% V 7
0.00
0.00
0.00
0.00
0.08
0.00
0.00
0.00
0.00
0.00
0.00
0.05
0.00
0.00
0.00
1.03
0.00
0.21
0.09
4.18
11.03
57.34
40.38
87.05
17.45
74.63
7.58
70.39
5.90
22.26

N
19871.75
9908.05
6571.97
10233.90
33818.58
2267.88
2657.97
32404.75
7037.96
581.00
8566.95
14882.90
28301.86
4478.97
8931.95
9915.97
489.00
15519.93
6844.96
45265.98
1709.01
1275.07
2527.09
426.04
4163.06
261.02
1900.01
5797.37
1046.00
2848.06
% 1
0.02
4.51
3.36
2.40
16.58
10.98
32.81
14.02
51.28
16.70
30.48
17.18
56.01
30.52
26.29
79.40
24.54
66.52
38.19
70.30
84.26
41.33
60.23
11.97
71.77
18.77
63.84
27.91
90.92
76.47

V N
9838.33
5215.93
3314.94
5112.07
16995.24
1115.06
1330.02
15856.18
3526.03
276.00
4343.04
7297.08
14136.12
2214.02
4517.04
5072.03
252.00
7731.06
3513.03
22675.08
798.00
653.97
1252.96
223.98
2091.98
133.99
976.00
2914.82
508.00
1369.98
% 2
5.45
52.80
37.19
94.91
72.17
43.74
61.10
84.87
48.10
83.30
69.29
82.12
43.99
69.48
73.71
19.44
75.46
33.25
61.74
25.70
3.74
1.33
0.40
0.00
9.03
3.45
27.74
2.62
1.15
0.00

% V 1

% V 2

% V 3

% V 4

% V 5

% V 6

0.03
4.62
3.68
3.03
16.23
9.51
33.98
13.80
49.83
17.75
30.67
17.62
55.47
30.58
26.37
79.18
27.38
65.85
39.97
70.52
84.71
41.59
59.30
12.95
73.14
22.39
63.83
26.97
93.90
77.74

5.46
53.51
38.46
94.29
72.34
44.03
59.92
85.00
49.29
82.25
69.19
81.69
44.53
69.42
73.59
19.80
72.62
33.94
59.95
25.29
4.26
1.07
0.32
0.00
9.42
2.99
28.59
2.64
0.20
0.00

58.47
22.22
47.51
0.00
2.66
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00

6.98
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00

0.03
1.34
3.17
2.68
6.97
46.46
6.09
1.20
0.88
0.00
0.14
0.63
0.00
0.00
0.04
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00

29.03
18.31
7.18
0.00
1.72
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00

% 3
59.25
21.06
48.58
0.00
2.43
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00

% 4
6.89
0.04
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00

% 5
0.02
1.51
3.33
2.69
7.08
45.28
6.09
1.11
0.63
0.00
0.23
0.62
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00

English rules
Sequence

113

% 6
28.38
20.08
7.53
0.00
1.66
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00

% 7
0.00
0.00
0.00
0.00
0.08
0.00
0.00
0.00
0.00
0.00
0.00
0.07
0.00
0.00
0.00
1.16
0.00
0.23
0.07
4.00
12.00
57.34
39.38
88.03
19.19
77.78
8.42
69.47
7.94
23.53

Matrix

Target information
Name: COBERTURA
Label:
Measurement: nominal
Tree settings

Objective function: Minimize loss

Assessment Matrix: Matriz de perdidas

Utilities

Prior vector: DATA

Splitting criterion: Entropy Reduction


Minimum number of observations in a leaf: 1
Observations required for a split search: 2905
Maximum number of branches from a node: 2
Maximum depth of tree: 6
Splitting rules saved in each node: 5
Surrogate rules saved in each node: 0
Treat missing as an acceptable value
Model assessment measure: Average Loss
Subtree: Best assessment value
Observations sufficient for split search: 5000
Maximum tries in an exhaustive split search: 0
Use profit matrix during split search
Use prior probability in split search
Log
Score Code
Model assessment settings
Train data set is not selected for assessment.
Validation data set is selected for assessment.
Test data set is selected for assessment.
Scored data set: 5000 observations are saved for interactive model assessment.

114

115

116

117

Confusion Matrix (Assessed Partition=VALIDATION) Confusion Matrix (Assessed


Partition=TEST)

118

Notes: not available

Neural Network

Optimization plot:

Fit Statistic
[ TARGET=COBERTURA ]
Misclassification Rate
Average Error
Average Squared Error
Sum of Squared Errors
Root Average Squared Error
Root Final Prediction Error
Root Mean Squared Error
Error Function
Mean Squared Error
Maximum Absolute Error
Final Prediction Error
Divisor for ASE
Model Degrees of Freedom
Degrees of Freedom for Error
Total Degrees of Freedom
Sum of Frequencies
Sum Case Weights * Frequencies
Akaike's Information Criterion
Schwarz's Baysian Criterion

Training

Validation

Test

.
0.25
0.17
0.05
101415.57
0.22
0.22
0.22
340163.30
0.05
1.00
0.05
2033535.00
7086.00
1735944.00
1743030.00
290505.00
2033535.00
354335.30
441997.17

.
0.25
0.17
0.05
51067.15
0.22
.
0.22
171574.24
0.05
1.00
.
1016778.00
.
.
.
145254.00
1016778.00
.
.

.
0.25
0.17
0.05
50903.55
0.22
.
0.22
170688.50
0.05
1.00
.
1016771.00
.
.
.
145253.00
1016771.00
.
.

Network settings

Objective function: Minimize loss

Assessment Matrix: Matriz de perdidas

Utilities

Prior vector: DATA

Variables
Output
Log
Training Code

119

Score Code
Model assessment settings
Train data set is not selected for assessment.
Validation data set is selected for assessment.
Test data set is selected for assessment.
Scored data set: 5000 observations are saved for interactive model assessment.

120

121

122

123

Confusion Matrix (Assessed Partition=VALIDATION) Confusion Matrix (Assessed


Partition=TEST)
Assessment

124

125

126

Score [Apply]
Score Code

SASHELP.NUEVAC [1] T2_VU4FL

Assessment [1] T2XY6NO9

Settings
Run path action = Apply code to score data set

Keep variables:
_other_
assess
error
freq
group
id
input
predict
rejected
reserved
residual
target
Log

Distribution Explorer

Results

127

Tool Settings
Use Meta Sample is selected.
Chart Only is selected.
Variables
Log
Training Code

SAS Code
Settings

No results code enabled


No new data sets exported
Output
Log
Training Code
Notes: not available

End Report .

128

Potrebbero piacerti anche