Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
CAMPUS MONTECILLO
SOCIOECONOMA, ESTADSTICA E INFORMTICA
ESTADSTICA
T E S I S
PRESENTADA COMO REQUISITO PARCIAL
PARA OBTENER EL GRADO DE:
M A E S T R A EN C I E N C I A S
MONTECILLO, TEXCOCO, EDO. DE MXICO
2006
DEDICATORIAS
A mis Padres
Por el amor que me han dado, enseanzas, y sobre todo su entereza ante
las adversidades.
A mis Hermanos y Hermanas
Por el amor, proteccin y apoyo que me han brindado durante toda mi vida.
A mis Sobrinos y Sobrinas
(Beto, Monse, Paco, Rebeca, y Fernandito).
Porque sin ustedes no hubiera sido posible lograr esta meta.
AGRADECIMIENTOS
A Dios
Al Consejo Nacional de Ciencia y Tecnologa (CONACYT) por el apoyo
econmico brindado durante esta etapa de mi formacin acadmica.
Al Dr. Humberto Vaquera Huerta por el compromiso, motivacin y
paciencia para la realizacin del presente trabajo.
Al Dr. Antonio Martnez Alcntara por sus conocimientos; y por sus
sugerencias para mejorar este trabajo.
A la Dra. Martha Elva Ramrez Guzmn por sus sugerencias y correcciones
para la realizacin de este trabajo.
Al Dr. Ren Valdez Lazalde por su valiosa ayuda, y disponibilidad en la
elaboracin de este trabajo.
Al M.C. Guadalupe Hernndez Lira por su apoyo e impulso para continuar
mis estudios.
Al M.C. Paulino Prez Rodrguez por los conocimientos compartidos y su
maravillosa calidad humana.
A mi amigo Adalberto Pineda por su compaa, cario y apoyo en el tiempo
compartido durante la maestra.
A mis amigas: Vernica Macias, Laura Cabaas y Roco Cervantes por los
nimos y apoyo durante este tiempo de estudio.
A mis profesores, amigos y todas las personas que de alguna manera me
ayudaron durante mis estudios de maestra. Muchas gracias.
VLCM
CONTENIDO
RESUMEN ....................................................................................................i
ABSTRACT..................................................................................................ii
1. Introduccin............................................................................................1
1.1. Objetivos .............................................................................................................. 3
Objetivo General ................................................................................................... 3
Objetivos Particulares ........................................................................................... 3
1.2. Justificacin.......................................................................................................... 3
6. Conclusiones........................................................................................95
Bibliografa................................................................................................96
Anexo 1 .....................................................................................................99
Anexo 2 ...................................................................................................101
RESUMEN
La minera de datos es una disciplina nueva que es til para investigadores que
manejan grandes volmenes de informacin. SAS Institute Inc. ha desarrollado la
metodologa SEMMA; la cual automatiza el proceso de la minera de datos a travs del
programa Enterprise Miner. Este trabajo busc encontrar una estructura para clasificar
la cobertura forestal con el programa mencionado, utilizando datos de cuatro reas del
bosque Roosevelt National Forest localizado aproximadamente a 70 millas al noroeste
de Denver, Colorado, EEUU. Se entrenaron tres modelos de clasificacin: redes
neuronales, multinomial y rboles de clasificacin, con el criterio de minimizar la
prdida, la cual es cuantificada en una escala de 0 a 7. Los resultados sealan que el
modelo de redes neuronales clasifica correctamente 74.83% de cobertura forestal, el
multinomial 72.26%, y el de rboles de clasificacin 69.35%. La prdida promedio es
1.05 para el modelo de redes neuronales, 1.16 para el multinomial, y 1.30 para el de
rboles de clasificacin.
Palabras clave: rboles de clasificacin, bases de datos, matriz de prdidas, modelo
de regresin logstica multinomial, redes neuronales artificiales.
ABSTRACT
Data mining is a new discipline that is useful for researchers that manage large
databases. SAS Institute Inc. has developed the SEMMA methodology, which
automatizes the data mining process through the Enterprise Miner software. This work
looks for finding a structure for classifying forest cover with Enterprise Miner. Using data
sets from the Roosevelt National Forest, located approximately 70 miles northwest of
Denver, Colorado USA. Three classification models were trained: a neural network, a
multinomial and a classification tree with minimum loss criterion, which is scaled at the
range 0 to 7. The results indicated that the neural network model classification accuracy
was 74.83% of the forest cover, the multinomial model classification accuracy was
72.26% and the classification tree model classification accuracy was 69.35%. The
average loss was 1.05 for the neural networks model, 1.16 for the multinomial model
and 1.30 for the classification tree.
Keywords: Classification Trees, Databases, Loss Matrix, Logistic Regression
Multinomial Model, Artificial Neural Networks.
ii
1. Introduccin
En la ltimas dcadas el avance de la ciencia computacional ha provocado un enorme
crecimiento de informacin almacenada, no es exagerado decir que el mundo actual es
un universo de datos, basta con mencionar el tamao de algunas bases de datos tales
como Yahoo que a travs de su red transfiere arriba de 10TB1 por da, adems es
utilizada por ms de 410 millones de usuarios en un mes generando una enorme
cantidad de informacin (Piatestsky-Shapiro, 2006a). Otro caso es WalMart que aade
alredor de 1 billn de registros a su base de datos diariamente (USA TODAY, 2006). En
reas cientficas tambin hay grandes volmenes de informacin un ejemplo de ello es
Digital Palomar Sky Survey (DPOSS) quien genera imgenes de aproximadamente 3TB
de pxeles por da (AAS, 2002). Consecuentemente a tal crecimiento y la rapidez con
que se actualizan los datos surge la necesidad de desarrollar mtodos que permitan
automatizar el proceso de encontrar patrones ocultos en enormes bases de datos, dicho
proceso es llamado minera de datos.
En los ltimos aos el xito de la minera de datos ha sido impresionante, as lo
muestran las siguientes aplicaciones: El sistema SKY Image Cataloguing and Analysis
Tool (SKYCAT) se basa en tcnicas de minera de datos para poder clasificar los
objetos en estrellas, planetas, sistemas y galaxias. El FBI analiza bases de datos
comerciales para detectar terroristas. Los registros (logs) que dejan los navegadores de
pginas web son procesados mediante tcnicas denominadas Webmining. Informacin
oculta en colecciones de texto se extrae mediante mtodos de Texmining (Molina,
2005). En general la minera de datos se aplica a cualquier rea interesada en explotar
bases de datos.
La minera de datos es una disciplina que fusiona reas tales como bases de datos,
inteligencia artificial y estadstica, expertos de dichas reas se han involucrado en el
desarrollo de tcnicas que permitan encontrar relaciones y patrones ocultos en los
datos, pero a pesar de los avances an hay mucho por hacer, tan es as que
instituciones como Microsoft se han interesado en la ciencia computacional para el
anlisis de datos (Piatestsky-Shapiro, 2006b). Pero no solo Microsoft se ha interesado
en la comercializacin de metodologas y programas para sistematizar problemas de
minera de datos. Algunas metodologas disponibles son: CRISP-DM principalmente
usado en problemas de negocios y marketing, esta metodologa es de uso libre aunque
actualmente es el soporte para el software Clementine SPSS Data Mining (Jackson,
2002). Por su parte SAS Institute desarroll SEMMA llamada as por sus siglas en
ingls que significan: Sampling, Exploring, Modifying, Model y Assessing ste
procedimiento sistematiza la minera de datos a travs del programa SAS Enterprise
Miner (SAS Institute Inc., 2004). Otros paquetes son S-plus Insightful Miner y Oracle
Data Mining.
El objetivo de sta investigacin es mostrar el proceso de la minera de datos usando
SAS Enterprise Miner, utilizando para ello el problema de encontrar una estructura que
1
clasifique la cobertura forestal de cuatro reas del bosque de Roosevelt National Forest
localizado al noroeste de Denver Colorado. De manera que el trabajo esta estructurado
de la siguiente forma, el captulo 1 contiene el objetivo general, los objetivos especficos
y la justificacin del estudio, el captulo 2 se refiere a la definicin de minera de datos
dentro del proceso de descubrir conocimientos en bases de datos KDD por sus siglas
en ingls, aunque los dos trminos se usan indistintamente, en un enfoque cientfico
existe diferencia la cual se puntualiza en este captulo, adems se describen algunas
tcnicas de minera de datos y se destaca la importancia de la estadstica dentro de
esta disciplina. En el captulo 3 se describe los aspectos tericos de los modelos de
clasificacin de redes neuronales artificiales, modelo multinomial y rboles de decisin
los cuales se ocupan en el ejemplo de aplicacin. El captulo 4 es una gua del
funcionamiento y manejo del programa incluye especificaciones de los modelos de
clasificacin y los criterios para evaluar y seleccionar stos. El captulo 5 est dedicado
a la aplicacin se detalla cada paso a seguir en el proceso de solucionar el problema de
clasificar la cobertura forestal, adems de discutir los resultados encontrados. Por
ltimo el captulo 6 son las conclusiones de la investigacin.
1.1. Objetivos
Objetivo General
Mostrar el uso de la minera de datos con SAS Enterprise Miner en el anlisis de
bases de datos en el rea de las ciencias agropecuarias.
Objetivos Particulares
Encontrar alguna estructura oculta que lleve a la correcta clasificacin de la
cobertura forestal del bosque Roosevelt National Forest.
Realizar una revisin de bibliografa de las tcnicas de minera de datos,
principalmente de modelos de clasificacin.
Explicar el uso del programa SAS Enterprise Miner.
1.2. Justificacin
El crecimiento de las bases de datos en las ltimas dcadas ha sido impresionante, de
tal manera que la minera de datos es una disciplina til para el entendimiento de la
informacin y toma de decisiones. Esta se utiliza principalmente en reas de negocios y
marketing, sin embargo, en los aos recientes han incrementado las aplicaciones en las
ciencias agropecuarias y en general en reas cientficas.
Por otro lado a pesar de que la literatura relacionada con el tema es extensa se requiere
de documentos prcticos que expliquen de manera clara el proceso de la minera de
datos, por ello la presente investigacin proporciona una gua de tal disciplina usando
SAS Enterprise Miner en un problema de aplicacin, se utiliza este programa debido a
que es una herramienta poderosa comparada con otros programas en el uso de la
disciplina, adems de que en Mxico es un programa de uso tradicional en las ciencias
agropecuarias.
Una definicin formal es ofrecida por (Vazirgiannis et al., 2003 citando a Fayyad et al.
1996). El descubrimiento de conocimiento en bases de datos es un proceso no-trivial de
identificacin valida, novedosa, potencialmente til y entendible de patrones
comprensibles que se encuentran en los datos.
Se desglosan algunos trminos que son parte de la definicin:
Proceso: Implica varios pasos los cuales incluyen pre-procesamiento de los datos,
bsqueda de patrones, evaluacin y mejoramiento del conocimiento.
No trivial: Significa que alguna bsqueda o inferencia esta involucrada.
Patrn: Es un subconjunto de datos que comparten propiedades similares.
Datos: Es un conjunto de registros que aparecen en una base de datos.
Validez: Extraer patrones puede ser validado con base en alguna prueba de datos
con algn grado de certeza, ms adelante se mencionan algunos mtodos de
validacin o evaluacin.
Potencialmente tiles: Que sean de beneficio para el usuario.
Entendibles: El objetivo de descubrir conocimientos es identificar patrones y hacer
esto entendible para los humanos.
10
Otro problema es el tamao enorme de las bases de datos y la velocidad con que stas
se actualizan, por lo que es necesario encontrar mtodos tericamente bien
sustentados que arrojen resultados rpidos y confiables. De tal manera que hay una
urgencia de que los estadsticos se involucren con problemas de minera de datos, para
aprender acerca de estos y para contribuir de manera importante al desarrollo de
nuevos mtodos que resuelvan problemas de minera de datos.
11
3. Modelos de clasificacin
3.1. Introduccin.
Como se mencion en el captulo anterior uno de los propsitos de la minera de datos
es predecir el objetivo (variable de respuesta) con relacin a una o ms variables
explicativas, es decir estimar los parmetros que aproximen la asociacin entre dichas
variables. Cuando el objetivo es categrico los modelos son referidos como modelos de
clasificacin.
En este trabajo se utilizan los modelos de clasificacin como tcnicas de aprendizaje
con supervisin y se basan en la teora de estimacin de parmetros de los modelos
lineales generalizados (GLM), los modelos lineales generalizados son una unificacin
de modelos lineales y modelos no-lineales (Montgomery et al., 2002). La finalidad de
este apartado es establecer los aspectos tericos de los modelos de clasificacin. El
captulo se inicia con los modelos de regresin logstica, regresin logstica multinomial,
y redes neuronales, finalmente nos enfocamos en los rboles de decisin y la
evaluacin de la certeza de los modelos.
( x ) =
exp
0 +1 x
1 + exp
0 +1 x
(3.1)
(3.2)
y = E {Y | x}+ e
(3.3)
p ( x) ,
entonces e tiene una distribucin con media 0 y varianza p ( x)[1 sigue una distribucin Binomial.
p ( x)] ,
es decir
( xi ) = ( xi ) y [1 ( xi )]1 y
i
13
(3.4)
l () = ( xi )
(3.5)
i =1
L()=ln l () = { yi ln ( xi ) + (1 yi ) ln(1 ( xi )) }
(3.6)
i =1
Para encontrar los valores de que maximizan l () se deriva (3.6) con respecto a 0 y
[ y ( x )] = 0
i
i =1
(3.7)
Y para 1
n
x [ y ( x )] = 0
i =1
(3.8)
g j = ln
14
para j = 1,...,l - 1
(3.9)
j ( x ) = P( Y = j | x ) =
exp { g j ( x )}
l 1
exp { g
m=0
para j = 0,1,...,l 1
( x )}
(3.10)
j= 1
n l -1
y ji
j ( x)
i =1 j =0
l () =
(3.11)
ji
l 1
i =1 j =1
k =0
j =1
k =0
(3.12)
L() n
= xki (y ji ji ) para k = 0,1,,..., p y j = 1, 2,...,l - 1
jk
i =1
15
(3.13)
16
Figura 3. 2. Perceptrn simple capa con una neurona (Demuth y Beale, 2001).
El funcionamiento de un perceptrn simple establece un conjunto de valores de entrada
xi multiplicados por los pesos wi , a travs de una funcin de activacin (.) que genera
una salida y , este funcionamiento es representado mediante (3.14), con x0 = 1
y = (a) = w1 x1 + w2 x2 + ... + wp x p + w0 = wi xi
i =0
(3.14)
donde xi y wi son las entradas y los pesos de la red para i = 0,1, 2,..., P , w0 es el umbral
o sesgo, a es el escalar resultante de multiplicar wi *xi , llamada actividad interna de una
neurona, (a) es la funcin de activacin descrita ms adelante. Por ltimo y es la
salida de la red.
17
Figura 3. 3. Perceptrn simple capa con una S 1 neuronas (Demuth y Beale, 2001).
La arquitectura de la Figura .3.3., se puede denotar mediante (3.15)
y = 1(W1x))
(3.15)
si a 0
si a < 0
18
(3.16)
( a ) = n
-1
si a 1
si 1>a>-1
si a -1
(3.17)
( a ) =
1
1 + exp {a}
19
(3.18)
(a)=b
1 exp
tanh( ca ) = b
1 + exp
{ba}
{ba}
(3.19)
Capa1: oculta
Capa2: Salida
Figura 3.8. Perceptrn con dos capas: con S 1 neuronas en la capa oculta y S 2 neuronas
en la capa de salida (Demuth y Beale, 2001).
La estructura de y de la Figura 3.8., se representa en forma matricial mediante (3.20).
y = 2(W21(W1x))
20
(3.20)
Capa 1
Capa k
Capa K
21
(3.21)
valor para wkj,i (n + 1) , de manera que el aprendizaje para el peso wkj,i se denota como en
(3.22).
(3.22)
j sima neurona de una capa oculta, como el perceptrn de la Figura 3.8. Para
simplificar la notacin se omite el superndice del peso wkj,i ( n ) .
22
1 N
E ( n)
N
n =1
(3.23)
ej ( n ) = d j ( n ) y j ( n )
(3.24)
( n ) = 1 e2j ( n )
2
(3.25)
j =1
wj ,i ( n ) ,
wj,i se
tiene:
( n ) = ( n ) e j ( n ) y j ( n ) a j ( n )
(3.26)
( n ) = e ( n )1, ( a ( n ))x ( n )
j
j
j
i
w ji ( n )
(3.27)
w ji ( n )
e j ( n ) y j ( n ) a j ( n ) w ji ( n )
w j,i ( n ) =
E( n )
w j,i ( n )
(3.28)
23
w j,i ( n ) = j ( n )xi ( n )
(3.29)
e j ( n ) y j ( n )
e j ( n ) y j ( n ) a j ( n )
= e ( n )1 , ( a ( n ))
j ( n ) = E( n )
(3.30)
j ( n ) = E( n )
(3.31)
E( n ) ,
( a ( n ))
=
y j ( n ) j j
( n ) = 1 el2( n )
(3.32)
2 l =1
E( n ) S 2 el ( n ) al ( n )
= el
y j ( n )
al ( n ) y j ( n )
l =1
=
S2
S2
el ( n ) , ( a ( n ))w ( n ) = l ( n )w ( n )
l =1
l =1
l
lj
lj
(3.33)
j ( n ) = ,j ( a j ( n )) l ( n )wlj ( n )
l =1
24
(3.34)
j ( n ) para modelos
f ( X ) = cm I { x Rm }
(3.35)
m =1
(3.36)
25
R1 ( j , s ) = {x | x s} y R2 ( j , s ) = {x | x > s}
(3.37)
mn mn ( yi c1 ) 2 + mn ( yi c2 ) 2
j ,s
c2
xR ( j , s )
xR ( j , s )
c1
(3.38)
(3.39)
Para cada divisin de variable la determinacin del punto de divisin puede hacerse
muy rpido y por lo tanto escanear a travs de todas la entradas la determinacin del
mejor par j, s una vez que se tiene la mejor divisin, los datos son clasificados en las
dos regiones resultantes y se repite el proceso sobre todas las regiones resultantes.
1
)
cm =
Nm
y
xR
N m xR
26
(3.40)
(3.41)
(3.42)
m =1
)
La idea es encontrar para cada , el subrbol T T0 que minimice c (T ) .
1
)
pml =
Nm
I(y
xR
= l)
(3.44)
iR
Nm
(3.45)
Entropa-cruzada o devianza:
L
)
log pml
(3.46)
L
) )
)
)
pml pml ' = pml (1 pml )
(3.47)
ml
l =1
ndice de Gini:
l l
l =1
27
Estos
subconjuntos
son
mutuamente
exclusivos
tienen
28
29
Equation Section 4
4.1. Introduccin
Como se mencion anteriormente el objetivo de este trabajo es ejemplificar el proceso
de la minera de datos usando SAS Enterprise Miner, aunque hay otros programas
disponibles Enterprise Miner es un programa que proporciona un proceso completo de
minera de datos debido a su metodologa SEMMA. Por otro lado en Mxico ste
programa ha sido de uso tradicional en las reas Agropecuarias.
En este captulo se describe el programa SAS Enterprise Miner. Se inicia con los
requerimientos computacionales del minero, posteriormente se da una explicacin de la
metodologa SEMMA llamada as por sus siglas en ingls que significan: Sampling,
Exploring, Modifying, Model y Assessing. Se mencionan las instrucciones de inicio del
programa, y el diseo de diagramas, los cuales son un aspecto muy importante de
Enterprise Miner ya que representan grficamente el problema de minera de datos que
se desea resolver. Posteriormente se mencionan interfases de herramientas avanzadas
para construir diagramas tales como: Mtodos de preparacin y limpieza de datos,
transformacin de variables, divisin de la base de datos para entrenar, validar y probar
modelos, tcnicas de visualizacin para anlisis exploratorios, herramientas estadsticas
como: agrupamiento, rboles de decisin, regresin lneal, regresin logstica, redes
neuronales entre otras.
Finamente se presentan aspectos de los modelos de clasificacin, y de los criterios que
Enterprise Miner utiliza para evaluar y seleccionar modelos. Para la realizacin de este
captulo se consult SAS System help (SAS Institute Inc., 1999-2001a). y las siguientes
referencias (SAS Institute Inc., 2004) (SAS Institute Inc. 2003) (SAS Institute Inc., 2002).
30
31
En este apartado se le llama nodos a las herramientas de minera de datos que Enterprise Miner proporciona.
32
4.5. Proyecto
Un proyecto de Enterprise Miner es una coleccin de diagramas e informacin
relacionada con este. Se puede crear un proyecto para cada problema de minera de
datos que se quiere resolver.
Para saber el directorio del proyecto; se hace clic derecho en el botn del nombre del
proyecto y selecciona explorar.
Es un archivo con informacin acerca del objetivo tal como matriz de decisiones, matriz de costos, y probabilidades
a-priori, las secciones 4.8.1 y 4.9.1 contienen ms informacin al respecto.
33
deber
34
guardar
el
archivo
del
servidor
35
Para definir un cliente servidor se requiere de dos pasos bsicos, los cuales son
consumados va un proyecto, estos son:
1. Definir la localizacin del cliente para el proyecto proporcionando el nombre y
localizacin para el proyecto.
2. Proporcionar un archivo de configuracin del servidor. Se puede especificar un
archivo existente o crear uno nuevo.
Para definir un proyecto cliente/servidor. De la barra de men se selecciona File
posteriormente New Project, se escribe el nombre del proyecto y se seala la
indicacin Client/server project como en la Figura 4.5. Se usa Location para
especificar la ruta donde se quiere registrar el proyecto, y se selecciona create.
4.7. Diagrama
Un diagrama es la va a travs de la cual se especifican las tareas de minera de datos
y los parmetros de la tarea que se quieren realizar sobre un conjunto de datos. El
diagrama es una representacin grfica del problema que se desea resolver, es decir es
el medio de Enterprise Miner para aplicar la metodologa SEMMA. El diagrama se
36
disea en el espacio de diagrama (Figura 4.2) utilizando las interfases o nodos que el
programa proporciona. Cuando iniciamos un proyecto automticamente Enterprise
Miner crea un diagrama, el nmero de diagramas que Enterprise Miner permite es
100,000 diagramas por proyecto.
37
38
4.8. Nodos
La paleta de herramientas contiene herramientas de minera de datos llamadas nodos,
los cuales son los mtodos de minera de datos que proporciona Enterprise Miner para
solucionar problemas. Los nodos estn organizados en categoras de acuerdo la
metodologa SEMMA es decir: Sample, Explore, Modify, Model y Assess,
adicionalmente estn Scoring y Utilty.
Todos los nodos de Enterprise Miner son listados en carpetas localizadas en la paleta
de herramientas (Figura 4.10). Los nodos estn clasificados segn la funcin que
realizan para ejecutar la metodologa SEMMA. A continuacin se describe brevemente
cada nodo segn su carpeta.
39
40
4.8.1. Sampling
4.8.2. Exploring
Distribution Explorer
Es una herramienta de visualizacin avanzada que permite explorar rpida y
fcilmente grandes volmenes de datos en histogramas multidimensionales, es decir se
puede ver la distribucin de tres variables al mismo tiempo. Para variables binarias,
nominales u ordinales se pueden seleccionar valores especficos para incluir en el
grafico, tambin es posible generar un resumen de estadsticas para una lista de
variables.
Procesamiento del diagrama se refiere a la ejecucin de los nodos usados para resolver un problema de minera de
datos.
6
Es la representacin de la variable en el modelo puede ser: entrada, objetivo, id, no-considerada entre otras.
41
Multiplot
Es otra herramienta de visualizacin que permite explorar grficamente grandes
volmenes de datos
Insight
Programa SAS/ INSIGHT es un herramienta interactiva para explora y analiza datos.
Con ella se pueden explorar datos a travs de grficas y anlisis que son ligadas a
travs de ventanas mltiples. Se puede tambin analizar distribuciones univariadas,
investigar distribuciones multivariadas y fijar modelos lineales.
Association
Identifica la asociacin de relaciones entre los datos, por ejemplo A B. esta tcnica
tambin es conocida como Market Basket Analysis. El objetivo debe ser una variable
numrica no-continua (binaria, nominal u ordinal). Las secuencias binarias se
construyen automticamente pero puede usarse Even Chain Handler para construir una
secuencia de cadenas binarias.
Variable Selection
Evala la importancia de las variables de entrada en la prediccin o clasificacin del
objetivo. Para preseleccionar las entradas se usa como criterio de seleccin la Chicuadrada o R-cuadrada. Se puede usar el criterio de la R-cuadrada para eliminar
variables estableciendo algn orden de importancia, se pueden eliminar variables que
tienen alto porcentaje de datos faltantes y quitar variables de clases que nicamente
tienen un valor. Las variables que no estn relacionadas con el objetivo, aparecen con
status rejected. Aunque las variables rejected son pasadas a subsecuentes nodos en el
proceso del diagrama estas no son usadas en el modelo.
Link Analysis
Se usa para transformar datos de diferentes fuentes en un modelo de datos que pueda
ser graficado. El modelo soporta mediciones simples de estadstica representadas en
una grfica simple iterativa para una exploracin analtica y genera registros de grupos
para cada fila en los datos que pueden ser usados para reduccin de dimensionalidad o
segmentacin.
4.8.3. Modify
42
Filter Outliers
Identifica y elimina outliers o ruido del conjunto de datos.
Replacement
Permite remplazar valores para variables de intervalo con media, mediana, rango
medio, o con una distribucin. Alternativamente se puede usar un M-estimador tales
como: Tukeys biweight, Hubers o Andrews Wave, tambin se pueden estimar valores
de reemplazamiento para cada entrada de intervalo usando un mtodo como rboles de
decisin. Para variables de clase los valores faltantes pueden reemplazarse con el de
mayor frecuencia o usando un mtodo como rboles de decisin o una constante.
Clustering
Se usa para segmentar datos, identificando observaciones que de alguna manera son
similares. En una grafica se despliegan las observaciones que son similares en el
mismo grupo y las observaciones que son diferentes tienden a estar en diferentes
grupos. Cada observacin es identificada dentro de un grupo, es posible usar esta
informacin en otros nodos como entradas o tambin puede usarse en otros nodos
como un grupo de variables que permite construir modelos para cada grupo por
separado.
SOM/Kohonen
Genera mapas auto-organizacionales, redes Kohonen y vectores de cuantificacin de
redes. SOM/ Kohonen ejecuta aprendizajes no-supervisados en los cuales se intenta
aprender de la estructura de los datos. SOM/ Kohonen presenta el anlisis de
resultados en forma de un mapa interactivo que ilustra las caractersticas de los grupos.
De tal manera que los resultados de SOM/ Kohonen mejoran un reporte que indica la
importancia de cada variable.
Time series
Convierte los datos a una serie de tiempo, ejecuta anlisis temporales y de tendencia
para un objetivo en escala continua o de intervalo.
4.8.4. Model
Regression
Se puede usar para modelos regresin lineal y logstica, el objetivo puede ser de escala
continua, ordinal y binaria, las variables de entrada pueden ser continuas y discretas, el
nodo soporta los mtodos de seleccin de variables Stepwise, forward y backward
(Seccin 4.9.2). Un modo interactivo permite crear modelos de alto-orden tales como
los modelos polinomiales.
43
Tree
Se usa para modelar rboles de decisin. La implementacin incluye caractersticas que
son encontradas en una variedad de algoritmos populares de rboles de decisin (p.e.
CHAID, CART, C4.5, y C5.0.) el nodo Tree soporta dos tipos de entrenamiento
automtico e interactivo. Cuando corremos el nodo tree en automtico, este ordena las
variables de entrada con base en la intensidad de su contribucin al rbol. Este orden
puede ser usado para seleccionar variables para su uso en subsecuentes modelos,
tambin se puede anular automticamente algn paso con la opcin que define una
regla de divisin o impureza y borrar explcitamente nodos o subrboles. Los
entrenamientos interactivos permiten explorar y evaluar un conjunto grande de rboles
como desarrollo de estos.
Neural Networks
Construye, entrena y evala redes feedforward perceptrn multicapa por omisin el
nodo de redes neuronales construye redes que tienen una capa oculta que contiene
tres neuronas. En general, cada entrada esta completamente conectada a la primera
capa oculta, cada capa oculta es conectada a la siguiente capa oculta y la ultima ltima
capa oculta esta conectada a la salida. En la seccin 4.9.2. Se dan ms detalles del
nodo.
Princomp/Dmneural
Se usa para fijar un modelo no-lineal aditivo que usa componentes principales como
entradas para predecir una variable objetivo binaria o de intervalo. El nodo
Princomp/Dmneuralt tambin funciona como un anlisis de componentes principales y
pasa los registros de componentes principales a un nodo sucesor.
User Defined Model
Permite generar una evaluacin estadstica usando valores predichos de un modelo que
se construye usando un cdigo de SAS (p.e. un modelo logstico usando el
procedimiento SAS/STAT LOGISTIC) o el nodo Variable Selection. Los valores
predichos tambin pueden ser guardados en un conjunto de datos de SAS y entonces
importar estos para un diagrama de flujo con el nodo Input Data Source.
Ensemble
Se usa para crear un nuevo modelo para la media de las probabilidades posteriores
(para objetivo nominal) o valores predichos (para objetivo de intervalo) de mltiples
modelos. El nuevo modelo es entonces usado para registrar nuevos datos. Un enfoque
comn es re-muestrear el entrenamiento de los datos y ajustar un modelo por separado
para cada muestra. Los componentes del modelo son entonces integrados por este
nodo para formar una solucin potencialmente fuerte.
Memory-Based Reasoning
Usa un algoritmo k-nearest neighbor para categorizar o predecir observaciones.
44
Assessment
Proporciona una estructura comn para comparar modelos y predicciones para algunos
de los nodos de modelacin (Regression, Tree, Neural Networks, y User Defined
Model). La comparacin esta basada sobre la ganancia esperada o prdida esperada
que pueden resultar de la implementacin del modelo. El nodo produce los siguientes
grficos que ayudan para describir el uso del modelo: beneficio, ganancia/ prdida,
grfica de diagnstico, sensibilidad, y ganancia acumulada.
Reporte
Evala los resultados de un proceso de anlisis de flujo dentro de un reporte de HTML
que puede ser visto con un buscador de web. Cada reporte contiene informacin de
cabecera, una imagen del diagrama de flujo, y un subreporte separado para cada nodo
en el diagrama. Los reportes son listados en el tabulador de reportes del navegador del
proyecto ver Figura 4.2.
4.8.6. Scoring
Score
Permite generar y manejar valores predichos de un modelo de entrenamiento. Las
formulas resultantes son creadas para evaluacin y prediccin. Enterprise Miner genera
y maneja formulas resultantes en la forma de SAS DATA step code, el cual puede ser
usado en ms desarrollos de SAS con o sin Enterprise Miner.
Score Converter
Se usa para convertir los datos del diagrama del cdigo SAS score producidos por
nodos precedores a Score Converter a los lenguajes C y Java. Esta es una herramienta
para usuarios experimentados de C y Java.
El nodo Score Converter soporta de entrada los siguientes nodos de Enterprise Miner:
Nodos Sampling
Entrada Data Source
Sampling
Data Partition
45
Nodo Exploring
Distribution Explorer
Multiplot
Insight
Association
Variable Selection
Link Anlisis
Modify.
Data Set Atributes
Transform Variables
Filter Outliers
Replacement
Clustering
SOM/Kohonen
Interactive grouping
Model
Regression
Tree
Neural Networks
User Defined Model
Ensemble
Two Stage Model
Assessing
Assessment
Reporter
Scoring
Score
Utility
Group processing
Data mining Database
Control point
Subdiagram
3.8.7. Utility
Group processing
Define una(s) variable grupo tal como gnero, para obtener anlisis por separado para
cada nivel de la variable grupo. Se puede analizar ms de un objetivo, y se puede remuestrear la base de datos del entrenamiento para obtener un catlogo de modelos.
Data Mining Database
Permite crear bases de datos de minera de datos (DMDB) por sus siglas en ingls, la
cual es una base de datos que esta diseada para optimizar la ejecucin de los
46
SAS Code
Incorpora cdigos nuevos o existentes de SAS en procesos de diagramas de flujo. La
habilidad para escribir el cdigo de SAS permite incluir procedimientos adicionales de
SAS en el anlisis de minera de datos. Se puede tambin usar un paso de SAS DATA
para crear cdigos personalizados, para condicionar procesos de datos, y para
concatenar o juntar conjuntos de datos. El nodo proporciona un macro para referenciar
dinmicamente conjuntos de datos del entrenamiento, validacin, prueba o scoring y
variables tales como: entrada, objetivo, y variables predichas. Despus se puede
ejecutar el nodo SAS Code, el resultado y los datos pueden exportarse para uso de
nodos subsecuentes en el diagrama.
Control point
Establece un punto de control para reducir el nmero de conexiones que son hechas en
el proceso del diagrama. Por ejemplo, suponga que tres nodos de Input Data Source
son conectados a tres nodos de modelacin. Si el nodo Control Point no es usado
entonces nueve conexiones son requeridas para conectar todos los nodos Input Data
Source a todos los nodos de modelacin. Sin embargo, si el nodo Control Point es
usado, solamente son requeridas seis conexiones.
Subdiagram
Se usa para agrupar o condensar un fragmento del proceso de diagrama en un
subdiagrama. Para procesos complejos de diagramas, se pueden crear subdiagramas
que diseen mejor el proceso del diagrama.
47
El nodo de redes neuronales de SAS Enterprise Miner proporciona redes del tipo
feedforward perceptrn multicapa con dos capas los aspectos tericos de estas redes
fueron presentados en la seccin 3.4. Aqu solo se presentan algunos aspectos que
Enterprise Miner permite. La estructura del modelo bsicamente tiene arreglos de
48
neuronas en tres capas. La primera capa llamada capa de entrada conecta a un estrato
de neuronas llamada capa oculta a su vez este conecta a un estrato final llamado
salida. La funcin de activacin que SAS Enterprise Miner usa por omisin para la capa
de entrada es la tangente inversa hiperblica y la funcin logit para la capa de salida,
sin embargo, se permiten algunas variaciones de la estructura de la red (Institute Inc.,
1999-2001c).
La red es entrenada de manera que los parmetros o pesos se actualizan hasta
encontrar un mnimo de la funcin de error o hasta que se cumpla cierto nmero de
iteraciones el programa ejecuta 100 iteraciones por omisin pero se pueden ejecutar
ms o menos iteraciones segn se desee. La funcin de error que se utiliza
frecuentemente es el error cuadrado medio, sin embargo, depende del tipo de escala de
medicin del objetivo, cuando este es una variable nominal se usan las funciones de
error Bernoulli mltiple, entropa o multinomial.
Enterprise Miner permite otras arquitecturas de redes neuronales del tipo de Funciones
Radiales Bsicas (Radial Basic Function), para ms detalles de esta red ver (SAS
Institute Inc. 1999-2001b).
E{ i,d } =
Qi,l ,d Posti,l
(4.1)
donde l es el ndice para los valores del objetivo, d es el ndice para las decisiones
hechas por el modelo, Qi ,t ,d es la ganancia o prdida de hacer la decisin d cuando el
49
objetivo es l para el caso i , Posti ,t es la probabilidad posterior del objetivo para la clase
l del caso i .
Para cada i la decisin se realiza seleccionando el valor de d que maximiza la
ganancia esperada, la cual se denota por D( i )
(4.2)
C( i ) = Qi , L( i ), D( i )
D( i ) del modelo
(4.3)
donde L( i ) es el ndice del valor de objetivo para el caso i . Para la prdida se utiliza el
negativo de C( i )
De manera que la ganancia total y la ganancia promedio estn dadas por (4.4) y (4.5)
respectivamente
Ganancia total = F( i )C( i )
(4.4)
Ganancia promedio=
Ganancia total
F( i )
(4.5)
Para una matriz de prdidas, la prdida total y media son calculadas como el negativo
de (4.4) y (4.5). Cuando las probabilidades a-priori son conocidas la ganancia total y
ganancia media son ajustadas como en (4.6) y (4.7).
F( i )C( i )
(4.6)
iclase( l )
Ganancia promedio=
Ganancia total
F( i )
(4.7)
donde:
Paw( l ) =
Pr ior ( l )
F( i )
F( i ) i
iclase( l )
50
(4.8)
El nodo Assessment permite evaluar los modelos de clasificacin usando una serie de
grficas algunas de ellas son (Institute Inc. 1999-2001c):
Ganancias/prdidas.
Grfica de ganancias cruzadas.
Grfica de diagnstico.
Grfica de Ganancias/prdidas
Para realizar una grfica de ganancias, los datos de un conjunto de validacin o prueba
son ordenados de manera descendente a la ganancia promedio (4.8) de cada dato,
entonces se dividen los datos en deciles, los cuales son representados en el eje
horizontal de la grfica, mientras que en el eje vertical se representa la ganancia
promedio, de manera que el primer decil tiene la ganancia ms alta y el ltimo decil la
ganancia menor. El procedimiento de un grafico de prdidas es similar solo que los
datos son ordenados de manera descedente.
Grfica de Ganancias/cruzadas
Es igual que una grfica de ganancias/perdidas, pero en esta se pueden comparar dos
conjuntos de datos (validacin y prueba)
Grfica de Diagnstico (matriz de confusin)
Compara el valor observado de cada clase del objetivo con la clasificacin que hace el
modelo para cada clase del objetivo para cada caso de algn conjunto de datos
(validacin o prueba).
51
52
Figura 5. 1. reas del bosque Roosevelt National Forest (Blackard y Dean, 1999)
La informacin del tipo de cobertura forestal (objetivo) fue extrada del United States
Forest Service (USFS). Las variables independientes o de entrada, las cuales se
describen en el Cuadro 5.1., fueron obtenidas del United States Geological Survey
(USGS).
53
Una celda raster es una cuadricula de 30x30m en donde se especifica el cobertura forestal
54
1, donde 0 denota ausencia y 1 denota presencia, los detalles acerca del suelo se
presentan en el Anexo1.
El tipo de cobertura forestal (objetivo) del bosque de Roosevelt National Forest, tiene
una de las siguientes clasificaciones:
1. Picea/Abeto (Picea engelmannii y Abies lasiocarpa)
2. Pino lodgepole (Pinus contorta)
3. Pino ponderosa (Pinus ponderosa)
4. lamo/Sauce (Populus angustifolia, Populus detoides, Salix amygdaloides)
5. lamo Aspen (Populus tremuloides)
6. Abeto Douglas (Pseudotsuga menziesii)
7. Krummholz Engelmann spruce(Picea engelmannii) subalpine fir (Abies lasiocarpa) y
rocky mountain bristlecone pine (Pinus aristata)
Los mapas del tipo de cobertura para estas reas fueron creados por el USFS y estn
basados en estndares homogneos variando en tamao de 2 a 80 hectreas (de 5 a
200 acres) que fueron derivados de fotografas areas de escala-grande.
El tamao de la base de datos es de 73,408 KB, los datos tienen 581,012
observaciones o filas. Cada fila de los datos representa una nica celda raster de (30 x
30)m. correspondiente a los datos USGS DEM. Los datos se obtuvieron de los archivos
de la UCI KDD (Blackard y Dean, 1999b).
55
En SAS existen otras librerias donde se puede guardar los datos, se elegi sta pero se puede seleccionar
cualquier otra.
56
del men principal de SAS. Adems del nombre el Cuadro 5.2., muestra el rol y la
escala de medicin de las variables de entrada. Las columnas rol y escala (Cuadro
5.2.), se definieron posteriormente en SAS Enterprise Miner.
Cuadro 5.2: Nombre, rol y escala de medicin de las variables de entrada.
NOMBRE
ROL
TIPO DE MEDICIN
ELEVACION
Entrada
Intervalo
ASPECTO
Entrada
Intervalo
PENDIENTE
Entrada
Intervalo
HRZ_HIDRO
Entrada
Intervalo
VER_HIDRO
Entrada
Intervalo
HRZ_CARR
Entrada
Intervalo
SOMBRA9
Entrada
Intervalo
SOMBRA12
Entrada
Intervalo
SOMBRA3
Entrada
Intervalo
HRZ_INCEN
Entrada
Intervalo
AREA1-AREA4
Entrada
Binaria
SUELO1-SUELO40
Entrada
Binaria
COBERTURA
Objetivo
Nominal
Los pasos para definir la base de datos del estudio en Enterprise Miner son los
siguientes:
1. Arrastrar al espacio de diagrama de la paleta de herramientas el nodo Input Data
Source como se ve en la Figura 5.3.
57
58
hay que especificar el tipo de escala del objetivo en Measurement, en este caso
nominal. La opcin Class Variables contiene informacin acerca de las variables
nominales como el nmero de clases en cada variable y el orden en que estas se
presentan, aunque esto no tiene ninguna consecuencia en los resultados
simplemente es la manera de presentarlo, en este ejemplo se elige un manera
ascedente para todas la variables (Ascending).
59
283301
(48.74%)
211840
(36.45%)
35754
(6.15%)
2747
(0.47%)
9493
(1.63%)
17637
(3.03%)
20510
(3.53%)
Como se mencion en la seccin 4.9.4. Un criterio para seleccin un modelo como los
que se ajustan ms adelante (multinomial, redes neuronales, y rboles de clasificacin),
es minimizar la prdida para lo cual es necesario definir una matriz de prdidas ver
seccin 4.9.3. sta matriz es subjetiva se construye de acuerdo a la experiencia de un
experto del rea de estudio, en este caso el Dr. Rene Valdez9 ayud a construir la
matriz de prdidas dada en el Cuadro 5.3., En este caso los valores de la matriz van de
0 a 7, donde 0 significa no tener prdida es decir cuando el modelo clasifica
correctamente y 7 es el error de clasificacin ms penalizado, por ejemplo clasificar una
especie lamo/Sauce (4) como Picea/Abeto (1) es ms riesgoso que clasificar una Pino
lodgepole (2) Picea/Abeto (1).
9
Profesor investigador del rea de Sistemas de Informacin Geogrfica, Colegio de Postgraduados, E-mail
(valdez@colpos.mx).
60
Picea/
Abeto
(1)
Pino
lodgepole
(2)
Pino
ponderosa
(3)
lamo/
Sauce
(4)
lamo
Aspen
(5)
Abeto
Douglas
(6)
Krummholz
(7)
0
4
7
7
4
4
2
4
0
7
7
4
4
4
7
7
0
2
7
7
7
7
7
2
0
7
7
7
4
4
7
7
0
2
4
4
4
7
7
2
0
4
2
4
7
7
4
4
0
10
Por omisin Enterprise Miner predetermina dos matrices una de prdidas y otra de ganancias, con valores de
ceros y unos.
61
62
63
64
65
66
67
68
69
70
71
prdida promedio para la Cobertura 1.15 de igual manera para los tres conjuntos de
datos, estas mediciones son importantes para evaluar y seleccionar un modelo.
Por otra parte el mtodo de seleccin de variables Stepwise, realiza 33 pasos y
selecciona las variables que mejor ajustan el modelo, las cuales son: Area1, Area3,
ASPECTO, ELEVACIN, HRZ_CARR, HRZ_HIDRO, HRZ_INCEN, PENDIENTE,
SOMBRA12, SOMBRA3, SOMBRA9, Suelo11, Suelo12, Suelo13, Suelo17, Suelo19,
Suelo2, Suelo20, Suelo21, Suelo22, Suelo23, Suelo24, Suelo3, Suelo31, Suelo32,
Suelo33, Suelo37, Suelo38, Suelo39, Suelo4, Suelo9, y VER_HIDRO.
72
73
Figura 5.23. Modelo multi-capa con dos capas, con 6 nodos en la capa interna.
74
75
Otro modelo que se entren fue rboles de clasificacin (Seccin 3.5.3), se utiliz la
entropa como medida de impureza (divisin) con otras opciones que equivalen a un
algoritmo C.4. (Seccin 4.9.3.). Para seleccionar el modelo se utiliz la prdida
promedio (Average loss).
Los pasos que se siguieron para un modelo de rboles son:
1. Aadir el nodo de Tree al espacio de diagrama.
2. Conectar el nodo Tree al nodo Data Partition
3. Abrir el nodo para hacer las especificaciones del modelo, en nuestro caso se
seleccion Entropy reduction en Spliting criterion y en surrogate rules saved in
each nodo teclear 0 como se observa en la Figura 5.25.
76
77
el modelo clasifica ste registro como Pino ponderosa (3), o bien si ELEVACION es
menor a 2,488.5m tambin se clasifica como Pino ponderosa (3), es importante
mencionar que para esta especie el modelo tiene un porcentaje de clasificaciones
correctas de 82.56, el cual es ms alto comparado con los otros modelos (Cuadro 5.6.).
Estos patrones de comportamiento son nicamente dos ramas de las treinta que tiene
el rbol, las otras se pueden interpretar de igual manera.
78
Figura 5. 29. rbol de clasificacin de la cobertura forestal de bosque Roosevelt National Forest.
Donde: D1= Picea/Abeto, D2= Pino lodgepole, D3=Pino ponderosa, D5=lamo Aspen, D7=Krummholz
79
80
81
82
Picea/
Abeto
(1)
Pino
lodgepole
(2)
Pino
ponderosa
(3)
Decisin
lamo
lamo/
"Aspen"
Sauce
(4)
(5)
Abeto
Douglas
(6)
Krummholz
(7)
Total
Picea/Abeto (1)
36840
69.56
15035
28.39
18
0.03
0
0
0
0
22
0.04
1045
1.97
52960
Pino lodgepole(2)
12915
18.24
56674
80.02
753
1.06
1
0
44
0.06
409
0.58
29
0.04
70825
0
0
911
10.19
7162
80.13
134
1.5
1
0.01
730
8.17
0
0
8938
lamo/Sauce (4)
0
0
4
0.58
338
49.2
277
40.32
0
0
68
9.9
0
0
687
15
0.63
2267
95.53
72
3.03
0
0
12
0.51
7
0.29
0
0
2373
0
0
986
22.71
2301
52.99
9
0.21
2
0.05
1044
24.04
0
0
4342
2133
41.6
42
0.82
0
0
0
0
0
0
0
0
2953
57.59
5128
51903
75919
35.73
52.27
Total
Conjunto de datos: Prueba (145,253)
Porcentaje correcto de clasificacin 72.26%
10644
7.33
421
0.29
59
0.04
2280
1.57
lamo "Aspen"
Krummholz (7)
83
4027 145253
2.77
100
Abeto
Douglas
(6)
Krummholz
(7)
Total
Picea/Abeto (1)
38506
72.71
13536
25.56
15
0.03
0
0
1
0
29
0.05
873
1.65
52960
Pino lodgepole(2)
11364
16.05
58231
82.22
575
0.81
6
0.01
55
0.08
534
0.75
60
0.08
70825
0
0
966
10.81
7115
79.6
186
2.08
0
0
671
7.51
0
0
8938
lamo/Sauce (4)
0
0
6
0.87
339
49.34
243
35.37
0
0
99
14.41
0
0
687
45
1.9
2032
85.63
75
3.16
0
0
212
8.93
9
0.38
0
0
2373
9
0.21
928
21.37
2071
47.7
18
0.41
0
0
1316
30.31
0
0
4342
2024
39.47
34
0.66
0
0
0
0
0
0
0
0
3070
59.87
5128
51948
75733
35.76
52.14
Total
Conjunto de datos: Prueba (145,253)
Porcentaje correcto de clasificacin 74.83
10190
7.02
453
0.31
268
0.18
2658
1.83
4003
2.76
Krummholz (7)
84
145253
100
Picea/
Abeto (1)
Pino
lodgepole
(2)
Decisin
Pino
lamo
ponderosa "Aspen"
(3)
(5)
Krummholz
(7)
Total
Picea/Abeto (1)
39527
74.64
12082
22.81
111
0.21
130
0.25
1110
2.1
52960
Pino lodgepole(2)
17859
25.22
50622
71.47
1710
2.41
533
0.75
101
0.14
70825
0
0
1559
17.44
7379
82.56
0
0
0
0
8938
lamo/Sauce (4)
0
0
0
0
687
100
0
0
0
0
687
24
1.01
1670
70.38
135
5.69
544
22.92
0
0
2373
0
0
1276
29.39
3066
70.61
0
0
0
0
4342
2431
47.41
31
0.6
0
0
0
0
2666
51.99
5128
59841
67240
41.2
46.29
Total
Conjunto de datos: Prueba (145,253)
Porcentaje correcto de clasificacin 69.35
13088
9.01
1207
0.83
3877
2.67
145253
100
Krummholz (7)
85
86
3. Abrir el nodo Score en la opcin Setting seleccionar Apply training data score
code to score data set como se muestra en la Figura 5.34.
87
89
90
Figura 5. 42. Clasificacin de la especie lamo/Sauce (4) para los datos NUEVAC.
92
93
Porcentaje
correcto de
clasificacin
Prdida
Promedio
0.2237
74.83
1.05
0.2339
72.26
1.16
rboles de
clasificacin
0.2459
69.35
Conjunto de datos: Prueba (145,253)
1.30
Modelo
Redes
neuronales
Multinomial
El modelo de redes neuronales minimiza mejor la prdida promedio que los otros
modelos, esto es 1.05 en una escala del 0 al 7 (Cuadro 5.6.). Por otro lado una
medicin similar al error cuadrado medio utilizado tradicionalmente para evaluar
modelos es error cuadrado promedio (ASE), el cual es menor para la red neuronal que
para los otros modelos. Por ello se selecciona el modelo de redes neuronales para
clasificar la cobertura forestal de un nuevo conjunto de datos del bosque Roosevelt
National Forest.
Se clasifica un conjunto de datos en el cual no se incluye el objetivo, los datos NUEVAC
contiene 116,202 filas y 54 variables explicatorias, adems de un ID para identificar
cada elemento, el nodo SAS Code permite clasificar la cobertura forestal para este
nuevo conjunto de datos, como salida se tienen los resultado de lamo/Sauce (4) pero
es posible obtener la clasificacin de cualquier otra especie.
94
6. Conclusiones
Se concluye que la minera de datos requiere de los siguientes aspectos: 1) Una
enorme base datos, 2) un especialista de dicha base de datos, 3) un minero de datos
(una persona experta en minera de datos). 4) una metodologa a seguir tal como
SEMMA de SAS, 5) mtodos de validacin de resultados, adems de un determinado
tiempo de ejecucin que generalmente no es corto.
Es muy importante contar con el especialista de la base de datos ya que es esta
persona quien domina el significado de los datos, adems es la persona indicada para
evaluar los conocimientos o estructuras encontradas y quien decidir si son o no tiles
tales conocimientos hallados por el minero o experto en minera de datos, este ltimo
tambin muy importante para el proceso.
En cuanto a la metodologa SEMMA de SAS Enterprise Miner fue exitosa en el
problema de clasificar la cobertura forestal del bosque del bosque Roosevelt National
Forest, el programa es de gran utilidad para quienes requieren aplicar minera de datos.
Aunque presenta algunas fallas tales como: permitir nicamente el uso de dos tipos de
redes neuronales, el tiempo de ejecucin de stos modelos el cual es muy lento sobre
todo para bases de datos de gran tamao, adems de que no posee una sistema de
recuperabilidad ante fallos. Cabe mencionar que la versin ms reciente de Enterprise
Miner es la versin 5.2.
Por ltimo enfatizamos el tiempo que se requiere para hacer minera de datos pues es
un proceso largo que requiere de meses de trabajo para llegar a resultados
satisfactorios aunque esto no siempre es posible, sin embargo la necesidad de la
minera de datos ha incrementado en los ltimos aos, cada vez hay ms demanda de
sta disciplina pues el incremento de las bases de datos la ha hecho necesaria.
Para finalizar se hace una invitacin a la comunidad estadstica a voltear hacia los
problemas de minera de datos pues hay mucho por hacer en esta disciplina que cada
da requiere mejores mtodos en la solucin de encontrar patrones ocultos en grandes
bases de datos.
95
Bibliografa
AAS. 2002. Bulletin American Astromical Society. Electronic Edition ISSN:0002-7537
20th Meeting Program, Alburqueque NM. Volumen 34, No.2, Seccion 60.06.
http://www.aas.org/publications/baas/v34n2/aas200/153.htm. Activa (abril de 2006).
Blackard J., and D. Dean. 1999a. Comparative accuracies of artificial neural networks
and discriminant analysis in predicting forest cover types from cartographic variables.
Computers and Electronics in Agriculture, 24 131-151.
Blackard
J.,
and
D.
Dean.
1999b.
The
UCIKDD
Archive
[http://kdd.ics.uci.edu/databases/covertype/covertype.html] Irvine, CA: University of
California, Department of Information and Computer Science. Activa (septiembre de
2006).
Chen B., and Titterington D.M. 1994. Neural Networks: A Review from a Statistical
Perspective, Statistical Science, 9, 2-30.
Christen P. 2005. A very short introduction to Data Mining. Department of Computer
Science.
FEIT
Australian
National
University,
Abril
http://datamining.anu.edu.au/talks/2005/datamining-comp2340-2005.8up.pdf.
Activa
(abril de 2006).
Demuth H., and M. Beale. 2001. Neural Network Toolbox (Nnet). Matlab version 6.1. 228pp.
Fayyad U., G. Piatetsky-Shapiro, and P. Smyth. 1996. From Data Mining to Knowledge
Discovery in Data Base. American Association for Artificial Intelligence. 39, 11.
Friedman J., H. Trevor, and R. Tibshirani. 2001. The Elements of Statistical Learning.
Data Mining, Inference, and Prediction. Springer-Verlag, New York
Friedman J. 1997. Data mining and Statistics: Whats the connection?. Stanford
University. Stanford CA 94305.
Hand D. 1998. Data mining: Statistics and More. Journal of the American Statistical
Association. 52, 112-118.
Haykin S. 2003. Neural Networks. A Comprehensive Foundation. Macmillan Publishing
Company. United States of America. 696 pp.
Hosmer D., and S. Lemeshow. 1989. Applied Logistic Regression. John Wiley & Sons,
Inc. pp 6-10, 217-219.
96
97
Vazirgiannis M., M. Halkidi, and D. Gunopulos. 2003. Uncertainty Handling and Quality
Assessment in Data Mining. Springer-Verlag, London. pp. 12-19, 73-79.
98
Anexo 1
El tipo de suelo (SUELO1-SUELO40) esta dado mediante un cdigo de 4 dgitos,
primer digito se refiere al tipo de zona climtico y el segundo digito a la zona geolgica,
el tercer y cuarto digito (ELU) son nicos para el mapa unitario y no tienen un
significado especial para las zonas climticas o geolgicas.
Primer digito: Zona climtica
1. Montaa seca baja
2. Montaa baja
3. Montaa seca
4. Motaa
5. Montaa seca y montaa
6. Montaa y subpino
7. Subpino
8. Alpine
Segundo digito: Zona geolgicas
1. Alluvium
2. Glacial
3. Shale
4. Sandstone
5. Mixto sedimentario
6. No especificado en la USFS ELU
7. Ingenioso y metamrfico
8. Volcnico
99
1
2
3
4
5
6
7
8
9
VARIABLE
SAS
VAR15
VAR16
VAR17
VAR18
VAR19
VAR20
VAR21
VAR22
VAR23
10
VAR24
4703
11
12
13
14
15
16
17
18
19
20
21
VAR25
VAR26
VAR27
VAR28
VAR29
VAR30
VAR31
VAR32
VAR33
VAR34
VAR35
4704
4744
4758
5101
5151
6101
6102
6731
7101
7102
7103
22
VAR36
7201
23
24
25
26
27
VAR37
VAR38
VAR39
VAR40
VAR41
7202
7700
7701
7702
7709
28
29
30
VAR42
VAR43
VAR44
7710
7745
7746
31
32
33
34
35
36
37
VAR45
VAR46
VAR47
VAR48
VAR49
VAR50
VAR51
7755
7756
7757
7790
8703
8707
8708
38
39
40
VAR52
VAR53
VAR54
8771
8772
8776
100
DESCRIPCIN
(FAMILIA)
Cathedral
Vanet-Ratake
Haploborolis
Ratake
Vanet
Vanet-Wetmore
Gothic
Supervisor-Limber
Troutville
Bullwark-Catamount. Rock outcrop
complex, rubbly
Bullwark-Catamount. Rock land
complex, stony
Legault
Catamount
Pachic Argiborolis-Aqualis
No especificado por el USFS y ELU.
Cryaquolis-Cryoborolis
Gateview
Rogert
Tipic Cryaquolis.
Tipic Cryaquolis
Tipic Cryaquolis
Leighcan. till substratum, extremely
bouldery
Leighcan. till substratum, typic
Cryaquolls complex
Leighcan. extremely stony
Leighcan. warm extremely stony
Granile-Catamount
Leighcan. Warm, rock outcrop complex
Leighcan. Rock outcrop complex,
extremely stony
Como-Legault
Como
Leighcan-Catamount complex,
extremely stony
Catamount- Rock outcrop- Leighcan
Leighcan-Catamount. Rock outcrop
Cryorthents
Cryumbrepts
Bross
Rock outcrop
Leighcan-Moran- Cryaquolls complex
extremely stony
Moran- Cryorthents- Leighcan
Moran- Cryorthents- Rock land complex
Anexo 2
SAS Enterprise Miner
User : Lucia
Date : 29AUG1993:16:04:24
Notes:
"EM Workspace" :
SASHELP.NUEVAC
101
All variables
Name
ID
ELEVACION
ASPECTO
PENDIENTE
HRZ_HIDRO
VER_HIDRO
HRZ_CARR
SOMBRA9
SOMBRA12
SOMBRA3
HRZ_INCEN
AREA1
AREA2
AREA3
AREA4
SUELO1
SUELO2
SUELO3
SUELO4
SUELO5
SUELO6
SUELO7
SUELO8
SUELO9
SUELO10
SUELO11
SUELO12
SUELO13
SUELO14
SUELO15
SUELO16
SUELO17
SUELO18
SUELO19
SUELO20
SUELO21
SUELO22
SUELO23
SUELO24
SUELO25
SUELO26
SUELO27
SUELO28
SUELO29
SUELO30
SUELO31
SUELO32
SUELO33
SUELO34
SUELO35
SUELO36
SUELO37
SUELO38
SUELO39
SUELO40
Model
Role
rejected
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
rejected
input
input
rejected
input
input
input
input
input
input
rejected
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
rejected
input
input
input
input
Measurement
interval
interval
interval
interval
interval
interval
interval
interval
interval
interval
interval
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
unary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
Type
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
Interval Variables
Class Variables
Notes: not available
102
Format
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
Variable
Label
SASHELP.FORESTAL
Model
Role
rejected
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
rejected
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
input
Measurement
interval
interval
interval
interval
interval
interval
interval
interval
interval
interval
interval
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
binary
Type
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
num
103
Format
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
Variable
Label
SUELO33
SUELO34
SUELO35
SUELO36
SUELO37
SUELO38
SUELO39
SUELO40
COBERTURA
input
input
input
rejected
input
input
input
input
target
binary
binary
binary
binary
binary
binary
binary
binary
nominal
num
num
num
num
num
num
num
num
num
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
Interval Variables
Class Variables
Notes: not available
Data Partition
Partition Settings
Method: STRATIFIED
Partition percentages: Training: 50%, Validation: 25%, Test: 25%
Stratification variables: COBERTURA
Output
The SAS System
1993
1
The FREQ Procedure
Cumulative
Cumulative
Cobertura
Frequency
Percent
Frequency
Percent
-------------------------------------------------------------1
211840
36.46
211840
36.46
2
283301
48.76
495141
85.22
3
35754
6.15
530895
91.37
4
2747
0.47
533642
91.85
5
9493
1.63
543135
93.48
6
17367
2.99
560502
96.47
7
20510
3.53
581012
100.00
The SAS System
15:49 Saturday, June 26, 1993
2
The CONTENTS Procedure
Data Set Name:
Member Type:
Engine:
Created:
Last Modified:
Protection:
Data Set Type:
Label:
EMDATA.TRN4C7N3
DATA
V8
16:27 Saturday, June 26, 1993
16:27 Saturday, June 26, 1993
Observations:
Variables:
Indexes:
Observation Length:
Deleted Observations:
Compressed:
Sorted:
290505
56
0
448
0
NO
NO
16384
8070
1
36
21
0
C:\Documents and Settings\Lucia\Mis documentos\My SAS Files\V8\EM
Projects\PROYECTO6\emdata\trn4c7n3.sas7bdat
8.0202M0
WIN_PRO
104
EMDATA.VALCSS5K
DATA
V8
16:27 Saturday, June 26, 1993
16:27 Saturday, June 26, 1993
Observations:
Variables:
Indexes:
Observation Length:
Deleted Observations:
Compressed:
Sorted:
145254
56
0
448
0
NO
NO
16384
4036
1
36
21
0
C:\Documents and Settings\Lucia\Mis documentos\My SAS Files\V8\EM
Projects\PROYECTO6\emdata\valcss5k.sas7bdat
8.0202M0
WIN_PRO
EMDATA.TSTKBU4Z
DATA
V8
16:27 Saturday, June 26, 1993
16:27 Saturday, June 26, 1993
Observations:
Variables:
Indexes:
Observation Length:
Deleted Observations:
Compressed:
Sorted:
145253
56
0
448
0
NO
NO
16384
4036
1
36
21
0
C:\Documents and Settings\Lucia\Mis documentos\My SAS Files\V8\EM
Projects\PROYECTO6\emdata\tstkbu4z.sas7bdat
8.0202M0
WIN_PRO
Log
Training Code
Notes: not available
Transform Variables
Interval Variables and Transformations
Name
ID
ELEVACION
ELEV_J8M
ASPECTO
ASPE_QBL
PENDIENTE
Keep
Yes
No
Yes
No
Yes
No
Mean
290396.86
2959.33
-0.00
155.84
0.00
14.10
Std Dev
167526.60
280.30
1.00
111.94
1.00
7.49
Skew
0.00077
-0.82251
-0.82251
0.40043
0.40043
0.78681
105
Kurtosis
-1.20003
0.75906
0.75906
-1.22353
-1.22353
0.57114
C.V.
0.58
0.09
-9091.71
0.72
615.90
0.53
PEND_DNF
HRZ_HIDRO
HRZ__PYP
VER_HIDRO
VER__C6A
HRZ_CARR
HRZ__4CW
SOMBRA9
SOMB_J50
SOMBRA12
SOMB_8LP
SOMBRA3
SOMB_D5H
HRZ_INCEN
HRZ__WN8
Yes
No
Yes
No
Yes
No
Yes
No
Yes
No
Yes
No
Yes
No
Yes
-0.00
268.89
-0.00
46.29
-0.00
2351.05
0.00
212.13
-0.00
223.33
0.00
142.56
0.00
1977.57
0.00
Formula
212.146) / 26.76989
(SOMBRA12 - 223.3187) /
0.78681
1.13966
1.13966
1.79494
1.79494
0.71433
0.71433
-1.18158
-1.18158
-1.05500
-1.05500
-0.28015
-0.28015
1.29048
1.29048
Format
(PENDIENTE -
1.00
212.20
1.00
58.15
1.00
1560.04
1.00
26.81
1.00
19.74
1.00
38.31
1.00
1322.58
1.00
19.7687
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
BEST12.
Label
standardize(ELEVACION)
standardize(ASPECTO)
standardize(PENDIENTE)
standardize(HRZ_HIDRO)
standardize(VER_HIDRO)
standardize(HRZ_CARR)
standardize(SOMBRA9)
standardize(SOMBRA12)
standardize(SOMBRA3)
standardize(HRZ_INCEN)
Regression
Parameters:
0.57114
1.36501
1.36501
5.36688
5.36688
-0.38520
-0.38520
1.89058
1.89058
1.97173
1.97173
0.39062
0.39062
1.65442
1.65442
Estimates Table
106
-1369.62
0.79
-394.80
1.26
-439.19
0.66
1720.71
0.13
-1502.61
0.09
1417.33
0.27
1132.01
0.67
4649008.05
Fit Statistics
Fit Statistic
Akaike's Information Criterion
Average Squared Error
Average Error Function
Degrees of Freedom for Error
Model Degrees of Freedom
Total Degrees of Freedom
Divisor for ASE
Error Function
Final Prediction Error
Maximum Absolute Error
Mean Square Error
Sum of Frequencies
Number of Estimate Weights
Root Average Sum of Squares
Root Final Prediction Error
Root Mean Squared Error
Schwarz's Bayesian Criterion
Sum of Squared Errors
Sum of Case Weights Times Freq
Misclassification Rate
Total Loss for COBERTURA
Average Loss for COBERTURA
Training
Validation
Test
366812.26035
0.0544627538
0.1801809462
1742826
204
1743030
2033535
366404.26035
0.0544755037
0.9999999817
0.0544691288
290505
204
0.2333725644
0.2333998794
0.2333862223
369335.97199
110751.91609
2033535
0.2761432678
334253.28382
1.15059391
.
0.0546860189
0.1812644971
.
.
.
1016778
184305.75282
.
0.9999999856
0.0546860189
145254
.
0.2338504198
.
0.2338504198
.
55603.540874
1016778
0.2767359247
167848.72053
1.1555531726
.
0.0547172053
0.1809758835
.
.
.
1016771
184011.03002
.
0.999999985
0.0547172053
145253
.
0.2339170907
.
0.2339170907
.
55634.867593
1016771
0.2773849766
167866.00571
1.1556801286
Target Information:
Name: COBERTURA
Label:
Measurement: nominal
Utilities
Regression Settings:
Regression type: multinomial
Selection method: Stepwise
Optimization technique: DEFAULT
Output
107
Log
Training Code
Score Code
Model assessment settings
Train data set is not selected for assessment.
Validation data set is selected for assessment.
Test data set is selected for assessment.
Scored data set: 5000 observations are saved for interactive model assessment.
108
109
110
111
Tree
Fit Statistic
Average Squared Error
Sum of Squared Errors
Root Average Squared Error
Maximum Absolute Error
Divisor for ASE
Total Degrees of Freedom
Misclassification Rate
Number of Estimated Weights
Sum of Frequencies
Sum Case Weights * Frequencies
Training
Validation
Test
0.06
122319.51
0.25
1.00
2033535.00
1743030.00
0.30
30.00
290505.00
2033535.00
0.06
61377.09
0.25
1.00
1016778.00
.
0.31
.
145254.00
1016778.00
0.06
61458.04
0.25
1.00
1016771.00
.
0.31
.
145253.00
1016771.00
112
LEAF
ID
16
60
61
35
18
68
69
39
72
73
41
21
80
81
45
84
85
86
87
12
26
27
92
93
94
95
29
54
55
31
% V 7
0.00
0.00
0.00
0.00
0.08
0.00
0.00
0.00
0.00
0.00
0.00
0.05
0.00
0.00
0.00
1.03
0.00
0.21
0.09
4.18
11.03
57.34
40.38
87.05
17.45
74.63
7.58
70.39
5.90
22.26
N
19871.75
9908.05
6571.97
10233.90
33818.58
2267.88
2657.97
32404.75
7037.96
581.00
8566.95
14882.90
28301.86
4478.97
8931.95
9915.97
489.00
15519.93
6844.96
45265.98
1709.01
1275.07
2527.09
426.04
4163.06
261.02
1900.01
5797.37
1046.00
2848.06
% 1
0.02
4.51
3.36
2.40
16.58
10.98
32.81
14.02
51.28
16.70
30.48
17.18
56.01
30.52
26.29
79.40
24.54
66.52
38.19
70.30
84.26
41.33
60.23
11.97
71.77
18.77
63.84
27.91
90.92
76.47
V N
9838.33
5215.93
3314.94
5112.07
16995.24
1115.06
1330.02
15856.18
3526.03
276.00
4343.04
7297.08
14136.12
2214.02
4517.04
5072.03
252.00
7731.06
3513.03
22675.08
798.00
653.97
1252.96
223.98
2091.98
133.99
976.00
2914.82
508.00
1369.98
% 2
5.45
52.80
37.19
94.91
72.17
43.74
61.10
84.87
48.10
83.30
69.29
82.12
43.99
69.48
73.71
19.44
75.46
33.25
61.74
25.70
3.74
1.33
0.40
0.00
9.03
3.45
27.74
2.62
1.15
0.00
% V 1
% V 2
% V 3
% V 4
% V 5
% V 6
0.03
4.62
3.68
3.03
16.23
9.51
33.98
13.80
49.83
17.75
30.67
17.62
55.47
30.58
26.37
79.18
27.38
65.85
39.97
70.52
84.71
41.59
59.30
12.95
73.14
22.39
63.83
26.97
93.90
77.74
5.46
53.51
38.46
94.29
72.34
44.03
59.92
85.00
49.29
82.25
69.19
81.69
44.53
69.42
73.59
19.80
72.62
33.94
59.95
25.29
4.26
1.07
0.32
0.00
9.42
2.99
28.59
2.64
0.20
0.00
58.47
22.22
47.51
0.00
2.66
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
6.98
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.03
1.34
3.17
2.68
6.97
46.46
6.09
1.20
0.88
0.00
0.14
0.63
0.00
0.00
0.04
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
29.03
18.31
7.18
0.00
1.72
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
% 3
59.25
21.06
48.58
0.00
2.43
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
% 4
6.89
0.04
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
% 5
0.02
1.51
3.33
2.69
7.08
45.28
6.09
1.11
0.63
0.00
0.23
0.62
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
English rules
Sequence
113
% 6
28.38
20.08
7.53
0.00
1.66
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
% 7
0.00
0.00
0.00
0.00
0.08
0.00
0.00
0.00
0.00
0.00
0.00
0.07
0.00
0.00
0.00
1.16
0.00
0.23
0.07
4.00
12.00
57.34
39.38
88.03
19.19
77.78
8.42
69.47
7.94
23.53
Matrix
Target information
Name: COBERTURA
Label:
Measurement: nominal
Tree settings
Utilities
114
115
116
117
118
Neural Network
Optimization plot:
Fit Statistic
[ TARGET=COBERTURA ]
Misclassification Rate
Average Error
Average Squared Error
Sum of Squared Errors
Root Average Squared Error
Root Final Prediction Error
Root Mean Squared Error
Error Function
Mean Squared Error
Maximum Absolute Error
Final Prediction Error
Divisor for ASE
Model Degrees of Freedom
Degrees of Freedom for Error
Total Degrees of Freedom
Sum of Frequencies
Sum Case Weights * Frequencies
Akaike's Information Criterion
Schwarz's Baysian Criterion
Training
Validation
Test
.
0.25
0.17
0.05
101415.57
0.22
0.22
0.22
340163.30
0.05
1.00
0.05
2033535.00
7086.00
1735944.00
1743030.00
290505.00
2033535.00
354335.30
441997.17
.
0.25
0.17
0.05
51067.15
0.22
.
0.22
171574.24
0.05
1.00
.
1016778.00
.
.
.
145254.00
1016778.00
.
.
.
0.25
0.17
0.05
50903.55
0.22
.
0.22
170688.50
0.05
1.00
.
1016771.00
.
.
.
145253.00
1016771.00
.
.
Network settings
Utilities
Variables
Output
Log
Training Code
119
Score Code
Model assessment settings
Train data set is not selected for assessment.
Validation data set is selected for assessment.
Test data set is selected for assessment.
Scored data set: 5000 observations are saved for interactive model assessment.
120
121
122
123
124
125
126
Score [Apply]
Score Code
Settings
Run path action = Apply code to score data set
Keep variables:
_other_
assess
error
freq
group
id
input
predict
rejected
reserved
residual
target
Log
Distribution Explorer
Results
127
Tool Settings
Use Meta Sample is selected.
Chart Only is selected.
Variables
Log
Training Code
SAS Code
Settings
End Report .
128