Sei sulla pagina 1di 24

Red Neuronal de Microsoft

Supongamos que usted es un trabajador de Minera de Datos para el departamento de marketing de una empresa de bienes races. Usted quiere entender los factores que afectan en la adquisicin de una vivienda por parte de sus clientes a partir de datos demogrficos. Ah construido modelos de minera para predecir la adquisicin de vivienda, basados en edad, ingresos, sexo y estado civil. Ha intentado con rboles de decisin y Nave Bayes, pero los resultados del grafico de elevacin no muestran una gran precisin en la prediccin. Uno se pregunta si hay otros mtodos que puedan obtener mejores resultados. En este captulo, usted aprender los principios del algoritmo de red neuronal y la forma de aplicar la red neuronal de Microsoft para resolver la clasificacin de minera de datos y tareas de regresin. En este captulo aprender acerca de:

Los principios de la Red Neuronal de Microsoft Uso de la Red Neuronal Microsoft La interpretacin de su modelo

Introduccin a los Principios del algoritmo de Red Neuronal de Microsoft


El origen de la red neuronal se remonta a 1940 cuando dos investigadores, Warren McCulloch y Walter Pits, trataron de construir un modelo para simular cmo las neuronas biolgicas trabajan. Aunque el foco de esta investigacin fue sobre la anatoma del cerebro, resulta que este modelo introduce un nuevo enfoque para la solucin de problemas tcnicos fuera de la neurobiologa. Durante los aos 1960 y 1970, con el avance de la tecnologa informtica, investigadores han implementado algunos prototipos de los modelos basados en el trabajo de McCulloch. En 1982, John Hopfield invento backpropagation, un mtodo para ajustar los pesos de una red neuronal en direccin hacia atrs basado en el error de aprendizaje, como se explica ms adelante en este captulo. Desde 1980, las teoras de las redes neuronales han madurado, y la potencia de clculo de los ordenadores modernos ha permitido el procesamiento de grandes redes neuronales dentro de un plazo razonable. Tecnologas de redes neuronales se aplican cada vez mas y mas en aplicaciones comerciales,

por ejemplo, voz y reconocimiento de escritura manual, deteccin de fraudes de las tarjetas de crdito, y el anlisis de la prdida de clientes.

Las redes neuronales se refieren principalmente a las tareas de clasificacin y regresin de Minera de Datos. Al igual que los rboles de decisin, las Redes neuronales pueden encontrar relaciones no lineales entre los atributos de entrada y los atributos de prediccin. Las Redes neuronales, sin embargo, pueden encontrar tranquilamente en lugares de no linealidades discontinuas. En el lado negativo, por lo general toma ms tiempo aprender a utilizar una red neuronal que para el uso de rboles de decisin y Nave Bayes. Otro de los inconvenientes de las redes neuronales es la dificultad de interpretar los resultados. Modelo de red aneural no contiene ms que un conjunto de pesos para la red. Es difcil ver las relaciones en el modelo y por qu son vlidos.
Las redes neuronales sostienen salidas discretas y continuas. Cuando las salidas son continuas, la tarea es la regresin. De hecho, las tcnicas clsicas de regresin, tales como la regresin logstica, se puede representar como casos especiales de las redes neuronales. Aunque se utilizan normalmente para la clasificacin y regresin, redes neuronales feed-forward tambin se pueden aplicar a la segmentacin, cuando se utiliza con una configuracin de cuello de botella (pequea capa oculta).

Qu es la red neuronal?
Qu es un feed-forward red neuronal? Las redes neuronales son ms sofisticadas que los rboles de decisin y Naive Bayes. La figura 10.1 muestra un par de ejemplos. Una red neuronal contiene un conjunto de nodos (neuronas) y las aristas que forman una red. Hay tres tipos de nodos: de entrada, oculta y de salida. Cada arista enlaza dos nodos con un peso asociado. La direccin de una arista representa el flujo de datos durante el proceso de prediccin. Cada nodo es una unidad de procesamiento. Los Nodos de entrada forman la primera capa de la red. En la mayora de las redes neuronales, cada nodo de entrada se asigna a un atributo de entrada, tales como edad, sexo o ingresos. El valor original de un atributo de entrada necesita darle la forma a un nmero en coma flotante en la misma escala (a menudo entre -1 y 1) antes del procesamiento. Nodos ocultos son los nodos de las capas intermedias. Un nodo oculto recibe informacin de los nodos de las capas de entrada o de la capa precedente

ocultos. Estos Combinan todas las entradas en funcin del peso de los aristas asociadas, los procesos de algunos clculos, y emite un valor resultado del procesamiento a la capa siguiente Nodos de salida por lo general representan los atributos de prediccin. Aneural red puede tener varios atributos de salida, como se muestra en la figura 10.1b. Es posible separar los nodos de salida a varias redes diferentes. Pero en la mayora de los casos, se reduce el tiempo de procesamiento cuando se combinan, estas redes pueden compartir el costo comn de anlisis los datos de origen. El resultado del nodo de salida es a menudo un nmero en coma flotante entre 0 y 1. La prediccin de la red neuronal es sencilla, los valores de atributo de un caso de entrada se normalizan y se asigna a las neuronas de la capa de entrada. Entonces, cada nodo de la capa oculta procesa las entradas y provoca una salida para las capas siguientes. Al final, las neuronas de salida comenzarn a procesar y generar un valor de salida. Este valor se asigna a la escala original (en trminos de atributos continuos) o la categora original (en trminos de atributos discretos). Durante el procesamiento de una red neuronal se consume tiempo, hacer predicciones contra una red neuronal entrenada es ms eficiente. Como se muestra en la figura 10.1, las topologas de las redes neuronales pueden variar. La figura 10.1a muestra una red muy simple. Esta tiene un atributo de salida sin una capa oculta. Todas las neuronas de entrada se conectan a la neurona de salida directamente. Como una red neuronal es exactamente igual que la regresin logstica. La Figura 10.1b es una red con tres capas: de entrada, oculta y de salida. Hay tres neuronas en la capa oculta. Cada neurona de la capa oculta es totalmente conectada a la entrada de la capa precedente. La capa oculta es un aspecto muy importante de la red neuronal. Que permite a la red aprender relaciones no lineales. Redes No-feed-forward tienen ciclos directos en su topologa o "arquitectura". Es decir, mientras que sigue la direccin de las aristas de una red neuronal, puede volver al mismo nodo. La red neuronal de Microsoft es una red feed-forward. Despus de que la topologa de una red neuronal est configurada, es decir, el nmero de nodos ocultos es especificado, el proceso de formacin consiste en encontrar el mejor conjunto de pesos para las aristas de la red. Esta es una tarea que consume tiempo. Inicialmente, los pesos son asignados

aleatoriamente. Durante cada iteracin de formacin, la red procesa los casos de entrenamiento para generar predicciones sobre la capa de salida basado en las configuraciones de red actuales. A continuacin, calcula el error de las salidas. En base a estos errores, se ajusta los pesos de la red utilizando la propagacin hacia atrs. Vamos a repasar los detalles del proceso de aprendizaje de la red neuronal en las siguientes secciones.

Combinacin y activacin
Cada neurona en la red neuronal es una unidad bsica de procesamiento. Una neurona tiene una serie de entradas y una salida. Combina todos los valores de entrada (combinacin), hace ciertos clculos, y luego dispara un valor de salida (de activacin). El proceso es muy similar al de la neurona biolgica. La figura 10.2 muestra la estructura de una neurona. Ella contiene dos funciones: una combinacin de entradas y un clculo de salidas. La funcin de combinacin combina los valores de entrada en un valor nico. Hay diferentes maneras de combinar entradas. El mtodo ms popular es la suma ponderada, lo que significa que la suma de cada valor de entrada se multiplica por su peso asociado. Otras funciones de combinacin incluyen media, mximo operador lgico OR, y lgico AND de los valores de entrada. La red neuronal de Microsoft utiliza el mtodo de suma ponderada. El resultado de la combinacin se pasa a travs de la funcin de activacin. Similar a la forma en que trabaja una neurona biolgica, cuando se utiliza la funcin de activacin, los pequeos cambios del valor de entrada a veces desencadenan grandes cambios de salida, y a veces los grandes cambios del valor de entrada tienen un impacto insignificante en la salida. En particular, la salida es sensible a la entrada solo cuando la entrada est en rango medio. Esta propiedad aumenta la capacidad de la red neuronal para aprender, ya que introduce la no linealidad en la red. Varias funciones matemticas satisfacen esta propiedad. Las funciones ms conocidas son sigmoid (logstica) y tanh. Estas son funciones no lineales y el resultado en el comportamiento no lineal. Las definiciones de sigmoides y tanh son los siguientes:

Donde a es el valor de entrada y O es el valor de la produccin. La figura 10.3 muestra la distribucin de las funciones sigmoides y tanh. El eje x es el valor de la entrada y el eje y representa la salida activada. El valor de salida de la funcin sigmoide es entre 0 y 1, mientras que el valor de salida para tanh es entre -1 y 1. Cuando el valor de entrada es cercano a 0, la

salida es muy sensible a pequeos cambios en la entrada. Cuando el valor absoluto de la entrada se hace ms grande, la salida se vuelve menos sensible. Red neuronal de Microsoft utiliza tanh como la funcin de activacin de los nodos ocultos. Para los nodos de salida, se utiliza la funcin sigmoide.

Retro-propagacin, funcin Gradiente Conjugado

de

error,

La parte central de procesamiento de una red neuronal es retro propagacin. La formacin de la red neuronal es un proceso iterativo. En cada iteracin, el algoritmo compara los valores de salida con los valores actuales conocidos para obtener los errores para cada neurona de salida. Los pesos apuntados a las neuronas de salida se modifican sobre la base de los clculos de error. Estas modificaciones se propagan desde la capa de salida a travs de las capas ocultas bajando a las capas de entrada. Todos los pesos en la red neuronal se ajustan en consecuencia. El proceso bsico de formacin de redes neuronales se describe en los siguientes pasos:
1. El algoritmo asigna al azar a los valores de todos los pesos de la red en

la etapa inicial (generalmente entre -1.0 a 1.0). 2. Para cada ejemplo de entrenamiento (o cada conjunto de ejemplos de entrenamiento), se calcula las salidas basadas en los pesos actuales en la red. 3. Los errores de salida se calculan, y el proceso de retro-propagacin calcula los errores para cada salida y la neurona oculta en la red. Los pesos de la red se actualizan. 4. Repita el paso 2 hasta que la condicin se cumple.

Algunas redes neuronales actualizan los pesos despus del anlisis en cada caso. Esto se conoce como caso [en lnea] de actualizacin. Otras redes neuronales actualizan los pesos hasta que todos los casos de la muestra son analizados. Esto se conoce como la poca [de lotes] de actualizacin. Una interaccin a travs de la formacin de conjunto de datos se llama una poca. La red neuronal de Microsoft utiliza poca actualizacin, ya que es ms robusto de los modelos de regresin. La red neuronal necesita una medida para indicar la calidad de la formacin. Esta medida es la funcin de error (tambin llamada funcin de prdida). El propsito de la formacin de redes neuronales es minimizar el error de entrenamiento. Hay muchas opciones diferentes para las funciones de error, por ejemplo, el cuadrado del residuo (el cuadrado de delta entre el valor predicho y el valor

real) o umbral binario de clasificacin binaria (si delta entre la salida y el valor real es inferior a 0,5, entonces el error es 0, de lo contrario, es 1). La siguiente frmula brinda uno de los mtodos comunes para calcular el error de las neuronas en la capa de salida usando la derivada de la funcin logstica. (La red neuronal de Microsoft utiliza la suma de cuadrados de error para el atributo continuo y cross-entropy para el atributo discreto):

En este caso, Oi es la salida de la unidad de la neurona de salida i, y Ti es el valor real de esta neurona de salida sobre la base de la muestra de entrenamiento. El clculo del error de neurona oculta se basa en los errores de las neuronas en las capas siguientes y los pesos asociados. La siguiente es la frmula:

Aqu, Oi es la salida de la unidad de neurona oculta i, que como j, salidas a la capa siguiente. Errj es el error de la unidad de la neurona j, wij es el peso entre estas dos neuronas. Una vez que el error de cada neurona se calcula, el siguiente paso es ajustar los pesos de la red, al utilizar el mtodo siguiente.

Aqu l es un valor comprendido entre 0 y 1.

La variable l se llama tasa de aprendizaje. Si el valor de l es menor, los cambios en los pesos son ms pequeos despus de cada iteracin, por lo tanto la tasa de aprendizaje es lenta. El valor de l por lo general disminuye durante el proceso de formacin. En la etapa inicial de formacin, l es grande, lo que permite la red neuronal para avanzar rpidamente hacia la solucin ptima. Despus se reduce, por lo que puede ajustar la red para buscar la mejor solucin. Muchas redes neuronales aplican un mtodo llamado gradiente conjugado en el proceso de ajustar el peso despus de cada iteracin. Mtodo de gradiente conjugado es un algoritmo para encontrar el mnimo local ms cercano. El mtodo del gradiente usa derivados (gradiente) para encontrar la siguiente direccin. Conjugada tiene en cuenta la direccin anterior, cuando se calcula la direccin siguiente para que pudiera evitar el problema zig-za, lo que significa tomar atajo. Debido a que el espacio de bsqueda para el mejor conjunto de pesos es enorme, con muchos puntos ptimos locales, los investigadores aplican diferentes mtodos de optimizacin no lineal para guiar el proceso de formacin. Hay muchos algoritmos de optimizacin, tales como los algoritmos genticos, recocido simulado, el mejoramiento iterativo, y as sucesivamente.

Un ejemplo sencillo de procesamiento de una red neuronal


La mejor manera de explicar el proceso de formacin de redes neuronales es ir a travs de un simple caso de la actualizacin en un ejemplo. En este ejemplo, usamos la suma ponderada como la funcin de combinacin, y el sigmoid como la funcin de activacin. La figura 10.4 muestra la topologa de una simple red neuronal con seis neuronas. Los pesos iniciales de las aristas se muestran en la figura. Este ejemplo tiene tres nodos de entrada y un nodo de salida, que asigna a los cuatro atributos de una muestra de caso. Supongamos que el caso de la muestra es (1, 1, 0, 1), el ltimo dgito es la salida. El primer paso consiste en calcular las salidas de cada neurona oculta y de salida como se muestra en la Tabla 10.1.

Clculo de las salidas de las neuronas ocultas y de salida

Obtenemos el valor de salida de la neurona 6, que es 0,667. El valor real est dado por la muestra como 1. Por lo tanto podemos calcular el error de la neurona de salida. Utilizando el mtodo de retro-propagacin, podemos derivar todos los errores de toda la produccin de neuronas ocultas y como se indica en la Tabla 10.2.

Un ejemplo de formacin de redes neuronales

Clculo de los errores de neuronas ocultas y de salida

La red neuronal de la muestra utiliza el mtodo del caso de actualizacin. Una vez que el error se calcula, se puede ajustar los pesos en consecuencia. Tabla 10.3 ofrece el nuevo conjunto de pesos despus del caso de la formacin en primer lugar. El tamao del paso es una constante, con un valor de 0.8.

Clculo de nuevos pesos

Normalizacin y Asignacin
La red neuronal requiere que el valor de variables de entrada se normalice en la misma escala de valor, de lo contrario, las variables con escala de valores grandes dominara el proceso de formacin.

Hay una docena de diferentes mtodos para normalizar los atributos continuos de entrada, incluyendo la puntuacin z, z-eje, la puntuacin de registro, y as sucesivamente. El mtodo ms simple es la siguiente:

Donde A es el valor del atributo,>> Amin>> es el valor mnimo, y Amax su valor mximo. Sin embargo, este sencillo mtodo tiene algunos problemas. Por ejemplo, si extrema mnima o mxima de los valores existentes en la distribucin, el resultado normalizado ser sesgado. Supongamos que el atributo que desea normalizar es el ingreso, y la mayora de los hogares tiene ingresos inferiores a $ 200.000. Si hay una casa con ms de $ 1.000.000 de ingresos, la mayora de las familias se asignan a los primeros 10-20% del rango. En este caso, la puntuacin de registro es una mejor solucin, ya que las asignaciones de todos los valores en el espacio de registro primero para reducir el problema de escala. Para las variables discretas, el mtodo ms fcil es hacer un mapa de igualdad de puntos el espacio de 0 a 1. Por ejemplo, hay cinco estados para la educacin: la escuela secundaria parcial, secundaria, pregrado, postgrado y doctorado Estos valores se pueden asignar a 0, 0,25, 0,50, 0,75 y 1,0, respectivamente. Trabajar con la red neuronal de Microsoft, debe utilizar el siguiente mtodo para la normalizacin de atributo de entrada:

Cuando, para entrada continua, es la media y es la desviacin estndar, para la entrada discreta, = p (probabilidad de un estado), y

La relacin entre el atributo y las neuronas es de 1 a n. Un atributo se asigna a n neuronas. La red neuronal de Microsoft asigna un atributo continuo a dos nodos: uno que representa el valor y la otra en representacin del Estado esperado. Se asigna un atributo discreto en n + 1 nodos, siendo n el nmero de estados distintos y uno en representacin del Estado que faltan. Si el atributo es binario con dos estados - ausente o existente - que se modela como un solo nodo. La figura 10.5 muestra un ejemplo de la normalizacin y asignacin de entrada. La tabla superior es la entrada de datos de formacion. La tabla inferior muestra los datos despus de la normalizacin y el proceso de asignacin. Se puede ver en la figura que las cuatro columnas de entrada (sin contar el ID) se asignan a las 10 neuronas de entrada. Si el gnero, ingresos, y el coeficiente intelectual son los atributos de entrada, y el Plan es el atributo de prediccin, hay siete neuronas de entrada y tres neuronas de salida.
Normalizacin y asignacin de la entrada desviacin estndar = 11054.9

Topologa de la red
La topologa de la red neuronal debe ser fijado antes de su procesamiento. El nmero de neuronas de entrada y de salida se fija con un conjunto de datos de entrenamiento. Las opciones estn relacionadas principalmente con la configuracin de las capas ocultas, tales como el nmero de capas ocultas y el nmero de neuronas ocultas en cada capa oculta. Una red neuronal puede tener cualquier nmero de capas ocultas. La capacidad de una red es una funcin complicada de la cantidad de nodos y el nmero de capas. Por lo tanto, mltiples capas ocultas puede aumentar la capacidad de aprendizaje. Tambin aumentar el tiempo de procesamiento. El otro inconveniente es potencialmente sobre entrenamiento. Con las capas ocultas y muchos nodos ocultos, la red tiende a recordar los casos de entrenamiento en lugar de generalizar los patrones (similar a la cuestin oversplit en rboles de decisin). Se ha comprobado que en la mayora de los casos, una capa oculta es suficiente. La red neuronal de Microsoft no permite ms de una capa oculta. El nmero de neuronas en la capa oculta es tambin muy importante. Utilizando muy pocos morirn de hambre de la red de los recursos que necesita para resolver el problema. Usar muchos aumentar el tiempo de entrenamiento. Los investigadores proponen una gua aproximada para la eleccin del nmero de neuronas ocultas: c * sqrt (m * n), donde n es el nmero de neuronas de entrada, m es el nmero de neuronas de salida, y c es una constante. El nmero ptimo vara de un problema a otro: usted debe experimentar con el nmero de nodos. En la red neuronal de Microsoft, el valor predeterminado de c es de 4. Al igual que otros algoritmos de Microsoft, un modelo de minera basado en la red neuronal de Microsoft puede tener varios atributos de prediccin. Esto se traduce en mltiples sub-redes neuronales. Por ejemplo, si hay dos atributos de prediccin - La edad y el Propietario de Hogar - usted tiene que crear dos redes neuronales, una para predecir cada atributo de prediccin. Sin embargo, si estos dos atributos son PREDICT_ONLY, pueden compartir la misma red. Cada atributo de entrada se asigna a las mltiples neuronas de entrada. A veces, esto puede resultar en un gran nmero de neuronas de entrada si hay muchos atributos discretos con muchos valores distintos. Por defecto, el nmero total de neuronas de salida por subred se limita a 500 en el algoritmo de red neuronal de Microsoft. Se va a construir varias redes

neuronales en el caso de que el nmero de neuronas de salida es de ms de 500. Cuando hay un montn de atributos de entrada, el algoritmo de red neuronal de Microsoft invoca el proceso de seleccin de caractersticas. El proceso de seleccin de caractersticas seleccionan los 255 atributos de entrada ms importantes. TIP: Tener mltiples atributos de prediccin de los resulta en mltiples redes neuronales. Esto causa problemas de rendimiento durante el procesamiento. Le recomendamos que utilice slo un atributo de prediccin en el modelo de red neuronal.

Adiestramiento de la condicin de parada


El proceso de adiestramiento de redes neuronales es iterativo. Dependiendo de la complicidad de los patrones en el conjunto de datos de la muestra, esto puede tomar cientos o incluso miles de iteraciones a travs de los datos. Cul es la condicin de parada para una red neuronal? La siguiente es una lista de posibles criterios de parada:

Suficiente precisin en un conjunto retenido: La tasa de errores de clasificacin est por debajo de un umbral determinado. Mxima iteracin: El proceso de formacin ha alcanzado el lmite superior del nmero de iteraciones. Convergencia de los pesos: El cambio en el peso despus de cada iteracin cae por debajo de un umbral. Tiempo fuera: El nmero de iteraciones excede el lmite.

La red neuronal de Microsoft utiliza las tres primeras condiciones, como los criterios de parada. El entrenamiento se detiene cuando alguna de las tres condiciones se cumple.

La introduccin algoritmo

de

los

parmetros

del

La siguiente es una lista de parmetros para el algoritmo de red neuronal de Microsoft. MAXIMUM_INPUT_ATTRIBUTES: Es un umbral de parmetro para la seleccin de caractersticas. Cuando el nmero de atributos de entrada es mayor que este ajuste de parmetros, la funcin de seleccin se invoca implcitamente a recoger los atributos ms significativos. MAXIMUM_OUTPUT_ATTRIBUTES: es un umbral de parmetro de seleccin de caractersticas. Cuando el nmero de atributos de prediccin es mayor que este ajuste de parmetros, la funcin de seleccin se invoca implcitamente para seleccionar los atributos ms significativos. MAXIMUM_STATES: Especifica el nmero mximo de estados de un atributo que admite el algoritmo. Si el nmero de estados que tiene un atributo es mayor que el nmero mximo de estados, el algoritmo utiliza los estados ms populares del atributo y trata a los dems estados que faltan. HOLDOUT_PERCENTAGE: Se especifica el porcentaje de datos de exclusin. Los datos de exclusin se utilizan para validar la precisin durante el entrenamiento. El valor predeterminado es 0.1. HOLDOUT_SEED: Es un entero para especificar la semilla para la seleccin del conjunto de datos de exclusin.

Algoritmo De Regresin Logstica De Microsoft


Algoritmo de regresin logstica de Microsoft se basa en la implementacin del algoritmo de red neuronal de Microsoft, mediante el establecimiento del parmetro HIDDEN_NODE_RATIO a 0. Si utiliza la red neuronal de Microsoft para construir un modelo sin capa oculta, se obtiene exactamente el mismo resultado que el uso de regresin logstica de Microsoft. La razn por la que se empaqueta como un algoritmo separado es principalmente por el problema de descubrimiento por los usuarios. HIDDEN_NODE_RATIO se utiliza para configurar el nmero de nodos ocultos. La unidad de nmero de nodo oculto es sqrt (m * n), donde n es el nmero de neuronas de entrada y m es el nmero de neuronas de salida. Si

HIDDEN_NODE_RATIO es igual a 2, el nmero de nodo oculto es igual a 2 * sqrt (m * n). Por defecto, HIDDEN_NODE_RATIO es igual a 4. SAMPLE_SIZE es el lmite superior del nmero de casos que se utilizan para el entrenamiento. El valor predeterminado es 10000.

DMX Consultas
La red neuronal de Microsoft admite todas las tareas que los rboles de decisin de Microsoft puede hacer, incluida la clasificacin, regresin y asociacin. Las dos primeras tareas son las ms comunes de la red neuronal, mientras que la tarea de asociacin puede ser la que demasiado tiempo y recursos consume, por lo que, utilizando la red neuronal por lo general no se recomienda. El apoyo de la tarea de asociacin de redes neuronales se retir despus de la beta 2. Las declaraciones de DMX para rboles de decisin y redes neuronales son los mismos en trminos de creacin de modelos, la capacitacin y la prediccin. La nica diferencia es el nombre del algoritmo y la configuracin de los parmetros. La siguiente es una declaracin de creacin de modelos para predecir HouseOwnership utilizando el algoritmo de red neuronal de Microsoft:

Para los modelos de tipo de regresin, no es necesario especificar las columnas con una variable explicativa o el tipo de contenido como lo hace en Microsoft algoritmo de rboles de decisin. Todos los valores de entrada se asignan a los nmeros y se utilizan como variables explicativas, la regresin es una caracterstica integrada en las redes neuronales.

Tambin puede incluir una tabla anidada en un algoritmo de redes neuronales. Por ejemplo, el siguiente modelo predice> Ingresos>>> basado en los datos demogrficos del cliente, as como artculos en carrito de la compra del cliente:

Como usted ya ha aprendido, la declaracin de la formacin es independiente del tipo de algoritmo. La siguiente es la declaracin de entrenamiento para> HouseOwnershipPrediction>>> Modelo:

Una vez que el modelo est entrenado, puede ejecutar consultas de prediccin en ella. No hay funciones especficas para la prediccin de redes neuronales. Puede utilizar los algoritmos de prediccin independiente de sus funciones como <Predict <y <PredictProbability <. La siguiente consulta devuelve tres columnas, el cliente <id <, el predicho <Houseownership <y la probabilidad de la prediccin.

Modelo de contenido
Un modelo de red neuronal tiene una o varias subredes. El contenido del modelo describe las topologas de estas subredes. Tambin almacena los pesos de cada arista de la red neuronal. La figura 10.6 muestra el diseo del contenido del modelo de red neuronal. El nodo raz contiene un conjunto de nodos secundarios con un hijo especial que representa el nodo de nivel de entrada. Cada neurona de entrada en una red neuronal es un hijo del nodo de la capa de entrada. Aparte de la capa de entrada del nodo y el nodo de estadsticas marginales, el nodo raz contiene un conjunto de nodos de la subred. Cada nodo representa una subred de la red neuronal asociada con uno o ms atributos

de prediccin. Si el modelo contiene slo un atributo de prediccin, slo hay una subred en el contenido. Cada subred tiene dos hijos: uno para la capa oculta y una para la capa de salida. Cada nodo oculto es un hijo de la capa oculta. Tiene los bordes de entrada de los nodos de entrada. Estos identificadores de nodo de entrada, y sus pesos asociados se almacenan en los conjuntos de filas de distribucin oculta nodo. Cada fila de los conjuntos de filas de distribucin de tiendas de un peso. Por ejemplo, para representar el peso de la arista desde el nodo de entrada i (sexo masculino =) a la h nodo oculto, hay una fila en la distribucin de conjuntos de filas, donde h = i Nombre del atributo y el valor del atributo ih = peso. Cada nodo de salida es un hijo de la capa de salida. Tiene los bordes de entrada de nodos ocultos. Estos identificadores de nodo oculto y sus pesos asociados se almacenan en los conjuntos de filas de distribucin de salida del nodo.

Contenido del modelo de red neuronal

El nodo de estadsticas marginal contiene las distribuciones marginales de todos los atributos en el modelo. Para los atributos discretos, enumera el apoyo para cada estado. Para los atributos continuos, se enumeran las medias y desviaciones estndar.

Interpretacin del Modelo


Despus de que su modelo de red neuronal se procesa, puede navegar por sus contenidos usando el visor de redes neuronales. El visor de redes

neuronales es diferente de otros productos de Microsoft visores de contenido de minera de datos en el sentido de que se trata principalmente de la prediccin basada en. Que no muestra la informacin derivada de las filas de esquema modelo de contenido, y no hay ninguna representacin grfica de la distribucin de la red neuronal entrenada. El objetivo principal de que el espectador es mostrar el impacto de pares atributo / valor (AV) en relacin con el atributo de prediccin. La figura 10.7 es una instantnea del espectador de Redes Neuronales. Este es un visor de una sola pestaa con tres partes. La parte superior izquierda es la entrada de la red, donde puede especificar los valores de los atributos de entrada. Cuando no hay entrada se especifica en esta tabla, el visor muestra la informacin de toda la entrada AV en relacin con los estados predecibles. La parte superior derecha es para la seleccin de salida. Puede seleccionar cualquiera de los dos estados de un atributo de prediccin utilizando la lista desplegable. Para el atributo continuo, la lista desplegable ofrece cinco rangos basados en la media y desviacin estndar. La parte principal de la pantalla es la red que muestra el impacto de pares atributo / valor en relacin con los estados predecibles. Por ejemplo, en la figura 10.8 se puede decir el ms importante de AV que favorece a ser propietario de una casa es el rango de edad entre 38 y 54, y el ms importante de AV que favorece el alquiler de una casa es rango de edad entre 11 y 28. El visor de red neuronal es similar a la ficha Distincin del atributo del ingenuo espectador Bayes. Se evala el impacto de cada uno en relacin con los estados predecibles AV, y luego los ordena sobre la base de la puntuacin siguiente:

La red neuronal puede calcular rpidamente <<P (Predictable_State | AV) <<. El mtodo utilizado para obtener esta probabilidad para establecer todos los atributos de entrada como otros desaparecidos, y la AV como la nica neurona de entrada, la red neuronal a continuacin, calcula la probabilidad de un estado atributo de prediccin. Ya que tenemos los estados marginales de <P (Estado predecible 1) <<P (Estado predecible 2) <y <P (AV) <. Podemos derivar <P (AV | Estado predecible 1) <usando la regla de Bayes.

NOTA: Las calificaciones se muestra en la descripcin de las barras son ligeramente diferentes de los resultados aqu descritos. Los resultados se aplican a la escala logartmica, y tambin normalizada sobre la base de todas las puntuaciones AV. La cuadrcula muestra slo los primeros 50 AV y sus resultados. Tambin tenga en cuenta que la red neuronal de Microsoft no devuelve la puntuacin de <P (Predictable_State | AV) <, en cambio, devuelve la puntuacin <P (Predictable_State | (AV) <, todos los dems estados que faltan)).

Neural Network Viewer

Especificacin de atributos de entrada en el Visor de redes neuronales Tambin puede especificar mltiples AV como entrada. Por ejemplo, en la figura 10.8, el usuario especifica la edad a [28.252, 33.127], y los ingresos que se [103178,070 a 139.965,000]. En este caso, el visor muestra los impactos de la AV de otros atributos relacionados con Houseownership, teniendo en cuenta los dos otros pares de entrada AV. La red neuronal calcula <P (Predictable_State | AV) <mediante la fijacin de la neurona para la edad de estar en [28.252, 33.127], y la neurona de los ingresos que se [103178,070 a 139965,000]. El resto del clculo es el mismo que hemos descrito anteriormente.

Resumen
En este captulo, le dio una visin general del algoritmo de red neuronal de Microsoft y sus principales usos: clasificacin y regresin. Que han aprendido los conceptos bsicos de una red neuronal y de cmo sus trabajos proceso de formacin. Le explicamos las ventajas y desventajas de la red neuronal en comparacin con otros algoritmos. Se trata de un algoritmo no lineal, que es capaz de descubrir patrones complejos que los rboles de decisin y Nave Bayes puede pasar por alto. Le recomendamos que comience con el algoritmo de rbol de decisin, ya que es ms fcil de interpretar los

patrones de lo que es interpretar la salida de la red neuronal de Microsoft, tratar de una red neuronal slo cuando la precisin de los algoritmos de otros no es satisfactoria. Ahora debera ser capaz de construir modelos de minera de datos utilizando el algoritmo de red neuronal de Microsoft.