Sei sulla pagina 1di 9

Identificando Patrones de Prediccin y Clasificacin de Alarmas por Alto Spread en

un Sistema de Combustin de Turbina a Gas

Roberto Prieto Morales Claudio Meneses Villegas


Ingeniero de Proyectos de Tecnologa de la Informacin Departamento de Ingeniera de Sistemas y Computacin
Magster en Ingeniera Informtica UCN Universidad Catlica del Norte
Antofagasta, Chile Antofagasta, Chile
robertoprieto@vtr.net cmeneses@ucn.cl

Abstract En este artculo se analizan y modelan datos El trmino KDD fue acuado por Piatetsky Shapiro
operacionales de un sistema de combustin de turbina a gas, (1989) [1] para enfatizar que el conocimiento es el
para clasificar y predecir la condicin de alarma por alto producto final del descubrimiento accionado por los datos.
spread. Esta condicin de alarma indica que la combustin de El conocimiento extrado, es muy valioso para las
la turbina no est siendo uniforme, lo cual puede llevar organizaciones a la hora de tomar decisiones. Para tomar
eventualmente a la deformacin de la turbina. Con la decisiones correctas, confiables y acertadas se debe contar
generacin de patrones de prediccin y clasificacin, se busca con la informacin adecuada [7].
anticiparse a la activacin de la alarma por alto spread en el Este artculo describe la aplicacin de un proceso
sistema de combustin de la turbina, con lo cual se podra
metodolgico basado en la gua CRISP-DM (Cross Industry
evitar o disminuir la indisponibilidad de la turbina. Mediante
el entrenamiento de algoritmos de redes neuronales y rboles
Standard Process for Data Mining), para la resolucin de un
de decisin se obtuvieron dos modelos de clasificacin y un problema operacional de alto impacto en una Central
modelo predictivo, los cuales fueron evaluados Generadora de Electricidad.
cuantitativamente y en base a la percepcin de los usuarios, La aplicacin de la metodologa CRISP-DM en una
siendo los modelos de rbol mejor evaluados en este ltimo Central Generadora de Electricidad busca entregar
aspecto. informacin a la empresa para apoyar la toma de decisiones.
En trminos concretos, se busca anticiparse al problema de la
Keywords- Alarma por Alto Spread; Sistema Combustin de activacin de la proteccin por alto spread del sistema de
Turbina a Gas; Identificacin de Patrones en Sistemas de combustin de la TG (Turbina a Gas).
Combustin El resto del artculo est estructurado como se indica a
continuacin. La seccin II describe el problema y su
I. INTRODUCCIN contexto. En la seccin III se describe la metodologa
Actualmente las organizaciones estn inmersas en un empleada en el desarrollo del trabajo. Las secciones IV y V
mercado muy competitivo, por lo que es importante para describen los datos utilizados, su seleccin y transformacin,
ellas, que sus ejecutivos posean informacin relevante y respectivamente. La seccin VI presenta y analiza los
oportuna a la hora de tomar decisiones. Dentro de las modelos de prediccin y clasificacin obtenidos. Finalmente,
herramientas que ocupan las organizaciones para apoyar la se presentan las conclusiones y trabajo futuro.
toma de decisiones, est la minera de datos.
Fayad (1996), define minera de datos como la bsqueda II. SISTEMA DE COMBUSTION DE TURBINA A GAS
de patrones relevantes y de regularidades importantes en El presente caso de estudio se llev a cabo en una Central
grades almacenes de datos [11]. Por otro lado, Michalski Generadora de Electricidad perteneciente al SING (Sistema
(1998) se refiere a minera de datos inteligente como la Interconectado del Norte Grande), cuya matriz energtica es
aplicacin de mtodos de aprendizaje automtico u otros gas y petrleo. Esta Central Generadora, posee dentro de sus
mtodos similares, para descubrir y enumerar patrones objetivos tener la mxima disponibilidad posible para todas
presentes en los datos [12]. El aprendizaje automtico es el sus TG.
rea de la Ingeniera Informtica, que estudia y desarrolla Por lo anterior, resulta imperioso para la organizacin
algoritmos que implementan distintos modelos de
trabajar en evitar fallas en sus TG, que puedan producir
aprendizaje, y lo aplican en la resolucin de problemas
prcticos [16]. alguna indisponibilidad de las TG en la generacin elctrica.
La minera de datos, se presenta como una etapa dentro En lo relacionado al sistema especifico objeto del
de un proceso ms amplio, que se refiere a la aplicacin de estudio, ste corresponde a la turbina a gas, la cual es la
algoritmos especficos para la extraccin de patrones desde principal mquina para generar electricidad que posee la
datos. Dicha etapa es parte del proceso de descubrimiento de organizacin. Esta turbina est compuesta por los sistemas
conocimiento desde los datos, conocido como proceso KDD de escape, enfriamiento y combustin.
(Knowledge Discovery in Databases). En la Figura 1 [9], se puede apreciar las principales
partes de la TG, separadas en dos partes, generacin a gas y
generacin a energa.
A. Gua Metodolgica CRISP-DM
CRISP-DM en esencia corresponde a un modelo de
proceso que proporciona un marco para el desarrollo de
proyectos en el mbito de Data Mining [8]. El cual, est
siendo desarrollado por un consorcio de los principales
usuarios y proveedores de minera de datos.
Este modelo de referencia, proporciona una visin
general del ciclo de vida de un proyecto de minera de datos,
el cual contiene las fases de un proyecto, sus tareas
respectivas, y sus salidas.
El ciclo de vida de un proyecto de minera de datos se
divide en seis fases que se muestran en la Figura 2.
La secuencia de las fases no es estricta, y en la prctica es
un proceso iterativo. Las flechas indican slo las secuencias
Figura 1. Corte longitudinal de la Turbina a gas. 1. generador de gas, 2. y las dependencias ms importantes entre las fases.
generador de energa, 3. labe de turbina de potencia, 4. poder tobera
turbina, 5. generador de turbina de gas cuchilla, 6. revestimiento de
combustin, 7. impulsor del compresor, 8. el generador de estructuras.

El sistema de combustin de la turbina est compuesto


por catorce cmaras de combustin, las cuales estn
dispuestas simtricamente alrededor del rotor de la turbina.
Peridicamente se registran mediciones de variables
asociadas a la temperatura de las cmaras del sistema de
combustin. Dichas temperaturas deben mantenerse
uniformes, debido a que una alta diferencia de temperatura
entre las cmaras de combustin, significara que no se est
produciendo una combustin eficiente y segura.
Por lo anterior, implicara que se podra provocar una
deformacin en la estructura de la turbina, adems de una
prdida de eficiencia en la capacidad de generacin de
electricidad.
El Sistema de Control Distribuido DCS (Distributed
Control System) monitorea y controla el funcionamiento de
la TG. En el DCS se encuentra configurada una proteccin
por alto spread en el sistema de combustin, la cual opera al
identificar una alta diferencia de temperatura entre las Figura 2. Fases del modelo de proceso CRISP-DM para el desarrollo de
cmaras de combustin de la TG. proyectos de minera de datos. (Fuente: http://www.crisp-dm.org/).
La proteccin acta en primera instancia alarmando el
alto spread. El slo surgimiento de esta alarma, implica una
disminucin en la capacidad de generacin en la TG, debido B. Instanciacin de la Gua CRISP-DM
a que no son uniformes las fuerzas que hacen girar el eje del
generador. En segunda instancia la alarma por alto spread, La gua CRISP-DM corresponde a un proceso genrico,
opera deteniendo el funcionamiento de la turbina, lo cual el cual requiere ser instanciado para cada tipo de proyecto de
implica una indisponibilidad de la TG, conllevando a una data mining. A continuacin se presenta la adaptacin de
prdida de confianza ante sus clientes y la comunidad. CRISP-DM al problema particular descrito en la seccin II y
su aplicacin.
III. ASPECTOS METODOLGICOS DEL DESARROLLO DEL
La Figura 3 muestra las tareas desarrolladas para el
PROYECTO problema analizado.

El proyecto se abord adoptando la gua CRISP-DM como


marco de desarrollo del trabajo, el cual se instanci para este
caso particular.
Figura 4. Esquema de funcionamiento de turbina a gas.

En la Figura 5 se describen en mayor detalle los


pasos de la secuencia de funcionamiento de una TG.

Figura 3. Secuencia de tareas desarrolladas

1) Entendimiento del negocio


El objetivo de negocio que se persigue con la realizacin
del proyecto es mejorar el indicador de disponibilidad de la
TG, mediante la aplicacin de tcnicas y herramientas de
minera de datos.
Especficamente, se busca contribuir a maximizar la
confiabilidad de arranque, minimizar salidas forzadas, lograr
disponibilidad de acuerdo a programa de mantenimiento,
disponibilidad media equivalente (92%), cumplir con la
duracin de los mantenimientos mayores.
Por lo anterior, se desea evitar las fallas o
indisponibilidad de la TG por un tiempo prolongado, tal
que, no se ponga en riesgo los contratos vigentes, y lograr
menor ndice de falla en el SING.
Desde el punto de vista tcnico, los objetivos al aplicar
las tcnicas de minera de datos en esta situacin particular,
son generar patrones de prediccin y clasificacin, para Figura 5. Secuencia de funcionamiento de turbina a gas.
apoyar la toma de decisiones, asociadas a evitar la activacin
de la proteccin por alto spread en el sistema de combustin 2) Descripcin del problema
de la TG. El sub sistema de combustin de la TG se compone por
La Turbina a Gas, es un motor trmico rotativo de flujo catorce cmaras de combustin, en donde se incinera el gas
continuo que se caracteriza por presentar una baja relacin natural o petrleo diesel, estas cmaras se encuentran
peso-potencia y una velocidad de giro muy elevada. La TG distribuidas simtricamente alrededor del rotor de la TG.
est compuesta por los sub sistemas de combustin, Existe una proteccin configurada en el DCS, esta se
enfriamiento y escape. produce por alto spread en el sistema de combustin de la
Se utiliza para la generacin elctrica, ya que la TG. Esta proteccin se calcula empricamente tomando
combustin generada al incinerar gas, hace que los gases como datos entre otros, las temperaturas de las cmaras de
calientes al escapar hagan girar el rotor del alternador de la combustin de la TG. La activacin de dicha proteccin
TG, con lo cual se produce induccin, la cual se trasforma en implica que no se est produciendo una combustin
energa elctrica. uniforme entre las cmaras de combustin.
A continuacin en la Figura 4 [10], se muestra el Lo anterior, conlleva a una disminucin de la generacin
esquema de funcionamiento de la TG para generar de electricidad de la TG, es decir que con la misma cantidad
electricidad. de combustible se genera menos carga elctrica que en una
situacin ptima. Adems, la generacin de electricidad con
una combustin no uniforme entre las cmaras provoca
daos en la estructura de la TG, deformando sus piezas.
Actualmente, cuando opera la alarma por un alto spread
el operador disminuye la potencia elctrica de la TG, hasta
encontrar la causa y corregir el problema.
Se propone analizar los datos patrones de prediccin y
clasificacin, para anticipar la operacin de la proteccin por
alto spread en el sistema de combustin de la TG.
Existe antecedente de aplicacin de tcnica de minera de
datos en Centrales de Generacin Elctrica para identificar
otras fallas en equipos [14].

IV. ENTENDIMIENTO DE LOS DATOS

Para la realizar la solucin de minera de datos propuesta,


Figura 6. Tabla de hecho.
es necesario contar con registros histricos, que posibiliten
la creacin de patrones.
El conjunto obtenido de datos posee nicamente variables
La Central, tiene implementada la plataforma industrial
de tipo numrico, correspondiente a valores de variables de
de gestin de informacin PI SYSTEM. Esta plataforma
proceso como temperaturas de las cmaras de combustin,
est compuesta por software, que permiten mostrar datos de
presin, intensidad de la llama, etc.
proceso en tiempo real y almacenarlos en una base de datos
En la Tabla 2, se describe una caracterizacin de algunos
propietaria.
atributos del conjunto de datos.
La TG est compuesta por los sub sistemas escape,
enfriamiento y combustin, tambin existen sealen que
influyen en la generacin elctrica como los equipos Nombre Valores de variables
auxiliares, aparte de las seales propias de la generacin atributos Instanc Media Desviac moda mnim mxim
elctrica como la potencia elctrica y la frecuencia. ias in o o
distinta estnda
Segn el usuario del negocio como el alto spread se s r
origina en el sub sistema de combustin de la TG, se UNOADLN_M 16 0.04 0.486 0 0 9
ODE_GAS
seleccionaron todas las seales de ese sub sistema, aparte de
UNOAFD_INT 3630 102.718 75.307 2012 0 231.24
seales que dependen directamente de la activacin de la ENS_2 5
alarma por alto spread, como la potencia elctrica y la UNOAFD_INT 1405 94.448 382.94 844 0 5708
frecuencia. ENS_3 5
La inclusin de cualquier otra variable adicional no UNOAFD_INT 1041 72.332 398.40 613 0 3822
ENS_4
tendra relacin con el alto spread de la TG. Por lo cual, slo 2
producira ruido en la elaboracin de los modelos. UNOAFD_INT 15285 61.929 42.372 14253 0 162.66
ENS_5 8
Al conjunto de datos resultante, se agreg manualmente
UNOAFLUPSP 7005 0.315 0.899 5756 0 12.401
el atributo clase. Este atributo corresponde a la activacin de
la alarma por alto spread en el sistema de combustin de la UNOAFPG3 5114 0.22 1.581 4578 0 39.306
TG. Dicho atributo es de tipo numrico, codificndose como UNOAPLPDPL 2310 0.037 0.281 1821 0 6.286
el valor 0 para condicin sin alarma y 1 para condicin con
UNOAPLSDPL 1660 0.042 0.273 1232 0 8.082
alarma.
Para el presente caso de estudio, se seleccionaron
UNOATTRF1 5698 27.619 83.892 4154 0 1154.3
registros histricos a partir de enero del 2008 y hasta 3
diciembre del 2010. Por lo cual, el conjunto de datos final UNOATTRXB 3358 7.31 19.405 2013 0 611.21
seleccionado por el usuario del negocio, incluye 54 variables, 9
UNOATTXD1_ 4442 16.772 46.329 3065 0 614.83
todas de tipo numrica. En la tabla 1 se muestra un resumen 1 8
del conjunto de datos seleccionado. UNOATTXD1_ 4360 16.364 45.691 2996 0 615.24
10 4
Caracterstica Valor UNOATTXD1_ 4655 16.682 44.216 3277 0 614.83
Total atributos: 54 11 8
Total Instancias: 23430 class 2 - - - - -
Tipo de atributos: Numrico Tabla 2. Caracterizacin del conjunto de datos.
Total Instancias errneas: 382
Tabla 1. Resumen del conjunto de datos
La figura 7 muestra la relacin de variables entre la
En la Figura 6 se describe la tabla de hechos del conjunto temperatura de combustin de la cmara nmero 5 (eje X), y
la temperatura de los gases de la cmara de combustin (eje
de variables seleccionadas.
Y) medidas en grados Celsius.
Este grfico muestra que existe una relacin directamente Las relaciones entre variables descritas en la Tabla 3,
proporcional, es decir a mayor temperatura de combustin, corresponden en su gran mayora a correlacin negativa
mayor es la temperatura de gases de escape. Lo que implica, dbil. Excepto, la relacin entre la temperatura de
que se est realizando una combustin ptima en la cmara combustin de la cmara N 5 y la variable clase. Esta
N 5, ya que, que los inyectores de combustibles no se relacin es una correlacin positiva dbil. Por lo cual, la
encuentran sucios y la cmara de combustin an no necesita variable Unoafd_intens_5 est ms correlacionada con el
ser lavada para sacar los residuos de la combustin adheridos valor de la variable clase que el resto de las otras variables.
a ella.

V. TRANSFORMACIN Y SELECCIN DE DATOS

La calidad de los datos es un factor importante en el


xito de la minera de datos en una tarea determinada. Por lo
cual, es una etapa relevante dentro del modelo de proceso
CRISP-DM. La seleccin de atributos es el proceso de
identificar y eliminar la mayor cantidad de informacin
irrelevante y redundante [2].
Para el presente caso de estudio, se realiz una limpieza
de los registros errneos, eliminando dichos registros. Estos
Figura 7. Grfico temperatura de gases. eran producto de fallas en la captura de las seales. Adems
En la figura 8 se representa la relacin de variables entre se verific la integridad de los datos, no encontrando
la diferencia de temperatura de las cmaras de combustin problemas de este tipo.
N 5 y N 10 (eje X), y la temperatura de la turbina (eje Y) Dado que existe una gran cantidad de atributos
medida en grados Celsius. (cincuenta y cuatro) se aplic una tcnica para evaluar a
En este grfico se aprecia que se encuentra delimitado el priori su importancia y disminuir el nmero de atributos,
valor mximo para la diferencia de temperatura entre dejando slo los ms relevantes. A continuacin se detalla la
cmaras de combustin. Para el periodo de tiempo dado la tcnica utilizada de atributo evaluador y mtodo de
diferencia de temperatura entre las cmaras de combustin bsqueda, para reducir el nmero de atributo del conjunto de
N 5 y N 10 mayoritariamente fue baja, independiente de la datos.
temperatura de la turbina. Lo que implica, que para un Atributo evaluador CfsSubsetEval [3], este mtodo
funcionamiento normal de la TG, necesariamente debe evala un subconjunto de atributos considerando la
existir una baja diferencia de temperatura entre las cmaras habilidad predictiva individual de cada variable, as
de combustin. como el grado de redundancia entre ellas.
Mtodo de bsqueda BestFirst [3], este algoritmo
de bsqueda, trata de expandir el nodo
ms prximo al objetivo, percibiendo que
probablemente conduzca rpidamente a una
solucin. El algoritmo BestFirst puede comenzar su
bsqueda por el conjunto vaco de atributos y de
bsqueda haca adelante, o empezar con todo el
conjunto de atributos y bsqueda hacia tras, o
empezar en cualquier momento y buscar en ambas
direcciones (enfoque hbrido).

En la tabla 4, se detallan los resultados obtenidos de la


Figura 8. Grfico diferencias de temperatura.
aplicacin de la tcnica de seleccin de atributos BestFirst.
La tabla 3 describe la matriz de correlacin para los Resultados aplicacin tcnica seleccin de atributos BestFirst
atributos ms relevantes relacionados con el atributo clase. Inicio establecido: Sin atributos.
Direccin de bsqueda: Hacia adelante.
Atributos Valor correlacin Bsqueda de rancio: Despus de 5 expansiones de
Primero Segundo nodos.
Unoafd_intens_5 Unoafsr_control -0.002 Nmero de subconjuntos de evaluacin: 410
Mrito del mejor subconjunto: 0.113
Unoafd_intens_5 Unoal83llbm -0.002
Tabla 4. Resumen resultados BestFirst.
Unoafd_intens_5 Class 0.112
Unoafsr_control Class -0.018
Unoal83llbm Class -0.018 La aplicacin de esta tcnica obtuvo como resultado
Tabla 3. Matriz de correlacin de variables. una disminucin de atributos de 54 a 4. La Tabla 5 detalla
los atributos seleccionados.
sobre ajustar
a los datoos, resultando un rendimiennto inferior
Variable Descripcin
D del moddelo sobre los datos de pruebba [20].
UNOAFD_INTE
ENS_5 Teemperatura cmarra de combustin Para la reducir la complejidad y evitar el exceso de
N
N 5 sobreajuste, en el preesente caso dee estudio se occuparn los
UNOAFSR_CO
ONTROL Teemperatura de conntrol de la turbina clasificcadores RepTrree y J48, addems del Alggoritmo de
UNOAL83LLBM In
ntensidad de la llam
ma cmara N 8 ANN Multilayer Perceptron. Los tres algoritmos
Class Prroteccin seleccioonados se encuuentran disponiibles en Weka..
Tabla 5. Atribu
utos seleccionados
A. Alggoritmo Multilaayer Perceptronn
VI. MODELOS
O DE CLA
ASIFICACIN Y PREDICCIN Estee algoritmo es e una ANN (red neuronall artificial)
multicaapa. Segn Rum menlhart (19866) las ANN muulticapas de
tipo feeedforward conn aprendizaje por algoritmoo de retro
Existen anntecedentes de estudios, en ell cual se compaara propagaacin, son unn tipo de estrructura de coomputacin
laa performancce de un conjunto c de algoritmos de paralelaa, en donde, varias pequeas unidades de clculo
c
clasificacin. C
Concluyendo quue la eleccin de del algoritmmo denomiinadas neuronaas, estn masiivamente interrconectadas
m adecuado,, es altamentee dependiente de la aplicaciin
ms con la capa anterior de d donde recibben informacinn, y con la
[15]. Ademss, se debe considerar que q no existten capa poosterior hacia donde
d la transm
miten [5].
a
antecedentes d aplicacin de minera de
de d datos para el Lass principales caractersticas deld algoritmo Multilayer
p
problema partiicular de la alarma
a por altto spread en un Percepttron son su caapacidad para aprender las relaciones
s
sistema de com mbustin de la TG.
T funcionnales a partir de ejemploss, descubrir patrones p y
Para el presente
p caso de estudio, se s desea que el regularridades en los datos,
d a travs,, de la auto orgganizacin.
u
usuario del neggocio tenga mo odelos de varioos tipos, para que
q Por lo cual, son muuy adecuados para de probblemas de
loos analice y escoja el mo odelo que mejjor soluciona el mapeo no lineal [19].
p
problema plantteado. Para lo cual, se aplicarn las tcniccas En la Figura 9, se muestra la estrructura de la reed neuronal
d rbol de deccisin y red neu
de uronal artificiall. artificiaal generada. Enn donde se apreecia el ingreso de las tres
Los rbolles de decisin n son una tccnica sencilla de variablees a la capa de entrada, dos neuronas
n en la capa
c oculta
a
aprendizaje de clasificacin supervisada, perop exitosa. Los
L y una neurona
n en la salida.
s Ademss se ilustra la distribucin
d

rboles estn compuesto por p segmentoss ms pequeos de los ocho pesos siinpticos geneerados por el modelo m de
lllamados nodoos terminales u hojas. Estos nodos son s predicccin.
h
homogneos reespecto a una variable
v de desttino [17].
Las redess neuronales artificiales (A ANN) han siido
u
utilizadas porr muchos inv vestigadores para identificcar
u
ubicacin y seeveridad de distintos
d tipos de variables de
e
entrada y salidda. Ya que, proporcionan
p una herramiennta
e
eficaz para el reeconocimiento o de patrones [118].
El algoritm mo J48 es la implementacin
i n para Weka del
d
a
algoritmo C 4.5. Este algorittmo J48, elige el atributo que q
p
posee el mxximo de info ormacin relaacionada con la
g
ganancia, commo criterio de la mejor divvisin. Adem ms,
u
utiliza los atrributos que mejorm diferenncia las saliddas,
g
generando una rama por cadaa salida. Figura 9. Esttructura de la red neuronal
n articifial.
El algoritm mo RepTree presenta
p una poda
p rpida paara
c
corregir en el rbol
de decisiin los efectos de los ruidos en La ANN empiezaa con unos peesos aleatorios y aprende
loos datos de entrenamiento. El rbol poodado reduce la ajustando dichos vallores iterativam mente, hasta lllegar a un
c
complejidad enn el proceso de clasificacin. estado en donde ess capaz de determinard unna relacin
El algorittmo Multilayeer Perceptron posee funcionnes funcionnal dentro de los objetivos preestablecidos
p s entre los
s
sigmoidales quue se emplean como activaciin de funcionnes datos de
d entrada y el conjunto de datos
d de entrenaamiento en
n lineales paraa todas las capaas. Estas funcioones sigmoidales
no su fase de aprendizajee.
m
minimizan el sobreajuste conc un mtoddo de detecciin El ajuste
a de los coeficientes, se realiza por medio
m de un
temprana. mecaniismo de retro propagacin
p del error desde laas capas de
salidas hacia las capaas ocultas, parra posteriormeente cotejar
El overfittting o sobreaajuste se prodduce cuando un los resuultados obteniddos de la salidda de la red coon el valor
aalgoritmo buscca las mejoress variables parra un modelo en correctoo entregado poor el vector quee contiene el conjunto
c de
p
particular, usanndo un conjuunto de datos limitado, pueede datos de
d entrenamientto.
El mecanismo
m de proceso formaal para cada neuurona es el
siguiennte [4]:
(1)) El modelo
m predicttivo elaborado por algoritmo Multilayer
Percepttron entreg como
c resultadoo la generacin de ocho
En donde,
E da de la neurrona,
es la salid es el ponderaaciones de pessos. Estos pesoos ponderan laas variables
p
producto escaalar entre el vector traspuuesto de pessos de entrrada y empriccamente determ minan la variable clase.
s
sinpticos. Esta vaariable clase es
e la que indicca si se produuce el alto
(2) spread en el sistemaa de combustin de la TG, para unas
variablees de entrada en
e particular.
es el vector de
d pesos sinptticos.
B. Alggoritmo Rep Tree
(3)
El algoritmo
a RepTTree se utiliza para
p la elaboraacin de un
es el vector de
d entradas a laa neurona. patrn de clasificacin, obteniendoo como resulttado de la
El subndicee m indica el nmero de entraadas a la neuronna, aplicacin de dicho algoritmo
a una representacin
r grfica de
es un valorr denominado umbral que permitep ajustarrse un rbool de clasificaciin.
p disminuir el
para e sesgo. El funcionamiento
f o del algoritmoo RepTree se coompone de
La funcin transforma el e escalar resultante en la saliida dos fasses, en la primmera fase se creea un conjuntoo de reglas
d la neurona, en la mayora de los casos coorresponde a una
de u l datos usadoos para el aprendizaje, en
que se sobreajuste a los
f
funcin sigmoiddal. la seguunda fase se poda el conj njunto de regllas usando
(4) ejemploos que no participaron en el aprendizaje
a [3]..
El resultadoo de esta funccin produce salidas dentro del d Paraa la aplicacin de este alggoritmo se utillizaron los
r
rango [0,1]. Laa salida de cad
da neurona, es una entrada paara parmeetros por defecttos en la constrruccin el modeelo.
c
cada neurona de d la capa sigguiente, exceptto en la primeera En la Figura 10 see muestra el rrbol grfico geenerado por
c
capa, en dondee la entrada ess el vector con c las variables el algorritmo Rep Tree. La rama izqquierda del rbbol muestra
inndependientes,, tal como se aprecia
a en la Figura 9. la partte no relacionnada con la condicin
c de alarma,
a en
cambioo en la rama derecha
d del rbbol estn los indicadores
i
que corrresponden a laa alarma.

Figura 10: rbol Grficoo generado por el algoritmo


a Rep Treee.
mo J48 ocupaa una tcnicaa voraz para inducir la
algoritm
C Algoritmo J48
C. J
decisin para los rboles de clasificacin [6]. Este
El algoritm
mo J48 es una aplicacin dell algoritmo C44.5. algoritm l elaboracin del rbol de clasificacin
mo, utiliza en la
E
Esta implemeentacin geneera rboles ded decisin. El los atriibutos que mejjor diferencia las salidas, crreando una
rrama por cada salida [13]. Ad dems, terminaa la rama si toddos rango de
d valores espeecficos para una u variable en particular.
loos miembros poseen
p la misma clase, etiqquetando la ram ma Pero, adems presentaa un modelo coonfuso para el cliente, ya
c dicha clasee [3].
con que el rbol de clasifficacin generrado posee ram mas que no
Para la apllicacin de esste algoritmo se utilizaron los l aportann a la clasificaccin de la alarm
ma.
p
parmetros porr defectos en laa construccin el
e modelo. C. Moddelo de clasificcacin J48
En la Figurra 11, se mueestra el patrn de clasificaciin
g
generado. En la rama derrecha del rbbol, describe la El modelo
m de claasificacin J48, presenta un modelo de
c
clasificacin e surgimiento de
dee instancias relaacionadas con el clasificcacin similar ala generado poor el algoritmo Rep Tree.
laa condicin de alarma. Tambin clasifica la operacin de la alarma, a partir de un
rango ded valores espeecficos para unau variable en particular.
La difeerencia es que poda
p las ramass del rbol que no aportan
l alarma. Por lo anterior, se obtiene un
a la claasificacin de la
modeloo que es claro y visualmentee aceptable poor parte del
cliente.

Criterio Algoritmos
MultiLayer RepTree J48
Perceptron
Fiigura 11: rbol Grfico generado porr el algoritmo J48. Es comprensible S No S
Cuumple con la S S S
funcin
VII. RESULTADOS
E A
Ayuda a los No S S
o
objetivos del
Para la connstruccin de cada uno de los modelos de negocio
minera de daatos generadoss, se ocup un 95% de las
m Pootencialmente S S S
innstancias paraa entrenamientto y un 5% para
p prueba. Las
L til
m
mtricas de rendimiento
r de cada modeelo generado se A
Aprobado No No S
r
resumen en la Tabla
T 6. Tablla 7: Resumen de aceptacin
a de los modelos.
m

Variable Algoritm
mos
El modelo
m de classificacin de J48,
J se basa slo
s en un
MultiLaayer RepTrree J48
atributoo que es la inntensidad de laa llama de la cmara de
Percepttron combusstin nmero cinco.
c e usuario esto se explica
Segn el
porque en el sistema de combustin existen 14 cmaras
c de
Coeficiente de 0.739
95 0.81588 0.7992
correlacin las cuaales 3 poseenn termocuplass, para la meedicin de
Media de error 0.004
45 0.00477 0.0043 temperaatura, en el casso de la cmara nmero cinco es la que
absoluto se encuentra ms cercana a las otras dos cm maras que
Raiz de error 0.049
95 0.04833 0.0443 tambinn poseen term mocuplas. Estoo explicara ele por qu
cuadrado cuandoo se produce unau alta difereencia de tempeeratura por
Error absooluto 39.3034
4% 41.58288 % 37.6059 % alto sppread, se mannifiesta dichaa diferencia con c mayor
relativo
Raiz de error 69.3076
6% 67.68799 % 61.9838 %
intensiddad en la temmperatura de laa cmara de combustin
c
relativo cuadraado nmeroo cinco.
Nmero de 1171
1 1171 1171
instancias VIII. CONC
CLUSIONES Y TRABAJO
R FUTUR
RO
Tabla 6: Resum
men de resultados de modelos. Con los patrones de d prediccin y clasificacin generados,
se cuennta con inform macin para saber
s qu valoores deben
Una vez obbtenidos los modelos dee prediccin y
U tener laas seales clavves, cuando se produce la acttivacin de
c
clasificacin, se requiri la evaluacin
e del usuario respeccto la proteeccin por altoo spread del siistema de com mbustin de
d potencial grado
del g de inteers en cada uno
u de ellos. A la TG, para as evitarr la activacin de dicha proteccin. Con
c
continuacin see resume esta evaluacin.
e la utilizzacin de esta informacin para
p tomar deccisiones, se
A Modelo de prediccin
A. p ANN
NN deberaa aumentar laa disponibilidaad de la TG G para dar
El modelo de prediccin generado porr la red neuronnal cumplim miento a los objetivos de la empresa, adems a de
a
artificial, permiite indicar si op
pera o no la alaarma para valorres mejorarr la confiabiliddad ante sus cliientes.
e
especficos dee las variablees de entradaa. Por lo quue, A partir
p del trabbajo desarrollaado se identifica como
o
operacionalmen nte no es unaa ayuda para anticiparse a la accin futura la geeneracin de una simulacin de las
a
activacin de laa alarma. condiciiones de operaccin de la plantta. Esto permittira validar
el modeelo de minera de datos generrado. Una vez validado
v el
B Modelo de clasificacin
B. c Rep
R Tree modeloo de clasificacin, se procederr a su implantaacin. Esto
El modelo de clasificacin elaborado por el algoritmmo es, idenntificar anticipaadamente el surrgimiento de laa condicin
R Tree clasiffica la operacin de la alarm
Rep ma, a partir de un de una alarma que perrmita evitar el disparo
d de la tuurbina.
IX. AGRADECIMIENTOS [5] Abrahart, R.J., See, L. y Kneale, P.E. 2001. Investigating the role of
saliency analysis with a neural network rainfall-runoff model. Journal
Este trabajo fue realizado en el marco del desarrollo de of Computers and Geosciences, 27: 921-928.
un caso de estudio en la asignatura de minera de datos 1 del [6] Soman, T. and Bobbie, P.O. 2005. Classification of Arrhythmia Using
programa de Magster en Ingeniera Informtica de la UCN. Machine Learning Techniques. Southern Polytechnic State University
(SPSU) 1100 S. Marietta Parkway, Marietta, GA 30060, USA.
[7] Elizabeth Vitt, Michael Luckevich, Stacia Misner. 2002. Making
X. GLOSARIO DE TRMINOS Better Business Intelligence Decisions Faster. editors Microsoft
Press.
Alternador: Mquina elctrica generadora de corriente [8] R. Wirth, J. Hipp. 2000. CRISP-DM: Towards a standard process
alterna. model for data mining, in: Proceedings of the 4th International
Alto Spread TG: Es cuando se produce una alta diferencia Conference on the Practical Applications of Knowledge Discovery
de temperatura entre las cmaras de combustin de la and Data Mining, Manchester, UK, 2000, pp. 29-39.
turbina a gas. [9] Min Tae Kim, Si Woo Lee. 2012. Application of in situ oxidation-
resistant coating technology to a home-made 100 kW class gas
Cmara de combustin: Consiste en un recipiente al cual turbine an its performance analysis. Applied Thermal Engineering,
ingresa aire comprimido, al que se le aade combustible y se Volume 40, Pages 304310.
quema en forma ininterrumpida. [10] Frank J. Brooks. 2001. GE Gas Turbine Performance Characteristics.
Disponibilidad: Se produce cuando una turbina est GE Power Systems Schenectady, NY GER-3567H.
declarada al controlador del SING, como utilizable para [11] M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth, and
Ramasamy Uthurusamy. 1996. Advances in Knowledge Discovery
producir electricidad. and Data Mining. San Mateo, AAAI Press, EE.UU.
Matriz Energtica: Son los posibles combustibles que [12] Michalski, R.S., Bratko, I., Kubat M. 1998. Machine Learning
ocupa una Central para generar electricidad. andData Mining. Methods and Applications. Wiley & Sons Ltd.,
PI System: El estndar de la industria en la infraestructura EE.UU.
de la empresa para la gestin de datos en tiempo real y [13] S.G. Jolandan, H Mobli, H Ahmadi, M Omid, S.S. Mohtasebi. 2012.
eventos. Fuzzy-Rule-Based Faults Classification of Gearbox Tractor.
Department of Agricultural Machinery Engineering, faculty of
Potencia elctrica: Es la velocidad con que se agota la Agricultural Engineering and technology University of Tehran, Karaj,
energa. Iran.
Rotor: Parte giratoria de una turbina. [14] Christina Athanasopoulou, Vasilis Chatziathanasiou and Ioannis
SING: Agrupacin de Centrales Generadoras de Petridis. 2007. Utilizing data mining algorithms for identification and
reconstruction of sensor faults: a Thermal Power Plant case study.
Electricidad que se encuentran ubicadas entre las ciudades University of Thessaloniki.
de Arica y Antofagasta. [15] Vedrana Vidulin, Mitja Lutrek, Matja Gams. 2007. Comparison of
Salidas forzadas: Es la interrupcin intempestiva de la the performance of genre classifiers trained by different machine
turbina por falla o defecto de esta o cualquier otro motivo. learning algorithms. Department of Intelligent Systems. Joef Stefan
Sistema de Control Distribuido: Es un concepto en donde Institute. Jamova 39, 1000 Ljubljana, Slovenia.
la filosofa del equipo se define como la distribucin [16] Michalski, R. S. 1983. A Theory and Methodology of Inductive
Learning. En Michalski, R. S., Carbonell, J. G., Mitchell, T. M.
geogrfica del control, enlazada por una red de (eds.). Machine Learning: An Artificial Intelligence Approach, Vol. I.
comunicaciones, cuyo destino es centralizar un cuadro de Morgan-Kauffman, EE.UU.
control central. [17] Jun Li, Shunyi Zhang, Yanqing Lu, Junrong Yan. 2008. Real-time
Turbina a Gas: Es un motor trmico rotativo de flujo P2P Traffic Identification. Nanjing University of Posts and
continuo que se caracteriza por presentar una baja relacin Telecommunication, Nanjing, JiangSu, China. Zhejiang Wanli
University, Ningbo, Zhejiang, China.
peso-potencia y una velocidad de giro muy elevada
[18] Prechelt L. 1998. Early stopping but when? In. Orr GB, Muller
OR, editors. Neural networks: Tricks of the trade. Berlin: Springer-
Verlag Telos.
XI. REFERENCIAS [19] Ayman Ahmed Seleemah. 2012. A multilayer perceptron for
[1] U.M. Fayyad, G. Piatetsky-Sapiro, and P. Smyth. 1991. From data predicting the ultimate shear strength of reinforced concrete beams.
mining to knowledge discovery in databases. Editors, Advances in Journal of Civil Engineering and Construction Technology Vol. 3(2),
Knowledge Discovery and Data Mining, page 39. AAAI Press, pp. 64-79.
(1997). [20] U.M. Fayyad, G. P. Shapiro and P. Smyth. 1996. The KDD process
[2] Mark A. Hall, Geoffrey Holmes. 2003. Benchmarking Attribute for extracting useful knowledge from volumes from data.
Selection Techniques for Discrete Class Data Mining. IEEE Communication of ACM, Vol. 39(11).
transactions on knowledge and data engineering, vol. 15, NO. 3.
[3] I.H. Witten, E. Frank. (2005). Data Mining: practical machine
learning tools and techniques 2nd. Edition. Morgan Kaufmann.
[4] D. Rumelhart, G. Hinton, and R. Williams. 1986. Learning
representation by error propagation, In D.E. Rumelhart and J.L.
Mclelland, editors, Paralled Distributed Procession (Cambridge, MA:
MIT Press).

Potrebbero piacerti anche