Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Abstract En este artculo se analizan y modelan datos El trmino KDD fue acuado por Piatetsky Shapiro
operacionales de un sistema de combustin de turbina a gas, (1989) [1] para enfatizar que el conocimiento es el
para clasificar y predecir la condicin de alarma por alto producto final del descubrimiento accionado por los datos.
spread. Esta condicin de alarma indica que la combustin de El conocimiento extrado, es muy valioso para las
la turbina no est siendo uniforme, lo cual puede llevar organizaciones a la hora de tomar decisiones. Para tomar
eventualmente a la deformacin de la turbina. Con la decisiones correctas, confiables y acertadas se debe contar
generacin de patrones de prediccin y clasificacin, se busca con la informacin adecuada [7].
anticiparse a la activacin de la alarma por alto spread en el Este artculo describe la aplicacin de un proceso
sistema de combustin de la turbina, con lo cual se podra
metodolgico basado en la gua CRISP-DM (Cross Industry
evitar o disminuir la indisponibilidad de la turbina. Mediante
el entrenamiento de algoritmos de redes neuronales y rboles
Standard Process for Data Mining), para la resolucin de un
de decisin se obtuvieron dos modelos de clasificacin y un problema operacional de alto impacto en una Central
modelo predictivo, los cuales fueron evaluados Generadora de Electricidad.
cuantitativamente y en base a la percepcin de los usuarios, La aplicacin de la metodologa CRISP-DM en una
siendo los modelos de rbol mejor evaluados en este ltimo Central Generadora de Electricidad busca entregar
aspecto. informacin a la empresa para apoyar la toma de decisiones.
En trminos concretos, se busca anticiparse al problema de la
Keywords- Alarma por Alto Spread; Sistema Combustin de activacin de la proteccin por alto spread del sistema de
Turbina a Gas; Identificacin de Patrones en Sistemas de combustin de la TG (Turbina a Gas).
Combustin El resto del artculo est estructurado como se indica a
continuacin. La seccin II describe el problema y su
I. INTRODUCCIN contexto. En la seccin III se describe la metodologa
Actualmente las organizaciones estn inmersas en un empleada en el desarrollo del trabajo. Las secciones IV y V
mercado muy competitivo, por lo que es importante para describen los datos utilizados, su seleccin y transformacin,
ellas, que sus ejecutivos posean informacin relevante y respectivamente. La seccin VI presenta y analiza los
oportuna a la hora de tomar decisiones. Dentro de las modelos de prediccin y clasificacin obtenidos. Finalmente,
herramientas que ocupan las organizaciones para apoyar la se presentan las conclusiones y trabajo futuro.
toma de decisiones, est la minera de datos.
Fayad (1996), define minera de datos como la bsqueda II. SISTEMA DE COMBUSTION DE TURBINA A GAS
de patrones relevantes y de regularidades importantes en El presente caso de estudio se llev a cabo en una Central
grades almacenes de datos [11]. Por otro lado, Michalski Generadora de Electricidad perteneciente al SING (Sistema
(1998) se refiere a minera de datos inteligente como la Interconectado del Norte Grande), cuya matriz energtica es
aplicacin de mtodos de aprendizaje automtico u otros gas y petrleo. Esta Central Generadora, posee dentro de sus
mtodos similares, para descubrir y enumerar patrones objetivos tener la mxima disponibilidad posible para todas
presentes en los datos [12]. El aprendizaje automtico es el sus TG.
rea de la Ingeniera Informtica, que estudia y desarrolla Por lo anterior, resulta imperioso para la organizacin
algoritmos que implementan distintos modelos de
trabajar en evitar fallas en sus TG, que puedan producir
aprendizaje, y lo aplican en la resolucin de problemas
prcticos [16]. alguna indisponibilidad de las TG en la generacin elctrica.
La minera de datos, se presenta como una etapa dentro En lo relacionado al sistema especifico objeto del
de un proceso ms amplio, que se refiere a la aplicacin de estudio, ste corresponde a la turbina a gas, la cual es la
algoritmos especficos para la extraccin de patrones desde principal mquina para generar electricidad que posee la
datos. Dicha etapa es parte del proceso de descubrimiento de organizacin. Esta turbina est compuesta por los sistemas
conocimiento desde los datos, conocido como proceso KDD de escape, enfriamiento y combustin.
(Knowledge Discovery in Databases). En la Figura 1 [9], se puede apreciar las principales
partes de la TG, separadas en dos partes, generacin a gas y
generacin a energa.
A. Gua Metodolgica CRISP-DM
CRISP-DM en esencia corresponde a un modelo de
proceso que proporciona un marco para el desarrollo de
proyectos en el mbito de Data Mining [8]. El cual, est
siendo desarrollado por un consorcio de los principales
usuarios y proveedores de minera de datos.
Este modelo de referencia, proporciona una visin
general del ciclo de vida de un proyecto de minera de datos,
el cual contiene las fases de un proyecto, sus tareas
respectivas, y sus salidas.
El ciclo de vida de un proyecto de minera de datos se
divide en seis fases que se muestran en la Figura 2.
La secuencia de las fases no es estricta, y en la prctica es
un proceso iterativo. Las flechas indican slo las secuencias
Figura 1. Corte longitudinal de la Turbina a gas. 1. generador de gas, 2. y las dependencias ms importantes entre las fases.
generador de energa, 3. labe de turbina de potencia, 4. poder tobera
turbina, 5. generador de turbina de gas cuchilla, 6. revestimiento de
combustin, 7. impulsor del compresor, 8. el generador de estructuras.
rboles estn compuesto por p segmentoss ms pequeos de los ocho pesos siinpticos geneerados por el modelo m de
lllamados nodoos terminales u hojas. Estos nodos son s predicccin.
h
homogneos reespecto a una variable
v de desttino [17].
Las redess neuronales artificiales (A ANN) han siido
u
utilizadas porr muchos inv vestigadores para identificcar
u
ubicacin y seeveridad de distintos
d tipos de variables de
e
entrada y salidda. Ya que, proporcionan
p una herramiennta
e
eficaz para el reeconocimiento o de patrones [118].
El algoritm mo J48 es la implementacin
i n para Weka del
d
a
algoritmo C 4.5. Este algorittmo J48, elige el atributo que q
p
posee el mxximo de info ormacin relaacionada con la
g
ganancia, commo criterio de la mejor divvisin. Adem ms,
u
utiliza los atrributos que mejorm diferenncia las saliddas,
g
generando una rama por cadaa salida. Figura 9. Esttructura de la red neuronal
n articifial.
El algoritm mo RepTree presenta
p una poda
p rpida paara
c
corregir en el rbol
de decisiin los efectos de los ruidos en La ANN empiezaa con unos peesos aleatorios y aprende
loos datos de entrenamiento. El rbol poodado reduce la ajustando dichos vallores iterativam mente, hasta lllegar a un
c
complejidad enn el proceso de clasificacin. estado en donde ess capaz de determinard unna relacin
El algorittmo Multilayeer Perceptron posee funcionnes funcionnal dentro de los objetivos preestablecidos
p s entre los
s
sigmoidales quue se emplean como activaciin de funcionnes datos de
d entrada y el conjunto de datos
d de entrenaamiento en
n lineales paraa todas las capaas. Estas funcioones sigmoidales
no su fase de aprendizajee.
m
minimizan el sobreajuste conc un mtoddo de detecciin El ajuste
a de los coeficientes, se realiza por medio
m de un
temprana. mecaniismo de retro propagacin
p del error desde laas capas de
salidas hacia las capaas ocultas, parra posteriormeente cotejar
El overfittting o sobreaajuste se prodduce cuando un los resuultados obteniddos de la salidda de la red coon el valor
aalgoritmo buscca las mejoress variables parra un modelo en correctoo entregado poor el vector quee contiene el conjunto
c de
p
particular, usanndo un conjuunto de datos limitado, pueede datos de
d entrenamientto.
El mecanismo
m de proceso formaal para cada neuurona es el
siguiennte [4]:
(1)) El modelo
m predicttivo elaborado por algoritmo Multilayer
Percepttron entreg como
c resultadoo la generacin de ocho
En donde,
E da de la neurrona,
es la salid es el ponderaaciones de pessos. Estos pesoos ponderan laas variables
p
producto escaalar entre el vector traspuuesto de pessos de entrrada y empriccamente determ minan la variable clase.
s
sinpticos. Esta vaariable clase es
e la que indicca si se produuce el alto
(2) spread en el sistemaa de combustin de la TG, para unas
variablees de entrada en
e particular.
es el vector de
d pesos sinptticos.
B. Alggoritmo Rep Tree
(3)
El algoritmo
a RepTTree se utiliza para
p la elaboraacin de un
es el vector de
d entradas a laa neurona. patrn de clasificacin, obteniendoo como resulttado de la
El subndicee m indica el nmero de entraadas a la neuronna, aplicacin de dicho algoritmo
a una representacin
r grfica de
es un valorr denominado umbral que permitep ajustarrse un rbool de clasificaciin.
p disminuir el
para e sesgo. El funcionamiento
f o del algoritmoo RepTree se coompone de
La funcin transforma el e escalar resultante en la saliida dos fasses, en la primmera fase se creea un conjuntoo de reglas
d la neurona, en la mayora de los casos coorresponde a una
de u l datos usadoos para el aprendizaje, en
que se sobreajuste a los
f
funcin sigmoiddal. la seguunda fase se poda el conj njunto de regllas usando
(4) ejemploos que no participaron en el aprendizaje
a [3]..
El resultadoo de esta funccin produce salidas dentro del d Paraa la aplicacin de este alggoritmo se utillizaron los
r
rango [0,1]. Laa salida de cad
da neurona, es una entrada paara parmeetros por defecttos en la constrruccin el modeelo.
c
cada neurona de d la capa sigguiente, exceptto en la primeera En la Figura 10 see muestra el rrbol grfico geenerado por
c
capa, en dondee la entrada ess el vector con c las variables el algorritmo Rep Tree. La rama izqquierda del rbbol muestra
inndependientes,, tal como se aprecia
a en la Figura 9. la partte no relacionnada con la condicin
c de alarma,
a en
cambioo en la rama derecha
d del rbbol estn los indicadores
i
que corrresponden a laa alarma.
Criterio Algoritmos
MultiLayer RepTree J48
Perceptron
Fiigura 11: rbol Grfico generado porr el algoritmo J48. Es comprensible S No S
Cuumple con la S S S
funcin
VII. RESULTADOS
E A
Ayuda a los No S S
o
objetivos del
Para la connstruccin de cada uno de los modelos de negocio
minera de daatos generadoss, se ocup un 95% de las
m Pootencialmente S S S
innstancias paraa entrenamientto y un 5% para
p prueba. Las
L til
m
mtricas de rendimiento
r de cada modeelo generado se A
Aprobado No No S
r
resumen en la Tabla
T 6. Tablla 7: Resumen de aceptacin
a de los modelos.
m
Variable Algoritm
mos
El modelo
m de classificacin de J48,
J se basa slo
s en un
MultiLaayer RepTrree J48
atributoo que es la inntensidad de laa llama de la cmara de
Percepttron combusstin nmero cinco.
c e usuario esto se explica
Segn el
porque en el sistema de combustin existen 14 cmaras
c de
Coeficiente de 0.739
95 0.81588 0.7992
correlacin las cuaales 3 poseenn termocuplass, para la meedicin de
Media de error 0.004
45 0.00477 0.0043 temperaatura, en el casso de la cmara nmero cinco es la que
absoluto se encuentra ms cercana a las otras dos cm maras que
Raiz de error 0.049
95 0.04833 0.0443 tambinn poseen term mocuplas. Estoo explicara ele por qu
cuadrado cuandoo se produce unau alta difereencia de tempeeratura por
Error absooluto 39.3034
4% 41.58288 % 37.6059 % alto sppread, se mannifiesta dichaa diferencia con c mayor
relativo
Raiz de error 69.3076
6% 67.68799 % 61.9838 %
intensiddad en la temmperatura de laa cmara de combustin
c
relativo cuadraado nmeroo cinco.
Nmero de 1171
1 1171 1171
instancias VIII. CONC
CLUSIONES Y TRABAJO
R FUTUR
RO
Tabla 6: Resum
men de resultados de modelos. Con los patrones de d prediccin y clasificacin generados,
se cuennta con inform macin para saber
s qu valoores deben
Una vez obbtenidos los modelos dee prediccin y
U tener laas seales clavves, cuando se produce la acttivacin de
c
clasificacin, se requiri la evaluacin
e del usuario respeccto la proteeccin por altoo spread del siistema de com mbustin de
d potencial grado
del g de inteers en cada uno
u de ellos. A la TG, para as evitarr la activacin de dicha proteccin. Con
c
continuacin see resume esta evaluacin.
e la utilizzacin de esta informacin para
p tomar deccisiones, se
A Modelo de prediccin
A. p ANN
NN deberaa aumentar laa disponibilidaad de la TG G para dar
El modelo de prediccin generado porr la red neuronnal cumplim miento a los objetivos de la empresa, adems a de
a
artificial, permiite indicar si op
pera o no la alaarma para valorres mejorarr la confiabiliddad ante sus cliientes.
e
especficos dee las variablees de entradaa. Por lo quue, A partir
p del trabbajo desarrollaado se identifica como
o
operacionalmen nte no es unaa ayuda para anticiparse a la accin futura la geeneracin de una simulacin de las
a
activacin de laa alarma. condiciiones de operaccin de la plantta. Esto permittira validar
el modeelo de minera de datos generrado. Una vez validado
v el
B Modelo de clasificacin
B. c Rep
R Tree modeloo de clasificacin, se procederr a su implantaacin. Esto
El modelo de clasificacin elaborado por el algoritmmo es, idenntificar anticipaadamente el surrgimiento de laa condicin
R Tree clasiffica la operacin de la alarm
Rep ma, a partir de un de una alarma que perrmita evitar el disparo
d de la tuurbina.
IX. AGRADECIMIENTOS [5] Abrahart, R.J., See, L. y Kneale, P.E. 2001. Investigating the role of
saliency analysis with a neural network rainfall-runoff model. Journal
Este trabajo fue realizado en el marco del desarrollo de of Computers and Geosciences, 27: 921-928.
un caso de estudio en la asignatura de minera de datos 1 del [6] Soman, T. and Bobbie, P.O. 2005. Classification of Arrhythmia Using
programa de Magster en Ingeniera Informtica de la UCN. Machine Learning Techniques. Southern Polytechnic State University
(SPSU) 1100 S. Marietta Parkway, Marietta, GA 30060, USA.
[7] Elizabeth Vitt, Michael Luckevich, Stacia Misner. 2002. Making
X. GLOSARIO DE TRMINOS Better Business Intelligence Decisions Faster. editors Microsoft
Press.
Alternador: Mquina elctrica generadora de corriente [8] R. Wirth, J. Hipp. 2000. CRISP-DM: Towards a standard process
alterna. model for data mining, in: Proceedings of the 4th International
Alto Spread TG: Es cuando se produce una alta diferencia Conference on the Practical Applications of Knowledge Discovery
de temperatura entre las cmaras de combustin de la and Data Mining, Manchester, UK, 2000, pp. 29-39.
turbina a gas. [9] Min Tae Kim, Si Woo Lee. 2012. Application of in situ oxidation-
resistant coating technology to a home-made 100 kW class gas
Cmara de combustin: Consiste en un recipiente al cual turbine an its performance analysis. Applied Thermal Engineering,
ingresa aire comprimido, al que se le aade combustible y se Volume 40, Pages 304310.
quema en forma ininterrumpida. [10] Frank J. Brooks. 2001. GE Gas Turbine Performance Characteristics.
Disponibilidad: Se produce cuando una turbina est GE Power Systems Schenectady, NY GER-3567H.
declarada al controlador del SING, como utilizable para [11] M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth, and
Ramasamy Uthurusamy. 1996. Advances in Knowledge Discovery
producir electricidad. and Data Mining. San Mateo, AAAI Press, EE.UU.
Matriz Energtica: Son los posibles combustibles que [12] Michalski, R.S., Bratko, I., Kubat M. 1998. Machine Learning
ocupa una Central para generar electricidad. andData Mining. Methods and Applications. Wiley & Sons Ltd.,
PI System: El estndar de la industria en la infraestructura EE.UU.
de la empresa para la gestin de datos en tiempo real y [13] S.G. Jolandan, H Mobli, H Ahmadi, M Omid, S.S. Mohtasebi. 2012.
eventos. Fuzzy-Rule-Based Faults Classification of Gearbox Tractor.
Department of Agricultural Machinery Engineering, faculty of
Potencia elctrica: Es la velocidad con que se agota la Agricultural Engineering and technology University of Tehran, Karaj,
energa. Iran.
Rotor: Parte giratoria de una turbina. [14] Christina Athanasopoulou, Vasilis Chatziathanasiou and Ioannis
SING: Agrupacin de Centrales Generadoras de Petridis. 2007. Utilizing data mining algorithms for identification and
reconstruction of sensor faults: a Thermal Power Plant case study.
Electricidad que se encuentran ubicadas entre las ciudades University of Thessaloniki.
de Arica y Antofagasta. [15] Vedrana Vidulin, Mitja Lutrek, Matja Gams. 2007. Comparison of
Salidas forzadas: Es la interrupcin intempestiva de la the performance of genre classifiers trained by different machine
turbina por falla o defecto de esta o cualquier otro motivo. learning algorithms. Department of Intelligent Systems. Joef Stefan
Sistema de Control Distribuido: Es un concepto en donde Institute. Jamova 39, 1000 Ljubljana, Slovenia.
la filosofa del equipo se define como la distribucin [16] Michalski, R. S. 1983. A Theory and Methodology of Inductive
Learning. En Michalski, R. S., Carbonell, J. G., Mitchell, T. M.
geogrfica del control, enlazada por una red de (eds.). Machine Learning: An Artificial Intelligence Approach, Vol. I.
comunicaciones, cuyo destino es centralizar un cuadro de Morgan-Kauffman, EE.UU.
control central. [17] Jun Li, Shunyi Zhang, Yanqing Lu, Junrong Yan. 2008. Real-time
Turbina a Gas: Es un motor trmico rotativo de flujo P2P Traffic Identification. Nanjing University of Posts and
continuo que se caracteriza por presentar una baja relacin Telecommunication, Nanjing, JiangSu, China. Zhejiang Wanli
University, Ningbo, Zhejiang, China.
peso-potencia y una velocidad de giro muy elevada
[18] Prechelt L. 1998. Early stopping but when? In. Orr GB, Muller
OR, editors. Neural networks: Tricks of the trade. Berlin: Springer-
Verlag Telos.
XI. REFERENCIAS [19] Ayman Ahmed Seleemah. 2012. A multilayer perceptron for
[1] U.M. Fayyad, G. Piatetsky-Sapiro, and P. Smyth. 1991. From data predicting the ultimate shear strength of reinforced concrete beams.
mining to knowledge discovery in databases. Editors, Advances in Journal of Civil Engineering and Construction Technology Vol. 3(2),
Knowledge Discovery and Data Mining, page 39. AAAI Press, pp. 64-79.
(1997). [20] U.M. Fayyad, G. P. Shapiro and P. Smyth. 1996. The KDD process
[2] Mark A. Hall, Geoffrey Holmes. 2003. Benchmarking Attribute for extracting useful knowledge from volumes from data.
Selection Techniques for Discrete Class Data Mining. IEEE Communication of ACM, Vol. 39(11).
transactions on knowledge and data engineering, vol. 15, NO. 3.
[3] I.H. Witten, E. Frank. (2005). Data Mining: practical machine
learning tools and techniques 2nd. Edition. Morgan Kaufmann.
[4] D. Rumelhart, G. Hinton, and R. Williams. 1986. Learning
representation by error propagation, In D.E. Rumelhart and J.L.
Mclelland, editors, Paralled Distributed Procession (Cambridge, MA:
MIT Press).