Sei sulla pagina 1di 103

An

alisis de las series temporales de los


precios del mercado el
ectrico mediante
t
ecnicas de clustering

Francisco Martnez Alvarez,


28771621R
fmartinez@lsi.us.es

Supervisada por Prof. Dr. Jose C. Riquelme Santos

Informe enviado al Departamento de Lenguajes y Sistemas Informaticos


de la Universidad de Sevilla como cumplimiento parcial de los requisitos
para obtener el grado de Doctor en Ingeniera Informatica.
(Periodo investigador)

Indice
1 Introducci
on
1.1 La electricidad y el mercado electrico . . . . . . . . . . . . . . . .
1.2 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1
1
3
4

2 Minera de datos
2.1 Definiciones y conceptos. . . . . . . . . . . . . . . . .
2.2 Pasos necesarios para la extraccion de conocimiento
2.3 Obtenci
on de un modelo de conocimiento . . . . . .
2.4 Entrenamiento y validacion de datos . . . . . . . . .
2.5 Extensi
on de la minera de datos . . . . . . . . . . .

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

6
6
10
10
12
13

3 Series temporales
3.1 Introducci
on . . . . . . . . . . . . . . . . . . . . . .
3.2 Modelado de las series temporales . . . . . . . . .
3.3 Preprocesado de series temporales . . . . . . . . .
3.3.1 Outliers . . . . . . . . . . . . . . . . . . . .
3.3.2 Tecnicas de seleccion de atributos . . . . .
3.3.3 Discretizaci
on de los atributos. . . . . . . .
3.4 Predicci
on de series temporales: tecnicas y modelos
3.4.1 Predicci
on basada en reglas de decision . .
3.4.2 Predicci
on basada en metodos lineales . . .
3.4.3 Predicci
on basada en metodos no lineales .
3.4.4 Predicci
on basada en metodos locales . . .

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

15
15
17
18
19
20
22
23
24
25
32
43

.
.
.
.
.
.
.
.
.
.
.

4 An
alisis de las t
ecnicas de clustering. Aplicaci
on a series
porales
4.1 Introducci
on . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Componentes de una tarea de clustering . . . . . . . . . . .
4.3 Medidas de la distancia . . . . . . . . . . . . . . . . . . . .
4.4 Similitudes y disimilitudes: medida de la calidad del cluster
4.5 Tipos de datos en el analisis de clusters . . . . . . . . . . .
4.5.1 Variables escaladas a intervalos . . . . . . . . . . . .
4.5.2 Variables binarias . . . . . . . . . . . . . . . . . . .

tem.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

47
47
50
51
53
54
55
56

4.6

4.5.3 Variables nominales, ordinales y ponderadas


Tecnicas de clustering . . . . . . . . . . . . . . . .
4.6.1 Metodos particionales . . . . . . . . . . . .
4.6.2 Clustering jerarquico . . . . . . . . . . . . .
4.6.3 Metodos basados en densidad . . . . . . . .
4.6.4 Fuzzy clustering . . . . . . . . . . . . . . .

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

57
59
60
63
64
64

5 Resultados
5.1 Elecci
on del n
umero de clusters . . . . . .
5.2 Evaluaci
on de los resultados obtenidos . .
5.2.1 Metodo K-means . . . . . . . . . .
5.2.2 Metodo Fuzzy C-means . . . . . .
5.2.3 Metodo Expectation Maximization

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

66
67
69
69
73
76

6 Conclusiones
6.1 Condiciones meteorologicas
6.2 Calendario . . . . . . . . . .
6.2.1 Hora del da . . . . .
6.2.2 Da de la semana . .
6.2.3 Mes del a
no . . . . .
6.3 Informaci
on econ
omica . . .
6.4 Factores no predecibles . . .

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

80
81
81
81
81
82
82
84

.
.
.
.
.
.
.

.
.
.
.
.
.
.

A Curriculum vitae

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

85

ii

Indice de figuras
1.1

Exceso de la oferta y de la demanda. . . . . . . . . . . . . . . . .

2.1

Fases de la minera de datos. . . . . . . . . . . . . . . . . . . . .

12

3.1

Ejemplo de serie temporal: precio de la energa electrica en Espa


na
durante el da 14 de marzo de 2007. . . . . . . . . . . . . . . . .
Estructura tpica de una RNA. . . . . . . . . . . . . . . . . . . .
Clasificaci
on de los tipos de redes neuronales artificiales. . . . . .
Hiperplano (w, b) equidistante a dos clases, margen geometrico y
vectores soporte. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Conjunto de datos no separable linealmente. . . . . . . . . . . . .
B
usqueda progresiva de los vecinos mas cercanos. . . . . . . . . .

3.2
3.3
3.4
3.5
3.6
5.1
5.2
5.3
5.4
5.5
5.6
5.7
5.8

6.1
6.2
6.3

Curvas silhouette obtenidas para 4, 5 y 6 clusters respectivamente.


Cross-validation para determinar el n
umero de clusters en EM. .
Distribuci
on de los das en los diferentes clusters obtenidos va
K-means. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Curvas caractersticas de los clusters obtenidos con el metodo
K-means para el a
no 2005. . . . . . . . . . . . . . . . . . . . . . .
Distribuci
on de los das en los diferentes clusters obtenidos va
Fuzzy C-means. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Curvas caractersticas de los clusters obtenidos con el metodo
Fuzzy C-means para el a
no 2005. . . . . . . . . . . . . . . . . . .
Distribuci
on de los das en los diferentes clusters obtenidos va
Expectation Maximization. . . . . . . . . . . . . . . . . . . . . .
Curvas caractersticas de los clusters obtenidos con el metodo
Expectation Maximization para el a
no 2005. . . . . . . . . . . . .
Demanda de energa electrica en Espa
na el da 14 de marzo de
2007. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Demanda de energa electrica en Espa
na durante la semana del
12 al 19 de marzo de 2007. . . . . . . . . . . . . . . . . . . . . . .
Demanda de energa electrica en Espa
na promedio durante el a
no
2006. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

iii

17
33
36
41
42
44
68
69
71
73
74
76
77
79

82
83
83

Indice de tablas
4.1

Tabla de contingencia para variables binarias. . . . . . . . . . . .

5.1

Distribuci
on de los das de la semana en los diferentes clustes
generados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Das laborables te
oricamente mal clasificados con K-means. . . .
Fines de semana mal clasificados con K-means. . . . . . . . . . .
Grado de pertenencia de los das a los diferentes clusters generados va Fuzzy C-means. . . . . . . . . . . . . . . . . . . . . . . .
Das laborables te
oricamente mal clasificados con Fuzzy C-means.
Fines de semana te
oricamente mal clasificados con Fuzzy C-means.
Grado de pertenencia de los das a los diferentes clusters generados va EM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5.2
5.3
5.4
5.5
5.6
5.7

iv

56

69
70
72
75
75
75
78

Agradecimientos
La realizaci
on de este trabajo no hubiera sido posible sin la inestimable ayuda
del Prof. Dr. Jose C. Riquelme, cuya tutela me ha resultado tan enriquecedora
como provechosa.
A la Prof. Dra. Alicia Troncoso quiero agradecerle sus innumerables consejos
que han resultado siempre muy certeros y de gran utilidad.
Por u
ltimo, quiero agredecer tambien a la Prof. Beatriz Pontes toda su
ayuda desinteresada a lo largo del periodo docente y del periodo investigador.

Resumen
El desarrollo de tecnicas de prediccion esta adquiriendo un protagonismo notable en el mercado electrico. Este hecho se debe al proceso de desregulacion
que se est
a produciendo actualmente en los mercados electricos. As, resulta de
vital importancia para las compa
nas productoras de electricidad poder contar
con herramientas capaces de optimizar las ofertas realizadas. Este trabajo se
centra en la extracci
on de informacion u
til de las series temporales de los precios
del mercado electrico, haciendo especial hincapie en las tecnicas de clustering.
Dichas tecnicas son la base de muchos algoritmos de clasificacion y de modelado de sistemas, siendo su principal tarea generar grupos de datos homogeneos
a partir de grandes conjuntos de datos con la intencion de obtener una representaci
on del comportamiento del sistema de la manera mas precisa posible. La
principal y m
as novedosa aportacion de este trabajo radica, precisamente, en
la utilizaci
on de las tecnicas de clustering para hacer una agrupacion inicial del
comportamiento de los elementos pertenecientes a la serie temporal del precio de
la electricidad para, posteriormente, ser capaces de predecir como evolucionara
la curva de los precios en das posteriores. Otras tecnicas ya han sido usadas
para este fin (redes neuronales artificiales, programacion genetica, maquinas de
vector soporte o transformadas de wavelet) pero los resultados no fueron tan
prometedores como los obtenidos al aplicar clustering.

Captulo 1

Introducci
on
1.1

La electricidad y el mercado el
ectrico

No cabe duda de que la electricidad constituye una de las principales fuentes de


energa con las que cuenta nuestra civilizacion. Su empleo abarca un amplsimo
abanico de actividades que se extiende desde los usos puramente industriales
hasta el consumo domestico de las familias. Mas a
un, en un contexto mundial de
creciente competencia, no se concibe una economa en crecimiento y competitiva
en el
ambito global sin un fluido electrico de calidad y a precios altamente
competitivos. Esta elevada dependencia ha convertido a la energa electrica en
un factor estrategico que posee unos intensos efectos de arrastre, ya no solo de
car
acter econ
omico sino tambien de caracter social. De este modo, se puede
afirmar que vivimos en un mundo que funciona con electricidad.
Desde un punto de vista tecnico suele hablarse de la energa electrica como
una fuente de energa secundaria, dado que la misma se obtiene a partir de
otras fuentes denominadas primarias, basicamente: carbon, gas y petroleo (combustibles f
osiles), hidr
aulica y nuclear, [33]. Al margen de estas y otras consideraciones puramente tecnicas, desde un punto de vista economico debemos
de rese
nar dos importantes caractersticas que ayudan a comprender el funcionamiento del mercado electrico, [77]:
1. Con independencia de la fuente primaria utilizada, la energa electrica no
puede ser almacenada. Dado el actual estado de la ciencia, si bien es
posible almacenar peque
nas cantidades de energa electrica en forma de
pilas qumicas o dispositivos similares, no existe forma eficiente conocida
para almacenar las cantidades generadas por una central estandar.
2. En la mayor parte de sus usos la electricidad juega el papel de una entrada especfica, es decir, el de un factor productivo que no puede ser
reemplazado a corto plazo. Se puede pensar que si bien la mayor parte de
los instrumentos electricos podran ser adaptados para funcionar con otras
fuentes de energa (gasoleo, gas...), a corto plazo estas modificaciones no
seran factibles.
1

Figura 1.1: Exceso de la oferta y de la demanda.


Estas caractersticas dotan al mercado electrico de una serie de peculiaridades
sumamente interesantes.
En la Figura 1.1, parte izquierda, se muestra un exceso de oferta en un mercado convencional. El
area sombreada se correspondera con el valor de los stocks
acumulados. Sin embargo, en el mercado electrico, al ser la electricidad un bien
no acumulable, el exceso de oferta, entendiendose este como aquella electricidad producida y no consumida inmediatamente, se perdera sin mas. En esta
nueva situaci
on el
area sombreada representara las perdidas asociadas a una
asignaci
on ineficiente de las fuentes primarias, que constituyen recursos escasos
y limitados. Por otra parte, en la parte derecha de la Figura 1.1, se muestra una
situaci
on de exceso de demanda. En un mercado tradicional, el area sombreada
representara el valor de la demanda no atendida. Dada esta situacion los demandantes tendran la posibilidad de esperar a que se atendiera su peticion (se
formaran colas), o alternativamente podran consumir alg
un sustitutivo cercano del bien demandado. Sin embargo en el mercado electrico no existe la
posibilidad de recurrir a sustitutivos cercanos, al menos en el corto plazo. Respecto a la primera alternativa (formacion de colas), un retraso en el suministro
electrico podra tener gravsimas consecuencias economicas y sociales. En la
nueva situaci
on el
area sombreada representara un coste de eficiencia asociado
a la situaci
on de exceso de demanda.
Las caractersticas especiales de la energa electrica han motivado la creacion
de un organismo denominado Operador del Mercado Electrico (la Red Electrica
de Espa
na opera el sistema electrico peninsular garantizando las condiciones
tecnicas para que la electricidad fluya continuamente desde los centros de generaci
on hasta los centros de consumo) que act
ua como regulador, tratando de
coordinar en todo momento la oferta y la demanda. Este organismo puede
tener titularidad p
ublica (Argentina, Chile, El Salvador) o privada (Espa
na,
pases de la UE, etc.). En el caso concreto de la UE, los mercados electricos de
los pases miembros se encuentran atravesando un proceso liberalizador con el
que se pretende romper los viejos monopolios estatales y dotar as de una mayor
competitividad a los mercados, siendo la u
ltima meta la creacion de un mercado
electrico europeo. Al margen de quien ostente la titularidad del operador del

mercado, este asume una serie de responsabilidades vitales.


1. La sustituci
on de la energa que un grupo no pudo producir.
2. El suministro instant
aneo de la energa que los consumidores desean en
cada momento.
De este modo la operaci
on del sistema hace posible que el mercado funcione
y aporta una liquidez absoluta a generadores y consumidores. El esquema de
funcionamiento seguido por el operador sera el siguiente. En primer lugar,
debera averiguar el valor que toma la demanda electrica en cada momento,
tratando de llegar a la denominada curva de carga. Una vez conocido este
dato, el operador se dirigira a los centros de produccion, indicandoles la carga
electrica que deben de introducir en la red en cada momento para garantizar la
cobertura de la demanda y, al mismo tiempo, minimizar la sobreproduccion y
sus costes de eficiencia. Sin embargo la demanda electrica es muy variable a lo
largo de los a
nos, los meses, los das e incluso las horas. Estas caractersticas
aportan una incertidumbre al sistema electrico que afecta de forma significativa
al coste final del suministro. Para reducir este factor de coste, el gestor necesita
conocer con precisi
on los mecanismos que hacen variar la demanda. Con la
informaci
on aportada por la curva de carga se logran dos objetivos, [5]:
1. Prever y adaptarse a la demanda en los distintos plazos. A corto, en la
operaci
on del sistema, y a largo en la creacion de nuevas centrales y redes
para el suministro.
2. Gestionar la demanda. Es decir, inducir a los consumidores a modificar
sus pautas de consumo electrico para lograr una mayor eficiencia conjunta
del proceso de suministro y uso.

1.2

Clustering

El an
alisis de datos se ha convertido en una tarea indispensable para la comprensi
on del comportamiento de multitud de fenomenos en la actualidad. As, la
gesti
on y mantenimiento de grandes cantidades de informacion supone una actividad cotidiana en muchas empresas y, de hecho, poseer grandes bases de datos
es sntoma inequvoco de tener grandes aspiraciones comerciales y economicas.
La pregunta es inmediata: que hacer con tanta informacion? La clave de este
proceso es disponer de herramientas potentes capaces de extraer informacion
u
til de estas bases de datos: modelar conductas o predecir comportamientos
son las tareas m
as habituales.
La clasificaci
on ha jugado un papel importante e indispensable a lo largo
de la historia del desarrollo humano. Siempre que se ha encontrado un nuevo
objeto se ha tratado de buscar las caractersticas que lo describan para poder
realizar, de este modo, comparaciones con otros objetos ya conocidos de acuerdo
con ciertas reglas de similitud. Basicamente, los sistemas de clasificacion pueden
ser supervisados o no supervisados. En la clasificacion supervisada el mapeado
3

de los datos de entrada (x<d , donde d es la dimension del espacio de entrada) a


un conjunto finito de clases (o etiquetas) se modela en terminos de una funcion
matem
atica tal que y = y(x, w), donde w es un vector de parametros ajustables.
Dichos valores se optimizan mediante un algoritmo inductivo (tambien llamado
inductor) de aprendizaje cuyo proposito es el de minimizar el riesgo emprico
funcional de un conjunto de ejemplos de entrada y salida. Cuando el inductor
alcanza la convergencia o termina se genera un clasificador inducido.
En la clasificaci
on no supervisada, tambien llamada clustering o analisis de
datos por exploraci
on, se dispone de datos de entrada sin etiquetar. Mediante
este tipo de tecnicas un grupo de objetos se divide en subgrupos, mas o menos
homogeneos, en funci
on de una medida de similitud, escogida frecuentemente
subjetivamente, de tal modo que la similitud entre losobjetos pertenecientes a
un subgrupo es mayor que la similitud exhibida por los otros subgrupos. El objetivo del clustering es, pues, separar un conjunto finito de datos sin etiquetar
en un conjunto finito y discreto de datos estructurados que proporcionen una
caracterizaci
on precisa del sistema capaz de clasificar futuras muestras generadas con la misma distribucion de probabilidad de las muestras iniciales. Este
hecho puede hacer que la tarea del clustering requiera salirse el marco tpico
de aprendizaje predictivo no supervisado utilizando tecnicas tales como cuantizaci
on vectorial, estimaci
on de la funcion de densidad de probabilidad o maximizaci
on de la entropa. Se debe resaltar el hecho de que el clustering difiere
del escalado multidimensional (mapas perceptuales) cuya meta es representar
todos los objetos de tal manera que minimicen la distorsion topografica usando
el menor n
umero de dimensiones posibles. As, los algoritmos de clustering dividen datos en un cierto n
umero de clusters o agrupaciones (grupos, subconjuntos
o categoras). Aunque no existe un consenso universal acerca de su definicion,
la mayora de investigadores describen un cluster considerando su homogeneidad interna y su separaci
on externa, esto es, los patrones pertenecientes a un
mismo cluster deben ser parecidos mientras que los patrones de entre clusters
diferentes no deben serlo. Tanto las semejanzas como las diferencias deben ser
cuantificables en, al menos, un criterio de clasificacion claro.

1.3

Objetivos

El presente trabajo de investigacion esta dirigido a hacer un estudio de las


diferentes tecnicas de minera de datos existentes que se pueden utilizar para
extraer informaci
on u
til de la serie temporal del precio de la energa electrica.
Concretamente, est
a centrado en las tecnicas de clustering, cuya aplicacion ha
sido hasta el momento bastante escasa a series temporales de precios.
Se persigue fundamentalmente, pues, ser capaces de conseguir encontrar
un comportamiento l
ogico a una serie que, en principio, presenta un comportamiento totalmente estoc
astico. Una vez que se consiga obtener los patrones,
estos ser
an usados para intentar hacer una prediccion lo mas precisa posible de
cu
al ser
a el comporamiento que tendra la curva de precios a lo largo del da
siguiente.

La utilidad e importancia de este hecho surge de la actual y progresiva


desregularizaci
on de los mercados electricos europeos. Las compa
nas electricas
deben estar preparadas para hacer frente a una demanda energetica, sea cual
sea la circunstancia y, adem
as, deberan hacerlo intentando obtener los maximos
beneficios econ
omicos posibles.
El resto del documento se estructura como sigue. En el captulo 2 se hace
un repaso del concepto de minera de datos. Se detallan los pasos necesarios
para extraer conocimiento de los datos de entrada mediante la creacion de un
modelo previo. El captulo concluye discutiendo sobre las distintas extensiones
que existen en la minera de datos.
El captulo 3 est
a dedicado al analisis matematico de las series temporales.
Se describen sus caractersticas fundamentales y se detallan las tecnicas necesarias para el preprocesado de las series. A continuacion se exponen las tecnicas
actuales que se aplican para la prediccion de valores en series temporales, distinguiendo entre metodos globales, metodos lineales, metodos no lineales y metodos
locales.
El captulo 4 se hace un recorrido por las m
ultiples tecnicas de clustering
existentes, haciendo especial hincapie en aquellas que ya han sido usadas para
la predicci
on de series temporales.
Durante el transcurso del periodo investigador se han ido obteniendo algunos
resultados bastante interesantes. Son los mostrados en el captulo 5. As, los
metodos K-means, Fuzzy C-means y EM han sido aplicados a las series temporales del precio de la energa electrica del mercado espa
nol.
Finalmente, el captulo 6 queda para recoger todas las conclusiones derivadas
de este estudio.

Captulo 2

Minera de datos
2.1

Definiciones y conceptos.

En la sociedad actual se ha producido un gran crecimiento de las bases de datos y


una necesidad de aumento de las capacidades de almacenamiento que no pueden
resolverse por metodos manuales. Por este motivo se hacen necesarias tecnicas
y herramientas inform
aticas que ayuden, de forma automatica, en el analisis de
esas grandes cantidades de datos, la mayora de las veces infrautilizados.
La minera de datos (en ingles data mining) es una de las tecnicas mas
utilizadas actualmente para analizar la informacion de las bases de datos. Se
fundamenta en varias disciplinas, como la estadstica, la visualizacion de datos,
sistemas para tomas de decision, el aprendizaje automatico o la computacion
paralela y distribuida, beneficiandose de los avances en estas tecnologas pero
difiriendo de ellas en la finalidad que persigue: extraer patrones, describir tendencias, predecir comportamientos y, sobre todo, ser provechosa en la investigaci
on computerizada que envuelve la sociedad actual con amplias bases de
datos de escasa utilidad.
La minera de datos no es mas que una etapa, aunque la mas importante, del
descubrimiento de la informacion en bases de datos (KDD o Knowledge discovery
in databases), entendiendo por descubrimiento la existencia de una informacion
valiosa pero desconocida y escondida con anterioridad. Este proceso consta
de varias fases, como se detalla mas adelante, e incorpora distintas tecnicas
del aprendizaje autom
atico, las bases de datos, la estadstica, la inteligencia
artificial y otras
areas de la informatica y de la informacion en general.
Una de las causas que ha hecho mas popular las aplicaciones de la minera
de datos ha sido la difusi
on de herramientas y paquetes como Intelligent Miner
de IBM, Enterpriser Miner de SAS o DM Suite (Darwin) de Oracle, por poner
solo algunos ejemplos, que pueden servir para que analicen sus datos tanto un
profesional, una empresa, una institucion como un particular. Por tanto, el
exito est
a asegurado al ser los usuarios tan numerosos y variados.
Estos paquetes integrados, las suites, que empiezan a aparecer a principios de

los 90, son capaces de trabajar con distintos datos, con diferentes conocimientos
y aplicaci
on a distintas
areas. Pero la diversidad de disciplinas que contribuyen
a la minera de datos da lugar a gran variedad de sistemas especficos para
analizar los tipos de datos que se desean. Teniendo en cuenta el modelo de
datos que generan, los que minan, y la tecnica o el tipo de aplicacion al que se
puede destinar, distinguimos siguiendo a Hernandez Orallo [81] los siguientes
tipos:
1. Tipo de base de dato minada. Partiendo de diferentes modelos de
datos, existen sistemas de mineras de datos relacionados y multidimensionales, entre otros. As mismo, teniendo en cuenta los tipos de datos
usados se producen sistemas textuales, multimedia, espaciales o web.
2. Tipo de conocimiento minado. Teniendo en cuenta los niveles de
abstracci
on del conocimiento minado se distinguen:
Conocimiento generalizado con alto nivel de abstraccion.
Conocimiento a nivel primitivo, con de filas de datos.
Conocimiento a m
ultiples niveles, de abstraccion.
Adem
as, se debe hacer la distincion entre los sistemas que buscan patrones,
es decir, regularidades, y los que buscan excepciones, irregularidades.
3. Tipo de funcionalidad (clasificacion, agrupamiento) y de tecnica, es
decir, metodos de an
alisis de los datos empleados.
4. Tipo de aplicaci
on. En el que distinguimos dos tipos: los de proposito
general y los especficos. Sin pretender ser exhaustivos, se exponen seguidamente algunos ejemplos de aplicaciones.
Medicina, b
asicamente para encontrar la probabilidad de una respuesta satisfactoria a un tratamiento medico o la deteccion de pacientes con riesgo de sufrir alguna patologa (deteccion de carcinomas,
p
olipos...).
Mercadotecnia. Analisis de mercado, identificacion de clientes asociados a determinados productos, evaluaciones de campa
nas publicitarias, estimaciones de costes o seleccion de empleados.
Manufacturas e industria: deteccion de fallas.
Telecomunicaciones. Determinacion de niveles de audiencia, deteccion
de fraudes, etc.
Finanzas. An
alisis de riesgos bancarios, determinacion de gasto por
parte de los clientes, inversiones en bolsa y banca etc.
Climatologa. Prediccion de tormentas o de incendios forestales.
Comunicaci
on. Analisis de niveles de audiencia y programacion en
los mass media
Hacienda. Deteccion de fraude fiscal
7

Poltica. Dise
no de campa
nas electorales, de la propaganda poltica,
de intenci
on de voto, etc.
Como se puede apreciar, son muchos los campos y muy variados en los que
la minera de datos puede resultar muy u
til y eficaz. En sntesis, se pueden
establecer como objetivos prioritarios de la minera de datos los siguientes:
1. Identificaci
on de patrones significativos o relevantes.
2. Procesamiento autom
atico de grandes cantidades de datos.
3. Presentaci
on de los patrones como conocimiento adecuado para satisfacer
los objetivos de los usuarios.
Como siempre que surge una nueva tecnica, la definicion del concepto no
resulta f
acil. Para ilustrarlo, se presentan aqu algunas de las definiciones de
minera de datos m
as conocidas:
Definici
on 1. Es el proceso no trivial de descubrir patrones validos, nuevos,
potencialmente u
tiles y comprensibles dentro de un conjunto de datos [82].
Definici
on 2. Es la aplicacion de algoritmos especficos para extraer patrones
de datos [27], entendiendo por datos un conjunto de hechos y por patrones
una expresi
on en alg
un lenguaje que describe un subconjunto de datos,
siempre que sea m
as sencilla que la simple enumeracion de todos los hechos
que componen.
Definici
on 3. Es la integracion de un conjunto de areas que tienen como
prop
osito la identificacion de un conocimiento obtenido a partir de las
bases de datos que aporten un sesgo hacia la toma de decision [38].
Definici
on 4. Es el proceso de descubrimiento de conocimiento sobre repositorios de datos complejos mediante la extraccion oculta y potencialmente
u
til en forma de patrones globales y relaciones estructurales implcitas
entre datos [59].
Definici
on 5. El proceso de extraer conocimiento u
til y comprensible, previamente desconocido, desde grandes cantidades de datos almacenados en
distintos formatos [116].
Definici
on 6. La tarea fundamental de la minera de datos es encontrar modelos inteligibles a partir de los datos [81].
Algunos autores distinguen dos tipos de minera de datos [27]:
1. Mdp o minera de datos predictiva, es decir, prediccion de datos, basicamente
tecnicas estadsticas. Las tareas de datos que producen modelos predictivos son la clasificaci
on y la regresion.

Es la tarea m
as usada. Cada registro de la base de datos pertenece a
una determinada clase (etiqueta discreta) que se indica mediante el
valor de un atributo o clase de la instancia. El objetivo es predecir
una clase, dados los valores de los atributos. Se usan, por ejemplo,
arboles de decisi

on y sistemas de reglas o analisis de discriminantes.


Hay variantes de la tarea de la clasificacion: rankings, aprendizaje
de estimadores de probabilidad, aprendizaje de preferencias, etc.
Regresi
on o estimacion Es el aprendizaje de una funcion real que
asigna a cada instancia un valor real de tipo numerico. El objetivo es
inducir un modelo para poder predecir el valor de la clase dados los
valores de los atributos. Se usan, por ejemplo, arboles de regresion,
redes neuronales artificiales, regresion lineal, etc.
2. Mddc o minera de datos para el descubrimiento del conocimiento, usando b
asicamente tecnicas de ingeniera artificial, siendo estas las tecnicas
descritas en este trabajo. Las tareas que producen modelos descriptivos
son el agrupamiento (clustering), las reglas de asociacion secuenciales y el
an
alisis correlacional, como se vera mas delante.
Clustering o agrupamiento. En sntesis, consiste en la obtencion
de grupos, que tienen los elementos similares, a partir de los datos.
Estos elementos u objetos similares de un grupo son muy diferentes a
los objetos de otro grupo. Esta tecnica de estudio por agrupamiento
fue ya utilizada a principios del siglo XX en otras areas ling
usticas,
como la Sem
antica, que agrupa las palabras en los llamados campos sem
anticos, cuyos elementos tienen significado unitario pero muy
diferente al de los elementos de los restantes campos semanticos. As,
formando campos semanticos se estudia el lexico de un idioma con
sus particularidades.
Reglas de asociaci
on. Su objetivo es identificar relaciones no
explcitas entre atributos categoricos. Una de las variantes de reglas de asociaci
on es la secuencial, que usa secuencias de datos.
An
alisis correlacional. Utilizada para comprobar el grado de similitud de los valores de dos variables numericas.
El proceso de minera de datos tiene unas indiscutibles ventajas que se
pueden sintetizar en las siguientes:
Proporciona poder de decision a los usuarios y es capaz de medir las
acciones y resultados de la mejor manera.
Contribuye a la toma de decisiones tacticas y estrategicas.
Supone un ahorro economico a las empresas y abre nuevas posibilidades
de negocio.
Es capaz de generar modelos prescriptitos y descriptivos.

2.2

Pasos necesarios para la extracci


on de conocimiento

Como se se
nal
o al comienzo del captulo, la minera de datos es solo una fase
de un proceso m
as amplio cuya finalidad es el descubrimiento de conocimiento
en bases de datos (KDD). Independientemente de la tecnica que se use en el
proceso de extracci
on de datos, los pasos que deben ser seguidos son siempre
los mismos:
1. Definici
on del problema. En el proceso de minera de datos el primer
paso consiste en definir claramente el problema que se intenta abordar.

Esta
sera casi una fase 0.
2. Integraci
on y recopilaci
on de datos. En un primer momento, hay que
localizar las fuentes de informacion, y los datos obtenidos se llevan a un
formato com
un para que resulten mas operativos. Lo mas frecuente es que
los datos necesarios para llevar a cabo un proceso de KDD pertenezcan a
distintos departamentos, a diferentes organizaciones o incluso nunca hayan
sido recopilados por no considerarlos interesantes. Es posible tambien que
haya que buscar datos complementarios de informaciones oficiales. Por
tanto, resulta conveniente utilizar alg
un metodo de automatizacion para
la exploraci
on de esos datos y encontrar posibles incoherencias.
3. Filtrado: selecci
on de datos, limpieza y transformaci
on. Una
vez homogeneizados los datos, se filtran y se rechazan los no validos o
los incorrectos, seg
un las necesidades, o bien se corrigen o se reduce el
n
umero de variables posibles mediante clustering, redondeo, etc. Este
proceso previo es necesario porque se tardara mucho tiempo en llegar a
conclusiones si se trabajara con todos los datos. Al subconjunto de datos
que se va a minar se denomina vista minable. Aunque se haya procesado,
la mayora de las veces se tiene una gran cantidad de datos. Un buen
sistema es utilizar una muestra (sample) a partir de algunos datos (filas).
4. Fase de minera de datos. Algoritmos de extraccion de conocimiento
Esta fase es la m
as caracterstica y por ese motivo se suele denominar
minera de datos a todo el proceso en KDD.

2.3

Obtenci
on de un modelo de conocimiento

Una vez realizado el filtrado, se tiene que producir nuevo conocimiento


que pueda ser utilizado por el usuario. Hay que obtener un modelo de
conocimiento que se base en los datos recopilados y para ello hay que
determinar la tarea de minera mas adecuada, descriptiva o prescriptiva;
posteriormente, elegir el tipo de modelo aunque pueden tambien usarse
varias tecnicas a la vez para generar distintos modelos teniendo en cuenta
que cada tecnica obliga a un preproceso diferente de los datos. Y, por
u
ltimo, hay que elegir el algoritmo de minera que solucione la tarea y
10

logre el tipo de modelo que se este buscando. Las componentes basicas de


los metodos de minera son, por tanto:
Lenguaje de representacion del modelo. es muy importante que se
sepan las suposiciones y restricciones en la representacion empleada
para construir modelos.
Evaluaci
on del modelo. En cuanto a predictividad se basa en tecnicas
de validaci
on cruzada (cross validation) en cuanto a calidad descriptiva del modelo se basan en principios como el de maxima verosimilitud (maximum likelihood) o en el principio de longitud de descripcion
mnima o MDL (minimum description length). Actualmente se estan
utilizando mucho curvas ROC (receiver operating characteristics) para
evaluar algoritmos.
Metodo de b
usqueda. Se puede dividir en b
usqueda de parametros y
b
usqueda del modelo y determinan los criterios que se siguen para encontrar los modelos (hipotesis). Algunas de las tecnicas mas comunes
son las siguientes:

Arboles
de decision y reglas de clasificacion que realizan cortes
sobre una variable.
An
alisis preliminar de datos usando herramientas de consultas.

Este
puede ser el caso de realizar una consulta SQL sobre un
conjunto de datos con el fin de rescatar algunos aspectos relevantes.
Redes neuronales artificiales. Son modelos predecibles, no lineales, que aprenden a traves del entrenamiento.
Metodos de clasificacion y regresiones no-lineales.
Metodos basados en ejemplos prototpicos que hacen aproximaciones sobre la base de ejemplos mas conocidos.
Metodos gr
aficos de dependencias probabilsticas en donde se
usan sobre todo redes bayesianas.
Modelos relacionales: programacion logica inductiva o ILP en
donde la b
usqueda del modelo se basa en logica y heurstica.
Reglas de asociacion que relacionan un conjunto de pares que
relacionan atributo-valor con otros pares atriburo-valor.
Clustering: agrupan datos cuya distancia multidimensional dentro de la clase es peque
na y entre clases es grande.
5. Fase de interpretaci
on y evaluaci
on del modelo.Una vez que ya
hemos obtenido el modelo hay que proceder a su validacion, comprobando
que las conclusiones son validas y satisfactorias, es decir, verificando si
los resultados obtenidos son coherentes. Si se hubieran obtenido varios
modelos por utilizar diferentes tecnicas habra que buscar el que mejor
se ajustase al tema. As, habra que comparar esos resultados con los
obtenidos por metodos estadsticos y de visualizacion grafica.

11

Figura 2.1: Fases de la minera de datos.


En la Figura 2.1 se pueden apreciar las distintas fases por las que pasa un
proceso de minera de datos.

2.4

Entrenamiento y validaci
on de datos

Estimar la precisi
on de un clasificador inducido por algoritmos de aprendizaje
supervisados es importante tanto para evaluar su futura precision de clasificacion
como para elegir un clasificador de un conjunto dado.
Para entrenar y probar un modelo se parten los datos en dos conjuntos.
Por un lado, se tiene el conjunto de entrenamiento o training set. Este grupo
de instancias servir
a para ense
nar al modelo cual es el comportamiento tipo
del sistema, haciendose una clasificacion por el analista de dichas instancias.
Por otro, se tiene el conjunto de prueba o test set, que sera el conjunto sobre
el que se aplicar
an los metodos una vez adquirido el conocimiento previo a
traves del training set. Si no se usan estos modelos la precision del modelo sera
sobrestimada, es decir, tendremos estimaciones muy optimistas y, por ello, son
mayoritariamente utilizados por los investigadores.
Los resultados de los metodos de seleccion de atributos influyen en gran medida en el exito de un proceso de minera de datos. Para asegurar el resultado
optimo en un metodo de seleccion se debe realizar una b

usqueda exhaustiva, lo
que conlleva un alto coste computacional que en ocasiones hace que sea inabordable. Se pueden establecer dos tipos fundamentales de metodos de evaluacion:
1. Validaci
on cruzada (cross-validation). La validacion cruzada consiste en
el empleo de k subconjuntos del conjunto de datos de los cuales k/2 se emplean para entrenamiento y k/2 para la validacion del esquema de aprendizaje. Existe tambien la n-fold cross validation, o validacion cruzada de
n particiones. En ella se divide a los datos en tantas particiones como
indique el par
ametro n y se entrena n veces promediando el error de cada
prueba. Presenta un inconviente y es que no se consigue una representatividad equitativa de todas las clases. Para solventar el problema aparecido en el metodo anterior se utiliza una extension de este. Cuando la
validaci
on se realiza con subconjuntos mezclados aleatoriamente se denomina validaci
on cruzada estratificada. De este modo se consigue una
12

clase determinada aparezca con la misma probabilidad en todos los subconjuntos de validaci
on. Solo es valido para conjuntos de datos nominales.
Dentro de las distintas medidas que se ofrecen se prestara mayor atencion
al coeficiente de correlacion que mide la correlacion estadstica entre los
datos predecidos y los datos reales.
2. Muestreo con reemplazamiento o bootstrapping. El bootstrapping descansa en la analoga entre la muestra y la poblacion de la cual la muestra
es extrada. De acuerdo a Efron y Tibshirani [23], dada una muestra con
n observaciones el estimador no parametrico de maxima verosimilitud de
la distribuci
on poblacional es la funcion de densidad de probabilidad que
asigna una masa de probabilidad de 1/n a cada una de las observaciones.
La idea central es que muchas veces puede ser mejor extraer conclusiones
sobre las caractersticas de la poblacion estrictamente a partir de la muestra que se maneja, que haciendo asunciones quizas poco realistas sobre la
poblaci
on. El bootstrapping implica remuestreo (resampling) de los datos
obtenidos en una muestra, con reemplazamiento, muchas muchas veces
para generar una estimacion emprica de la distribucion muestral completa de un estadstico. El bootstrap puede considerarse como un tipo
especial de simulaci
on denominada simulacion basada en los datos. Esto
es, simulamos a partir de una estimacion de la poblacion basada en los
datos [24]. En [1] se propone un metodo de seleccion de atributos basado
en las tecnicas de bootstrapping que reduce el coste de la b
usqueda exhaustiva, sin reducir la precision en la clasificacion. Lunneborg [65] fija la
utilidad del metodo bootstrap a tres niveles:
Valorar el sesgo y el error muestral de un estadstico calculado a
partir de una muestra.
Establecer un intervalo de confianza para un parametro estimado.
Realizar una prueba de hipotesis respecto a uno o mas parametros
poblacionales.
Cuando ya se ha validado el modelo por uno de estos metodos se puede usar
con dos finalidades b
asicas. Por un lado se puede aplicar el modelo a diferentes
conjuntos de datos y por otro sirve para que el analista recomiende actuaciones
bas
andose en el modelo y los resultados. Logicamente, habra tambien que evaluar la evoluci
on del modelo y comprobar sus utilidades y beneficios.

2.5

Extensi
on de la minera de datos

Para concluir el captulo, se muestran algunas de las extensiones tpicas de la


minera de daots.
1. Web mining. Consiste en aplicar tecnicas de minera de datos a documentos y servicios web [60]. Todos los que visitan un sitio de Internet
dejan huellas digitales, como pueden ser las direcciones de IP o navegador
13

utilizado, que los servidores automaticamente almacenan en una bitacora


de accesos. Las herramientas de web mining analizan y procesan estos
logs para producir informacion significativa. Debido a que los contenidos
de internet consisten en varios tipos de datos, como texto, imagen, vdeo,
o metadatos, investigaciones recientes usan el termino multimedia data
mining como una instancia del web mining [120] para tratar este tipo de
datos. Los accesos totales por dominio, horarios de accesos mas frecuentes
y visitas por da, entre otros datos, son registrados por herramientas estadsticas que complementan todo el proceso del analisis del web mining.
2. Text mining. Dado que el ochenta por ciento de la informacion de una
compa
na est
a almacenada en forma de documentos, las tecnicas como
la categorizaci
on de texto, el procesamiento del lenguaje natural, la extracci
on y recuperaci
on de la informacion o el aprendizaje automatico,
entre otras, apoyan al text mining. En ocasiones el text mining se confunde con la recuperacion de la informacion (information retrieval o IR)
[43]. Esta u
ltima consiste en la recuperacion automatica de documentos
relevantes mediante indexaciones de textos, clasificacion o categorizacion.
En cambio, el text mining se refiere a examinar una coleccion de documentos y descubrir informacion no contenida en ning
un documento individual
de la colecci
on o, por decirlo de otro modo, trata de obtener informacion
sin haber partido de algo [78].
3. Bibliomining. Esta variante de aplicacion esta relacionada con la biblioteconoma y documentacion ya que se pretende que los resultados obtenidos
de la aplicaci
on de las tecnicas de minera de datos sean u
tiles para entender las comunidades de usuarios o bien para aplicarlos en cualquier entorno
relacionado con el
ambito bibliotecario. El nombre es citado por primera
vez por Nicholson y Stanton en el a
no 2003 [79] y nace por la necesidad de
diferenciar o unificar los terminos librera y minera de datos, ya que estos
en su conjunto hacen referencia al un grupo de herramientas de software
para la minera de datos. Por otro lado el termino se asemeja bastante
a otra disciplina muy parecida llamada bibliometra, la cual tiene como
fin, descubrir patrones de comunicacion en la literatura cientfica. El uso
de la minera de datos en el ambito bibliotecario viene de la mano con el
advenimiento de las nuevas tecnologas en las bibliotecas, con la adopcion
de cat
alogos automatizados paralelamente se mejoraron las tecnicas y los
metodos estadsticos de la bibliometra y de la visualizacion para localizar
patrones no comunes inmersos en grandes cantidades de datos. Por consiguiente el bibliomining se refiere al uso de estas tecnicas que permiten
sondear las enormes cantidades de datos generados por las bibliotecas automatizadas.

14

Captulo 3

Series temporales
3.1

Introducci
on

En este captulo se presentan las series temporales, haciendo un especial hincapie en las tecnicas de an
alisis y prediccion existentes en la actualidad. En
concreto, ser
an objeto de estudio las series temporales asociadas a los precios
de la demanda electrica ya que es sobre estas sobre las que se pretende aplicar
tecnicas de agrupamiento (clustering) para extraer conocimiento y predecir posibles conductas de sus elementos.
Una serie temporal es una secuencia de valores observados a lo largo del
tiempo, y, por tanto, ordenados cronologicamente. Aunque el tiempo es una
variable continua, en la pr
actica se usan mediciones en periodos equidistantes.
Dada esta definici
on, resulta difcil imaginar alg
un area cientfica en la que no
aparezcan datos que puedan ser considerados como series temporales.
Hoy en da el an
alisis de colecciones de datos ordenados en el tiempo es
fundamental en muchos campos como la ingeniera, la medicina o el mundo de
los negocios. Estudiar c
omo se ha comportado una variable hasta el momento
puede ser de gran valor a la hora de predecir su comportamiento futuro. Del
mismo modo, determinar que otros valores han tenido un comportamiento similar puede ayudar a decidir las acciones que se deberan llevar a cabo, bien sea
para conservar la evoluci
on actual o bien para modificarla radicalmente.
Se puede pensar que con una comparacion secuencial de dos series temporales
dadas bastara para saber si son similares o no. Sin embargo, no se trata de
realizar un rastreo secuencial de dos secuencias temporales sino que se trata
de encontrar metodos o tecnicas que ayuden a disminuir ese rastreo. Esto es
muy importante si se tiene en cuenta la cantidad ingente de informacion que
se puede encontrar en determinadas bases de datos, sobre todo si se tiene que
extraer informaci
on especfica de un dominio concreto. Las tecnicas que facilitan
la extracci
on de informaci
on de estas bases de datos forman parte del campo de
la minera de datos.
Lo primero que se necesita para poder hacer minera de datos con series

15

temporales es una medida de la distancia ([26], [47], [95], [69], [13]) entre dos
secuencias temporales. Lo que se pretende es buscar secuencias temporales que
se parecen entre s, buscar aquellas secuencias que se parecen a una dada o buscar
patrones de comportamiento dentro de una secuencia temporal. En definitiva,
se necesita estudiar cu
ando dos secuencias temporales son similares o no y por lo
tanto una primera cuesti
on importante es establecer una medida de la distancia.
Sin embargo, en muchos casos, esto no es suficiente dado que es necesario un
paso previo de limpieza y transformacion de las secuencias temporales antes de
proceder a la comparaci
on propiamente dicha. Estas transformaciones forman
parte del an
alisis de las series temporales, tanto lineales [74], como no lineales
[51]. Los trabajos desarrollados hasta la fecha buscan series o secciones de
series temporales que se parecen entre s. Sin embargo, en algunos ambitos
puede ser necesario buscar una seccion de la serie caracterstica, normalmente
denominada patr
on. Existen varios trabajos relacionados con la b
usqueda de
patrones, campos como la estadstica [63], [64], el procesamiento de la se
nal [44],
algoritmos geneticos [37], y el reconocimiento de voz [62], los cuales ofrecen una
variedad de tecnicas que se pueden elegir para formalizar una algoritmo de
comparaci
on.
Encontrar patrones ha sido una de las tareas basicas de la Ciencia. En ocasiones se encuentran simetras que sirven para la prediccion del comportamiento
de ciertos fen
omenos, incluso antes de que se entienda la razon o causa que justifica esa conducta. Tal fue el caso de la ordenacion de los elementos qumicos
por Mendeleiev, que los organizo de forma precisa en funcion de las simetras
encontradas prediciendo la existencia de otros elementos desconocidos por aquel
entonces.
Si dados los valores pasados de una serie no es posible predecir con total
fiabilidad el siguiente valor esperado de la variable objeto de estudio, se dice
que la serie es no determinista o aleatoria. Este comportamiento es el que, en
principio, parecen tener las series temporales de la demanda energetica. En
este contexto se engloba este estudio: se pretende demostrar la existencia de un
comportamiento l
ogico y ordenado de las curvas de precios utilizando procedimientos propios de minera de datos. Evidentemente, aunque el valor futuro de
una serie temporal no sea predecible con total exactitud, para que tenga interes
su estudio, el resultado tampoco puede ser completamente aleatorio, existiendo
alguna regularidad en cuanto a su comportamiento en el tiempo haciendo posible
su modelado y, por ende, su prediccion.
Por tanto, el objetivo final es el de realizar una estimacion de valores futuros
de la demanda en funci
on del comportamiento pasado de la serie, ya que este
hecho servir
a para hacer una buena planificacion de recursos en funcion de la
demanda esperada en el futuro prevista por el modelo.
Se pueden describir las series temporales mediante modelos basados en distribuciones de probabilidad si se encuentran patrones de regularidad en sus
diferentes secciones. La secuencia ordenada de variables aleatorias, X(t), y su
distribuci
on de probabilidad asociada, se denomina proceso estocastico. Un
proceso estoc
astico es, por tanto, el modelo matematico asociado a una serie
temporal.
16

Figura 3.1: Ejemplo de serie temporal: precio de la energa electrica en Espa


na
durante el da 14 de marzo de 2007.
Se procede, a continuaci
on, a definir los procesos estacionarios. Para discutir
esta propiedad se presenta como ejemplo la temperatura de un determinado periodo examinado a
no tras a
no. Asumiendo el hecho de que se esta produciendo
un cambio clim
atico, aunque haya ligeras variaciones, es evidente que habra
una tendencia creciente en las temperaturas. Se dice que una serie es estacionaria cuando se encuentra en equilibrio estadstico, o lo que es lo mismo, sus
propiedades no varan a lo largo del tiempo. Por lo tanto, un proceso es no
estacionario si sus propiedades varan con el tiempo, tal es el caso del clima.

3.2

Modelado de las series temporales

La forma tpica de comenzar a analizar una serie temporal es mediante su representaci


on gr
afica. Para tal fin, se utiliza un sistema cartesiano en el que los
valores o periodos de tiempo se llevan al eje de abscisas y los valores de la serie,
y(t), se llevan al eje de ordenadas. El resultado es un diagrama de dispersion,
con la particularidad de que el eje de abscisas se reserva siempre a la misma
variable: el tiempo. Mediante este tipo de representacion se pueden detectar las
caractersticas m
as sobresalientes de una serie, tales como la amplitud de las oscilaciones, la posible existencia de ciclos, los puntos de ruptura o la presencia de
valores atpicos o an
omalos. Un ejemplo de este tipo de graficas es el que aparece
en la Figura 3.1, donde se ha representado la serie que recoge la evolucion del
precio de la demanda diaria de la energa electrica para el miercoles 14 de marzo
de 2007.
La metodologa utilizada para estudiar las series temporales se basa fundamentalmente en descomponer las series en varias componentes: tendencia,

17

variaci
on estacional o peri
odica y otras fluctuaciones irregulares.
1. Tendencia. Es la direccion general de la variable en el periodo de observaci
on, es decir el cambio a largo plazo de la media de la serie. Para
determinar claramente si una serie responde a una determinada ley (crecimiento, decrecimiento o estabilidad) se requiere que esta posea un n
umero
bastante elevado de muestras. Dicha tendencia puede corresponder a diversos perfiles, tales como lineal, exponencial o parabolico. Cuando se
analiza este factor, se prescinde de las variaciones a corto y medio plazo.
Este par
ametro resulta de vital importancia al aplicar tecnicas de clustering, ya que ser
a precisamente este parametro el que se utilizara para
modelar los diferentes grupos generados y sobre el que se realizaran las
medidas de distancia para ver si un elemento pertenece a un grupo o a
otro.
2. Estacionalidad. Corresponde a fluctuaciones periodicas de la variable,
en periodos relativamente cortos de tiempo. Esta componente tiene un
marcado car
acter economico, hecho que queda tambien reflejado al aplicarlo al caso de la demanda de electricidad: podra corresponderse con un
patr
on de estacionalidad bien definido, en el que se aprecia que durante
las horas de noche esta disminuye mientras que en las horas de trabajo
alcanza su m
aximo.
3. Otras fluctuaciones irregulares. Despues de extraer de la serie la tendencia y variaciones cclicas, nos quedara una serie de valores residuales,
que pueden ser, o no, totalmente aleatorios. Se trata de una circunstancia
similar a la del punto de partida, pues ahora tambien interesa determinar
si esa secuencia temporal de valores residuales puede o no ser considerada como aleatoria pura. Los factores que causan estas variaciones son de
diferente ndole y son muy difciles de aislar y predecir. No obstante, si por
alguna causa se es capaz de determinar que factores son los que afectan
a una serie temporal y se asume una influencia determinista una vez
ocurridos, se podra pensar en estos valores como precursores de cambios
en la tendencia de la serie. Para el caso concreto de las series asociadas
a demanda electrica los das festivos podran ser los que introdujeran este
tipo de fluctuaciones.

3.3

Preprocesado de series temporales

Antes de hacer uso de la informacion de entrada es necesario saber cual es


la fiabilidad de esta. Con tal fin se aplican tecnicas especficas encargadas
de evaluar su calidad. Los aspectos claves en el analisis de series temporales
son el preprocesado de datos y la obtencion del modelo de prediccion. En la
preparaci
on de los datos se pueden destacar la reduccion del ruido mediante la
detecci
on de outliers, la reduccion de datos mediante tecnicas de seleccion de
atributos y la discretizaci
on de valores continuos. El desarrollo de estas tecnicas
es el objeto de los siguientes apartados.
18

3.3.1

Outliers

Una de las limitaciones del estudio de series temporales es la dificultad de identificar correctamente el modelo y, en su caso, seleccionar el mas adecuado.
Adem
as, el an
alisis de series temporales requiere, en algunos casos, una correcci
on previa de la serie dado que, de otro modo, se podran producir graves
distorsiones en los resultados obtenidos de su procesamiento.
Cuando se analizan los datos de series temporales, es frecuente encontrar
valores atpicos que tienen su origen en intervenciones incontroladas o inesperadas, como errores en la transcripcion de datos: son los denominados outliers.
En otras palabras, los outliers son valores de la serie temporal que se alejan
de los patrones de comportamiento del resto de la serie. La importancia de
estos valores estriba en que los outliers y los cambios estructurales influyen en
la eficiencia y la bondad del ajuste de los modelos.
Desde el punto de vista estadstico, hay que distinguir entre outliers e intervenci
on. De este modo, cuando existe informacion a priori sobre eventos
especiales que pueden haber causado observaciones anormales (la fecha de su
incidencia y quiz
as alguna idea de su probable efecto, como, por ejemplo, si es
permanente o transitorio), el efecto del evento especial debera ser capturado
a traves del an
alisis de variables de intervencion. Por el contrario, un outlier
representa una anomala en las observaciones para las que no son usadas datos
de su incidencia o sobre el patron dinamico de su efecto, sino que son revelados
por el an
alisis de los datos.
Siguiendo el trabajo Fox [30] y los posteriores Gomez y Maravall [35], [36] y
Kaiser [50], existen cuatro tipos diferentes de outliers y un considerable n
umero
de procedimientos para detectarlos. Los cuatro tipos de outliers que se consideran en la literatura son:
1. Outlier aditivo (AO). Es aquel que afecta solo a una observacion de la
serie temporal.
(t0 )

AOt


=

1 t = t0
0 t 6= t0

(3.1)

2. Outlier cambio en nivel (LS). Supone un aumento o disminucion de todas


las observaciones de la serie temporal a partir de un momento dado y con
una intensidad constante.
(t0 )

LSt

1 t < t0
0 t t0

(3.2)

3. Outlier cambio temporal (TC). Suponen un aumento o disminucion en el


nivel de las series pero que, a diferencia del caso anterior, vuelve a su nivel
previo r
apidamente.
(t0 )

T Ct


=

0 t < t0
tt0 t t0

19

(3.3)

4. Outlier efecto rampa (RP). Supone un aumento o disminucion del nivel


de la serie a lo largo de un intervalo especificado.

RPtt0 ,t1

1 t t0
(t t0 )/(t1 t0 ) t0 < t < t1
=

0 t t0

(3.4)

En cuanto a los procedimientos para la deteccion de outliers, existe un paso


preliminar en el que se aplican las tecnicas de suavizado, smoothing, con el fin
de disminuir los efectos del ruido. De entre ellas destaca el binning, consistente
en sustituir los outliers por la media, mediana o moda de los valores precedentes
y siguientes. Para la deteccion de los outliers se observan las segundas diferencias de los valores de la serie. Cuando existe un valor grande en esas segundas
diferencias entonces se puede afirmar que existe alg
un outlier en ese punto o en
el punto precedente. Para contrastar su presencia, se utilizan los patrones de
los residuos de una regresi
on ya que la presencia de un incremento o decremento
acentuado en los residuos justo en el punto precedente al punto donde las diferencias de segundo orden son grandes indica la presencia de un outlier. Una vez
detectados los outliers son reemplazados por la media de los valores precedentes
y siguientes de la serie.
El metodo addone (a
nadir uno) reestima el modelo cada vez que se a
nade
un outlier al modelo. Este metodo trabaja como se describe a continuacion.Se
calcula el estadstico t-Student para cada tipo de outlier especificado (AO, LS
y/o TC) para todas las observaciones temporales en las que se realiza la detecci
on de outliers. Si el valor absoluto maximo de la t-Student supera el valor
crtico, entonces se detecta un outlier y, por consiguiente, la variable de regresion
apropiada se a
nade al modelo.
El metodo addall (a
nadir todo) reestima el modelo solo despues de haber
detectado todos los outliers. Este metodo sigue los mismos pasos generales que
el addone, excepto que el addall a
nade al modelo, tras cada iteracion, todos los
outliers cuya t-Student excede del valor crtico. Ello hara que algunos outliers
a
nadidos sean considerados no significativos cuando el modelo sea estimado.
La diferencia entre los procedimientos addone y addall es que puede producir
diferentes conjuntos finales de outliers detectados. Con el fin de solucionar este
problema, se puede variar el valor crtico.

3.3.2

T
ecnicas de selecci
on de atributos

Uno de los principales problemas existentes en todo proceso de aprendizaje es


escoger los atributos adecuados para describir los datos. Habitualmente, se
dispone de m
as de los que son necesarios para aprender y esto hace que muchos
algoritmos de aprendizaje tengan problemas cuando hay muchos atributos irrelevantes. Por este motivo, hacen falta tecnicas que permitan reconocer atributos
no necesarios. En este contexto, estas tecnicas buscan, principalmente, conseguir dos objetivos:

20

1. Reducir el coste computacional asociado al aprendizaje y al propio modelo


de conocimiento generado eliminando, para ellos, atributos irrelevantes o
redundantes.
2. Aumentar la precisi
on de dicho modelo eliminando atributos perjudiciales
para el aprendizaje.
Un primer metodo aplicado para obtener una ordenacion de atributos con
n
ucleos no lineales fue propuesto por Rakotomamonjy en [85]. Su criterio ordena
la lista de atributos en funci
on de su influencia en los pesos de los atributos. En
cada iteraci
on elimina el atributo que minimiza el siguiente valor:
X 


K(s xk xj s)
2

(3.5)
k j zk zj
R1 (i) = |i kwk | =

si
donde s es un factor de escala usado para simplificar el calculo de las derivadas
parciales.
Otro metodo fue usado en [19] para el estudio de secuencias de ADN. En
este caso el criterio ordena los atributos en funcion de la perdida de capacidad
de predicci
on del sistema cuando un atributo es eliminado. En [19] los autores
aproximan el rendimiento en generalizacion del sistema cuando el atributo iesimo es eliminado, por el acierto en reescritura cuando se sustituye el valor de
ese atributo en todos los ejemplos por su media. Cuando se usa este metodo
para el aprendizaje de preferencias, el criterio de ordenacion puede representarse
como:



X X
(1),i
(2),i
(1),i
(2),i
R2 (i) =
zk
j zj xj , xj , xk , xk
(3.6)
k

donde xi denota a un vector en el que se ha sustituido el valor del i-esimo


atributo por su media. N
otese que un valor alto de R2 (i), esto es, una tasa de
acierto alta sobre el conjunto de entrenamiento cuando se modifica el valor del
atributo i-esimo, equivale a una menor relevancia de ese atributo. De esta manera, el atributo a eliminar sera el que maximice el anterior criterio, al contrario
que en el metodo anterior.
Por el contrario, en [76] se presenta un modelo que permite determinar
din
amicamente los valores previos que influyen en el valor actual observado
en una serie temporal. La principal ventaja de este modelo es que permite
capturar la existencia de distintas relaciones temporales en cada instante. El
modelo de selecci
on de variables descrito se ha aplicado a un problema real para
determinar las horas previas que influyen en el valor de radiacion solar sobre
superficie recibido en una hora determinada.
En [91] se presenta una tecnica de seleccion de atributos que utiliza una
medida basada en proyecciones para guiar la seleccion de los atributos que sean
relevantes. De entre sus caractersticas descantan su bajo coste computacional y
su aplicabilidad a conjuntos de datos que contengan tanto variables de diferentes
naturalezas, tanto continuas como discretas

21

El algoritmo de indexado presentado en n [56] busca una reduccion de la


dimensionalidad ayudando a que la b
usqueda de similitudes se haga de manera
m
as eficiente.

3.3.3

Discretizaci
on de los atributos.

Un gran n
umero de algoritmos de aprendizaje operan exclusivamente con espacios discretos y, por tanto, cuando se tienen atributos numericos se deben
discretizar en un rango peque
no de valores. Esta trasformacion de atributos continuos en discretos se denomina discretizaci
on. Existe, sin embargo, un asunto
muy delicado que se debe solucionar y es elegir el mejor metodo para conseguir
esa transformaci
on, antes de que la etapa de aprendizaje tenga lugar, sin que se
pierda informaci
on relevante.
Se presentan en esta seccion, en primera instancia, los metodos de discretizaci
on cl
asicos seguidos por la amplia mayora de investigadores. En general, se puede distinguir entre discretizacion local y discretizacion global. La
discretizaci
on local considera a los atributos de forma local para tomar la decisi
on de d
onde hacer la ramificacion. Ya que se considera localmente el proceso, cada vez las decisiones se realizan con menos datos. Por el contrario, la
discretizaci
on global considera los atributos de forma global.
Adem
as de discretizaciones locales y globales, estas se pueden diferenciar
seg
un sean tecnicas supervisadas o no supervisadas.
1. T
ecnicas no supervisadas. Cuantizar o asignar un valor a cada atributo considerando que no se conocen las clases que hay en el conjunto de
entrenamiento. Aqu, se dividiran los datos en un n
umero predeterminado
de:
(a) Intervalos iguales. Consiste en distribuir los atributos en depositos.
Se corre el riesgo de que un intervalo tenga mas datos que otro,
pudiendose dar el caso de que alguno quede vaco.
(b) Frecuencias iguales. Consiste en dividir los atributos en un n
umero
predeterminado de rangos para evitar que un rango tenga mas datos
que otros. Esta tecnica tambien se conoce como ecualizacion por
histograma.
2. T
ecnicas supervisadas. En este caso se considera que s se conocen las
clases. Se pueden distinguir diversos metodos.
(a) Intervalo k proporcional. El n
umero lugares donde poner los datos se
selecciona de acuerdo con estos ya que se conocen las clases, siendo
dicho n
umero la raz cuadrada del n
umero de instancias.
(b) Basado en entropa. Consiste en utilizar el intervalo que proporcione
mayor ganancia. El proceso consiste en ordenar todos los valores de
las clases de acuerdo con los valores de los atributos continuos. A
continuaci
on, se identifican los ejemplos contiguos donde cambian las
clases para, seguidamente, generar los valores tomando el valor que
22

este en medio de los dos. Finalmente, se eval


uan todos los nuevos
atributos boleanos para ver cual de ellos produce mayor ganancia.
Se encuentran en la literatura, sin embargo, otros metodos alternativos para
discretizar valores continuos de una serie temporal en valores discretos. As
sucede en [75] se proponen dos metodos de discretizacion dinamicos (el valor
discreto asociado a un determinado valor continuo puede cambiar con el paso
del tiempo, es decir el mismo valor continuo puede ser discretizado con distintos valores dependiendo de los valores previos de la serie) y cualitativos (solo
aquellos cambios que son cualitativamente significativos aparecen en la serie
discretizada). El primero de los metodos pretende usar toda la informacion
estadstica de los valores previos observados de la serie para seleccionar los valores discretos que corresponden a un nuevo valor continuo de la serie. Por el
contrario, el otro metodo propuesto se basa en la definicion de una distancia
que mide la relaci
on entre valores consecutivos de la serie. Entonces dos valores
continuos consecutivos corresponden al mismo valor discreto cuando la distancia
entre ellos es menor que un determinado umbral. Otro ejemplo se encuentra en
[109], donde se utilizan mapas auto-organizados [58] para la discretizacion de
atributos tras demostrar que el algoritmo K-means presenta peores resultados.
Adem
as, para los mapas auto-organizados no se requiere proporcionar al algoritmo el n
umero de particiones que se quieren hacer sino que se da el n
umero
m
aximo de particiones permitidas.

3.4

Predicci
on de series temporales: t
ecnicas y
modelos

Cuando se habla de tecnica de prediccion se hace referencia a aquellas tecnicas


dirigidas a descubrir comportamientos regulares que sean capaces de modelar
la conducta de un sistema. Consecuentemente, una aplicacion inmediata es la
de saber c
omo evolucionar
an los valores de una serie temporal.
La mayor parte del esfuerzo se invierte en, como cabe esperar, descubrir los
patrones de comportamiento y, por esta razon, es un tema que esta en constante
investigaci
on [54]. El mayor inconveniente que se encuentra en este tipo de tareas
es la alta correlaci
on que puede llegar a existir entre los atributos. Para el caso
de los precios del mercado electrico resulta evidente que el precio asociado a una
hora estar
a ntimamente relacionado al que haba en la hora anterior.
Igualmente, la alta dimensionalidad de las series temporales provoca que la
tarea anteriormente citada sea compleja. Sin embargo, para las series de precios
electricos no habr
a problemas relacionados con la dimensionalidad ya que los
datos de entrada ser
an vectores.
Por u
ltimo, la gran cantidad de ruido presente en las series puede hacer
que la calidad de la prediccion decaiga sensiblemente. Las formas en las que el
ruido puede manifestarse son diversas: desde valores ausentes hasta muestras
tomadas err
oneamente. Por ello, una gran cantidad de investigadores enfocan

23

sus esfuerzos a mejorar y depurar las medidas de similitud existentes en las


diferentes tecnicas de clustering [55].

3.4.1

Predicci
on basada en reglas de decisi
on

Cuando se habla de prediccion basada en reglas se hace referencia al sistema


experto que fue desarrollado por Collopy y Armstrong en el a
no 1992 [10]. La
versi
on inicial constaba de 99 reglas que combinaban predicciones con cuatro
metodos de extrapolaci
on simples: regresion lineal, suavizado exponencial de
Holt, suavizado exponencial de Brown y recorrido aleatorio. Durante el proceso
de predicci
on se extraen 28 caractersticas que identifican a las series temporales
y, por tanto, este tipo de prediccion se apoya sobre la premisa de que las caractersticas de las series temporales se pueden identificar de manera fiable. No
obstante, s
olo ocho de estas caractersticas se obtienen mediante procedimientos analticos codificados por el propio sistema, mientras que las veinte restantes
proceden del conocimiento de un analista mediante inspecciones visuales de las
gr
aficas. El hecho de que la eleccion de estas caractersticas se haga de este
modo es altamente ineficiente, en tanto en cuanto en que se consume un excesivo tiempo, que depende de la habilidad del analista y que arroja una tasa
de fiabilidad media. No obstante, la identificacion de las caractersticas de las
series temporales ya ha sido automatizada en determinados trabajos [112]
Pero, que entendemos por una regla de decision? Se define una regla de decisi
on como aquella sentencia tal que: Si A Entonces B, siendo A un predicado
l
ogico sobre los atributos, cuyo cumplimiento implica clasificar a los elementos
en cuesti
on con una etiqueta de clase B. El aprendizaje de reglas trata de encontrar condiciones de reglas de tal modo que se tomen en consideracion todos
los atributos y que englobe al mayor n
umero posible de ejemplos de un mismo
conjunto y el menor del resto de conjuntos. Se han realizado multitud de propuestas sobre c
omo utilizar estas reglas para generar predicciones posteriores.
Tal es el caso de [31] que centra sus esfuerzos en la forma en que se generan las
reglas ya sea mediante un
arbol de regresion [45] o entrenando una red neuronal
[97].
Cuando la informaci
on de la que se dispone no esta completa, se suele utilizar
la teora de conjuntos difusos, de la que existe una amplia literatura. En ella
se permite que un elemento no pertenezca por completo a un grupo sino que lo
haga a varios grupos con un determinado grado de pertenencia asociado.
La teora de conjuntos difusos relaja el concepto de pertenencia de un elemento a un conjunto. En la teora tradicional, un elemento simplemente
pertenece o no a un conjunto. Sin embargo, en la teora de conjuntos difusos, un
elemento pertenece a un conjunto con un cierto grado de certeza. Aplicando esta
idea, el uso de la l
ogica difusa permite un mejor tratamiento de la informacion
cuando esta es incompleta, imprecisa o incierta. Por ello, ha sido aplicada por
muchos autores en tareas de prediccion y deteccion de fallos, usando a menudo
reglas difusas como representacion del conocimiento [4]. Estos sistemas son
denominados tradicionalmente Fuzzy Rule-Based Classification Systems.
En la literatura se pueden encontrar algunas aplicaciones a la prediccion
24

de series financieras usando reglas difusas extradas a partir de algoritmos


geneticos. En [57] se propone un metodo de prediccion basado en un conjunto
de reglas difusas para series caoticas y no estacionarias. En una primera etapa
se genera mediante un algoritmo genetico un conjuntos de reglas difusas que
cubran el n
umero m
aximo de ejemplos del conjunto de entrenamiento.
En una segunda etapa las funciones miembro del conjunto de reglas obtenidas
en la etapa previa se ajustan mediante un algoritmo genetico de manera que
el error de predicci
on sea mnimo. Estas dos etapas son repetidas para distintas particiones del conjunto de entrenamiento obteniendo as un conjunto
de predoctores difusos. Finalmente, la prediccion de un valor de la serie es
una combinaci
on lineal de las predicciones obtenidas a partir del conjunto de
predictores difusos ponderada por unos pesos que vienen dados por:
wi =

1
P|P |

1
j=1 j

(3.7)

donde |P | es el n
umero de predictores difusos y i es la desviacion estandar
del error de predicci
on obtenido a partir del predictor difuso i. Este metodo se
ha aplicado a la serie temporal caotica de Mackey-Glass y a la prediccion del
cambio del franco suizo frente al dolar.

3.4.2

Predicci
on basada en m
etodos lineales

Los metodos de predicci


on lineales son aquellos que intentan modelar el comportamiento de una serie temporal mediante una funcion lineal. Entre estos
metodos se destacan los modelos AR, MA, ARMA y ARIMA. Estos modelos
son una clase de procesos estocasticos y tienen una metodologa com
un, cuya
aplicaci
on al an
alisis de series temporales se debe a Box y Jenkins [9]. Para
construir ambos modelos se siguen los pasos siguientes:
1. Identificaci
on del modelo bajo ciertas hipotesis.
2. Estimaci
on de par
ametros.
3. Validaci
on del modelo.
4. Predicci
on.
Modelos de medias m
oviles (MA)
El proceso de medias m
oviles de orden finito es una aproximacion natural a la
representaci
on de Wold [84], que es un proceso de medias moviles de orden
infinito. El proceso de medias moviles de primer orden o proceso M A(1) es:
yt = t + t1 = (1 + L)t
t W N (0, 2 )

(3.8)
(3.9)

La estructura del proceso M A(1), en el que solo aparece el primer rezago del
choque a la derecha, le hace tener poca memoria y en consecuencia, una dinamica
25

debil, independientemente del valor del parametro . La media y varianza incondicionales son:
E(yt ) = 0
V ar(yt ) = 2 (1 + 2 )

(3.10)
(3.11)

La media y varianza condicionados al conjunto de informacion t1 = t1 , t2 , ...,


son :
E(yt |t1 ) = t1
V ar(yt |t1 ) = 2

(3.12)
(3.13)

Podemos ver que las condiciones de estacionariedad en covarianza se satisfacen para cualquier proceso M A(1), independientemente de los valores de sus
par
ametros. Si, adem
as, || < 1, se dice que el proceso M A(1) es invertible. En
este caso, se puede invertir y expresar el valor actual de la serie no en terminos
de una innovaci
on actual y una rezagada, sino de una innovacion actual y valores
rezagados de la serie, a esto se le llama representacion autorregresiva. Bajo la
notaci
on de operador rezago, la representaci
on autorregresiva infinita se escribe:
yt
= t
1 + L

(3.14)

El polinomio de rezago, en el caso de un proceso M A(1) tiene una raz, L =


1/, as que el valor absoluto de su inversa sera menor a uno si || < 1, haciendo
las dos condiciones de invertibilidad equivalentes. Sin embargo, muchas veces se
necesita incluir m
as rezagos de las innovaciones para poder generar dinamicas
m
as ricas y mejorar los pronosticos. El proceso M A(q) es una generalizacion
natural del proceso M A(1):
yt = t + t1 + ... + q tq = (L)t
t W N (0, 2 )

(3.15)
(3.16)

en donde:
(L) = 1 + 1 L + ... + q Lq

(3.17)

es un polinomio en el operador rezago de orden q. Las propiedades de los


procesos M A(q) son paralelas a las del proceso M A(1), es estacionario en covarianza para cualquier valor de sus parametros y es invertible solo si satisface
una condici
on de raz. El polinomio del operador rezago en un proceso M A(q)
tiene q races; cuando q1, surge la posibilidad de que haya races complejas.
La condici
on de invertibilidad del proceso M A(q) es que las inversas de cada
una de las races debe estar dentro del crculo unitario, generando la siguiente
representaci
on autorregresiva convergente:
yt
= t
(L)

(3.18)

A diferencia de los momentos no condicionales que son fijos, la media condicional


del proceso M A(q) evoluciona con el conjunto de informacion. As, en el caso
26

M A(1) en el que la media condicional solo depende del primer rezago de la


innovaci
on, en el M A(q) depende de los q rezagos de la innovacion. Esto tiene
como principal consecuencia que el proceso M A(q) tenga el potencial de una
memoria mayor, la cual surge claramente de su funcion de autocorrelacion. En
el caso M A(1), todas las autocorrelaciones de orden mayor a 1 son 0; en el
caso de M A(q), todas las autocorrelaciones de orden superior a q son 0. Este
corte en la autocorrelaci
on es una propiedad que distingue a los procesos de
medias m
oviles. Los procesos M A(q) pueden producir mejores aproximaciones
a la representaci
on de Wold a costo de tener un mayor n
umero de parametros
que estimar.
Modelos autorregresivos (AR)
Al igual que los procesos M A(q), el proceso autorregresivo es una aproximacion
natural a la representaci
on del Wold. Este proceso tiene una motivacion directa;
es una ecuaci
on en diferencias estocasticas en el que el valor actual de una serie
est
a linealmente relacionado con sus valores en el pasado, mas una innovacion
estoc
astica aditiva. Las ecuaciones en diferencias estocasticas permiten el modelado din
amico estoc
astico en tiempo discreto. El proceso autorregresivo de
primer orden, AR(1), es:
yt = yt1 + t t W N (0, 2 )

(3.19)

con el operador rezago se escribe:


t = (1 L)yt

(3.20)

A diferencia de los procesos de medias moviles, los procesos autorregresivos


siempre son invertibles. De hecho, la invertibilidad no es importante porque los
procesos autorregresivos de orden finito ya estan en forma autorregresiva, pero
deben satisfacer ciertas condiciones para que sea estacionario en covarianza. Los
momentos incondicionales de un proceso AR(1) son:
E(yt ) = 0
2
V ar(yt ) =
1 2

(3.21)
(3.22)

En contraste, los momentos condicionales son:


E(yt |yt1 ) = yt1
V ar(yt |yt1 ) = 2

(3.23)
(3.24)

Una de las caractersticas de los procesos autorregresivos es la disminucion gradual de la autocorrelaci


on, a diferencia de los procesos de medias moviles, que
se cortan y bajan a cero. Cuando el orden tiende a infinito, las autocorrelaciones tienden a cero. Si es positiva, el decaimiento de la autocorrelacion
es unilateral; si es negativa, el decaimiento es oscilatorio. El caso importante
27

en los negocios y la economa es cuando > 0, pero de cualquier manera las


autocorrelaciones se amortiguan en forma gradual y no abrupta. En contraste,
la funci
on de autocorrelaci
on parcial para el proceso AR(1) si se corta abruptamente:

, = 1
( ) =
(3.25)
0, < 1
Esto es porque las autocorrelaciones parciales son precisamente los u
ltimos coeficientes en una secuencia de autorregresiones poblacionales de orden cada vez
mayor.
El proceso autorregresivo general de orden p o AR(p) es:
yt = 1 yt1 + 2 yt 2 + ... + p yt p + t
t W N (0, 2 )

(3.26)
(3.27)

En el operador rezago se escribe:


(L)yt = (1 1 L 2 L2 ... p Lp ) = t

(3.28)

Un proceso AR(p) es estacionario en covarianza si y solo si las inversas de todas


las races del polinomio en el operador rezago asociado al proceso autorregresivo (L), est
an dentro del crculo unitario. Esta condicion es necesaria para
la estacionariedad en covarianza, pero no la garantiza. La funcion de autocorrelaci
on para el proceso general AR(p) decae en forma gradual como funcion
del orden, mientras que la funcion de autocorrelacion parcial AR(p) se corta de
forma abrupta en el rezago de orden p. El punto clave de la funcion de autocorrelaci
on AR(p) es que , a pesar de que su amortiguamiento gradual coincida con
el de la funci
on de autocorrelacion AR(1), puede mostrar una diversa variedad
de comportamientos en funcion del orden y de sus parametros.
Modelos autorregresivos y medias m
oviles (ARMA)
Con el objetivo de generar aproximaciones mejores y mas parsimoniosas a la
representaci
on de Wold, se combinan los modelos autorregresivos y los modelos
de medias m
oviles originando el proceso autorregresivo de medias moviles, llamado modelo ARM A(p, q). Estos procesos tienen motivacion directa, primero,
si la innovaci
on aleatoria que impulsa un proceso autorregresivo es a su vez un
proceso de medias m
oviles, se puede mostrar que se obtiene un proceso ARMA.
En segundo lugar, los procesos ARMA se pueden originar por agregacion. El
proceso ARMA m
as simple es el ARM A(1, 1) que se define como:
yt = yt1 + t + t1
t W N (0, 2 )

(3.29)
(3.30)

o, con el operador rezago,


(1 L)yt = (1 + L)t

28

(3.31)

donde se requiere que || < 1 para que haya estacionariedad y que || < 1
para que haya invertibilidad. El proceso ARM A(p, q) es una generalizacion
natural del proceso ARM A(1, 1) que permite tener rezagos m
ultiples de los dos
componentes, medias m
oviles y autorregresivos , y se representa as:
yt = yt1 + ... + p ytp + t + 1 t1 + ... + p tq
t W N (0, 2 )

(3.32)
(3.33)

o bien,
(L)yt = (L)t

(3.34)

Al estar presentes los componentes autorregresivos y los de medias moviles, los


procesos ARMA tienen una media no condicional fija, pero su media condicional
s vara en el tiempo. A diferencia de los procesos de medias moviles puros, o de
los procesos autorregresivos puros, las funciones de autocorrelacion y las de autocorrelaci
on parcial de los procesos ARMA no se cortan en determinado orden,
sino que cada una se amortigua en forma gradual. Con frecuencia los modelos ARMA son muy exactos y muy parsimoniosos a la vez, ya que al permitir
componentes de medias m
oviles y autorregresivas, proporcionan aproximaciones
muy cercanas a la representaci
on de Wold usando pocos parametros.
Una aplicaci
on de los modelos ARMA a la prediccion de las series temporales
del precio de la electricidad se encuentra en [115]. En concreto, se calibra un
proceso ARMA donde la variable exogena es la carga del sistema. Para ello,
utilizan las series temporales del sistema de precios del mercado energetico de
California. Se realizan aqu predicciones semanales obteniendose errores medios
alrededor del 10%.
Modelos autorregresivos, integrados de medias m
oviles ARIMA
ARIMA significa autorregresivo, integrado de medias moviles, pero para entender su origen empezaremos analizando un proceso ARM A(p, q),
(L)yt = (L)t

(3.35)

con m
aximo una raz autorregresiva sobre el crculo unitario y todas las races
de medias m
oviles fuera de ese crculo. Se dice que y tiene una raz unitaria
autorregresiva o simplemente una raz unitaria, si una de las p races del polinomio en el operador asociado al proceso autorregresivo es 1, en cuyo caso se
puede sacar como factor com
un un polinomio en el operador rezago asociado al
proceso autorregresivo, como sigue:
(L) = 0 (L)(1 L)

(3.36)

en donde 0 (L) es de grado p 1. As, transformamos a y en un proceso


ARM A(p 1, q) en diferencias, porque
0 (L)(1 L)yt = (L)t

29

(3.37)

es tan solo
0 (L)4yt = (L)t

(3.38)

Hay que notar que y no es estacionario en covarianza, porque la estacionariedad


en covarianza exige como requisito que todas las races se encuentren fuera del
crculo unitario. Por lo tanto, trabajar con las diferencias del proceso, Dy ,
nos genera grandes ventajas al ser un proceso ARM A(p 1, q) estacionario
en covarianza e invertible. Otra forma de explicar las races unitarias de una
serie es poniendola en terminos de su orden de integracion. Se dice que una
serie no estacionaria es integrada si su no estacionariedad se deshace cuando
la diferenciamos. Si s
olo se necesita una diferenciacion para deshacer su no
estacionariedad, se dice que la serie es integrada de orden 1 o I(1). El orden
de integraci
on es igual a la cantidad de races unitarias autorregresivas. Los
ejemplos m
as claros del orden de integracion son el ruido blanco, que es el
proceso I(0) m
as sencillo, y la caminata aleatoria, que es el proceso I(1) mas
simple. De esta manera llegamos al proceso ARIM A(p, 1, q),
(L)(1 L)yt = c + (L)t

(3.39)

donde todas las races de ambos polinomios en el operador rezago estan fuera
del crculo unitario. El proceso ARIM A(p, 1, q) es solo un proceso ARM A(p, q)
estacionario e invertible en primeras diferencias. Con mas generalidad podemos
trabajar con el modelo ARIM A(p, d, q),
(L)(1 L)d yt = c + (L)t

(3.40)

El proceso ARIM A(p, d, q) es uno ARM A(p, q), estacionario e invertible, diferenciado d veces. Cuando d = 0, y es estacionario en covarianza o I(0) y cuando
d = 1,y es I(1) con tendencia lineal estocastica. Los procesos ARIM A(p, 1, q)
tienen tres aspectos resaltantes. En primer lugar, si diferenciamos los procesos
ARIM A(p, 1, q) se hacen adecuadamente estacionarios. En segundo lugar, las
innovaciones a los procesos ARIM A(p, 1, q) tienen efectos permanente, sin embargo, a diferencia de las caminatas aleatorias, el efecto a largo plazo de una
innovaci
on unitaria puede ser mayor o menor que la unidad, dependiendo de los
par
ametros del proceso. En tercer lugar, la varianza de esos procesos crece con
el tiempo.
En [3] se presenta una modificacion al modelo ARIMA consistente en a
nadir
un u
nico termino al modelo que representa una primera aproximacion de la
predicci
on de la demanda. El objetivo que se plantea es predecir la demanda
horaria y la demanda en las horas punta del sistema Iran y los errores medios
cometidos son 1.7% y 4.65% respectivamente. La serie temporal que se uso para
realizar los experimentos es la del a
no 1998.
En [34] se presenta una variacion del ARIMA tradicional. En concreto, se
utiliza ARIMA Multiplicativo Estacional (MS-ARIMA, Multiplicative Seasonal
Autorregresive Integrated Moving Average) para predecir el maximo de la demanda mensual de la electricidad en la ciudad india de Maharashtra. Para ello,
utilizan una base de datos compuesta por los datos correspondientes desde abril
30

de 1980 hasta junio de 1999 y hacen una prediccion de los 18 meses posteriores. Concluyen que las series no revelan ning
un cambio drastico en el periodo
predicho y que se mantiene la misma tendencia a lo largo de las variaciones
estacionales.
Finalmente, en 2005 Conejo [11] presento un estudio en el que se comparaban
las tecnicas de ARIMA y de las transformadas wavelet para la prediccion del
precio del dia siguiente, consiguiendo resultados notablemente mejores a los que
habia obtenido en sus estudios previos [49, 80, 12]
Vectores autorregresivos
En un vector autorregresivo de orden p con N variables, o V AR(p), se estiman
N ecuaciones diferentes. En cada ecuacion se hace la regresion de la variable
relevante del lado izquierdo sobre p rezagos de s misma, y p rezagos de cada
una de las dem
as variables. A diferencia del caso univariado, los vectores autorregresivos permiten una din
amica entre las variables, abriendo la posibilidad de
que cada variable no s
olo se relacione con su propio pasado, sino tambien con el
pasado del resto de las variables del sistema. Por ejemplo, en el V AR(1) de dos
variables se tienen dos ecuaciones, una para cada variable del sistema. O en el
V AR(1) de dos variables, se tienen dos ecuaciones, una para cada variable (y1
e y2 ), y se expresa as:
y1,t = 1 1y1,t1 + 1 2y2,t1 + 1,t
y2,t = 2 1y1,t1 + 2 2y2,t1 + 2,t
1,t W N (0, 2 )
2,t W N (0, 2 )
1 2 = cov(1,t , 2,t )

(3.41)
(3.42)
(3.43)
(3.44)
(3.45)

Cada variable depende de un rezago de s misma y de un rezago de la otra


variable, generando una gran utilidad en los pronosticos al ser una fuente de
interacci
on multivariada capturada por la autorregresion vectorial. Por otra
parte, las innovaciones se pueden correlacionar, de tal forma que cuando una
ecuaci
on sufre un choque, la otra tambien sufrira uno, y esto es otro tipo de
interacci
on multivariada que falta en los modelos univariados.
Modelos ARCH y GARCH
Los modelo ARCH y GARCH se concentran principalmente en modelar los
cambios de varianza (o volatilidad). Generalmente estos modelos no llevan a un
mejor pron
ostico puntual de la serie, pero pueden llevar a una mejor estimacion
de la varianza, lo que permite tener intervalos de prediccion mas confiables y
una mejor medici
on del riesgo. Esto puede ser especialmente importante en
algunas series de tiempo economicas y financieras, en las que pueden existir
cambios importantes en la varianza de la serie a lo largo del tiempo. El modelo
ARCH es un modelo autorregresivo condicional heteroscedastico y se usa para

31

modelar la no homoscedasticidad que una serie, usualmente los residuales de


alg
un proceso. El modelo mas simple o ARCH(1) es as,
2 = + x2t 1

(3.46)

y la varianza al no ser constante, depende del valor mas reciente de la serie.


N
otese que este modelo no contiene un termino de error y por lo tanto no define
un proceso estoc
astico. De manera mas general, un modelo ARCH(p) depende
de los u
ltimos p valores de al cuadrado de la serie de tiempo. Los modelos ARCH
han sido generalizados para permitir dependencia con los valores anteriores de
2 . El modelo ARCH generalizado (o GARCH) de orden (p,q) esta dado por:
2
i2 = + p i x2ti + q i tj

(3.47)

Los modelos GARCH tienen una varianza infinita y constante, dado que se hace
el supuesto de que las sumas de i y i son menores a 1. La identificacion
de un modelo GARCH apropiado no es facil, usualmente se utiliza el modelo estandar o GARCH(1, 1). Los modelos GARCH han sido utilizados para
pronosticar el precio de los derivados financieros como opciones, en los cuales
una estimaci
on correcta de la varianza es importante.
En [68] se condiera una variedad de especificaciones para modelos GARCH
multievaluados usadas para evaluar los mercados electricos nordicos.
Por el contrario, en [40] se hace un analisis de estas series temporales en
Nueva York, haciendose una prediccion para el da siguiente. Se obtienen unos
errores del 2.46%.
Tambien se puede encontrar en [32] una aplicacion directa de GARCH para
los mercados de Espa
na y California.

3.4.3

Predicci
on basada en m
etodos no lineales

Los metodos de predicci


on no lineales son aquellos que intentan modelar el
comportamiento de una serie temporal mediante una funcion no lineal. Esta
funci
on no lineal suele ser combinacion lineal de funciones no lineales cuyos
par
ametros hay que determinar. Los metodos globales se basan en encontrar
una funci
on no lineal que modele los datos de salida en funcion de los datos
de entrada. Dentro de los metodos globales no lineales se encuentran las redes
neuronales artificiales que presentan la ventaja de que no necesitan conocer la
distribuci
on de los datos de entrada, las maquinas de vector soporte (SVM)
que son unos clasificadores muy potentes de filosofa similar a las RNA y la
Programaci
on Genetica (PG) donde se puede elegir que tipo de funcion no
lineal modela el comportamiento de los datos.
Redes Neuronales Artificiales
Las redes neuronales buscan una solucion determinados problemas como la
evoluci
on de unos sistemas inspirados en el cerebro humano y no como una
secuencia de pasos, tal y como se hace habitualmente. Estos sistemas, por
32

Figura 3.2: Estructura tpica de una RNA.


tanto, poseen una cierta inteligencia que resultante de combinar elementos simples de proceso interconectados, neuronas, que operan de manera paralela son
capaces de resolver determinadas tareas entre las que destacan la prediccion, la
optimizaci
on, el reconocimiento de patrones o el control.
Las redes neuronales, tanto su teora como su modelado, estan inspiradas en
la estructura y funcionamiento de los sistemas nerviosos, donde la neurona es el
elemento fundamental debido a su capacidad para comunicarse. Se comentan,
a continuaci
on, las analogas existentes entre las redes neuronales artificiales y
la actividad sin
aptica, haciendose para ello las siguientes consideraciones. Las
se
nales que llegan a la sinapsis son las entradas a la neurona; estas son o bien
atenuadas o bien simplificadas a traves de un parametro (peso) asociado a la
sinapsis correspondiente. Estas se
nales de entrada pueden excitar a la neurona
si se realiza una sinapsis con peso positivo o, por el contrario, inhibirla si el
peso es negativo. El efecto es la suma de las entradas ponderadas. Si la suma
es igual o mayor que el umbral de la neurona, entonces la neurona se activa
(da salida). Esta es una situacion de todo o nada; cada neurona se activa o no
se activa. En la Figura 3.2 se puede apreciar la estructura tpica de una red
neuronal artificial.
Existen cuatro aspectos que caracterizan una red neuronal: su topologa, el
mecanismo de aprendizaje, tipo de asociacion realizada entre la informacion de
entrada y salida, y la forma de representacion de estas informaciones.
1. Topologa de las redes neuronales. La arquitectura de las redes neuronales consiste en la organizacion y disposicion de las neuronas formando
capas m
as o menos alejadas de la entrada y salida de la red. En este
sentido, los par
ametros fundamentales de la red son: el n
umero de capas,

33

el n
umero de neuronas por capa, el grado de conectividad y el tipo de
conexiones entre neuronas.
(a) Redes monocapa. Se establecen conexiones laterales, cruzadas o autorrecurrentes entre las neuronas que pertenecen a la u
nica capa que
constituye la red. Se utilizan en tareas relacionadas con lo que se
conoce como autoasociacion; por ejemplo, para generar informaciones
de entrada que se presentan a la red incompletas o distorsionadas.
(b) Redes multicapa [90]. Son aquellas que disponen de conjuntos de neuronas agrupadas en varios niveles o capas. Una forma de distinguir la
capa a la que pertenece la neurona, consiste en fijarse en el origen de
las se
nales que recibe a la entrada y el destino de la se
nal de salida.
Seg
un el tipo de conexion, como se vio previamente, se distinguen las
redes feedforward, y las redes feedforward/feedback [92].
2. Mecanismo de aprendizaje. El aprendizaje es el proceso por el cual
una red neuronal modifica sus pesos en respuesta a una informacion de
entrada. Los cambios que se producen durante el proceso de aprendizaje
se reducen a la destruccion, modificacion y creacion de conexiones entre
las neuronas, la creaci
on de una nueva conexion implica que el peso de la
misma pasa a tener un valor distinto de cero, una conexion se destruye
cuando su peso pasa a ser cero. Se puede afirmar que el proceso de aprendizaje ha finalizado (la red ha aprendido) cuando los valores de los pesos
permanecen estables.
(a) Redes con aprendizaje supervisado. El proceso de aprendizaje se
realiza mediante un entrenamiento controlado por un agente externo
(supervisor, maestro) que determina la respuesta que debera generar
la red a partir de una entrada determinada. El supervisor comprueba
la salida de la red y en el caso de que esta no coincida con la deseada,
se proceder
a a modificar los pesos de las conexiones, con el fin de
conseguir que la salida se aproxime a la deseada.
(b) Redes con aprendizaje no supervisado. Estas redes no requieren influencia externa para ajustar los pesos de las conexiones entre neuronas.
La red no recibe ninguna informacion por parte del entorno que le
indique si la salida generada es o no correcta, asi que existen varias
posibilidades en cuanto a la interpretacion de la salida de estas redes.
En algunos casos, la salida representa el grado de familiaridad o similitud entre la informacion que se le esta presentando en la entrada y
las informaciones que se le han mostrado en el pasado. En otro caso
podra realizar una codificacion de los datos de entrada, generando a
la salida una version codificada de la entrada, con menos bits, pero
manteniendo la informacion relevante de los datos, o algunas redes
con aprendizaje no supervisado lo que realizan es un mapeo de caractersticas, obteniendose en las neuronas de salida una disposicion
geometrica que representa un ,apa topografico de las caractersticas
34

de los datos de entrada, de tal forma que si se presentan a la red


informacikones similares, siempre sean afectadas neuronas de salidas
pr
oximas entre s, en la misma zona del mapa..
3. Tipo de asociaci
on entre las informaciones de entrada y salida. Las redes neuronales artificiales no son mas que sistemas que almacenan cierta informacion aprendida. Dicha informacion se registra de
forma distribuida en los pesos asociados a las conexiones entre neuronas
de entrada y salida. Existen dos formas primarias de realizar esa asociaci
on de entrada/salida. Una primera sera la denominada heteroasociaci
on, que se refiere al caso en el que la red aprende en parejas de datos
[(A1 , B1 ), (A2 , B2 )...(An , Bn )], de tal forma que cuando se presente cierta
informaci
on de entrada Ai, debera responder generandola correspondiente
salida Bi. La segunda se conoce como autoasociacion, donde la red aprende
ciertas informaciones A1 , A2 ...An , de tal forma que cuando se le presenta
una informaci
on de entrada realizara una autocorrelacion, respondiendo
con uno de los datos almacenados, el mas parecido al de la entrada. Estos
dos mecanismos de asociacion de asociacion dan lugar a dos tipos de redes neuronales: las redes heteroasociativas y las autoasociativas. Una red
heteroasociativa podra considerarse aquella que computa cierta funcion,
que en la mayora de los casos no podra expresarse analticamente, entre
un conjunto de entradas y un conjunto de salidas, correspondiendo a cada
posible entrada una determinada salida. Existen redess heteroasociativas
con conexiones feedforward, feedforward/feedback y redes con conexiones
laterales. Tambien existen redes heteroasociativas multidimensionales y
su aprendizaje puede ser supervisado o no supervisado. Por otra parte,
una red autoasociativa es una red cuya principal mision es reconstruir
una determinada informacion de entrada que se presenta incompleta o
distorsionada (le asocia el dato almacenado mas parecido). Pueden implementarse con una sola capa, existen conexiones laterales o tambien
autorrecurrentes, habitualmente son de aprendizaje no supervisado.
4. Representaci
on de la infomaci
on de entrada y salida. Las redes
neuronales pueden tambien clasificarse en funcion de la forma en que se
representan lasinformaciones de entrada y las respuestas o datos de salida. As un un gran n
umero de redes, tanto los datos de entrada como
de salida son de naturaleza analogica, cuando esto ocurre, las funciones
de activaci
on de las neuronas seran tambien continuas, del tipo lineal o
sigmoidal. Otras redes solo admiten valores discretos o binarios a su entrada, generando tambien unas respuestas en la salida de tipo binario. En
este caso, las funciones de activacion de las neuronas son de tipo escalon.
Existe tambien un tipo de resdes hbridas en las que las informaciones
de entrada pueden ser valores continuos, aunque las salidas de la red son
discretas.
En cuanto a su clasificacion, existen cuatro tipos, tal y como se muestra en
la Figura 3.4.3.
35

Figura 3.3: Clasificaci


on de los tipos de redes neuronales artificiales.
Recientemente, se han utilizado redes neuronales de tipo fuzzy [2] para predecir los precios del da siguiente en los mercados electricos. En concreto, el autor
propone una red neuronal que posee una arquitectura multicapa y retroalimentada con un mecanismo de entrenamiento hiperc
ubico. Igualmente, presente un
modelo no estacionario del comportamiento y los outliers de la serie temporal.
El metodo propuesto precide los precios por horas del mercado electrico espa
nol.
Presenta un error medio del 7.5%
Rodrguez y Anders [89] presentan un metodo para predecir los precios de
la energa usando redes neuronales y logica difusa y una combinacion de ambas,
haciendo una comparaci
on con las tecnicas existentes. Los resultados se validan
sobre el mercado electrico de Ontario.
En cambio, Saini y Soni [94] implementan una red neuronal perceptron multicapa con dos capas intermedias para la prediccion del pico de demanda en el
sistema electrico indio, aplicandose distintas tecnicas de descenso del gradiente
conjugado.
En [118] se utiliza una red neuronal para predecir los precios de la electricidad
del Mercado Energetico Europeo (EEM). En concreto, utiliza una red multicapa
retroalimentada para predecir varios periodos (7, 14, 21, 28, 63, 91, 182 y 273
das). Los resultados ofrecidos mejoran en un 64.6% los anteriores, que haban
sido obtenidos mediante tecnicas clasicas de regresion lineal.
En [71] se usan redes hbridas para la prediccion de la demanda electrica del
da siguiente en el sistema electrico espa
nol. Los resultados presentan un error
relativo medio de 1.62%.

36

En [99] se usa una red neuronal para la prediccion del precio de la energa en
el mercado electrico de Australia. Pero, a diferencia de los anteriores metodos,
realiza una predicci
on s
olo de la hora siguiente. Las variables que utiliza para
hacer su predicci
on son los valores pasados de la demanda, los precios y variables
temporales que pueden afectar a la demanda. Presenta un error del 1.37%.
Programaci
on gen
etica
Un algoritmo genetico (AG) [37] es un tipo de algoritmo de b
usqueda estocastica,
fundamentado en procedimientos de seleccion natural. Estos tipos de algoritmos tratan de imitar los procesos de evolucion biologica ya que combinan la
supervivencia de los mejores individuos (los mas aptos) dentro de un conjunto
con un intercambio de informacion estructurado y aleatorio.
En cada iteraci
on se crea un nuevo conjunto de estructuras de datos que
s
olo usan las partes m
as aptas de las generaciones anteriores. Los AG son algoritmos evolutivos debido a su capacidad para explotar de manera eficiente
la informaci
on relativa a las generaciones anteriores, permitiendo as especular
sobre nuevos puntos de b
usqueda dentro del espacio de soluciones, con el objetivo de obtener un mejor comportamiento gracias a su evolucion. Su ambito
de actuaci
on frecuente es el de las cadenas de caracteres de longitud fija, generalmente binarias. La aptitud se determina ejecutando algoritmos y rutinas
especficos, usando una interpretacion de las cadenas de caracteres como el conjunto de par
ametros. El cruce es el principal operador genetico empleado, siendo
la mutaci
on un operador de importancia secundaria.
La programaci
on genetica, PG [61], es un hijo de los AG, en el que las
estructuras de datos que sufren la adaptacion, son en s mismas programas de
ordenador. Se usan operadores geneticos especializados que generalizan el cruce
y la mutaci
on, para los programas de computador estructurados en arbol que
est
an bajo adaptaci
on. La PG tiene las siguientes caractersticas:
1. Material gen
etico no lineal y generalmente estructurado en
arbol.
Aunque algunos AG tienen material genetico que no es lineal, el material genetico lineal sigue siendo la regla en los AG. Sin embargo, la
PG casi siempre opera sobre material genetico no lineal, y generalmente
explcitamente en estructura de arbol.
2. Material gen
etico de longitud variable. La PG casi siempre opera sobre material genetico que puede variar de tama
no. Por razones practicas,
generalmente se implementan limitaciones en el crecimiento, pero normalmente permite crecimientos considerables a partir de la generacion original
que se produce aleatoriamente.
3. Material gen
etico ejecutable. La PG es la evolucion directa de programas de computador. As, en casi todos los casos el material genetico
que esta evolucionando es en cierto sentido ejecutable. Aunque ejecutable
no es el termino m
as preciso, y sobre esto hay una serie de areas grises.
Generalmente las estructuras son interpretadas por alg
un interpretador,
37

a veces en un lenguaje identico o muy parecido a un lenguaje de computaci


on existente, a veces en un lenguaje dise
nado para el problema a
mano. Sin embargo, en casi todos los casos hay un concepto de ejecucion
del material genetico, con el objeto de ver directamente el comportamiento
de la funci
on deseada, a partir de la cual se obtiene la aptitud.
4. Cruce que preserva la sintaxis. Aunque se han reportado muchos
operadores de cruce para PG, en la mayora de los casos estan definidos
de manera que preserven la correccion sintactica del programa que es el
material genetico, definida por cualquier lenguaje que se haya escogido
para su representaci
on.
A continuaci
on, se detallan los pasos genericos que se toman cuando se realizan tareas de PG. Evidentemente, seg
un la aplicacion lo requiera, estos podran
variar ligeramente.
1. Generar una poblaci
on inicial de composiciones aleatorias de funciones y
terminales del problema (es decir, programas).
2. Ejecutar iterativamente los siguientes pasos hasta que se satisfaga el criterio de terminaci
on:
(a) Ejecutar cada programa de la poblacion y asignarle un valor de aptitud, de acuerdo a su comportamiento frente al problema.
(b) Crear una nueva poblacion de programas aplicando las siguientes dos
operaciones primarias, a los programas escogidos, con una probabilidad basada en la aptitud.
i. Reproducir un programa existente copiandolo en la nueva poblacion.
ii. Crear dos programas a partir de dos programas existentes, recombinando geneticamente partes escogidas de los dos programas
en forma aleatoria, usando la operacion cruce aplicada a un punto
de cruce, escogido aleatoriamente dentro de cada programa.
iii. Crear un programa a partir de otro seleccionado aleatoriamente,
cambiando aleatoriamente un gen (funcion o terminal). Es posible que se requiera un procedimiento de reparacion para que se
satisfaga la condicion de clausura.
3. El programa identificado con la mayor aptitud (el mejor hasta la u
ltima
generaci
on), se designa como el resultado de la corrida de PG. Este resultado puede representar una solucion (o una solucion aproximada) al
problema.
En [108] se propone un metodo de segmentacion de series temporales combinando tecnicas de clustering, transformaciones wavelet y programacion genetica.
En concreto, busca encontrar segmentos y patrones en las series temporales autom
aticamente, donde la PG se usa para encontrar los puntos de segmentacion

38

apropiados a partir de los cuales se derivaran los patrones. En la evaluacion de


la bondad, el algoritmo divide el cromosoma en k subsecuencias utilizacion el
K-means. La distancia eucldea se usa entonces para calcular la distancia de
cada subsecuencia y evaluar el cromosoma. La transformada wavelet discreta
se usa para ajustar la longitud de las subsecuencias para comparar su similitud,
ya que pueden ser diferentes.
Se pueden encontrar tambien tecnicas de computacion evolutivas en [100,
102] aplicadas a la planificacion optima de la produccion de la energa eletrica
en el corto plazo.
En [7] se eval
ua la viabilidad de predecir la demanda electrica en el estado de
Victoria (Australia) mediante programacion genetica lineal. Para ello se consideran los patrones de demanda de carga para diez meses consecutivos, tomando
muestras cada media hora para entrenar diferentes modelos de prediccion. Los
resultados que obtiene resultan ser mejores que los conseguidos por una red
neuronal difusa aplicada a la misma serie temporal.
Normalmente, cuando se aplican tecnicas de prediccion se asumen entornos
est
aticos, lo que hace que no estos dejen de ser adecuados para multitud de series
temporales del mundo real. En [113] se desarrolla un nuevo modelo de programaci
on genetica din
amica especfico para entornos no estaticos (DyFor GP).
Este modelo incorpora caractersticas que le permiten adaptarse a los cambios
del entorno autom
aticamente a la vez que retiene el conocimiento aprendido
previamente. Este metodo ha sido aplicado a series temporales de la inflacion
del precio de los productos de uso domestico en Estados Unidos.
M
aquinas de vector soporte
Un descriptor es que una caracterstica de un objeto, el cual puede, o no, agruparse con otros descriptores, formando un patron que sirva para clasificar el
objeto dentro de una clase. Un buen descriptor es aquella caracterstica por la
que es m
as f
acil discriminar entre las distintas clases a las que puede pertenecer
el objeto. Pues bien, sobre este hecho descansa la teora de las maquinas de
vector soporte (SVM, Support-Vector Machine).
El modelo de SVM, tal como se entiende actualmente, aparecio el a
no 1992
en la conferencia COLT (COmputacional Learning Theory) [8] y ha sido objeto
de continuo estudio y ampliacion posteriormente [14, 110]. El interes por este
modelo de aprendizaje est
a en continuo crecimiento y hoy en da es una tecnica
tan emergente como exitosa, habiendose convertido en un referente completamente establecido para las disciplinas del aprendizaje automatico y de la minera
de datos.
El aprendizaje de las SVM representa un problema de optimizacion con
restricciones que se puede resolver usando tecnicas de programacion cuadratica
(QP). La convexidad garantiza una solucion u
nica (esto supone una ventaja con
respecto al modelo cl
asico de redes neuronales) y las implementaciones actuales
permiten una eficiencia razonable para problemas reales con miles de ejemplos
y atributos.

39

a. Separaci
on de puntos con hiperplanos en espacios D-dimensionales.
Las SVM se engloban en la familia de clasificadores lineales ya que inducen
separadores lineales (hiperplanos) en espacios de caractersticas de muy alta
dimensionalidad (introducidas por las funciones n
ucleo, kernel ) con un sesgo
inductivo muy particular (maximizacion del margen) [81]. La definicion formal
de un hiperplano en un espacio D-dimensional viene expresada por:
h(x) =< w, x > +b

(3.48)

donde w<D es el vector ortogonal al hiperplano b< y < w, x > expresa el


producto escalar habitual en <D. Si se quisiera reescribir esta regla aplicada
para un clasificador binario quedaria de la forma que sigue:
f (x) = signo (h(x))
donde la funci
on signo se define como:

+1, si x 0
signo(x) =
1, si x < 0

(3.49)

(3.50)

Se definen a continuaci
on las variables aparecidas en las ecuaciones anteriores. Las x<D son las representaciones en forma vectorial de las instancias
teniendose una componente real por cada atributo. Por el contrario, el vector
w recibe el nombre de vector de pesos y contiene un peso para cada atributo
indicando, as, su importancia o contribucion en la regla de clasificacion. Para
concluir, b suele denominarse sesgo o bias y define el umbral de decision. Este
ser
a el par
ametro que m
as hay que refinar y tiene un mayor peso especfico que
los dem
as.
Dado un conjunto binario de datos linealmente separables (datos que pueden
ser agrupados con independencia del valor de los demas) existen m
ultiples algoritmos enfocados a la creaci
on de hiperplanos (w, b) y que los separen correctamente. En todos los algoritmos se asegura la convergencia hacia un hiperplano
soluci
on, pero las particularidades de cada uno de ellos hacen que se obtengan
soluciones ligeramente distintas, puesto que puede haber varios, infinitos de hecho, hiperplanos que separen correctamente el conjunto de ejemplos. Dada esta
circunstancia y asumiendo que el conjunto de ejemplos es linealmente separable,
la pregunta es inmediata: cual es el mejor hiperplano separador si se quiere
generalizar una soluci
on? La clave teorica de las SVM consiste en escoger un
hiperplano separador que este a la misma distancia de los ejemplos mas cercanos
de cada clase. De manera equivalente, es el hiperplano que maximiza la distancia mnima (o margen geometrico) entre los ejemplos del conjunto de datos y
el hiperplano. Equivalentemente, este hiperplano se sit
ua en la posicion mas
neutra posible con respecto a las clases representadas por el conjunto de datos,
sin estar sesgado hacia la clase mas numerosa, por ejemplo. Otra peculiaridad
es que s
olo toma en consideracion aquellos puntos que esten en las fronteras de
la regi
on de decisi
on (zona donde puede haber dudas sobre a que clase pertenece
un ejemplo): son los denominados vectores soporte. En la figura que se muestra
a continuaci
on se presenta geometricamente este hiperplano equidistante para
el caso bidimensional.
40

Figura 3.4: Hiperplano (w, b) equidistante a dos clases, margen geometrico y


vectores soporte.
b. Funciones n
ucleo (kernel functions). Si se realiza una transformacion
no lineal del espacio de atributos de entrada (input space) en un espacio de
caractersticas (feature space) de dimensionalidad mucho mayor, se consigue
realizar aprendizaje de separadores no lineales con SVM. Para ello se usan las
funciones n
ucleo, cuya misi
on es calcular el producto escalar de dos vectores en
el espacio de caractersticas. Con este paso se permite trabajar en el espacio
de caractersticas sin tener que calcular las transformaciones de los ejemplos de
aprendizaje. No obstante, este tipo de aprendizaje no es exclusivo de las SVM.
Aunque se suele asociar los metodos basados en funciones n
ucleo con las SVM
al ser su ejemplo m
as paradigmatico y avanzado, hay muchos otros algoritmos
que se puede kernelizar para permitir el aprendizaje funciones no lineales.
Por tanto, un requisito b
asico para aplicar de manera existosa las SVM a un
problema real es la elecci
on de una funcion n
ucleo adecuada, que debe poseer
un conocimiento a priori sobre el problema o, en otras palabras, debe llevar
un entrenamiento previo. El desarrollo de funciones n
ucleo para estructuras no
vectoriales (por ejemplo, estructuras secuenciales, arboles o grafos) es actualmente un
area de investigacion importante con aplicacion en dominios como el
procesamiento del lenguaje natural y la bioinformatica.
c. Modelo SVM con margen blando. Puede darse el caso en el que los
ejemplos de aprendizaje no sean linealmente separables(vease Figura 3.5) ni
siquiera en el espacio caracterstica. Mas a
un, en otras circunstancias no es
recomendable obtener un separador perfecto del conjunto de aprendizaje, ya que
los datos pueden no est
ar faltos de errores (ejemplos mal etiquetados, valores
de atributos mal calculados, inconsistencias...).
Centrarse demasiado en todos los ejemplos de aprendizaje puede comprometer seriamente la generalizacion del clasificador aprendido por culpa del sobreajuste u overfitting. En estos casos es preferible ser mas conservador y admitir
algunos ejemplos de aprendizaje mal clasificados a cambio de tener separadores
41

Figura 3.5: Conjunto de datos no separable linealmente.


m
as generales y prometedores. Este comportamiento se consigue mediante la
introducci
on del modelo de SVM con margen blando (soft margin). En este
caso, la funci
on objetivo que deseamos minimizar esta compuesta por la suma
de dos terminos:
Margen geometrico.
Termino de regularizacion que tiene en cuenta los ejemplos mal clasificados.
La importancia relativa de los dos terminos se regula mediante un parametro,
normalmente llamado C. Este modelo, aparecido en 1999 [111], es el que realmente abri
o la puerta a un uso real y practico de las SVM, aportando robustez
frente al ruido.
De todo lo comentado anteriormente se puede concluir que las maquinas de
vector soporte poseen las siguientes caractersticas:
1. El entrenamiento de una SVM es basicamente un problema de programaci
on cuadr
atica (QP) convexa, que es atractivo por dos motivos:
Su eficiente computacion (existen paquetes software que permiten su
resoluci
on eficientemente).
La garanta de encontrar un extremo global de la superficie de error
(nunca alcanzar
a mnimos locales). La solucion obtenida es u
nica y
la m
as
optima para los datos de entrenamiento dados.
2. A la vez que minimiza el error de clasificacion en el entrenamiento.
3. La soluci
on no depende de la estructura del planteamiento del problema.
4. Permite trabajar con relaciones no lineales entre los datos (genera funciones no lineales, mediante kernel). El producto escalar de los vectores
transformados se puede sustituir por el kernel por lo que no es necesario
trabajar en el espacio extendido.
42

5. Generaliza muy bien con pocas muestras de entrenamiento.


6. Presenta varios inconvenientes:
La elecci
on de un n
ucleo adecuado es todava un area abierta de
investigaci
on. Una vez elegido el n
ucleo, los clasificadores basados
en SVM tienen como u
nico parametro a ajustar por el usuario: la
penalizaci
on del error C.
La complejidad temporal y espacial, tanto en el entrenamiento como
en la evaluaci
on, son tambien una limitacion. Es un problema sin
resolver el entrenamiento con grandes conjuntos de datos (del orden de millones de vectores soporte). Los algoritmos existentes para
resolver esta familia de problemas tardan un tiempo que depende
cuadr
aticamente del n
umero de puntos.
Fue inicialmente creado para clasificacion binaria. Aunque hay ya
algunos trabajos que estudian el entrenamiento de SVM multiclase en
una sola pasada, aun se esta lejos de dise
nar un clasificador multiclase
optimo basado en SVM.

Existen multitud de investigaciones relacionadas con SVM y prediccion. Por


ejemplo, Guo [41], en el a
no 2006, trato de hacer una prediccion de la carga
electrica, hecho que resulta complicado debido a la no linealidad de esta y a
la cantidad de factores que influyen en ella. Como pasa en la mayora de las
SVM no se alcanza una convergencia facilmente, no obstante aqu se asegura que
se consigue una predicci
on optimizada globalmente (no se queda en maximos
locales). Las series consideradas pertenecen al mercado energetico chino.
En esta misma lnea se encuentra el estudio realizado en [46] un a
no antes.
Aunque aqu se estudia la idoneidad de aplicar una SVM para predecir las
cargas electricas, concluyendo que es el mejor modo de hacerlo en comparacion
con regesiones o con redes neuronales artificiales. La serie temporal utilizada
para este fin fue la del mercado taiwanes.
En [96] se presentan dos tecnicas para la prediccion del precio de la electricidad en el Mercado Electrico Nacional de Australia y en el sur de Gales. En
concreto, comparan la prediccion realizada por una SVM con datos PASA (Projected Assessment of System Adequacy), concluyendo que a pesar del esfuerzo
de generar datos PASA, supuestamente mas precisos y compactos, no se logran
mejores resultados que utilizando una SVM.

3.4.4

Predicci
on basada en m
etodos locales

Una de las formas m


as populares de predecir o clasificar un nuevo dato, basado
en observaciones conocidas o pasadas, es el metodo del vecino mas cercano (NN,
Nearest Neighbours) [15, 16, 18], que fue formulado por Cover y Hart en 1967
[17]. Como ejemplo tpico de aplicacion, se tiene el caso de un medico que
trata de predecir el resultado de un procedimiento quir
urgico comparandolo con
el resultado que se obtuvo con el paciente mas parecido que se haya sometido

43

Figura 3.6: B
usqueda progresiva de los vecinos mas cercanos.
al mismo procedimiento. Un solo caso muy similar en el que la ciruga fallo
puede influir de manera excesiva sobros otros muchos casos ligeramente menos
similares en los que la ciruga fue un exito. Por esta razon, el metodo del vecino
m
as cercano se generaliza al uso de los k vecinos mas cercanos. De esta manera,
una simple elecci
on de los k vecino mas cercanas genera la prediccion para cada
caso. M
as a
un, se puede extender la regla de decision a una eleccion ponderada,
en la cual los vecinos m
as cercanos al caso tendran mas peso. Por tanto, se
puede definir el probrema de la b
usqueda del vecino mas cercano de la siguiente
manera:
Definici
on. Dado un conjunto de puntos P = p1 , ..., pn en un espacio metrico
X de distancia d, permitiendo alg
un preprocesamiento en P de manera
eficiente, se desea responder a dos tipos de solicitudes:
Vecino m
as cercano: localizar el punto en P mas cercano a qX
Rango: dado un punto qX y r > 0, devolver todos los puntos pP
que satisfagan d(p, q) r
Este hecho queda reflejado en la Figura 3.6, en la que el punto 0 sera la instancia que se desee clasificar. Los demas puntos iran numerados correlativamente
seg
un la distancia a la que esten del punto sometido a estudio. Se buscan algoritmos de discriminaci
on no parametrica. Es decir, se buscan enfoques no
parametricos caracterizados por la ausencia de hipotesis a priori sobre la distribuci
on condicional del espacio de definicion. Puesto que la base esta en el
c
alculo de distancias, esta puede ser, tal vez, su mayor inconveniente. El algoritmo m
as sencillo para la b
usqueda del vecino mas cercano es el conocido como
fuerza bruta, o exhaustivo, que calcula todas las distancias de un individuo a
los individuos de la muestra de entrenamiento y asigna al conjunto de vecinos

44

m
as cercanos aquel cuya distancia sea mnima. En la practica resulta poco
aconsejable y, por ello, se han ido desarrollando algoritmos eficientes que evitan
recorrer exhaustivamente todo el conjunto de entrenamiento. Formalmente, se
enuncia la regla de clasificacion N N como sigue:
Definici
on. Sea D = {e1 , . . . , eN } un conjunto de datos con N ejemplos etiquetados, donde cada ejemplo ei contiene m atributos (ei1 , . . . , eim ), pertenecientes al espacio metrico E m , y una clase Ci {C1 , . . . , Cd }. La clasificaci
on de un nuevo ejemplo e0 cumple que
e0 a Ci j 6= i d(e0 , ei ) < d(e0 , ej )

(3.51)

donde e0 a Ci indica la asignacion de la etiqueta de clase Ci al ejemplo e0 ;


y d expresa una distancia definida en el espacio m-dimensional E m .
Un ejemplo queda, pues, etiquetado en funcion de la clase que tenga su vecino
m
as cercano. Esta cercana viene definida por la distancia d, por lo que la
elecci
on de esta metrica es primordial ya que la aplicacion de metricas distintas
sobre un mismo conjunto de datos producira, con mucha probabilidad, una
clasificaci
on diferente. El mayor inconveniente que se presenta es que no se
tiene conocimiento a priori de la bondad de una metrica frente a otra y su
elecci
on deber
a ser hecha por alg
un experto. Su eleccion sera discutida con
profusi
on en el siguiente captulo.
Existe una generalizaci
on posible para el caso en el que las clases son continuas y cuando se le asigna una media ponderada de los k vecinos mas cercanos:
es el conocido k-NN. El algoritmo k-NN se engloba dentro de las denominadas
tecnicas de aprendizaje perezoso (lazy learning), ya que el propio conjunto de
datos representa el modelo. La tarea mas determinante que debe realizarse antes
de aplicar el algoritmo es, ademas de escoger la metrica, elegir k, es decir, determinar de alguna manera cual va a ser el n
umero de vecinos que se tendran en
cuenta para realizar la clasificacion. Para tal fin, en [88] se intenta determinar el
comportamiento de k en el espacio de caractersticas para obtener un patron que
determine a priori cu
al es el n
umero de vecinos mas adecuado para clasificar un
ejemplo concreto dependiendo de los valores de sus atributos. Recientemente,
en [28] se desarrolla un algoritmo de clasificacion N N no parametrizado que
adapta localmente el valor k.
Existen muchos artculos, provenientes de distintas areas de conocimiento,
que proponen algoritmos eficientes para la b
usqueda del vecino mas cercano.
Muchos de ellos encajan dentro de un esquema de b
usqueda conocida como
Esquema de Aproximaci
on y Eliminacion (AESA, Approximating Eliminating
Search Algorithm) [86], cuyos pasos son:
1. De entre los individuos del conjunto de entrenamiento, se seleccion un
candidato a vecino m
as cercano.
2. Se calcula su distancia d al individuo en cuestion.
3. Si esa distancia es menor que la del vecino mas cercano hasta el momento,
dn n, se actualiza el vecino mas cercano y se eliminan del conjunto de
45

entrenamiento aquellos individuos que no puedan estar mas cerca de la


muestra que el vecino cercano actual.
4. Se repiten los pasos anteriores hasta que no queden individuos por seleccionar en el conjunto de entrenamiento, ya sea porque hayan sido previamente seleccionados o porque hayan sido eliminados.
Dentro de estos esquemas, los algoritmos mas conocidos son el k-d tree, el
Fukunaga-Narendra, el vp-tree y el GNAT.
En [101] se presenta un algoritmo de prediccion basado en los vecinos mas
cercanos, donde la metrica elegida es la distancia eucldea ponderada por unos
pesos los cuales son determinados mediante un algoritmo genetico a partir de
un conjunto de entrenamiento. Ademas, los resultados se comparan con los
obtenidos por una red neuronal artificial.
En [42] se presenta un metodo de prediccion basado en las trayectorias vecinas m
as cercanas y una vez determinadas las trayectorias mas cercanas se determinan los vecinos m
as cercanos localizados en estas trayectorias. La metrica
usada para el c
alculo tanto de las trayectorias vecinas como de los vecinos mas
cercanos en estas trayectorias es la distancia eucldea ponderada por unos pesos
exponenciales de la forma i . Los pesos y el n
umero de trayectorias vecinas
se determinan mediante un algoritmo de optimizacion cuya funcion objetivo es
el error de cross-validaci
on. Recientemente, estas tecnicas se han aplicado al
problema de la predicci
on de los precios de la energa en el Mercado Electrico
Espa
nol y a la predicci
on de la demanda de energa dando lugar a resultados
competitivos con los resultados obtenidos de la aplicacion de otras tecnicas.
En [104] se describe un algoritmo de prediccion basado en los vecinos mas
cercanos aplicado a la prediccion de los precios. En este algoritmo la metrica
elegida es la distancia eucldea ponderada por unos pesos, los cuales son determinados mediante un algoritmo genetico a partir de un conjunto de entrenamiento.
Los resultados obtenidos de su aplicacion son comparados con los obtenidos de
la aplicaci
on de una regresi
on multivariable, donde los coeficientes son actualizados cada vez que se predice un da del conjunto test.
En [107] se realiza un estudio de los parametros que afectan al algoritmo
de predicci
on basado en los vecinos mas cercanos para mejorar la prediccion
obtenida de los precios de la energa y se hace un analisis heurstico de cuando
el error cometido con este metodo es mnimo.
En [105, 106] se describe un algoritmo de prediccion basado en los vecinos
m
as cercanos aplicado a la prediccion de la demanda de energa electrica. Un
estudio de los par
ametros
optimos que afectan al metodo es analizado antes de
realizar la predicci
on. Los resultados obtenidos de su aplicacion son comparados
con los obtenidos de la aplicacion de una regresion multivariable, donde los
coeficientes son actualizados cada vez que se predice un da del conjunto test. El
conjunto test est
a formado por los meses comprendidos entre junio y noviembre
del a
no 2001 obteniendose unos errores relativos medios de 2.3% cuando se han
usado tecnicas basados en los vecinos y 2.83% cuando se ha usado una regresion
din
amica.

46

Captulo 4

An
alisis de las t
ecnicas de
clustering. Aplicaci
on a
series temporales
4.1

Introducci
on

El proceso de agrupar un conjunto de objetos abstractos o fsicos en clases


similares recibe el nombre de clustering. Un cluster es, pues, una coleccion de
datos que son parecidos entre ellos y diferentes a los datos pertenecientes a otros
clusters. Un cluster de datos puede ser tratado colectivamente como un u
nico
grupo en numerosas aplicaciones.
Las tecnicas de clustering son tecnicas de clasificacion no supervisada de
patrones en conjuntos denominados clusters. El problema del clustering ha sido
abordado por gran cantidad de disciplinas y es aplicable a una gran cantidad
de contextos, lo cual refleja su utilidad como uno de los pasos en el analisis
experimental de datos. Sin embargo, el clustering es un problema complejo, y
diferencias en las hip
otesis y contextos en los distintos colectivos de han hecho
que su desarrollo sea m
as lento de lo esperado. En este captulo se presenta una
visi
on global de los distintos metodos de clustering as como las distintas aplicaciones de conceptos relacionados con este entorno, proporcionando informacion
y referencias de conceptos de gran utilidad para la su aplicacion en cualquier
campo, aunque siempre se prestara especial atencion a aquellas tecnicas que
hayan sido utilizadas con exito en el analisis de las series temporales del mercado electrico.
El an
alisis de clusters es una importante actividad humana. Desde la infancia
se aprende a distinguir entre perros y gatos, o entre plantas y animales, mediante una continua mejora de los esquemas de clasificacion subconscientes. Las
tecnicas de clustering han sido ampliamente utilizadas en m
ultiples aplicaciones
tales como reconocimiento de patrones, analisis de datos, procesado de imagenes

47

o estudios de mercado. Gracias al clustering se pueden identificar regiones tanto


pobladas como dispersas y, por consiguiente, descubrir patrones de distribucion
general y correlaciones interesantes entre los atributos de los datos. En el area
de los negocios, el clustering puede ayudar a descubrir distintos grupos en los
h
abitos de sus clientes y as, caracterizarlo en grupos basados en patrones de
compra. En el
ambito de la biologa puede utilizarse, por ejemplo, para derivar
taxonomas animales y vegetales o descubrir genes con funcionalidades similares. De igual manera, el clustering puede ayudar a identificar areas en las que
la composici
on de la tierra se parece y, mas concretamente, en teledeteccion se
pueden detectar zonas quemadas, superpobladas o deserticas. En internet se
puede utilizar par clasificar documentos y descubrir informacion relevante de
ellos.
El an
alisis de clusters se puede usar para hacerse una idea de la distribucion
de los datos, para observar las caractersticas de cada cluster y para centrarse
en un conjunto particular de datos para futuros analisis. Alternativamente,
se puede usar como un paso de preprocesado para otros algoritmos, tales como
clasificaci
on y caracterizaci
on, siempre que se opere sobre los clusters detectados.
El clustering de datos es una disciplina cientfica incipiente sujeta a un vertiginoso desarrollo. Existen multitud de estudios y artculos esparcidos en actas
de conferencias y revistas, la mayor parte de ellos en los campos de minera
de datos, estadstica, aprendizaje automatico, biologa y marketing; mas a
un,
la mayor parte de ellos enfatizan en diversos intentos de construir tecnicas especficas para cada
area. Debido a la enorme cantidad de datos contenidos
en las bases de datos, el clustering se ha convertido en un tema muy activo
en las investigaciones de la minera de datos. Como rama de la estadstica, el
an
alisis de clusters ha sido objeto de estudio durante muchos a
nos, centrandose
principalmente en los las tecnicas basadas en la medida de distancias.
En lo referente al aprendizaje automatico, el clustering suele venir referido
como aprendizaje no supervisado, como ya se adelanto al principio de la seccion.
A diferencia de la clasificacion, el clusering no depende de clases previamente
definidas ni en ejemplos de entrenamientos etiquetados a priori. Por esta razon,
se trata de una forma de aprendizaje por observacion en vez de aprendizaje por
ejemplos. En el clustering conceptual un grupo de objetos forma una clase solo
si puede ser descrito mediante un concept, lo que difiere del clustering convencial
que mide similitudes basadas en distancias geometricas. El clustering conceptual
consiste en dos componentes:
1. Descubre las clases apropiadas.
2. Forma descripciones para cada clase, tal y como sucede en la clasificacion.
En minera de datos se vienen realizando numerosos estudios para aplicar el
an
alisis de clusters de forma efectiva y eficiente en grandes bases de datos. En
la actualidad, las lneas de investigacion se centran en la escalabilidad de los
metodos de clusters, en la efectividad de metodos para agrupar formas y tipos
de datos complejos, tecnicas para clustering de alta dimension y, finalmente,
metodos dirigidos a gestionar datos mixtos (tanto numericos como nominales)
48

en bases de datos grandes. El clustering es, hoy en da, un campo de investigaci


on en el que sus aplicaciones potenciales plantean sus propios requerimientos
especficos. Dichos requerimientos se pueden resumir en:
1. Escalibilidad. Muchos algoritmos de clustering trabajan bien sobre conjuntos de datos peque
nos, menos de 200 objetos, sin embargo, una gran
base de datos puede contener varios millones de objetos. Aplicar clustering
sobre una muestra de una gran base de datos dada puede arrojar resultados parciales. El reto, pues, es el desarrollar algoritmos de clustering que
sean altamente escalables en grandes bases de datos.
2. Capacidad para tratar con diferentes tipos de atributos. Muchos
algoritmos se dise
nan para clusters de datos numericos. Sin embargo,
multitud de aplicaciones pueden requerir clusters de otro tipo de datos,
ya sean binarios, nominales, datos ordinales, o una mezcla de ellos.
3. Descubrir clusters de forma arbitraria. Muchos algoritmos de clustering determinan clusters basandose en medidas de distancia de Manhattan o eucldeas. Tales algoritmos tienden a encontrar clusters esfericos
con tama
nos y densidades similares. Sin embargo, un cluster puede tener
cualquier tipo de forma. Es por ello que es importante desarrollar algoritmos capaces de detectar clusters de forma arbitraria.
4. Requisitos mnimos para determinar los par
ametros de entrada.
Muchos algoritmos requieren que los usuarios introduzcan ciertos parametros
en el an
alisis de clusters (como puede ser el n
umero de clusters deseado).
El clustering es frecuentemente muy sensible a dichos parametros, que son
difciles de determinar especialmente en los casos en los que los conjuntos
de datos contienen objetos multidimensionales. Este hecho no solo preocupa a los usuarios sino que tambien hace que la calidad del clustering
sea difcil de controlar.
5. Capacidad para enfrentarse a datos ruidosos. La mayor parte de
las bases de datos reales contienen datos de tipo outliers o datos ausentes,
desconocidos o err
oneos. Algunos algoritmos de clustering son sensibles a
este tipo de datos lo que puede acarrear una baja calidad en los clusters
obtenidos.
6. Insensibilidad al orden de los registros de entrada. Determinados
algoritmos son sensibles al orden de los datos de entrada, es decir, el
mismo conjunto de datos presentados en diferente orden puede generar
clusters extremadamente diferentes. Se hace evidente, pues, la necesidad
de desarrollar algoritmos que sean insensibles al orden de la entrada.
7. Alta dimensionalidad. Una base de datos puede contener varias dimensiones o atributos. Muchos algoritmos de clustering son buenos cuando
manejan datos de baja dimension (dos o tres dimensiones). El ojo humano
es adecuado para medir la calidad del clustering hasta tres dimensiones.

49

Es un reto agrupar objetos en un espacio de alta dimension, especialmente


considerando que en dicho espacio los datos pueden estar altamente esparcidos y distorsionados.
8. Clustering basado en restricciones. Las aplicaciones del mundo real
pueden necesitar realizar clustering bajo ciertos tipos de restricciones.
9. Interpretabilidad y usabilidad. Los usuarios esperan que los resultados proporcionados por el clustering sean interpretables, comprensibles
yu
tiles. Esto es, el clustering puede necesitar ser relacionado con interpretaciones sem
anticas especficas. As, es importante estudiar como el
objetivo buscado por una aplicacion puede influir en la seleccion de los
metodos de clustering.
Con estos requerimientos en mente el estudio del analisis de clusters se hara
como sigue. En primer lugar se estudian los diferentes tipos de datos y como
pueden influir los metodos de clustering. En segunda instancia se presentan una
categorizaci
on general de los anteriormente citados metodos. Posteriormente
se estudiar
a cada metodo en detalle, incluyendo los metodos de particionado,
jer
arquico, basados en densidad, basados en rejilla, y basados en modelos.

4.2

Componentes de una tarea de clustering

Los pasos de una tarea de clustering tpica se pueden resumir en cinco pasos siguientes [48], de los cuales los tres primeros son los que realizan el agrupamiento
de los datos en clusters, mientras que los dos u
ltimos se refieren a la utilizacion
de la salida.
1. Representaci
on del patron (opcionalmente incluyendo caractersticas de la
extracci
on y/o selecci
on).
2. Definici
on de una medida de la proximidad de patrones apropiada para el
dominio de los datos.
3. Clustering propiamente dicho (agrupamiento de los patrones).
4. Abstracci
on de los datos (si es necesario).
5. Evaluaci
on de la salida (si es necesario).
La representaci
on del patr
on se refiere al n
umero de clases, el n
umero de
patrones disponible, y el n
umero, tipo, y escala de las caractersticas disponibles
para el algoritmo de clustering. Es posible que parte de esta informacion no
sea controlada. La selecci
on de caractersticas es el proceso de identificar el
subconjunto m
as apropiado de caractersticas dentro del conjunto original para
utilizarlo en el proceso de agrupamiento. La extracci
on de caractersticas es
el uso de una o m
as transformaciones de las caractersticas de la entrada para
producir nuevas caractersticas de salida. Cualquiera de estas dos tecnicas puede

50

ser utilizada obtener un sistema apropiado de caractersticas para utilizarlas en


el proceso de clustering.
La proximidad de patrones se mide generalmente seg
un una funcion de distancia definida para pares de patrones. Existen gran variedad de funciones de
distancias que han sido utilizadas por diversos autores y que seran descritas en
la secci
on Medidas de la distancia.
El paso de agrupamiento o clustering propiamente dicho puede ser realizado
de diversas formas. El clusttering de salida puede ser hard (duro) o fuzzy (difuso). El primero de ellos realiza una particion de los datos en grupos y en
el segundo cada patr
on tiene un grado variable de calidad en cada uno de los
clusters de salida. Los algoritmos de clustering jerarquicos son una serie jerarquizada de de particiones basadas en un criterio de combinacion o division de
clusters seg
un su semejanza. Los algoritmos de clustering particionales identifican la partici
on que optimiza (generalmente de manera local) un criterio de
agrupamiento. Todas las tecnicas iran detalladas en la seccion T
ecnicas de
clustering.
Es difcil evaluar si la salida de un algoritmo de clustering ha sido buena
o mala, es decir, si el algoritmo ha obtenido clusters validos o u
tiles para el
contexto concreto en el que se aplica. Ademas, como ocurre normalmente en
todo lo relacionado con la computacion, aunque esta demostrado que ciertos
tipos de algoritmos de clustering obtienen mejores resultados que otros hay que
tener en cuenta la cantidad y calidad de recursos de que se dispone, as como las
restricciones tiempo y espacio establecidas. Debido a estas razones es posible
que haya que realizar un an
alisis previo de la informacion que se desea procesar.
El an
alisis de validez de clusters consiste en la evaluacion de la salida obtenida
por el algoritmo de clustering. Este analisis utiliza a menudo un criterio especfico; sin embargo, estos criterios llegan a ser generalmente subjetivos. As,
existen pocos est
andares en clustering excepto en subdominios bien predefinidos.
Los an
alisis de validez deben ser objetivos [22] y se realizan para determinar si
la salida es significativa. Cuando se utiliza aproximaciones de tipo estadstico en
clustering, validaci
on se logra aplicando cuidadosamente metodos estadsticos e
hip
otesis de prueba. Hay tres tipos de estudios de la validacion:
1. La evaluaci
on externa de la validez compara la estructura obtenida con
una estructura a priori.
2. La evaluaci
on interna intenta determinar si una estructura es intrnsecamente
apropiada para los datos.
3. La evaluaci
on relativa compara dos estructuras y mide la calidad relativa
de ambas.

4.3

Medidas de la distancia

Como ya se ha ido esbozando a lo largo de este documento, la medida de la


distancia es un aspecto clave en multitud de tecnicas de minera de datos. Puesto

51

que la semejanza entre patrones es fundamental a la hora de definir un cluster,


es necesario establecer una forma de medir esta semejanza. La gran variedad de
tipos de atributos hace que la medida (o medidas) de semejanza debe ser elegida
cuidadosamente. Lo m
as com
un es calcular el concepto contrario, es decir, la
diferencia o disimilitud entre dos patrones usando la medida de la distancia
en un espacio de caractersticas. Existen unos cuantos metodos para definir la
distancia entre objetos. La medida de distancia mas popular es la distancia
eucldea que se define como:
q
(4.1)
d(i, j) = | xi1 xj1 |2 + | xi2 xj2 |2 + + | xip xjp |2
donde i = (xi1 , xi2 , , xip ) y j = (xj1 , xj2 , , xjp ) son dos objetos de p dimensiones. La distancia eucldea nos da una medida intuitiva de la distancia
entre dos puntos en un espacio de dos o tres dimensiones. Esto puede ser u
til
cuando los clusters son compactos [70].
Otra metrica ampliamente utilizada es la distancia Manhattan, definida
por:
d(i, j) =| xi1 xj1 | + | xi2 xj2 | + + | xip xjp |
(4.2)
Tanto la distancia eucldea como la distancia Manhattan satisfacen los siguientes requisitos matem
aticos para una funcion de distancia:
1. d(i, j) 0. Esto es, la distancia es un n
umero no negativo.
2. d(i, i) = 0. Es decir, la distancia de un objeto a el mismo es cero.
3. d(i, j) = d(j, i). La distancia es una funcion simetrica.
4. d(i, j) d(i, h) + d(h, j). Se trata de una desigualdad triangular que
afirma que ir directamente desde un punto i hasta un punto j nunca es
m
as largo que pasando por un punto intermedio h.
Finalmente, la distancia Minkowski es una generalizacion de las distancias
Manhattan y eucldea. Se define por:
d(i, j) = (| xi1 xj1 |q + | xi2 xj2 |q + + | xip xjp |q )1/q

(4.3)

donde q es un entero positivo. Representa a la distancia Manhattan cuando


q = 1 y a la eucldea cuando q = 2. El principal inconveniente que presenta
la distancia de Minkowski es la tendencia de los atributos de mayor magnitud
a dominar al resto. Para solucionar esta desventaja se puede normalizar los
valores de los atributos continuos, de forma que todos tomen valores dentro de
unmismo rango. Por otro lado, correlacion entre los distintos atributos puede
influir negativamente en el calculo de la distancia. Para dar solucion a este
problema se usa la distancia cuadr
atica de Mahalanibis:
dM (xi , xj ) = (xi , xj )

52

1
X

(xj , xi )T

(4.4)

P
donde xi y xj son vectores fila y
es la matriz de covarianza de los patrones. La
distancia asigna diferentes pesos a cada caracterstica basandose en la varianza
y en la correlaci
on lineal de los pares. Si a cada variable se le asigna un peso
de acuerdo con su importancia, la nueva distancia eucldea ponderada se
puede calcular de la siguiente manera:
q
d(i, j) = w1 | xi1 xj1 |2 +w2 | xi2 xj2 |2 + + wp | xip xjp |2 (4.5)
Este escalado es tambien aplicable a las distancias Manhattan y Minkowski.
Algunos algoritmos de clustering trabajan sobre los valores de una matriz
de proximidad en vez de hacerlo directamente con el conjunto de datos original.

4.4

Similitudes y disimilitudes: medida de la


calidad del cluster

Las medidas de los coeficientes de similitud o disimilitud pueden ser utilizadas


para evaluar la calidad del cluster. En general la disimilitud d(i, j) es un n
umero
positivo cercano a cero cuando i y j estan proximos el uno del otro y se hace
grande cuando son m
as diferentes.
Las disimilitudes se pueden obtener mediante una simple clasificacion subjetiva, hecha por un grupo de observadores o expertos, de cuanto difieren determinados objetos unos de otros. Por ejemplo, en ciencias sociales se puede clasificar
lo cercano que un sujeto est
a de otro, as como en matematicas, biologa o fsica.
Alternativamente, las disimilitudes se pueden calcular con coeficientes de correlaci
on. Dados n objetos para clasificar la correlacion producto-momento de
Pearson entre dos variables f y g se define en (4.5), donde f y g son variables
que describen los objetos, mf y mg son los valores medios de f y g respectivamente y xi f es el valor de f para el objeto iesimo, equivalentemente xi g es el
valor de g para el objeto iesimo.
Pn
(xif mf )(xig mg )
pPn
R(f, g) = pPn i=1
(4.6)
2
2
i=1 (xif mf )
i=1 (xig mg )
La f
ormula de conversi
on (4.6) se usa para calcular los coeficientes de disimilitud
d(f, g) tanto para coeficientes de correlacion parametricos como para coeficientes
de correlaci
on no parametricos.
d(f, g) =

1 R(f, g)
2

(4.7)

El tener variables con valores de correlacion altos y positivos implica que el


coeficiente de disimilitud est
a cercano a cero. Por el contrario, aquellas variables
que tengan una correlaci
on alta negativa tendran un coeficiente de disimilitud
cercano a uno, es decir, las variables son muy diferentes.
En determinadas aplicaciones los usuarios pueden preferir usar la formula
de conversi
on (4.7) donde las variables con valores de correlacion altos (tanto
53

positivos como negativos) tienen asignadas el mismo valor de similitud.


d(f, g) = 1 | R(f, g) |

(4.8)

Igualmente, hay quien puede querer usar coeficientes de similitud s(i, j) en vez
del coeficiente de disimilitud. La formula (4.8) puede usarse para relacionar
ambos coeficientes.
s(i, j) = 1 d(i, j)
(4.9)
N
otese que no todas las variables deberan estar incluidas en el analisis de clustering. Incluir una variable que no aporte significado a un clustering dado puede
hacer que la informaci
on u
til proporcionada por otras variables quede enmascarada. Por ejemplo, en el caso de que se quisiera hacer clustering de un grupo
de personas de acuerdo con sus caractersticas fsicas, incluir el atributo n
umero
de telefono resultara altamente ineficiente y, por tanto, este tipo de variables
basura deben se excluidas del proceso de clustering

4.5

Tipos de datos en el an
alisis de clusters

Esta secci
on se dedica al estudio de los tipos de datos que aparecen con frecuencia en el clustering y en como preprocesar los mismos. Supongase que el
conjunto de los datos objetivo contiene n objetos que pueden representar personas, casas, o cualquier otra variable que pueda imaginar. Los principales
algoritmos de clustering basados en memoria operan normalmente en una de las
dos siguientes estructuras de datos.

1. Matriz de datos. Esta


representa n objetos, como pueden ser n personas,
con p variables (tambien llamadas atributos), como pueden ser edad, altura o peso. La estructura tiene forma de tabla relacional o de matriz de
dimensi
on nxp (n objetos por p variables), se muestra en (4.9).

x11
x21


xn1

x12
x22

xn2

x1p
x2p


xnp

..
.

(4.10)

2. Matriz de disimilitud. Almacena la coleccion de distancias disponibles


para todos los pares de n objetos. Se suele representar como una tabla
n n, tal y como se muestra a continuacion.

0
0
0
d(2, 1)
0
0

(4.11)

.
.

.

d(n, 1) d(n, 2)

Donde d(i, j) es la distancia medida entre los objetos i y j. Ya que d(i, j) =


d(j, i) y que d(i, i) = 0 tenemos la matriz mostrada en (4.10). Las medidas
de similitud ser
an discutidas a lo largo de esta seccion.
54

La matriz de datos suele llamarse matriz de dos modos, mientras que la


matriz de disimilitud se llama matriz de un modo ya que las filas y columnas
de la primera representan entidades diferentes, mientras que las de la segunda
representan la misma entidad. Muchos algoritmos de clustering trabajan con la
matriz de disimilitud. Si la entrada se presenta como una matriz de datos, se
deben transformar en una matriz de disimilitud antes de aplicar dichos algoritmos.
El resto de la secci
on esta dividida como sigue. En primer lugar se discute c
omo se puede evaluar la calidad del clustering basandose en coeficientes
de correlaci
on, los cuales pueden ser convertidos a coeficientes de disimilitud o
coeficientes de similitud. A continuacion se discute como la disimilitud de objetos puede ser calculada para los objetos descritos mediante variables escaladas
a intervalos, variables binarias, nominales, ordinales, o combinaciones de estos
tipos de variables.

4.5.1

Variables escaladas a intervalos

Esta secci
on presenta las variables escaladas a intervalos y su estandarizacion.
Describe tambien las medidas de distancia comunes usadas para el computo de
disimilitudes de objetos descritas por estas variables. Estas medidas son las
distancias eucldeas, de Manhattan y Minkowski.
Las variables escaladas a intervalos son medidas continuas de una escala
lineal. La unidad de medida usada puede afectar al analisis de clustering. Por
ejemplo, cambiar las unidades de medida (metros por pulgadas o kilogramos
por libras), puede afectar dr
asticamente a la estructura del cluster. En general,
expresar una variable en unidades mas peque
nas hace que haya un rango mayor
para esa variable y, as, provocar un efecto mayor en la estructura del clustering
resultante. Para ayudar a evitar la dependencia existente con la eleccion de
las unidades de medida, los datos deben ser estandarizados. Las medidas de
estandarizaci
on tratan de dar a todas las variables un mismo peso. Esto resulta
de especial utilidad cuando no se dispone de conocimiento previo de los datos.
No obstante, en ciertas aplicaciones, se puede querer dar un peso mayor a un
cierto conjunto de variables de manera intencionada.
Para estandarizar las medidas se pueden convertir las medidas originales en
variables adimensionales. Dada la variable f , el proceso es el que sigue.
1. Calcular la desviaci
on absoluta media, sf .
sf =

1
(| x1f mf | + | x2f mf | + + | xnf mf |)
n

(4.12)

Donde x1f , , xnf son n medidas de f y mf es el valor medio de f , es


decir, mf = n1 (x1f + x2f + + xnf ).
2. Calcular la medida estandarizada (z-score) como sigue:
zif =

x1f mf
sf

55

(4.13)

1
0
sum

1
a
c
a+b

0
b
d
b+d

sum
sum
c+d
p

Tabla 4.1: Tabla de contingencia para variables binarias.


La desviaci
on absoluta media es mas robusta frente a los outliers que la
desviaci
on est
andar, f . Cuando se computa la desviacion absoluta media, las desviaciones de la media (es decir, | xi f mf |) no son cuadradas
quedando as reducido el efecto de los outliers. Existen medidas de dispersi
on m
as roblustas, como la desviacion absoluta mediana. Sin embargo,
la ventaja de utilizar esta desviacion es que los outliers no se hacen demasiado peque
nos y, por consiguiente, permanecen detectables.
Ya que la estandarizaci
on puede o no resultar u
til para una determinada aplicaci
on, la elecci
on de usarla y de como aplicarla debe ser una decision adoptada
previamente por los usuarios. Despues de la estandarizacion (o no) se computa
la disimilitud (o similitud) entre los objetos. Para las variables escaladas a intervalos este c
omputo est
a normalmente basado en la distancia entre cada par
de objetos.

4.5.2

Variables binarias

Una variable binaria s


olo posee dos estados, 0 o 1, donde 0 significa que la
variable est
a ausente y 1 que esta presente. Por ejemplo, dada la variable
fumador, el 1 indicara que el paciente fuma mientras que el 0 significara que
no lo hace. Tratar las variables binarias como si fueran variables escaladas
a intervalos puede llevar a conclusiones erroneas. Por consiguiente, se hace
necesario utilizar metodos especficos para evaluar las disimilitudes existentes
en los datos de naturaleza binaria.
Una tecnica es calcular la matriz de disimilitud para unos datos binarios
dados. Si se asume que todas las variables binarias tienen el mismo peso, se
tiene una tabla (vease Tabla 4.1) de contingencia 2 2 donde a es el n
umero de
variables igual a 1 para los dos objetos i y j; b es el n
umero de variables iguales
a 1 para el objeto i e iguales a 0 para el objeto j; c es el n
umero de variables
iguales a 1 para el objeto j e iguales a 0 para el objeto i; y d es el n
umero de
variables igual a 0 para los dos objetos i y j. El n
umero total de variables es p,
donde p = a + b + c + d.
Una variable binaria es simetrica si sus dos estados tienen el mismo valor
y el mismo peso, esto es, no existe ninguna preferencia sobre como debe ser
codificado el resultado. Las variables binarias simetricas basadas en similitudes
son las llamadas similitudes sin variantes en las que el resultado no cambia
cuando algunas o todas las variables binarias se cofifican de manera diferente.
El coeficiente m
as ampliamente usado para medir las similitudes sin variantes
56

es el llamado coeficiente simple matching, que viene definido por:


d(i, j) =

b+c
a+b+c+d

(4.14)

Una variable binaria es asimetrica si el resultado de sus estados no tiene


la misma importancia. Por convenio, se debe codificar aquella que tenga un
resultado m
as importante (usualmente la mas rara) con un 1 y la otra con un 0.
Por tanto, la ocurrencia de dos 1 se considera sensiblemente mas significativo
que la ocurrencia de dos 0. La similitud basada en este tipo de variables se
llama similitud no invariante y el coeficiente que mas se utiliza es el de Jaccard:
d(i, j) =

b+c
a+b+c

(4.15)

donde el n
umero de ocurrencias negativas, d, se ignora.

4.5.3

Variables nominales, ordinales y ponderadas

Variables nominales.
Una variable nominal es una generalizacion de una variable binaria ya que puede
tener m
as de dos estados. Por ejemplo, los colores del crculo cromatico es una
variable nominal con seis estados: rojo, azul, amarillo, verde, naranja y violeta.
Sea M el n
umero de estados de una variable nominal. Estos estados pueden
ser denotados por letras, smbolos o un conjunto de enteros. Notese que dichos
enteros se usan solamente para manejar datos y no representan ning
un orden
especfico.
La disimilitud entre dos objetos i y j se puede computar mediante el procedimiento simple matching que viene representado por la siguiente expresion:
d(i, j) =

pm
p

(4.16)

donde m es el n
umero de matches (uniones) (es decir, el n
umero de variables
para las cuales i y j est
an en el mismo estado) y p es el n
umero total de
variables. Se pueden asignar pesos para aumentar el efecto de m o bien asignar
pesos mayores a los matches en aquellas variables que poseen un mayor n
umero
de estados.
Las variables nominales se pueden codificar mediante un gran n
umero de
variables binarias asimetricas creando una nueva variable binaria para cada uno
de los M estados nominales. Para un objeto con un valor del estado dado, la
variable binaria que representa al estado se pone a 1 mientras que las restantes
variables se ponen a 0.
Variables ordinales.
Una variable ordinal discreta se parece una variable nominal salvo que los M
estados del valor ordinal se ordenan de manera logica. Las variables ordinales
57

son muy u
tiles para registrar afirmaciones subjetivas de ciertas caractersticas
que no pueden ser medidas objetivamente. Por ejemplo, los rangos profesionales
se suelen enumerar en orden secuencial (ayudante, titular, catedratico).
Una variable ordinal continua se parece a un conjunto de datos continuos con
una escala desconocida, esto es, el orden relativo de los valores es importante
pero no su magnitud. Por ejemplo, el orden de llegada en una carrera es m
nas
importante que los tiempos en los que se realizaron salvo que estos conlleven
alg
un tipo de record, claro esta.
Las variables ordinales se pueden obtener tambien de la discretizacion de
cantidades escaladas a intervalos si se divide el rango de valores en un n
umero
finito de clases. El trato que se da a las variables ordinales es muy similar al que
reciben las variables escaladas a intervalos cuando se computan las disimilitudes
entre objetos. Sup
ongase que f es una variable ordinal perteneciente a un
conjunto de variables que describe a n objetos. La evaluacion de la disimilitud
con respecto a f conlleva realizar los siguientes pasos:
1. El valor de f para el iesimo objeto es xif y f tiene Mf estados ordenados 1, , Mf . Remplazar cada xif por su correspondiente orden,
rif 1, , Mf .
2. Dado que cada variable ordinal puede tener diferente n
umero de estados,
suele ser necesario mapear el rango de cada variable a [0 1] para que
cada variable tenga el mismo peso. Esto se puede conseguir remplazando
el orden rif del objeto iesimo en la variable f esima por:
zif =

rif 1
Mf 1

(4.17)

3. As, la disimilitud puede ser computada usando cualquiera de las distancias comentadas en apartados anteriores usando zif para representar el
valor f del objeto iesimo.
Variables ponderadas
Una variable ponderada hace medidas positivas sobre una escala no lineal tal
como la escala exponencial, siguiendo aproximadamente la siguiente formula:
AeBt o AeBt

(4.18)

donde A y B son constantes positivas. Existen tres metodos para manejar este
tipo de variables a la hora de computar la disimilitud existente entre los distintos
tipos de objetos:
1. Tratar a las variables como si fueran variables escaladas a intervalos. Esto,
sin embargo, no suele ser una buena eleccion ya que la escala puede estar
distorsionada.
2. Aplicar transformaciones logartmicas a la variable f que tiene un valor
xif para el objeto i por medio de la formula yif = log(xif ). Los valores
yif pueden ser ya tratados como variables escaladas a intervalos.
58

3. Tratar xif como si fueran datos ordinales continuos.


Los dos u
ltimos metodos son los mas efectivos, aunque la eleccion del metodo
usado depender
a mucho de la aplicacion que lo requiera.

4.6

T
ecnicas de clustering

Existen un gran n
umero de algoritmos de clustering en la actualidad. La eleccion
de una tecnica u otra dependera tanto del tipo de datos disponibles como del
prop
osito de la aplicaci
on. Si se utiliza el analisis de clustering como una herramienta descriptiva o exploratoria, es posible que se prueben distintos algoritmos sobre los mismos datos con el fin de ver cual es el metodo que mejor se
ajusta al problema.
En general, los metodos de clusters se pueden agrupar en las siguientes
categoras:
1. M
etodos particionales. Dada una base de datos con n objetos, un
metodo particional construye k grupos de los datos, donde cada particion
representa a un cluster y k n. Esto es, clasifica a los datos en k grupos
que satisfacen los siguientes requisitos:
Cada grupo debe contener, al menos, un elemento.
Cada elemento debe pertenecer u
nicamente a un grupo.
N
otese que el segundo requerimiento se relaja en ciertas tecnicas particionales difusas.
Dado k, el n
umero de particiones que se deben construir, los metodos
particionales realizan una particion inicial. A continuacion, utilizan una
tecnica iterativa de recolocaci
on que intenta mejorar la particion moviendo
los objetos de un grupo a otro. El criterio general para decidir si una
partici
on es buena es que los objetos pertenecientes al mismo cluster esten
cerca mientras que los objetos pertenecientes a los clusters restantes esten
lejos de ellos.
Conseguir una optimizacion global de un clustering basado en particiones
requerira una enumeracion exhaustiva de todas las posibles particiones.
Por el contrario, la mayora de las aplicaciones adoptan una de las dos
heursticas m
as populares:
Algoritmo K-means, donde cada cluster se representa por medio de
los objetos en el cluster. Existen algunas variaciones de este metodo
como el Expectation Maximization.
Algoritmo K-medianas, donde cada cluster se representa por uno de
los objetos situados cerca del centro del cluster.
Estas heursticas funcionan bien para bases de datos peque
nas o medianas
que tengan una forma esferica. Para encontrar clusters con formas mas
59

complejas y en bases de datos mas grandes, se debe recurrir a extensiones


de los mismos.
2. M
etodos jer
arquicos. Estos metodos crean una descomposicion jerarquica
del conjunto de datos objeto de estudio. Un metodo jerarquico puede ser
clasificado como aglomerativo o divisivo:
Aglomerativo: comienza con cada patron en un cluster distinto y
combina sucesivamente clusters proximos hasta un que se satisface
un criterio preestablecido.
Divisivo: omienza con todos los patrones en un u
nico cluster y se realizan particiones de este, creando as nuevos clusters hasta satisfacer
un criterio predeterminado.
Los metodos jer
arquicos presentan un peque
no inconveniente y es que una
vez que un paso se realiza (union o division de datos), este no puede
deshacerse. Esta falta de flexibilidad es tanto la clave de su exito, ya que
arroja un tiempo de computacion muy bajo, como su mayor problema
puesto que no es capaz de corregir errores.
Si se usa primero el algoritmo aglomerativo jerarquico y despues la recolocaci
on iterativa se puede sacar mas provecho de estas tecnicas. Existen,
de hecho, ciertos algoritmos como BIRCH [122] y CURE [39] que han sido
desarrollados bas
andose en esta solucion integrada.
3. M
etodos basados en densidad. La mayora de los metodos particionales s
olo pueden encontrar clusters de forma esferica. Para paliar este
efecto, se han desarrollado tecnicas de clustering basados en la nocion
de densidad. La idea subyacente es continuar aumentando el tama
no del
cluster hasta que la densidad (n
umero de objetos o datos) en su vecindad
exceda de un determinado umbral, es decir, para cada dato perteneciente
a un cluster, la vecindad de un radio dado debe contener al menos un
mnimo de n
umero de puntos. Este metodo se puede usar para eliminar
ruido (outliers) y para descubrir clusters de forma arbirtraria. El DBSCAN es un metodo metodos tpicamente basado en densidad.
Existen otros tipos de tecnicas de clustering, metodos basados en rejilla y
metodos basados en modelos, que dada su escaso peso en las aplicaciones que
se estudian en este documento no seran detallados con profundidad.
Menci
on aparte merecen los fuzzy (difusos) clustering y su estudio se realiza
en sucesivos apartados.

4.6.1

M
etodos particionales

Algoritmo K-means (K-medias)


El algoritmo K-means fue propuesto por MacQueen en el a
no 1968 [66]. Este
algoritmo coge el par
ametro de entrada, k, y particiona el conjunto de n datos

60

en los k clusters de tal manera que la similitud intra-cluster es elevada mientras


que la inter-cluster es baja. Dicha similitud se mide en relacion al valor medio
de los objetos en el cluster, lo que puede ser visto como si fuera su centro de
gravedad.
El algoritmo procede como sigue. En primer lugar, escoge aleatoriamente k
objetos haciendo que estos representen el centro del cluster. Cada uno de los
objetos restantes se va asignando al cluster que sea mas similar basandose en la
distancia del objeto a la media del cluster. Entonces computa la nueva media
de cada cluster y el proceso sigue iterando hasta que se consigue la convergencia
(se minimiza el error cuadr
atico medio).
El metodo es relativamente escalable y eficiente para el procesado de conjuntos de datos grandes ya que la complejidad computacional del algoritmo es
O(nkt), donde n es el n
umero de objetos, k el n
umero de clusters y t el n
umero
de iteraciones. Normalmente k  n y t  N , produciendose un optimo local.
El K-means se puede aplicar solo cuando la media de un cluster puede ser
definida, esto es, no es de aplicacion en los casos en que los atributos sean
categ
oricos. Otro inconveniente es su sensibilidad al ruido y a los outliers.
Adem
as, la necesidad de dar el valor de k a priori resulta uno de sus mayores
puntos debiles, tal y como se detalla en el captulo de Resultados.
Algoritmo Expectation Maximization (EM)
Este algoritmo es una variante del K-means y fue propuesto por Lauritzen en
1995 [67]. Se trata de obtener la FDP (funcion de densidad de probabilidad) desconocida a la que pertenecen el conjunto completo de datos. Esta FDP se puede
aproximar mediante una combinacion lineal de N C componentes, definidas a
falta de una serie de par
ametros = j j = 1...N C, que son los que hay que
averiguar,
NC
X
P (x) =
j p(x; j )
(4.19)
j=1

con

NC
X

j = 1

(4.20)

j=1

donde j son las probabilidades a priori de cada cluster cuya suma debe ser
1, que tambien forman parte de la solucion buscada, P (x) denota la FDP arbitraria y p(x; j ) la funci
on de densidad del componente j. Cada cluster se
corresponde con las respectivas muestras de datos que pertenecen a cada una de
las densidades que se mezclan. Se pueden estimar FDP de formas arbitrarias,
utiliz
andose FDP normales n-dimensionales, t-Student, Bernoulli, Poisson, y
log-normales. El ajuste de los parametros del modelo requiere alguna medida
de su bondad, es decir, c
omo de bien encajan los datos sobre la distribucion que
los representa. Este valor de bondad se conoce como el likelihood de los datos. Se
tratara entonces de estimar los parametros buscados , maximizando este likelihood (este criterio se conoce como ML-Maximun Likelihood ). Normalmente,

61

lo que se calcula es el logaritmo de este likelihood, conocido como log-likelihood,


ya que es m
as f
acil de calcular de forma analtica. La solucion obtenida es la
misma gracias a la propiedad de monotonicidad del logaritmo. La forma de esta
funci
on log-likelihood es:
I
L(, ) = logN
n=1 P (xn )

(4.21)

donde N I es el n
umero de instancias, que suponemos independientes entre s.
El algoritmo EM, procede en dos pasos que se repiten de forma iterativa:
1. Expectation. Utiliza los valores de los parametros iniciales o proporcionados por el paso Maximization de la iteracion anterior, obteniendo
diferentes formas de la FDP buscada.
2. Maximization. Obtiene nuevos valores de los parametros a partir de los
datos proporcionados por el paso anterior.
Despues de una serie de iteraciones, el algoritmo EM tiende a un maximo
local de la funci
on L. Finalmente se obtendra un conjunto de clusters que
agrupan el conjunto de proyectos original. Cada uno de estos cluster estara
definido por los par
ametros de una distribucion normal.
Algoritmo K-mediods (K-medianas)
Como se coment
o anteriormente, el algoritmo K-means es sensible a los outliers
ya que un objeto con un valor extremadamente elevado puede distorsionar la
distribuci
on de los datos. En lugar de coger el valor medio de los objetos de un
cluster como punto de referencia, se podra tomar un objeto representativo del
cluster, llamado mediod, [52] que sera el punto situado mas al centro del cluster.
As, el metodo particional puede ser aplicado bajo el principio de minimizar la
suma de las disimilitudes entre cada objeto y con su correspondiente punto de
referencia.
El algoritmo trata, pues, de determinar k particiones para n objetos. Tras
una selecci
on inicial de los kmediods, el algoritmo trata de hacer una eleccion
mejor de los mediods repetidamente. Para ello analiza todos los posibles pares
de objetos tales que un objeto sea el mediod y el otro no. La medida de calidad
del clustering se calcula para cada una de estas combinaciones. La mejor opcion
de puntos en una iteraci
on se escoge como los mediods para la siguiente iteracion.
El coste computacional de cada iteracion es de O(k(n k)2 ), por lo que para
valores altos de k y n el coste se podra disparar.
El algoritmo K mediods es mas robusto que el K means frente a la
presencia del ruido y de los outliers ya que la mediana es menos influenciable
por un outlier, u otro valor extremo, que la media. Sin embargo, su procesado
es mucho m
as costoso y ademas necesita tambien que el usuario le proporcione
el valor de k.

62

4.6.2

Clustering jer
arquico

COBWEB
COBWEB [29] se caracteriza porque utiliza aprendizaje incremental, esto es,
realiza las agrupaciones instancia a instancia. Durante la ejecucion del algoritmo se forma un
arbol (
arbol de clasificacion) donde las hojas representan
los segmentos y el nodo raz engloba por completo el conjunto de datos de entrada. Al principio, el
arbol consiste en un u
nico nodo raz. Las instancias se van
a
nadiendo una a una y el
arbol se va actualizando en cada paso. La actualizacion
consiste en encontrar el mejor sitio donde incluir la nueva instancia, operacion
que puede necesitar de la reestructuracion de todo el arbol, incluyendo la generaci
on de un nuevo nodo anfitrion para la instancia y/o la fusion/particion de
nodos existentes, o simplemente la inclusion de la instancia en un nodo que ya
exista. La clave para saber como y donde se debe actualizar el arbol la proporciona una medida denominada utilidad de categora, que mide la calidad general
de una partici
on de instancias en un segmento. La reestructuracion que mayor
utilidad de categora proporcione es la que se adopta en ese paso. El algoritmo
es muy sensible a otros dos parametros:
1. Acuity. Este par
ametro es muy necesario, ya que la utilidad de categora
se basa en una estimacion de la media y la desviacion estandar del valor
de los atributos. Pero cuando se estima la desviacion estandar del valor de
un atributo para un nodo en particular, el resultado es cero si dicho nodo
s
olo contiene una instancia. As pues, el parametro acuity representa la
medida de error de un nodo con una sola instancia, es decir, establece la
varianza mnima de un atributo.
2. Cut-off. Este valor se utiliza para evitar el crecimiento desmesurado del
n
umero de segmentos. Indica el grado de mejora que se debe producir en
la utilidad de categora para que la instancia sea tenida en cuenta de manera individual. En otras palabras: cuando no es suficiente el incremento
de la utilidad de categora en el momento en el que se a
nade un nuevo
nodo, ese nodo se corta, conteniendo la instancia otro nodo ya existente.
En COBWEB cada cluster se considera como un modelo que puede describirse
intrinsicamente, m
as que un ente formado por una coleccion de puntos. Al
algoritmo COBWEB no hay que proporcionarle el n
umero exacto de clusters
que queremos, sino que en base a los parametros anteriormente mencionados
encuentra el n
umero
optimo.
Otros m
etodos
El metodo m
as representativo dentro del clustering jerarquico aglomerativo es
AGNES [52] y fue data del a
no 1990. En este metodo cada cluster esta representado por todos los datos del cluster y la similitud entre dos clusters se mide
mediante la similitud del par mas cercano de datos perteneciente a otro cluster.

63

AGNES fusiona los nodos, objetos individuales o clusters, que tienen la menor
disimilitud.
En cuanto a los metodos jerarquicos divisivos, su representante mas famoso
es DIANA [52]. Act
ua de manera inversa que las demas tecnicas, ya que
comienza con todos los objetos en un mismo cluster haciendo divisiones en porciones cada vez m
as peque
nas hasta que cada objeto pertenezca a un cluster y

satisfaga determinadas condiciones de finalizacion. Estas


pueden ser el n
umero
de clusters deseado o que la distancia entre dos clusters cercanos sea superior a
un umbral dado. Este tipo de metodos se usan raramente debido a la dificultad
que presentan a la hora de hacer divisiones a un alto nivel.

4.6.3

M
etodos basados en densidad

Los metodos basados en densidad se desarrollaron con el fin de encontrar clusters


de forma arbitraria.
DBSCAN
El origen del algoritmo DBSCAN (Density-Based Spatial Clustering of Applications with Noise) est
a en [25]. En este metodo se hacen crecer regiones con una
densidad suficientemente alta y se descubren clusters de forma arbitraria en una
base de datos espacial con ruido. Un cluster se define, as, como un conjunto
m
aximo de puntos conectados en densidad (density-connected). Esto es, para
cada objeto de un cluster, la vecindad de radio  debe contener, al menos, un
mnimo n
umero de objetos, MinPts.
Un objeto perteneciente a un radio  que contenga no menos de MinPts
objetos se llama objeto n
ucleo (core object). Un objeto p se dice que esta
alcanzable directamente en densidad (directly density-reachable) por un objeto
q dentro de un radio , si dentro de la vecindad de q existen al menos MinPts
objetos. Por el contrario, un objeto p esta conectado en densidad (densityconected) a un objeto q con respecto a  y a M inP ts en un conjunto de objetos
D si existe un objeto oD tal que p y q sean alcanzables en densidad por o.
Dadas estas definiciones, un cluster basado en densidad es un conjunto de
objetos conectados en densidad de tal manera que cualquier objeto no contenido
en alg
un cluster es considerado como ruido.
As DBSCAN verifica la vecindad de cada punto de la base de datos y si
esta contiene m
as de M inP ts en un punto p crea un nuevo cluster que tiene
a p como n
ucleo. A continuacion, recoge los objetos alcanzables en densidad
iterativamente, lo que puede implicar la union de algunos clusters. El proceso
termina cuando ning
un nuevo punto se a
nade a ning
un cluster.

4.6.4

Fuzzy clustering

Los procedimientos de clustering tradicionales generan particiones. En una


partici
on, cada patr
on pertenece a un u
nico cluster. Por lo tanto, los clusters en
generados por un hard clustering son disjuntos. La tecnica de fuzzy clustering

64

(clustering borroso o difuso) extiende este concepto para asociar cada patron a
todos los clusters usando una funcion de la calidad del miembro [119]. La salida
de tales algoritmos es un agrupamiento, pero no una particion. A continuacion
de detalla el funcionamiento de uno de estos algoritmos de fuzzy clustering.
1. Paso 1. Selecciona una particion difusa inicial de N objetos en K clusters
para construir la matriz de calidad de miembro U , la cual tendra una
dimensi
on N K. Un elemento uij de esta matriz representa el grado
de la calidad de miembro del objeto xi en el cluster cj . Normalmente,
uij [0, 1]
2. Paso 2. Con la matriz U , encuentra el valor de una funcion de criterio
difuso (por ejemplo, funcion del error cuadratico ponderada) asociada con
la partici
on correspondiente. Una posible funcion de criterio difuso es:
E 2 (X, U ) =

N X
K
X

uij kxi ck k2

(4.22)

i=1 k=1

ck =

N
X

uik xi

(4.23)

i=1

donde ck es el kesimo centro de cluster difuso. Reasigna patrones a los


clusters para reducir el valor de la funcion criterio y recalcula U .
3. Paso 3. Repite el paso 2 hasta que las entradas de la matriz U no cambien
sensiblemente.
Las teoras denominadas difusas o borrosas fueron aplicadas inicialmente al
clustering en [93]. La referencia [6] es una buena fuente de consulta de fuzzy
clustering. El fuzzy clustering mas popular es el C-means (FCM), donde C es el
n
umero de clusters dado por el usuario en el que se hara la division. Aunque es
mejor que el K-means en evitar los mnimos locales, FCM puede converger a un
mnimo local del cuadrado del criterio de error. El problema mas importante
que presenta el fuzzy clustering es el dise
no de las funciones de calidad del
miembro.

65

Captulo 5

Resultados
A lo largo del periodo de investigacion se han ido realizando diversas pruebas.
En concreto, se ha trabajado con las series temporales del precio de la energa
electrica del mercado espa
nol, cuyos datos son p
ublicos y estan disponibles online [20]. En la mayora de los casos, se han obtenido buenos resultados, dando
lugar a diversas publicaciones que se iran comentando a lo largo de esta seccion.
En [73] se presentan dos tecnicas de clustering ampliamente conocidas como
son K-means y Fuzzy C-means (FCM) [117] para el analisis de la serie temporal
de los precios de la electricidad. Ademas, en la actualidad se esta a la espera
de recibir respuesta de un trabajo ya enviado, en el que se realiza la misma
tarea pero utilizando la tecnica de EM. Por tanto, se hara un desarrollo com
un
de los tres metodos a lo largo de esta seccion. Los tres algoritmos en cuestion,
K-means, FCM y EM, se centran en extraer informacion u
til de los datos con
la intenci
on de modelar el comportamiento de la serie temporal y de encontrar
patrones que sirvan para mejorar la prediccion de los precios. El principal objetivo, as, es encontrar una representacion que conserve la informacion original
y que describa la forma de la serie temporal de la manera mas precisa posible.
En este estudio se demuestra que la aplicacion de tecnicas de clusters es efectiva
para distinguir diferentes tipos de das, a pesar de que algunos autores duden
de este hecho [53].
Resulta de vital importancia obtener una tecnica que optimice las ofertas
llevadas a cabo por las compa
nas productoras de electricidad [83]. Consecuentemente, el desarrollo de tecnicas de prediccion esta adquiriendo mucho
protagonismo en el actual mercado electrico espa
nol. A pesar de que otros investigadores han desarrollado tecnicas para predecir precios en series temporales
[103, 11, 32, 2, 121], no se encuentran en la literatura actualmente tecnicas de
clustering dirigidas a realizar estas labores. Por tanto, se hace necesario descubrir patrones en estas series para mejorar los modelos de prediccion, siendo
el objetivo final el de proporcionar predicciones para la evolucion de la curva de
precios del da siguiente al analisis.

66

5.1

Elecci
on del n
umero de clusters

Como ya se describi
o en apartados anteriores, tanto el K-means como el FCM
como el EM presentan un grave inconveniente y es que el n
umero de clusters (K y
C, respectivamente) debe ser escogido previamente. Esto es, se debe seleccionar
el n
umero de particiones que se quieren realizar sin tener conocimiento previo del
conjunto de datos que se van a analizar. A pesar de que existen m
ultiples ndices
y algoritmos para escoger automaticamente K y C [98, 87], se ha optado por
utilizar dos funciones que vienen implementadas en el Matlab para determinar
dichos valores para el caso de K-means y FCM y por realizar validacion cruzada
para el EM.
1. N
umero de clusters para K-means. La funcion silhouette de Matlab
da una medida de la separacion existente en los clusters. Su valor vara
entre 1 y +1, donde +1 denota una separacion clara de los clusters y 1
marca los puntos cuya asignacion es mas que cuestionable. Para concluir
que un clustering ha sido realizado con exito, esta funcion debe presentar
un valor medio mayor que 0.6 para todos sus clusters. Sin embargo, para
las series temporales reales es casi imposible alcanzar este valor y el hecho
de no tener valores negativos en la grafica suele ser suficiente para decidir
cu
antos clusters escoger. En la Figura 5.1 se muestran los valores de la
funci
on silhouette para 4, 5 y 6 clusters respectivamente aplicadosal precio
de la electricidad en el a
no 2005. La metrica usada fue la eucldea y el
n
umero de clusters escogido fue 4, ya que solo un cluster presentaba valores
negativos.
2. N
umero de clusters para FCM. El algoritmo FCM es bastante sensible
a la inicializaci
on y cae con mucha facilidad en mnimos locales al iterar.
Para resolver este problema se han desarrollado otras tecnicas basadas en
metodos de optimizaci
on global [114]. Sin embargo, en multitud de aplicaciones pr
acticas el metodo de clustering utilizado es el FCM con reinicios
m
ultiples que tratan de escapar de la sensibilidad del valor inicial de C. La
funci
on subclust de Matlab encuentra los centros de los clusters y se usa
frecuentemente para obtener el n
umero optimo de clusters en clustering
basados en optimizaci
on por iteracion. En particular, esta funcion estima
los centros de los clusters de un conjunto de datos usando clustering substractivo. Para ello asume que cada dato es un centro potencial y calcula
la medida de simlitud de cada punto a dicho centro basandose en la densidad de los puntos que se encuentran a su alrededor. Tras la ejecucion de
este algoritmo, se encontro que 6 era el n
umero optimo de clusters.
3. N
umero de clusters para EM. Para este metodo el n
umero optimo se
ha calculado utilizando cross-validation (validacion cruzada). La Figura 5.2
muestra la evoluci
on del logaritmo de la funcion de similitud (log-ML).
As, el n
umero de clusters escogido es 11, ya que el log-ML presenta valor
m
aximo para este n
umero.

67

Figura 5.1: Curvas silhouette obtenidas para 4, 5 y 6 clusters respectivamente.

68

Figura 5.2: Cross-validation para determinar el n


umero de clusters en EM.
Da
Lunes
Martes
Miercoles
Jueves
Viernes
S
abado
Domingo

Cluster 1
36,54%
31,48%
30,77%
32,69%
28,85%
11,32%
0,00%

Cluster 2
51,92%
57,41%
63,46%
59,62%
59,62%
0,00%
0,00%

Cluster 3
3,85%
3,70%
3,85%
5,77%
3,85%
39,62%
44,23%

Cluster 4
7,69%
7,41%
1,92%
1,92%
7,69%
49,06%
55,77%

Tabla 5.1: Distribuci


on de los das de la semana en los diferentes clustes generados.

5.2

Evaluaci
on de los resultados obtenidos

Una vez seleccionados los n


umeros de clusters, se procedio a aplicar los metodos
a la serie temporal de los precios del mercado electrico espa
nol. Notese que
antes de operar con dichos precios, se realizo una normalizacion (division del
precio de cada hora por el precio medio del da completo) de los datos con el fin
de evitar los efectos del crecimiento intra-anual de los precios.

5.2.1

M
etodo K-means

La Tabla 5.1 muestra el porcentaje de pertenencia de cada da de la semana a


los distintos clusters.
Por el contrario, la Figura 5.3 muestra el a
no 2005 clasificado en 4 clusters

69

No de da
6
70
75
77
82
83
84
87
98
122
123
125
126
227
231
235
285
304
305
340
342
360

Fecha
06-01
11-03
16-03
18-03
23-03
24-03
25-03
28-03
08-04
02-05
03-05
05-05
06-05
15-08
19-08
23-08
12-10
31-10
01-11
06-12
08-12
26-12

Festividad
Epifana
Ninguna
Ninguna
Viernes antes de Semana Santa
Semana Santa
Semana Santa
Semana Santa
Lunes despues de Semana Santa
Ninguna
Da del trabajo
Da de la Comunidad de Madrid
Puente del 1 de mayo
Puente del 1 de mayo
Da de la Asuncion
Ninguno
Ninguno
Da de la Hispanidad
Puente de Todos los Santos
Da de Todos los Santos
Da de la Constitucion
Da de la Inmaculada
Lunes despues de Navidad

Tabla 5.2: Das laborables teoricamente mal clasificados con K-means.


mediante al algoritmo K-means. De un simple vistazo, se puede diferenciar
claramente dos tipos de clusters:
Clusters 1 y 2 agrupan todos los das laborables.
Clusters 3 y 4 agrupan los fines de semana y las festividades.
Sin embargo, existen ciertos das que presentan un comportamiento aparentemente discordante. Existen 22 das laborables que han sido clasificados en los
clusters 3
o 4. Pero un meticuloso analisis revela que la mayor parte fueron
vacaciones. La Tabla 5.2 muestra cada uno de estos das en detalle.
Antes de continuar con el estudio de los resultados, debe hacerse un comentario sobre la primera semana de mayo. Los das festivos reales son el 1 de
mayo (Da del Trabajo) y el 2 de mayo (Da de la Comunidad de Madrid). Sin
embargo, el 1 de mayo cay
o en domingo en 2005 y ambas festividades fueron
pospuestas un da. Con referencia a los fines de semana, existen 6 sabados que
se agruparon como si fueran das laborables, concretamente en el cluster 1. Este
hecho queda reflejado en la Tabla 5.3
N
otese que la mayora de los sabados son consecutivos y pertenencen al
verano, excepto el 9 de julio que se clasifico en el cluster 4. El a
no completa se
70

Figura 5.3: Distribuci


on de los das en los diferentes clusters obtenidos va Kmeans.

71

No de da
169
176
183
197
204
211

Fecha
18 Junio
25 Junio
2 Julio
16 Julio
23 Julio
30 Julio

Tabla 5.3: Fines de semana mal clasificados con K-means.


divide en 261 das laborables y 104 das pertenecientes a los fines de semana o
festividades. De la Tabla 5.2 se desprende que 5 fueron los das mal clasificados
(11 de marzo, 16 de marzo, 8 de abril, 19 de agosto y 23 de agosto). Por
consiguiente el error medio cometido en los das laborables es de 1.92% (5 das
de 261). En lo que respecta a los fines de semana y festividades, 6 fueron los
s
abados que se clasificaron erroneamente (18 de junio, 25 de junio, 2 de julio,
16 de julio, 23 de julio y 30 de julio), por lo que el error medio cometido fue de
5.77% (6 das de 104). As, se concluye que el error total promedio es de 3.01%
(11 das de 365).
La siguiente tarea consiste en explicar cuando un da laborable pertenece al
cluster 1 o cu
ando pertenece al cluster 2 y, equivalentemente, cuando un da
festivo pertenece al cluster 3 o 4. De la Figura 5.3 se pueden diferenciar 3 zonas
para tanto das festivos como laborables. Desde principio de a
no hasta el 18
de mayo (da n
umero 144) la mayor parte de los das laborables pertenecen al
cluster 2. Desde este da hasta el 20 de septiembre (da n
umero 23) pertenecen
al cluster 1. Finalmente, desde el 21 de septiembre hasta final de a
no, los das
laborables vuelven a pertenecer al cluster 2.
En lo relativo a las festividades y fines de semana se da una situacion similar. Desde principios de a
no hasta el 27 de marzo (da n
umero 86) la mayor
parte de estos das pertenecen al cluster 3. Desde ese fin de semana y hasta
el perteneciente al del 30 de octubre (da n
umero 303), pertenecen al cluster 4.
Finalmente, la u
ltima parte del a
no vuelven a ser fines de semana asociados al
cluster 3.
Por consiguiente, se puede apreciar un comportamiento estacional asociada
a la serie temporal de los precios de la energa electrica.
Las curvas caractersticas de cada clusters se muestran en la Figura 5.4.
Especialmente rese
nable es que las curvas asociadas a los fines de semana y
festividades (clusters 3 y 4) poseen unos precios al comienzo y termino del da
mayores que los de los das laborables. Las primeras presentan sus valores mas
altos a u
ltimas horas de la tarde, hecho que es debido a que la poblacion consume
m
as electricidad por la noche durante los fines de semana. Por otro lado, las
curvas de los das laborables tienen sus picos a medioda, cuando las industrias,
comercios y empresas est
an a pleno rendimiento.

72

Figura 5.4: Curvas caractersticas de los clusters obtenidos con el metodo Kmeans para el a
no 2005.

5.2.2

M
etodo Fuzzy C-means

La Figura 5.5 presenta los 6 patrones encontrados por el algoritmo FCM para
los precios de la energa electrica durante el a
no 2005. Se puede apreciar que
dichos patrones no difieren en exceso de los obtenidos por el metodo K-means.
Para la representaci
on de las curvas se siguio la siguiente metodologa:
1. El cluster con mayor grado de pertenencia es asignado a cada da.
2. La representaci
on se hace como si hubiera sido calculado con K-means.
De la Figura 5.5 se pueden diferenciar claramente dos tipos de clusters:
Clusters 2, 3, 4 y 5 agrupan todos los das laborables.
Clusters 1 y 6 agrupan los das festivos y fines de semana.
Sin embargo, hay cierto das que presentan un comportamiento aparentemente
discordante. La Tabla 5.4 muestra la distribucion de los das en los diferentes
clusters obtenidos.
Existen, no obstante, 19 das laborables que se agruparon en los clusters 1 o
6. La Tabla 5.5 resume este hecho. En relacion con los fines de semana, existen
6 s
abados que fueron clasificados como si fueran das laborables, concretamente
en el cluster 3. Dichos das se pueden apreciar en la Tabla 5.6 Notese que la
mayoria de los s
abados son consecutivos y pertenecen al verano, excepto el 16
de julio que fue clasificado en el cluster 1.
El a
no completo se divide en 261 das laborables y 104 fines de semana y
festividades. De la Tabla 5.5 se desprende que 4 das laborables fueron clasificados incorrectamente (11 de marzo, 16 de marzo, 8 de abril y 16 de mayo) lo
que supone un error del 1.53% (4 das de 261).
73

Figura 5.5: Distribuci


on de los das en los diferentes clusters obtenidos va Fuzzy
C-means.

74

Da
Lunes
Martes
Miercoles
Jueves
Viernes
S
abado
Domingo

Cluster 1
7,69%
0,00%
0,00%
3,85%
5,77%
66,04%
53,85%

Cluster 2
15,38%
23,08%
28,85%
25,00%
25,00%
3,77%
0,00%

Cluster 3
32,69%
28,85%
26,92%
26,92%
26,92%
5,66%
0,00%

Cluster 4
38,46%
44,23%
40,38%
40,38%
36,54%
3,77%
0,00%

Cluster 5
1,92%
0,00%
0,00%
0,00%
1,92%
0,00%
0,00%

Cluster 6
3,85%
3,85%
3,85%
3,85%
3,85%
20,75%
46,15%

Tabla 5.4: Grado de pertenencia de los das a los diferentes clusters generados
va Fuzzy C-means.
No de da
6
70
75
77
82
83
84
87
98
122
125
126
136
227
304
305
340
342
360

Fecha
06-01
11-03
16-03
18-03
23-03
24-03
25-03
28-03
08-04
02-05
05-05
06-05
16-05
15-08
31-10
01-11
06-12
08-12
26-12

Festividad
Epifana
Ninguna
Ninguna
Viernes antes de Semana Santa
Semana Santa
Semana Santa
Semana Santa
Lunes despues de Semana Santa
Ninguna
Da del trabajo
Puente del 1 de mayo
Puente del 1 de mayo
Ninguna
Da de la Asuncion
Puente de Todos los Santos
Da de Todos los Santos
Da de la Constitucion
Da de la Inmaculada
Lunes despues de Navidad

Tabla 5.5: Das laborables teoricamente mal clasificados con Fuzzy C-means.
No de da
176
183
190
204
211
330

Fecha
25 Junio
2 Julio
9 Julio
23 Julio
30 Julio
26 Noviembre

Tabla 5.6: Fines de semana teoricamente mal clasificados con Fuzzy C-means.
75

Figura 5.6: Curvas caractersticas de los clusters obtenidos con el metodo Fuzzy
C-means para el a
no 2005.
En cuanto a los das no laborables, hay 6 sabados que fueron clasificados de
manera inadecuada (25 de junio, 2 de julio, 9 de julio, 23 de julio, 30 de julio y
26 de noviembre). Existe tambien un da festivo, el Da de la Hispanidad, que
fue agrupado en el cluster 2. Dada esta situacion, el error cometido para estos
das es del 6.73% (6 das de 261).
Por tanto, el error total cometido es de 3.01% (11 das de 365), lo que supone
una tasa identica a la obtenida con K-means.
En contraste con lo que suceda con K-means, aqu no resulta obvio determinar periodos del a
no en para los que se puedan asegurar que los das pertenecen
a un determinado clusters.
Las curvas caractersticas de cada clusters se muestran en la Figura 5.6.
Especialmente rese
nable es que las curvas asociadas a los fines de semana y
festividades (clusters 1 y 6) poseen unos precios al comienzo y termino del da
mayores que los de los das laborables. Las primeras presentan sus valores mas
altos a u
ltimas horas de la tarde, hecho que es debido a que la poblacion consume
m
as electricidad por la noche durante los fines de semana. Por otro lado, las
curvas de los das laborables tienen sus picos a medioda, cuando las industrias,
comercios y empresas est
an a pleno rendimiento.

5.2.3

M
etodo Expectation Maximization

La Figura 5.7 presenta los 11 patrones encontrados por el algoritmo EM para


los precios de la energa electrica durante el a
no 2005. Dada la Tabla 5.7 se
puede afirmar que:
Clusters 1, 2, 3, 5 y 7 agrupan los das laborables
Clusters 4, 6, 8, 9, 10 y 11 agrupan los fines de semana y los das festivos
76

Figura 5.7: Distribuci


on de los das en los diferentes clusters obtenidos va
Expectation Maximization.

77

Cluster
Cluster 1
Cluster 2
Cluster 3
Cluster 4
Cluster 5
Cluster 6
Cluster 7
Cluster 8
Cluster 9
Cluster 10
Cluster 11

Lunes
7.69%
17.31%
25.00%
0,00%
30.77%
5.77%
1.92%
5.77%
1.92%
3.85%
0.00%

Martes
9.62%
25.00%
28.85%
1.92%
17.31%
11.54%
3.85%
1.92%
0.00%
0.00%
0.00%

Miercoles
15.38%
23.08%
30.77%
0.00%
21.15%
3.85%
0.00%
3.85%
1.92%
0.00%
0.00%

Jueves
15.38%
17.31%
34.62%
0.00%
17.31%
7.69%
1.92%
3.85%
0.00%
0.00%
1.92%

Viernes
26.92%
11.54%
25.00%
1.92%
17.31%
9.62%
1.92%
1.92%
3.85%
0.00%
0.00%

Sabado
0.00%
0.00%
0.00%
3.77%
1.89%
11.32%
0.00%
39.62%
39.62%
1.89%
1.89%

Domingo
0.00%
0.00%
0.00%
19.23%
0.00%
0.00%
0.00%
9.62%
7.69%
44.23%
19.23%

Tabla 5.7: Grado de pertenencia de los das a los diferentes clusters generados
va EM.
Clusters 4, 10 y 11 son fundamentalmente domingos.
Clusters 8 y 9 son fundamentalmente sabados.
Cluster 6 comprende determinados sabados y la primera semana de
agosto.
La asociaci
on de los das a los clusters con el algoritmo EM no resulta tan
sencilla como lo es con s
olo 4 clusters. As, la dispersion a traves de los clusters
es mucho m
as elevada, hecho que se manifiesta por medio de un error mas
elevado ya que un s
abado y 16 das laborables fueron clasificados erroneamente.
Equivalentemente, se cometio un error del 4.38%.
En contraste con lo que suceda con K-means o FCM, estos 16 das no se
corresponde con das festivos o fines de semana. Por el contrario, este fenomeno
aparece aleatoriamente y sin causas aparentes. No obstante, el sabado mal
clasificado es, una vez m
as, el 2 de julio: el comienzo de las vacaciones para
muchas personas.
Las curvas caractersticas de los 11 clusters se muestran en la Figura 5.8.

78

Figura 5.8: Curvas caractersticas de los clusters obtenidos con el metodo Expectation Maximization para el a
no 2005.

79

Captulo 6

Conclusiones
En este trabajo se ha tratado de dar una vision global de las tecnicas de minera
de datos existentes en la actualidad y su aplicacion directa a la prediccion de
los precios de la electricidad. Tras hacer un analisis exhaustivo de las tecnicas
ya utilizadas con este fin, se descubrio que no se haban aplicado tecnicas de
clustering y, por tanto, esta fue la va que se escogio para comenzar la investigaci
on.
Los estudios realizados hasta el momento han dado como resultado la publicaci
on de un artculo [73] en el que se analiza la viabilidad de utilizar dos
tecnicas de clustering (K-means y Fuzzy C-means) para la prediccion de series
temporales del precio. Se ha analizado igualmente otro algoritmo particional,
como es el Expectation Maximization y se esta a la espera de que sea publicado.
Por otro lado, antes de decidir que este sera el camino final de la investigaci
on, se realizaron diversos estudios que dieron como frutos dos publicaciones
m
as. En [21] se utilizan tecnicas de biclustering para extraer informacion significativa de dos conjuntos de datos ampliamente conocidos en bioinformatica,
como son el de la leucemia y el de los tumores embrionales. Ademas, se aplico
una m
aquina vector soporte para la deteccion de microcalcificaciones en mamografas digitales [72], adquiriendose as una destreza a la hora de utilizar clasificadores no lineales.
Pero, retomando el estudio problema central, quizas la parte mas difcil en la
construcci
on de un buen modelo es la relacionada con la seleccion y recogida de
la informaci
on que alimentara al mismo. Una serie de investigaciones realizadas
sobre la demanda electrica y sus determinantes [77, 5] en diferentes pases, han
permitido identificar un conjunto de variables basicas que explica la evolucion
de la demanda electrica a lo largo del tiempo, siendo este conjunto com
un para
la mayor parte de los pases desarrollados. De este modo para modelizar la curva
de carga de pases tan distintos como Espa
na y Suecia se utilizara el mismo
conjunto de variables, dado que si bien pueden existir diferencias culturales entre
ambos pases, el patr
on que determina la demanda electrica es muy similar.
Se comentan, a continuacion, las variables que se han seleccionado como
posibles factores explicativos de la curva de carga, desde la experiencia adquirida
80

a lo largo de todo el periodo investigador y a partir de los resultados expuestos


en la secci
on anterior.

6.1

Condiciones meteorol
ogicas

En estas variables quedan englobados elementos como la velocidad del viento, la


nubosidad, la pluviosidad o la temperatura. Sin embargo, no todos los factores
clim
aticos afectan a la demanda electrica. Algunos de ellos son tpicamente
aleatorios y otros aparecen interrelacionados. Por ejemplo, la temperatura viene
explicada parcialmente por la nubosidad, la pluviometra y la humedad relativa.
Entre todos estos factores la temperatura es el mas relevante dado que influye
de forma directa sobre m
ultiples fuentes de consumo electrico como sistemas
calefactores, aire acondicionado o refrigeradores. No obstante, esta relacion
entre la demanda electrica y la temperatura es de caracter no lineal.
Para realizar un buen modelo de aprendizaje se deben tener en cuenta, pues,
dos variables clim
aticas:
1. La temperatura dado a que la inmensa mayora de los trabajos consultados
se
nalan esta variable como principal determinante meteorologica de la
demanda electrica.
2. La velocidad del viento. En cuanto a esta variable existen discrepancias
pero parece l
ogico incluir alguna variable mas para hacer el modelo mas
robusto. Podra darse el caso en que tras la evaluacion del modelo obtenido
se pasara a eliminar esta segunda variable.

6.2

Calendario

Existen diferentes efectos relacionados con el calendario que inciden sobre la


curva de demanda electrica.

6.2.1

Hora del da

Todas las variables que afectan a la curva de carga menos la hora, resulta evidente que la demanda electrica realizada a las tres de la madrugada no sera
igual a la realizada a las tres de la tarde.
En la Figura 6.1 se puede apreciar como el grueso de la demanda electrica se
acumula en el perodo comprendido entre las nueve de la ma
nana y las cinco de
la tarde, algo l
ogico si tenemos en cuenta que dicho perodo que se corresponde
con la jornada laboral est
andar.

6.2.2

Da de la semana

Repitiendo el mismo planteamiento, se puede intuir que la demanda de electricidad realizada a la misma hora de das diferentes sera tambien diferente. As

81

Figura 6.1: Demanda de energa electrica en Espa


na el da 14 de marzo de 2007.
la demanda llevada a cabo un miercoles a las once de la ma
nana probablemente
no coincida con la realizada un domingo a esa misma hora. En la Figura 6.3
se puede apreciar como todos los das laborables poseen un perfil de demanda
muy similar. Con respeto a los fines de semana se observa como si bien se repite
el mismo patr
on horario de consumo detectado en los das laborables (maximo
consumo en la franja comprendida entre las once de la ma
nana y las tres de
la tarde. Mnimo consumo en la madrugada), en general el consumo medio es
sensiblemente inferior.

6.2.3

Mes del a
no

En funci
on del mes que se estudie la demanda diaria media de energa vara
significativamente. Esto se debe principalmente al efecto de las estaciones. Si
se piensa que en los meses de invierno se dispone de un menor n
umero de
horas solares, la personas tienden a pasar mas tiempo en casa. En lo referente
al verano el consumo de energa tambien puede experimentar un considerable
aumento como resultado del uso de sistemas de aire acondicionado. Atendiendo
a la Figura ??, se puede comprobar que, efectivamente, la curva de carga anual
alcanza sus valores m
aximos en los meses de verano e invierno.

6.3

Informaci
on econ
omica

Dada la extensa penetraci


on de la electricidad en la actividad economica del
pas, existen multitud de variables economicas que influyen en su demanda.
La mayora de ellas covaran entre s en mayor o menor medida. Introducir
varias por separado en un modelo explicativo dara lugar a problemas de mul-

82

Figura 6.2: Demanda de energa electrica en Espa


na durante la semana del 12
al 19 de marzo de 2007.

Figura 6.3: Demanda de energa electrica en Espa


na promedio durante el a
no
2006.

83

ticolinealidad que haran imposible lograr unos resultados aceptables. Dada


esta situaci
on, una posible estrategia consistira en sintetizar la informacion
disponible mediante la aplicacion del metodo de componentes principales a un
conjunto de indicadores economicos. Algunos autores consultados argumentan
que esta estrategia conduce a componentes difciles de explicar y que no aportan
mejoras significativas al modelo.

6.4

Factores no predecibles

Se debe considerar, finalmente, la existencia de una serie de factores que, siendo


puramente aleatorios, pueden afectar sensiblemente a la demanda de energa
electrica. Entre dichos factores destacan: paros y huelgas generales, eventos
deportivos, cierre de instalaciones industriales intensivas en electricidad... En
funci
on del factor del que se trate se puede tratar del mismo que se trata a un
outlier, siendo por tanto necesario realizar un filtrado de los datos de entrada.
Tambien existen factores cuyo efecto sobre la demanda electrica puede ser considerado como un ruido blanco, ( = 0, = k), en cuyo caso no sera necesario
realizar filtrado alguno.

84

Ap
endice A

Curriculum vitae
Formaci
on acad
emica
Ingeniero de Telecomunicacion. Especialidad de Se
nales. Opcion
Radiocomunicaci
on. Escuela Superior de Ingenieros de Telecomunicaci
on. Universidad de Sevilla. A
no 2005.
Ingeniera Informatica. Actualmente cursando 3er curso. Universidad Nacional de Educacion a Distancia (UNED). Desde 2005.
Actividad investigadora

1. F. Divina, F. Martnez-Alvarez
y J. S. Aguilar-Ruiz. Metodo basado
en algoritmos geneticos para encontrar biclusters significativos. V
Congreso Espa
nol sobre Metaheursticas, Algoritmos Evolutivos y
Bioinspirados. Santa Cruz de Tenerife, 2007.

2. F. Martnez-Alvarez,
A. Troncoso, J. C. Riquelme y J. M. Riquelme.
Discovering Patterns in Electricity Price Using Clustering Techniques.
International Conference on Renewable Energy and Power Quality.
Sevilla, 2007.

3. F. Martnez-Alvarez,
A. Troncoso, J. C. Riquelme y J. S. AguilarRuiz. Detection of Microcalcifications in Mammographies Based on
Linear Pixel Prediction and Support-Vector Machines. IEEE International Conference on Computer-Based Medical Systems. Maribor,
2007.

4. F. Martnez-Alvarez,
A. Troncoso, J. C. Riquelme y J. M. Riquelme.
Partitioning-Clustering Techniques Applied to the Electricity Price
Time Series. Conference on Data Warehousing and Knowledge Discovery. Regensburg, 2007 (pendiente de aceptacion).
Experiencia profesional
EGMASA. Consejera de Medio Ambiente, Junta de Andaluca. Anal
ista programador. Sistemas de informacion geografica. Area
de
teledetecci
on. Desde diciembre de 2006. Sevilla.
85

ONO. Departamento de Ingeniera y Despliegue de Red. Octubre y


noviembre de 2006. Madrid.
BAEL Ingeniera. Ingeniero de proyectos. Fibra optica, WLAN,
seguridad, dom
otica y VoIP. Julio a octubre de 2006. Sevilla.
Ejercicio libre profesional: proyectos de Infraestructuras Comunes de
Telecomunicaci
on (ICT), sistemas de cableado estructurado (SCE).
Desde septiembre de 2005.
Idiomas
Ingles.
Frances.

Otros datos relevantes


Ganador del Proyecto Comenius Action I. Virtual Restauration: Italica.
Agencia Nacional Socrates. A
nos 1996 al 2003. Sevilla.
Exposici
on en el Museo Arqueologico Nacional de Madrid. Marzo
a mayo de 2003.
Exposici
on en el Museo Arqueologico de Sevilla. Marzo a mayo
de 2004.
Revista Grupo 7. La antimateria. Registro de la Propiedad Intelectual SE-603-03. 2003.

86

Bibliografa
[1] J. S. Aguilar-Ruiz and N. Daz-Daz. A retrieval technique for similar
shapes. Actas del III Taller Nacional de Minera de Datos y Aprendizaje,
pages 2130.
[2] N. Amjady. Day-ahead price forecasting of electricity markets by a new
fuzzy neural network. IEEE Transactions on Power Systems, 21(2).
[3] N. Amjady. Short-term hourly load forecasting using time-series modeling with peak load estimation capability. IEEE Transactions on Power
System, 16(3):498505, 2001.
[4] P. Angelov and R. Buswell. Identification of evolving fuzzy rule-based
models. IEEE Transactions on Fuzzy Systems, 10(5):667677, 2002.
[5] J. Bao. Short-term Load Forecasting based on Neural Networks and Moving
Average. Department of Computer Science. Iowa., 2000.
[6] J. C. Bezdek. Pattern recognition with fuzzy objective function algorithms. Plenum Press, 1981.
[7] M. Bhattacharya, A. Abraham, and B. Nath. A linear genetic programming approach for modelling electricity demand prediction in victoria.
International Workshop on Hybrid Intelligent Systems, pages 379394.
[8] B. Boser, I. Guyon, and V. Vapnik. A training algorithm for optimal margin classifiers. Proceedings of the 5th Annual Workshop on Computational
Learning Theory, COLT, 1992.
[9] G. E. P. Box and G. M. Jenkins. Time Series Analysis Forecasting and
Control. Second Edition. Holden-Day, San Francisco, 1976.
[10] F. Collopy and J. S. Armstrong. Rule-based forecasting: Development
and validation of an expert systems approach to combining time series
extrapolations. Mangement Science, 38:1392.
[11] A. J. Conejo, M. A. Plazas, R. Espnola, and B. Molina. Day-ahead
electricity price forecasting using the wavelet transform and arima models.
IEEE Transactions on Power Systems, 20(2):10351042.
87

[12] J. Contreras, R. Espnola, F. J. Nogales, and A. J. Conejo. Arima models to predict next-day electricity prices. IEEE Transactions on Power
System, 18(3):10141020, 2003.
[13] T. H. Cormen and C. E. Leiserson. Introduction to algorithms. The MIT
Press, 2003.
[14] C. Cortes and V. Vapnik. Support-vector networks. Machine Learning,
20(3):273297, 1995.
[15] S. Cost and S. Salzberg. A weigted nearest neighbor algorithm for learning
with symbolic features. Machine Learning, 10:5778, 1993.
[16] T. M. Cover. Estimation by nearest neighbor rule. IEEE Transactions on
Information Theory, 14:5055, 1968.
[17] T. M. Cover and P. E. Hart. Nearest neighbor pattern classification. IEEE
Transactions on Information Theory, 13(1):2127, 1967.
[18] B. V. Dasarathy. Nearest neighbour (nn) norms: Nn pattern classification
techniques. IEEE Computer Society Press, 1991.
[19] S. Degroeve, B. D. Baets, Y. V. de Peer, and P. Rouze. Feature subset
selection for splice site prediction. Bioinformatics, 18:7583, 2002.
[20] Operador del Mercado Electrico Espa
nol. On-line. http://www.omel.es.

[21] F. Divina, F. Martnez-Alvarez,


and J. S. Aguilar-Ruiz. Discovering patterns in electricity prices using clustering techniques. V Congreso Espa
nol
sobre Metaheursticas, Algoritmos Evolutivos y Bioinspirados, pages 639
646, 2007.
[22] R. C. Dubes. Handbook of Pattern Recognition and Computer Vision Cluster Analysis and Related Issues. World Scientific Publishing Co, 1993.
[23] B. Efron and R. J. Tibshirani. Bootstrap methods for standard errors,
confidence intervals and other measures of statistical accuracy. Statistical
Science, 1(1):5477, 1986.
[24] B. Efron and R. J. Tibshirani. An introduction to the Bootstrap. Chapman
and Hall, 1993.
[25] M. Ester, H. P. Kriegel, J. Sander, and X. Xu. A density-based algorithm
for discovering clusters in large spatial databases. In Proceedings 2nd International Conference on Knowledge Discovery and Data Mining, pages
226231, 1996.
[26] C. Faloutsos, H. V. Jagadish, A. O. Mendelzon, and T. Milo. A signature
technique for similarity-based queries. November 1995.

88

[27] U. M. Fayyad, G. Piatetski-Shapiro, and P. Smith. From data mining to


knowledge discovery. AAAI-MIT Press, 1996.
[28] F. J. Ferrer, J. S. Aguilar, and J. C. Riquelme. Non-parametric nearest
neighbour with local adaptation. Lecture Notes in Artificial Intelligence,
2258:2229, 2001.
[29] D. Fisher. Knowledge acquisition via incremental conceptual clustering.
Machine Learning, 2:139172, 1987.
[30] A. J. Fox. Outliers in time series. Journal of the Royal Statistical Society,
34:350363, 1972.
[31] E. Frank and I. H. Witten. Generating accurate rule sets without global
optimization. In Proceedings of 15th International Conference on Machine
Learning ICML98, 1998.
[32] R. C. Garca, J. Contreras, M. van Akkeren, and J. B. Garca. A garch
forecasting model to predict day-ahead electricity prices. IEEE Transactions on Power Systems, 20(2).
[33] F. Garca-Lagos, G. Joya, F. Marn, and F. Sandoval. A neural topology
estimator for power systems. International Conference on Engineering
Applications of Neural Networks, 1(1):245252, June 1998.
[34] S. Ghosh and A. Das. Short-run electricity demand forecasts in maharastra. Applied Economics, 34(8):10551059, 2004.
[35] V. G
omez and A. Maravall. Automatic modelling methods of univariate
series. Departamento de Investigaci
on. Banco de Espa
na, 2001.
[36] V. G
omez and A. Maravall. Seasonal adjustment and signal extraction in
economic time series. Departamento de Investigaci
on. Banco de Espa
na,
2001.
[37] D. E. Goldberg. Genetic Algorithms in Search, Optimization and Machine
Learning. Addison-Wesley, Massachusetts, USA, 1989.
[38] R. L. Grossman, M. F. Hornik, and G. Meyer. Data mining standards
initiatives. Communications of ACM, 45(8):5961, 2004.
[39] S. Guha, R. Rastogi, and K. Shim. Cure: an efficient data clustering
method for very large databases. ACM-SIGMOD Proceedings of the International Conference Management of Data, pages 7384, 1998.
[40] H. S. Guirguis and F. A. Felder. Further advances in forecasting day-ahead
electricity prices using time series models. KIEE International Transactions on PE, 4-A(3):159166.

89

[41] Y. Guo, D. Niu, and Y. Chen. Support-vector machine model in electricity load forecasting. International Conference on Machine Learning and
Cybernetics, pages 28922896, 2006.
[42] M. Harries and K. Horn. A nearest trajectory strategy for time series
prediction. In Proceedings of the International Workshop on Advanced
Black-Box Techniques for Nonlinear Modeling, pages 112128, 1998.
[43] M. A. Hearst. Untangling text data mining. Proceedings of Association
for Computational Linguistics - Invited paper, 1999.
[44] R. Hippenstiel, H. El-Kishky, and P. Radev. On time-series analysis and
signal classification. IEEE Conference Record of the 38th Asilomar Conference on Signals, Systems and Computers, 2(7):21212125, 2004.
[45] G. Holmes, M. Hall, and E. Frank. Generating rule sets from model
trees. In Proceedings of the 12th Australian Joint Conference on Artificial
Intelligence, pages 112, 1999.
[46] W. C. Hong. Electricity load forecasting by using svm with simulated
annealing algorithm. 17th World Congress of Scientific Computation, Applied Mathematics and Simulation, pages 113120, 2005.
[47] H. V. Jagadish. A retrieval technique for similar shapes. ACM SIGMO
Symp. on the Management of Data, pages 208217, 1991.
[48] A. K. Jain and R. C. Dubes. Algorithms for Clustering Data. PrenticeHall, 1988.
[49] N. Jimenez and A. J. Conejo. Short-term hydro-thermal coordination by
lagrangian relaxation: Solution of the dual problem. IEEE Transactions
on Power System, 14(1):8995, 1999.
[50] R. Kaiser. Detection and estimation of structural changes and outliers in
unobserved components. Computational Statistics, 14:533558, 1999.
[51] H. Kantz and T. Schreiber. Nonlinear time series analysis. Cambridge
University Press, 2003.
[52] L. Kaufman and P. J. Rousseeuw. Finding groups in Data: an Introduction
to Cluster Analysis. Wiley, 1990.
[53] E. Keogh, J. Lin, and W. Truppel. Clustering of time series subsequences
is meaningless: Implications for previous and future research. 3rd IEEE
International Conference on Data Mining, pages 342353, 2003.
[54] E. J. Keogh and S. Kasetty. On the need for time series data mining
benchmarks: A survey and empirical demonstration. Lecture Notes in
Computer Science, pages 122133, 2000.

90

[55] E. J. Keogh and M. J. Pazzani. Scaling up dynamic time warping to


massive datasets. Lecture Notes in Artificial Intelligence, 1704:111, 1999.
[56] E. J. Keogh and M. J. Pazzani. A simple dimensionality reduction technique for fast similarity search in large time series databases. In Proceedings of the 8th ACM SIGKDD International Conference on Knowledge
Discovery and Data Mining, pages 102111, 2002.
[57] D. Kim and C. Kim. Forecasting time series with genetic fuzzy predictor
ensemble. IEEE Transactions on Fuzzy Systems, 5(4):523535, 1997.
[58] T. Kohonen. The self-organizing map. Proceedings IEEE, 78(9):1464
1480, 1990.
[59] I. Kopanakis and B. Theodoulidis. Visual data mining modeling techniques for the visualization of mining outcomes. Journal of Visual Languages and Computing, 14(6):543589, 2003.
[60] R. Kosala and H. Blockeel. Web mining research: A survey. SIGKDD
Explorations. ACM SIGKDD, 8(10), July 2000.
[61] J. R. Koza. Genetic Programming: On the Programming of Computers
by Means of Natural Selection. MA: MIT Press, Cambridge, 1992.
[62] Y. LeCun and Y. Bengio. Time series speech recognition, 2005.
[63] D. Li, S. C. Suh, and J. Gao. A new time-series chart pattern recognition
approach. Integrated Design and Process Technology. Society for Design
and Process Science, 2005.
[64] D. Llanos, F. J. Cuberos, J. Melendez, F. I. Gamero, J. Colomer, and
J. A. Ortega. Recognition of system behaviours based on temporal series
similiraty. Computaci
on y Sistemas, 7(1):116, 2003.
[65] C. E. Lunneborg. Efrons Bootstrap with Some Applications in Psychology.
Annual Meeting of AERA, 1993.
[66] J. MacQueen. Some methods for classification and analysis of multivariate
observations. Proceedings of the 5th Berkeley Symp. Math. Statist, Prob,
1:281297, 1968.
[67] J. MacQueen. The em algorithm for graphical association models with
missing data. Computational Statistics and Data Analysis, 19:191201,
1995.
[68] P. Malo and A. Kanto. Evaluating multivariate garch models in the nordic
electricity markets. Communications in Statistics: Simulation and Computation, 35(1):117148.
[69] H. Mannila and P. Ronkainen. Similarity of event sequences. TIME, 1997.

91

[70] J. Mao and A. Jain. A self-organizing network for hyperellipsoidal clustering (hec). IEEE Transactions on Neural Networks, 7:381389, 1996.
[71] F. J. Marn, F. Garca-Lagos, and F. Sandoval. Global model for short
term load forecasting neural networks. IEE Proceedings-Generation Transmission Disribution, 149(2):121125, 2002.

[72] F. Martnez-Alvarez,
A. Troncoso, J. C. Riquelme, and J. S. Aguilar-Ruiz.
Discovering patterns in electricity prices using clustering techniques. 20th
IEEE International Symposium on Computer-Based Medical Systems, In
press, 2007.

[73] F. Martnez-Alvarez,
A. Troncoso, J. C. Riquelme, and J. M. Riquelme.
Discovering patterns in electricity prices using clustering techniques. International Conference on Renewable Energies and Power Quality, 2007.
[74] A. Matus-Castillejos and R. Jentzsch. A time series data management
framework. IEEE Proceedings of the International Conference on Information Technology: Coding and Computing, 2005.
[75] L. Mora-L
opez, I. Fortes Ruz, R. Morales-Bueno, and F. Triguero Ruz.
Dynamic discretization of continous values from time series. Lecture Notes
in Artificial Intelligence, 1810:280291, 2000.
[76] L. Mora-L
opez, R. Ruz, and R. Morales-Bueno. Modelo para la seleccion
autom
atica de componentes significativas en el analisis de series temporales. In Actas de la CAEPIA2003 Conferencia de la Asociaci
on Espa
nola
sobre Inteligencia Artificial, 2003.
[77] P. Murto. Neural Networks Models for short-term load forecasting.
Helsinki University of Technology, 2003.
[78] T. Nasukawa and T. Nagano. Text analysis and knowledge mining system.
IBM Systems Journal, knowledge management, 40(4), 2001.
[79] S. Nicholson and J. Stanton. Gaining strategic advantage through bibliomining: Data mining for management decisions in corporate, special,
digital and traditional libraries. Hershey, PA: Idea Group Publishing, 2003.
[80] F. J. Nogales, J. Contreras, A. J. Conejo, and R. Espnola. Forecasting
next-day electricity prices by time series models. IEEE Transactions on
Power System, 17(2):342348, 2002.
[81] J. Hern
andez Orallo. Introducci
on a la minera de datos. Prentice-Hall,
2004.
[82] G. Piatetski-Shapiro, W. J. Frawley, and C. J. Matheus. Knowledge discovery in databases: an overview. AAAI-MIT Press, 1991.
[83] M. A. Plazas, A. J. Conejo, and F. J. Multimarket optimal bidding for a
power producer. IEEE Transactions on Power Systems, 20(4), 2005.
92

[84] P. J. Perez-V
azquez. Fuentes de variabilidad en las principales economas
occidentales. Investigaciones econ
omicas, 27(3):565591.
[85] A. Rakotomamonjy. Variable selection using svm-based criteria. Journal
of Machine Learning Research, 3:13571370, 2003.
[86] V. Ramasubramanian and K. K. Paliwal. Fast nearest-neighbor search algorithm based on approximation-elimination search. Pattern Recognition,
33:14971510, 2000.
[87] H. R. Rezaee, B. P. F. Lelieveldt, and J. H. C. Reiber. A new cluster
validity index for the fuzzy c-mean. Pattern Recognition, 19:237246,
1998.
[88] J. C. Riquelme, F. J. Ferrer, and J. S. Aguilar. B
usqueda de un patron
para el valor de k en k-nn. In Actas de la CAEPIA2001 Conferencia de
la Asociaci
on Espa
nola sobre Inteligencia Artificial, 2001.
[89] C. P. Rodrguez and G. J. Anders. Energy price forecasting in the ontario
competitive power system market. IEEE Transactions on Power Systems,
19(1):366374.
[90] F. Rosenblatt. The perceptron: a probabilistic model for information
storage and organization in the brain. Psychological Review, 65:386408,
1958.
[91] R. Ruiz, J. C. Riquelme, and J. S. Aguilar-Ruiz. Projection-based measure
for efficient feature selection. Journal of Intelligent and Fuzzy System,
12:175183, 2002.
[92] D. E. Rumelhart, G. E. Hinton, and R. J. Willians. Learning internal representations by error propagation. In Prooceedings of the 3th International
Joint Conference on Artificial Intelligence, pages 162172, 1973.
[93] E. H. Ruspini. A new approach to clustering. Informatics Control, 15:22
32, 1969.
[94] L. M. Saini and M. K. Soni. Artificial neural network-based peak load forecasting using conjugate gradient methods. IEEE Transactions on Power
System, 18(1):99105, 2003.
[95] D. Sankoff and J. Kruskal. Editors, Time Warps, String Edits and Macromolecules: The Theory and Practice of Sequence Comparison. CSLI Publications, 1991.
[96] D. C. Sansom, T.Downs, and T.K. Saha. Support-vector machine based
electricity price forecasting for electricity markets utilising pasa. 6th International Power Engineering Conference, 2003.

93

[97] R. Setiono, W. K. Leow, and J. M. Zurada. Extraction of rules from


artificial neural networks for nonlinear regression. IEEE Transactions on
Neural Networks, 13(3):564577, 2002.
[98] H. Sun, S. Wang, and Q. Jiang. Fcm-based model selection algorithms
for determining the number of clusters. Pattern Recognition, 37:2027203,
2004.
[99] B. R. Szkuta, L. A. Sanabria, and T. S. Dillon. Electricity price shortterm forecasting using artificial neural networks. IEEE Transactions on
Power System, 14(3):851857, 1999.
[100] A. Troncoso, J. C. Riquelme, J. M. Riquelme, and J. L. Martnez. Aplicaci
on de tecnicas de computacion evolutiva a la planificacion optima de
la producci
on de energa electrica en el corto plazo. In Actas de TTIA03
V Jornadas de Transferencia Tecnol
ogica de Inteligencia Artificial, pages
419428, San Sebastian, 2003.
[101] A. Troncoso, J. C. Riquelme, J. M. Riquelme, J. L. Martnez, and
A. G
omez. Electricity market price forecasting: Neural networks versus weighted-distance k nearest neighbours. Lecture Notes in Computer
Science, 2453:321330, 2002.
[102] A. Troncoso, J. C. Riquelme, J. M. Riquelme, J. L. Martnez, and
A. G
omez. Application of evolutionary computation techniques to optimal short-term electric energy production scheduling. Lecture Notes in
Artificial Intelligence, 3040:656665, 2004.
[103] A. Troncoso, J. C. Riquelme, J. M. Riquelme, J. L. Martnez, and
A. G
omez. Electricity market price forecasting based on weighted nearest
neighbours techniques. IEEE Transactions on Power Systems, in press,
2006.
[104] A. Troncoso, J. M. Riquelme, J. C. Riquelme, A. Gomez, and J. L.
Martnez. A comparison of two techniques for next-day electricity price
forecasting. Lecture Notes in Computer Science, 2412:384390, 2002.
[105] A. Troncoso, J. M. Riquelme, J. C. Riquelme, A. Gomez, and J. L.
Martnez. Time-series prediction: Application to the short-term electric
energy demand. Lecture Notes in Artificial Intelligence, 3040:577586,
2004.
[106] A. Troncoso, J. M. Riquelme, J. C. Riquelme, and J. L. Martnez.
Predicci
on de series temporales: Aplicacion a la demanda de energa
electrica en el corto plazo. In Actas de CAEPIA03 X Conferencia de
la Asociaci
on Espa
nola sobre Inteligencia Artificial, pages 7988, San Sebastian, 2003.

94

[107] A. Troncoso, J. M. Riquelme, J. C. Riquelme, J. L. Martnez, and


A. G
omez. Predicci
on de series temporales economicas: aplicacion a los
precios de la energa en el mercado electrico espa
nol. In Proceedings of
the IBERAMIA 2002 VIII Iberoamerican Conference on Artificial Intelligence. Workshop de Minera de Datos y Aprendizaje, pages 111, Sevilla,
2002.
[108] V. S. Tseng, C. H. Chen, C. H. Chen, and T. P. Hong. Segmentation of
time series by the clustering and genetic algorithms. IEEE International
Conference on Data Mining - Workshops, pages 443447.
[109] M. Vannucci and V. Colla. Meaningful discretization of continuous features for association rules mining by means of a som. European Symposium
on Artificial Neural Networks, 4(8):489494, April.
[110] V. Vapnik. Statistical Learning Theory. Wiley, 1998.
[111] V. Vapnik. An overview os statistical learning theory. IEEE Transactions
on Neural Networks, 10(5):988999, 1999.
[112] R. J. Vokurka, B. E. Flores, and S. L. Pearce. Automatic feature identification and graphical support in rule-based forecasting: A comparison.
International Journal of Forecasting, 12:495512.
[113] N. Wagner, Z. Michalewicz, M. Khouja, and R. R. McGregor. Time series
forecasting for dynamic environments: the dyfor genetic program model.
IEEE Transactions on Evolutionary Computation, 17(4):121133.
[114] W. Wang, Y. Zhang, Y. Li, and X. Zhang. The global fuzzy c-means
clustering algorithm. Proceedings of the 6th World Congress on Intelligent
Control and Automation, volume=.
[115] R. Weron and A. Misiorek. Forecasting spot electricity prices with time
series models. International Conference The European Electricity Market,
pages 5260.
[116] H. Witten and E. Frank. Data mining: Practical Machine Learning Tools
and Techniques. Morgan Kaufmann Publishers, 2005.
[117] R. Xu and D. C. Wunsch II. Survey of clustering algorithms. IEEE
Transactions on Neural Networks, 16(3), 2005.
[118] Y. Y. Xu, R. Hsieh, Y. L. Lyu, Y. C. Shen, S. C. Chuang, and H. T. Pao.
Forecasting electricity market prices: a neural network based approach.
IEEE International Joint Conference on Neural Networks, 4:27892794,
2004.
[119] L. A. Zadeh. Fuzzy sets. Informatics Control, 8:338353, 1965.

95

[120] O. R. Zaiane. Multimediaminer: A system prototype for multimedia


data mining. International Conference on Management of Data (ACMSIGMOD), 3(1):581583, 2000.
[121] H. Zareipour, K. Bhattacharya, and C. A. Ca
nizares. Forecasting the
hourly ontario energy price by multivariate adaptive regression splines.
IEEE Transactions on Power Systems, 20(2):10351042.
[122] T. Zhang, R. Ramakrishnan, and M. Livny. Birch: an efficient data clustering method for very large databases. ACM-SIGMOD Proceedings of
the International Conference Management of Data, pages 103114, 1996.

96

Potrebbero piacerti anche